jueves, 1 de noviembre de 2018

OCR: ese gran desconocido


Los hechos que se relatan a continuación ocurrieron realmente. Se han obviado los nombres de las personas y los lugares en que ocurrieron para preservar su anonimato.  
En cierta ocasión me encontré con una compañera aporreando el teclado de uno de los ordenadores de la sala de profesores como si no hubiera un mañana, vamos, como si fuera la secretaria de Cifuentes intentando escribirle a última hora el TFM.
Temiendo que estuviese liando alguna, me acerqué a ella y le pregunté que a qué se debía tanto teclear...
Me dijo que estaba transcribiendo un recorte de periódico que tenía delante de sus narices para poder luego retocarlo un poco y darle un algo de formato en el Word. Ante tal afirmación, no pude más que contestarle: ¡¡Pero tas así mi guapa!!
En cuanto le comente que había una cosa que se llamaba OCR y que era capaz de hacer el mismo trabajo que a ella le estaba llevando guardia y media en 10 segundos me dijo: ¡¡¿Y eso donde se compra?!!

El Reconocimiento Óptico de Caracteres (Optical Character Recognition) es una tecnología que nos permite convertir documentos en papel, imágenes que contengan textos o archivos PDF en archivos de texto editables. 

Básicamente tenemos 3 opciones:

1) Instalar el software OCR de nuestra impresora:

Cuando adquirimos una impresora, ésta viene acompañada de un CD en el que se almacenan los drivers y utilidades de la misma. Normalmente, incluye también algún tipo de software OCR, aunque no suele instalarse por defecto. Lo único que debemos hacer es instalar dicho software desde el CD de instalación de la impresora y listo.


2) Instalar un software OCR genérico (como los medicamentos):

Si nuestra impresora no traía ningún software OCR o no sabemos que fue del disco de instalación, podemos descargar de Internet alguno de los diferentes programas de OCR que hay disponibles (gratuitos o de pago).


2) Utilizar un servicio online:

Otra opción son los servicios online que nos permiten subir nuestro archivo PDF o imagen del texto escaneada, nos realizan el reconocimiento de caracteres y nos envían el documento en formato DOC. Tenemos multitud de alternativas, sólo tenemos que preguntarle al señor Google...  

OCR Terminal

Por último, destacar que si dispones de una cuenta de Google, puedes utilizar Drive para realizar la conversión de PDF a DOC de forma muy sencilla, aunque quizá no tan precisa como lo haría un lector de OCR específico.
Para ello, debes subir el archivo PDF a tu Drive y una vez allí, seleccionarlo y hacer clic derecho o pulsar sobre el menú de puntitos. Se mostrará un menú contextual en el que seleccionarás la opción Abrir con y elegirás Documentos de Google




En unos segundos el programa realiza la conversión y abre el documento para poder editarlo. Según sea la complejidad del documento de partida (gráficos, tablas, imágenes, viñetas, etc), la conversión será mas o menos acertada, pero el reconocimiento de caracteres es bastante bueno. Sólo nos queda darle un repaso al formato y podemos dejarlo casi como el original.



No hay comentarios:

Publicar un comentario