Usando Google Docs para convertir PDF's en texto morondo y lirondo. ¿Es el fin de los OCR ?

Leo esta mañana en Google Operating System la posibilidad que tiene Google Docs de subir un pdf y pasarlo a texto plano dentro de un documento normal y corriente alojado en Google, obviamente. Por lo tanto, me dispongo a probar esta nueva funcionalidad:

1) Entro en Google Docs


2) Selecciono Subir

3) Escojo un PDF de mi disco duro y activo la casilla para que Google Docs lo pase de PDF a texto.

4) Y echo un vistazo a los posibles errores de convertir el PDF a texto.

Realmente cuando Google mejore un poco esta característica será una buena forma de ahorrarnos el pdf2word, el OCR etc... Y es que a mí nunca me ha gustado el formato PDF, como bien sabe nuestro archiconocido Profesor X, que debe estar preparando los exámenes de Junio de sus alumnos por que en este post no ha dicho nada de nada...
PD: Como no podía ser de otra forma, nuestro Profesor acaba de llamar diciendo que por favor muestre el documento en PDF original (que también he subido a Google Docs para ver mejor la diferencia, teniendo ahora mismo 2 documentos distintos y bastante similares: El PDF y el texto), faltaría más!!!.


PD: Obviamente si el PDF que subo proviene de imágenes escaneadas de de un libro etc... Google Docs NO lo va a reconocer (todavía)

Share/Bookmark
Posted on 11:03 by Marco A. Marhuenda and filed under , | 2 Comments »

2 comentarios:

iaenus.es dijo... @ 22 de junio de 2010, 16:17

Bueno he tendido que sentarme en el ordenador porque twitter ha empezado con el ballenato. Los pdf están compuestos por varias capas (como photoshop). Una de ellas es el texto. Este texto pude provenir de la misma creación del documento o de OCR propio que tiene acrobat, bastante potente. La capa de texto acompaña siempre al documento. Lo que ocurre es que la ventaja que tiene los pdf es que siempre proporciona una capa de impresión en formato de imagen del documento (un mapa de bits o algo así, para evitar los lenguajes postscript). Supongo que google lo que ha hecho es integrar esa capa de texto a la suite de oficina. No creo que incorpore un OCR, o sea que yo le suba un texto scaneado y me pase los textos. Supongo que querrán que se acerque a la calidad de Adobe. Pero creo que hay muchos problemas, por ejemplo Google no admite todos los formatos de pdf, por ejemplo, el formato de pdf inscrustado, (el que se utiliza en los libros digitales tipo GoogleBook), no reconocido en GoogleDocs. De los experimentos que he realizado sigue fallando las conversiones a pdf y más aún no soluciona el problema de retorno de los textos en pdf. Si quieres sufrir una ataque de pánico abre un pdf con un editor libre de linux y empieza a temblar de la cantidad de metadatos que hay detrás de un pdf. Es lo mismo que cuando abres un Ooo con el zip y te das cuenta que no es un documento, sino un montón de carpetas llenas de cosas raras.

Marco Marhuenda dijo... @ 24 de junio de 2010, 7:53

Toda la razón... Eres un ingeniero informático con alma de profe de griego!!!

Publicar un comentario

Se ha producido un error en este gadget.