Comments on Reflexiones en e-learning: Usando Google Docs para convertir PDF's en texto morondo y lirondo. ¿Es el fin de los OCR ?

tag:blogger.com,1999:blog-3842660174738610135.post30360448327589880..comments2024-03-05T10:09:35.737+01:00Comments on Reflexiones en e-learning: Usando Google Docs para convertir PDF's en texto morondo y lirondo. ¿Es el fin de los OCR ?Anonymoushttp://www.blogger.com/profile/09573257948606683226noreply@blogger.comBlogger2125tag:blogger.com,1999:blog-3842660174738610135.post-6685906587874425622010-06-24T07:53:00.703+02:002010-06-24T07:53:00.703+02:00Toda la razón... Eres un ingeniero informático con...Toda la razón... Eres un ingeniero informático con alma de profe de griego!!!Anonymoushttps://www.blogger.com/profile/09573257948606683226noreply@blogger.com

tag:blogger.com,1999:blog-3842660174738610135.post-61302125241696306982010-06-22T16:17:33.184+02:002010-06-22T16:17:33.184+02:00Bueno he tendido que sentarme en el ordenador porq...Bueno he tendido que sentarme en el ordenador porque twitter ha empezado con el ballenato. Los pdf están compuestos por varias capas (como photoshop). Una de ellas es el texto. Este texto pude provenir de la misma creación del documento o de OCR propio que tiene acrobat, bastante potente. La capa de texto acompaña siempre al documento. Lo que ocurre es que la ventaja que tiene los pdf es que siempre proporciona una capa de impresión en formato de imagen del documento (un mapa de bits o algo así, para evitar los lenguajes postscript). Supongo que google lo que ha hecho es integrar esa capa de texto a la suite de oficina. No creo que incorpore un OCR, o sea que yo le suba un texto scaneado y me pase los textos. Supongo que querrán que se acerque a la calidad de Adobe. Pero creo que hay muchos problemas, por ejemplo Google no admite todos los formatos de pdf, por ejemplo, el formato de pdf inscrustado, (el que se utiliza en los libros digitales tipo GoogleBook), no reconocido en GoogleDocs. De los experimentos que he realizado sigue fallando las conversiones a pdf y más aún no soluciona el problema de retorno de los textos en pdf. Si quieres sufrir una ataque de pánico abre un pdf con un editor libre de linux y empieza a temblar de la cantidad de metadatos que hay detrás de un pdf. Es lo mismo que cuando abres un Ooo con el zip y te das cuenta que no es un documento, sino un montón de carpetas llenas de cosas raras.Anonymousnoreply@blogger.com