Caso de transformación de material docente muy común (y un poco complejo)

El Profesor X acaba de mandarnos un PDF por email para pasarlo a HTML (a nuestro GMail) y luego meterlo a trozos en las distintas partes del Google Site de su asignatura que le estamos ayudando a confeccionar. Los pasos propuestos para hacerlo son los siguientes:

Abrir el pdf desde GMail.
- Si está COMO IMAGEN (es decir no podemos arrastrar el ratón copiando y pegando el texto), utilizar un OCR para pasarlo a texto morondo y lirondo o bien algún becario/técnico copista con paciencia y conocimientos de MECANOGRAFÍA con ancestros entre los monjes de Silos.
- Si está DIGITALIZADO (sí podemos llevarnos el texto) pegarlo en el Word o desde GMail pasarlo a HTML y ver su código... Esto último puede ser muy útil ya que pegando dicho código en el NotePad++ ya tenemos una página web con el PDF del Profesor X... y luego con búsquedas del tipo:

^<div .*="">

Reemplazándolas por cadena vacía.
Y búsquedas del tipo:
</div>
Reemplazándolas por
<br>
También deberemos realizar tratamientos de limpieza y desinfección con los <font color=""> </font> etc...
Vamos dándole una forma más espartana y conveniente... para luego formatearlo en un pispas!!!!

Pues eso, que al final las expresiones regulares para localizar 'basura' en los textos de los profes y quitar/reemplazar van a ser super útiles si los profes nos mandan material NO estándard.

Seguro que alguien que yo me sé está pensando: "Marco, yo lo copio y pego en Word, me pongo a trabajar y q le den por saco a las expresiones regulares esas...". Sin embargo, en verdad os digo que con un par de toques de expresiones regulares el trabajo puede estar hecho en 30 segs y que si pasásemos por ejemplo de Word a HTML (simplemente guardando el documento como HTML) crearíamos unos documentos infames y enormes... que yo os he de enseñar también a tratar como si la vida me fuera en ello (fundamentalmente por no hacerlo yo mismo, claro).

PD: Me acaba de mandar un DM vía Twitter nuestro diligente Profesor para indicarme que use: http://pdftohtml.sourceforge.net/ y me deje de tanta historia...
Además el Profesor X insiste en que quiere meter el código HTML en su Site ya que así se preservará mejor el formato y verá exactamente qué se está insertando (en mala hora le expliqué yo a nuestro afamado Profesor que en un Site, que obviamente es una web en html, se puede meter código en HTML directamente!!!)
Share/Bookmark
Posted on 8:12 by Unknown and filed under , , | 0 Comments »

0 comentarios:

Publicar un comentario