El
Profesor X acaba de mandarnos un
PDF por email para pasarlo a HTML (a nuestro GMail) y luego meterlo a trozos en las distintas partes del Google Site de su asignatura que le estamos ayudando a confeccionar. Los pasos propuestos para hacerlo son los siguientes:
Abrir el
pdf desde GMail.
- Si está COMO IMAGEN (es decir no podemos arrastrar el ratón copiando y pegando el texto), utilizar un OCR para pasarlo a texto morondo y lirondo o bien algún becario/técnico copista con paciencia y conocimientos de MECANOGRAFÍA con ancestros entre los monjes de Silos.
- Si está DIGITALIZADO (sí podemos llevarnos el texto) pegarlo en el Word o desde GMail pasarlo a HTML y ver su código... Esto último puede ser muy útil ya que pegando dicho código en el
NotePad++ ya tenemos una página web con el
PDF del
Profesor X... y luego con búsquedas del tipo:
^<div .*="">
Reemplazándolas por cadena vacía.
Y búsquedas del tipo:
</div>
Reemplazándolas por
<br>
También deberemos realizar tratamientos de limpieza y desinfección con los <font color=""> </font> etc...
Vamos dándole una forma más espartana y conveniente... para luego formatearlo en un pispas!!!!
Pues eso, que al final las expresiones regulares para localizar 'basura' en los textos de los profes y quitar/reemplazar van a ser super útiles si los profes nos mandan material NO estándard.
Seguro que alguien que yo me sé está pensando:
"Marco, yo lo copio y pego en Word, me pongo a trabajar y q le den por saco a las expresiones regulares esas...". Sin embargo, en verdad os digo que con un par de toques de expresiones regulares el trabajo puede estar hecho en 30 segs y que si pasásemos por ejemplo de Word a HTML (simplemente guardando el documento como HTML) crearíamos unos documentos infames y enormes... que yo os he de enseñar también a tratar como si la vida me fuera en ello (fundamentalmente por no hacerlo yo mismo, claro).
PD: Me acaba de mandar un DM vía Twitter nuestro diligente Profesor para indicarme que use:
http://pdftohtml.sourceforge.net/ y me deje de tanta historia...
Además el Profesor X insiste en que quiere meter el código HTML en su Site ya que así se preservará mejor el formato y verá exactamente qué se está insertando (en mala hora le expliqué yo a nuestro afamado Profesor que en un Site, que obviamente es una web en html, se puede meter código en HTML directamente!!!)

Caso de transformación de material docente muy común (y un poco complejo)