Convertir un pdf a texto

No sabría contar cuantas veces me habrán preguntado como  convertir un pdf a word para poder editarlo. En este artículo, vamos a ver dos métodos que funcionan a las mil maravillas siempre que el PDF provenga de textos y no de imágenes. Me explico, aunque veamos texto en el PDF, puede ser que lo que vemos es una imagen incrustada en el PDF que contiene texto (algo similar a lo que sucede con las fotos).

Ambos métodos son muy sencillos, y que cada cual se quede con el que mejor le venga (si usáis Google Docs, no hay duda).

1. Google Docs.

Subimos el pdf a Google Docs, activando la pestaña que pone “Convertir el texto de archivos de imagen y PDF a documentos de Google“. De esta forma le estamos diciendo a Google Docs que convierta el PDF en un documento de Google. Al finalizar tendremos un documento de texto para editar en GoogleDocs o descargar a nuestro PC.

Google Docs nos lo pone fácil: por cada página del PDF, nos pone una imagen anteponiendo al texto extraído para hacer fácilmente la comparación entre el PDF original y el documento resultante.

2. PDF to Word

Usamos el servicio web PDFtoWord que nos realiza el proceso de forma muy sencilla. Basta con seguir los tres pasos que indica:

  1. Seleccionar el PDF a convertir.
  2. Elegir el formato de salida: doc o rtf.
  3. El mail en el que queremos que nos envíe el resultado como documento adjunto.

Unir varios PDFs

Hasta ahora no me había surgido nunca la posibilidad de unir varios pdfs para formar uno sólo. Hoy, al descargarme los libros “El diablo de los números” y “El hombre que calculaba” de la página Libros Maravillosos, me he encontrado con que los libros están formados por varios pdfs cada uno de un capítulo. Evidentemente, lo primero que he pensado ha sido en crear un sólo pdf con todos ellos.
He recurrido a google y he encontrado varias posibilidades para hacerlo en Linux con software libre. Una de ellas es con la línea de comandos y exclusiva para linux y la otra es a través de una interfaz gráfica y que funciona en linux y otros sistemas operativos. Ambas me han funcionado a la perfección:

pdftk

Herramienta muy potente y rápida que funciona en línea de comandos. Para unir varios pdfs:

pdftk capitulo1.pdf capitulo2.pdf cat output fichero-salida.pdf

pdfSam

Herramienta gráfica hecha en java (razón por la que funciona en cualquier sistema operativo) muy sencilla de manejar. Con esta herramienta he juntado “El hombre que calculaba”. La podéis descargar de aquí.
Aquí tenéis una imagen del PdfSam creando el libro en cuestión:

Ahora que ya los tengo en pdf, los voy a convertir con calibre a epub para leer con mi lector de libros electrónicos cuando lo tenga. De momento me conformo con leerlos en el ordenador con el E-book Reader.

Revisión:

Como utilidad especial tenéis una página web MergePDF que os hace lo mismo pero limitada a 10 ficheros y un tamaño individual de 5 MB.