Capita, a volte, per particolari esigenze di avere la necessità di convertire un file PDF in formato HTML o XML. Su openSUSE tale operazione è facile e veloce grazie all’applicazione PDFTOHTML.
Pdftohtml è uno strumento basato su Xpdf che svolge l’attività di conversione da PDF a HTML o XML, supporta i file crittografati e dispone del supporto per le immagini nel file PDF attraverso la conversione di file di immagini PNG.

Un’applicazione utilissima qual’ora si voglia raggiungere un risultato simile e di estrema semplicità. In questo articolo vedremo come installarlo e come utilizzarlo.

L’installazione su openSUSE 11.0, 10.3 e 10.2 è ancora una volta semplificata e agevolata dalla fuinzione 1-Click-Install. E’ necessario, per quanto riguarda la versione 10.2, abilitare il supporto all’1-click-install seguiendo questo articolo.

Sotto trovate l’apposito pulsante addetto all’installazione per le varie versioni:

openSUSE 11.0
openSUSE 10.3
openSUSE 10.2

Una volta cliccato su pulsante adatto alla versione di openSUSE in uso è sufficiente seguire i passi, agevolati dal wizard, fino alla conclusione dell’installazione.

Siamo pronti per le prime conversioni; vediamo come procedere. (utilizzerò per gli esempi dei files immaginari: Files.pdf per indicare il file sorgente sulla quale attuare la conversione).

Aprire una console, portarsi nella cartella contenente il file sorgente (il PDF) e digitare:

pdftohtml [sorgente.pdf] [conversione.html]

Esempio:

pdftohtml Files.pdf FilesConvertito.html

Convertiamo ora in nostro PDF, ingorando le immagini in esso contenuto, in un file con estenzione HTML. Da console digitare:

pdftohtml -i Files.pdf FilesConvertito.html

Convertiamo ora in nostro PDF in un file con estenzione XML. Da console digitare:

pdftohtml -xml demo1.pdf demo2.xml

Queste sono le principali funzioni del programma, è tuttavia possibile visualizzare il manuale per utilizzare al meglio Pdftohtml. Da consolo digitare:

pdftohtml --help

Output del comando:

pdftohtml version 0.36 http://pdftohtml.sourceforge.net/, based on Xpdf version 2.02
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2003 Glyph & Cog, LLC
 
Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
-f <int>          : first page to convert
-l <int>          : last page to convert
-q                : don’t print any messages or errors
-h                : print usage information
-help             : print usage information
-p                : exchange .pdf links by .html
-c                : generate complex document
-i                : ignore images
-noframes         : generate no frames
-stdout           : use standard output
-zoom <fp>        : zoom the pdf document (default 1.5)
-xml              : output for XML post-processing
-hidden           : output hidden text
-nomerge          : do not merge paragraphs
-enc <string>     : output text encoding name
-dev <string>     : output device name for Ghostscript (png16m, jpeg etc)
-v                : print copyright and version info
-opw <string>     : owner password (for encrypted files)
-upw <string>     : user password (for encrypted files)

 

Gli ultimi 5 articoli di Crismon

Segnala questo articolo: Queste icone linkano i siti di social bookmarking sui quali i lettori possono condividere e trovare nuove pagine web.
  • Facebook
  • del.icio.us
  • Digg
  • Reddit
  • StumbleUpon
  • Technorati
  • OKnotizie
  • Google Bookmarks
  • Slashdot
  • TwitThis
  • Upnews
  • Segnalo

Articoli Correlati