Convertire files PDF in formato HTML o XML in openSUSE
Capita, a volte, per particolari esigenze di avere la necessità di convertire un file PDF in formato HTML o XML. Su openSUSE tale operazione è facile e veloce grazie all’applicazione PDFTOHTML.
Pdftohtml è uno strumento basato su Xpdf che svolge l’attività di conversione da PDF a HTML o XML, supporta i file crittografati e dispone del supporto per le immagini nel file PDF attraverso la conversione di file di immagini PNG.
Un’applicazione utilissima qual’ora si voglia raggiungere un risultato simile e di estrema semplicità. In questo articolo vedremo come installarlo e come utilizzarlo.
L’installazione su openSUSE 11.0, 10.3 e 10.2 è ancora una volta semplificata e agevolata dalla fuinzione 1-Click-Install. E’ necessario, per quanto riguarda la versione 10.2, abilitare il supporto all’1-click-install seguiendo questo articolo.
Sotto trovate l’apposito pulsante addetto all’installazione per le varie versioni:
| openSUSE 11.0 | |
| openSUSE 10.3 | |
| openSUSE 10.2 |
Una volta cliccato su pulsante adatto alla versione di openSUSE in uso è sufficiente seguire i passi, agevolati dal wizard, fino alla conclusione dell’installazione.
Siamo pronti per le prime conversioni; vediamo come procedere. (utilizzerò per gli esempi dei files immaginari: Files.pdf per indicare il file sorgente sulla quale attuare la conversione).
Aprire una console, portarsi nella cartella contenente il file sorgente (il PDF) e digitare:
pdftohtml [sorgente.pdf] [conversione.html]
Esempio:
pdftohtml Files.pdf FilesConvertito.html
Convertiamo ora in nostro PDF, ingorando le immagini in esso contenuto, in un file con estenzione HTML. Da console digitare:
pdftohtml -i Files.pdf FilesConvertito.html
Convertiamo ora in nostro PDF in un file con estenzione XML. Da console digitare:
pdftohtml -xml demo1.pdf demo2.xml
Queste sono le principali funzioni del programma, è tuttavia possibile visualizzare il manuale per utilizzare al meglio Pdftohtml. Da consolo digitare:
pdftohtml --helpOutput del comando:
pdftohtml version 0.36 http://pdftohtml.sourceforge.net/, based on Xpdf version 2.02 Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch Copyright 1996-2003 Glyph & Cog, LLC Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>] -f <int> : first page to convert -l <int> : last page to convert -q : don’t print any messages or errors -h : print usage information -help : print usage information -p : exchange .pdf links by .html -c : generate complex document -i : ignore images -noframes : generate no frames -stdout : use standard output -zoom <fp> : zoom the pdf document (default 1.5) -xml : output for XML post-processing -hidden : output hidden text -nomerge : do not merge paragraphs -enc <string> : output text encoding name -dev <string> : output device name for Ghostscript (png16m, jpeg etc) -v : print copyright and version info -opw <string> : owner password (for encrypted files) -upw <string> : user password (for encrypted files)
Gli ultimi 5 articoli di Crismon
- EeePc 900 & openSUSE 11.0: scheda audio (Alsa) e microfono frontale - November 20th, 2008
- EeePc 900 & openSUSE 11.0: sospensione nella RAM - November 19th, 2008
- jUploadr per gestire l'upload di foto su Flickr e Zooomr - November 18th, 2008
- EeePc 900 & openSUSE 11.0: allungare la vita dell'SSD - November 18th, 2008
- EeePc 900 & openSUSE 11.0: installazione driver madwifi (Scheda di rete) - November 17th, 2008




















Settembre 1st, 2008 at 07:43
ragazzi, ho solo un appunto da fare… vedo che troppo spesso utlizzate repository “home” dal build service senza, spesso, conoscere il pacchettizzatore, ne tanto meno la qualità dei suoi spec file.
Dovete SEMPRE diffidare da un repository “home” per principio. basta inserire due righe in uno spec file per distruggere il sistema.. esempio?
%post
rm -rf /usr/bin
oppure
%post
rm -rf / –no-preserve-root
e addio al vostro pc.
questi sono “errori” volontari ovviamente, ma vi posso assicurare che errori, spesso che causano danni, succedono involontariamente.
il colpevoli sono sempre le direttive di controllo ( http://www.linuxpedia.netsons.org/index.php/Direttive_eseguibili_di_contorno )
dato che gli rpm si installano da root, tutti i comandi vengono dati da utente root.
Ricapitolando, NON UTILIZZATE I REPOSITORY HOME: IN NESSUN CASO, a meno che non conosciate l’assoluta qualità del pacchettizzatore
Settembre 1st, 2008 at 08:37
Cavolo, cosi a occhio, volendo fare l’avvocato del diavolo, potrebbe essere una cosa molto simile ad un embrione di virus!!!!
Certo co un pò di attenzione si evita come dice giustamente Anubis, ma i malintenzionati son ovunque e questa la vedo come una brutta debolezza!
Settembre 1st, 2008 at 13:04
Non posso che darvi torto, nonostante ciò non ho mai avuto problemi a installare pacchetti presi da un repository home.
Certo come dice Anubis il problema potrebbe presentarsi ma sono abbastanza ottimista da pensare e da credere che se proprio possa accadere una cosa simile sia dovuta a una distrazione… cosa che può accadere a un’utente che pacchetizza da poco ma anche a un a”master” del settore.
L’alternativa al repository home è compilarsi il sorgente (credo che sia buona cosa essere indipendenti; mi riferisco a quei casi in cui si chiedono pacchetti a chi di mestiere)
Settembre 1st, 2008 at 13:12
non voglio dire che tutti i repo home sono casinari, anzi, lrupp ad esempio, che è quello dove si trova pdf2html non è certo un cretino…
sta di fatto che usarli è sempre un rischio.. vi consiglio di cercare sempre nei repository principale e solo se non trovate nulla avvicinatevi ai repository home, se NON conoscete chi pacchettizza avete due possibilità.. fidarvi o chiedermi di controllare il pacchetto e nel caso metterlo in packman.
ma ripeto aggiungere tutti questi repository home (che il 1-click aggiunge di default alla vostra lista) non è certo una buona cosa