Usare i dati dei pdf

Tabula consente di estrarre i dati contenuti nelle tabelle dei pdf

Avete mai provato a riportare su un foglio di calcolo (per esempio Microsoft Excel oppure Calc) i dati contenuti in una tabella di un file pdf? Spesso il classico "seleziona-copia-incolla" non dá il risultato sperato, i numeri nel foglio di calcolo non rispettano alcuna regola, non rispettano la suddivisione in righe e può accadere che siano divisi in colonne che non hanno molto senso. Addirittura a volte può capitare che la tabella non sia selezionabile o che si copino solamente parti di tabella, caratteri non previsti, etc. in poche parole i dati dei pdf risultato "quasi inutilizzabili" (a meno che uno decida di ri-scrivere a mano la tabella).

Esiste un software gratuito che ci aiuta a trasformare i dati "poco gestibili" contenuti in un pdf in un formato adatto agli scopi della data analytics: tabula (sito ufficiale: tabula project).

Il progetto originariamente è nato per aiutare giornalisti, ricercatori e analisti nei processi di raccolta dei dati. Ci sono tantissime informazioni contenute nei pdf creati in questi decenni; non di rado le tabelle contengono serie di numeri, cifre e informazioni estremamente interessanti. Senza il file "originale" da cui quel pdf è stato generato (per esempio un word, un foglio di calcolo o simili) è estramemtne impegnativo ricreare la tabella e lavorarci. Ed è in questo che ci viene in aiuto tabula: questo software permette di estrarre le tabelle contenute nei pdf rendendole disponibili in formato csv, tsv e simili.

Come si installa

Il programma si scarica dal sito tabula.technology

Si scompatta la cartella compressa e una volta che abbiamo i file nel nostro pc, possiamo aprire l'eseguibile. Al suo avvio vi ritroverete il browser aperto (lo stesso programma che usate per  navigare in internet) ed una scheda aperta su una pagina che vi chiede di caricare un pdf: questo è tabula.

Primo avvio di Tabula

Il suo funzionamento ricorda molto la navigazione su un sito internet ma tutto quello che fate rimane "in locale". Detto in altro modo: anche se l'interfaccia ricorda molto un sito internet i vostri pdf non sono inviati in qualche server sconosciuto.

Come funziona

Scelto il pdf su cui ci sono i dati da estrarre, si clicca su import e si attende che tabula generi le anteprima delle pagine. Dopo qualche istante troveremo una finestra con due aree, sulla sinistra avremo le anteprima delle pagine del pdf appena caricato, sulla destra l'area di lavoro.

Cliccando sulle preview scegliamo le pagine su cui lavorare. Per estrarre i dati basterà selezionare con un punta e clicca del mouse l'area di interesse (questo aiuta tabula a capire qual è la zona contenente i dati da estrarre) e poi cliccare su "Preview & Export Extracted Data".

Selezione dei dati tabellari contenuti in un pdf

tabula ci offre i dati della tabella in un formato più gestibile. Possiamo salvare il file csv con i dati "liberati" o selezionarli e copiarli in un foglio di calcolo.

Dati liberati

tabula è un ottimo strumento per aiutarci "a liberare i dati intrappolati nei pdf", è un tool che non può mancare nella dotazione di un data-analyst. Per segnalare malfunzionamenti esiste questo progetto su GitHub: https://github.com/tabulapdf/