Ci sono alcuni dataset composti da milioni e milioni di righe. Si pensi ad esempio alle anagrafiche degli uffici della Pubblica Amministrazione a livello nazionale, a dataset riguardanti misurazioni minuto per minuti della temperatura o alle entrate e uscite di auto da un'autostrada. Convertire e "trattare" questi grandi dataset per ottenere informazioni non è solitamente complesso mentre spesso è molto complicato riuscire a scaricarli o a trasferirli da un portale al proprio pc.
Nel caso di uno dei più importanti punti di distribuzione di dati italiano, dati.istat.it il limite per il download "semplice" di dati in formato .csv è di 10 milioni di righe. Fortunatamente la possibilità di creare "interrogazioni personalizzate" ci permette di suddividere un dataset in più file. Una volta che sul pc locale abbiamo i file possiamo facilmente "ricreare" il dataset originale. Vediamo come funziona con un esempio: avevo la necessità di scaricare le statistiche demografiche per tutti i comuni italiani dell'anno 2015.
Se proviamo ad esportare il dataset "Popolazione residente al 1° gennaio: tutti i comuni", il sistema ci avvisa che il processo non è possibile.
Il "trucco" per riuscire a scsaricare i dati consiste nel ridurre il numero di righe del file che il portale deve generare. Per farlo basta eseguire una interrogazione personalizzata. Si può ad esempio fare una personalizzazione riguardante il range di età da considerare. Scegliamo ad esempio gli anni da 0 a 35.
Ora il download è permesso, e il processo prosegue prenotando la generazione dello zip con un file .csv contenente i dati che ci interessano. Al termine del download possiamo rifare il processo scegliendo l'età dai 35 anni in poi.
Una email ci avviserà quando è pronto il file per il download.
Ringrazio il team di dati.istat.it per aver condiviso la "buona pratica" tramite twitter: https://twitter.com/istat_it/status/630740449909690368