Come ricavare / scoprire l'encoding di un file (di testo txt, csv, etc.)


avatar

Come ricavare / scoprire l'encoding di un file (di testo txt, csv, etc.)

By testuser01 | Martedì, 2018-07-31 20:30:52 | 6˙482 visite

La codifica dei file (encoding) dei file di testo e dei .csv spesso crea problemi. Ad esempio con pandas di python se ci sono caratteri "strani" e non si fornisce il giusto encoding mentre il crea il dataframe dal csv appaiono errori del tipo:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 26: invalid start byte

Per scoprire quale codifica ha il file che stai usando puoi con linux usare il comando "file -i *". Apri il terminale nella posizione in cui si trovano i file e poi digita:

file -i *

il terminale vi mostrerà   la lista dei file. Per i file .csv vi verrà   mostrato l'encoding (i più comuni sono utf-8 e iso-8859-1).

preview #1

Pagina riservata agli utenti registrati e loggati.
Solo gli utenti iscritti e loggati possono inserire un nuovo post.

Per iscriverti: registrazione

Per fare l'accesso: login

 

Ultime dalla bacheca...