Introdurre e definire con precisione cosa sia la "data science" non è impresa facile. Ci sono però degli articoli e dei video che riescono tramite semplici concetti dare un'idea di cosa si trova nel mondo della "scienza dei dati". Uno di questi è l'interessante video introduttivo sulla "data science" messo online da Microsoft che trovate a questa pagina: /azure/machine-learning/machine-learning-data-science-for-beginners-the-5-questions-data-science-answers il video scompone l'universo "data science" un 5 semplici tipi di domande a cui l'insieme di algoritmo, competenze, capacità e tecniche del "data scientist" riescono a dare una risposta. Mi permetto di riportare alcuni degli spunti più interessanti che emergono dalla visione del video.
Essenzialmente utilizziamo i dati (che possono essere numeri, testo e relazioni tra loro) per rispondere a delle domande. Queste domande possono essere molto diverse tra loro in funzione del settore in cui operiamo e degli obiettivi che ci poniamo. Si possono tuttavia ricondurre a 5 tipi le domande a cui la data science è in grado di rispondere ovvero:
- è questo A o B?
- è questo strano?
- Quanto pppure quanti?
- come è organizzato?
- cosa dovrei fare dopo?
La risposta ad ognuna di queste categorie di domande richiede tecniche e algoritmi diversi.
È questo A o B?
Gli algoritmi che rispondono a questa domanda sono "gli algoritmi di classificazione". Ci possono essere 2 classi oppure una moltitudine di classi. E' una categoria di domande molto comune e interessante poichè all'interno di essa possono essere fatte ricadere molte analisi, per esempio "questo pneumatico si romperà nei prossimi tot chilometri oppure no?" oppure "porta più clienti un coupon spesa da tot euro oppure uno sconto?" e così via. Le domande chiedono di rispondere con una classificazione.
È questo strano?
In questo caso la risposta che si cerca risponde alla domanda "è "strano/anomalo questo fenomeno/dato?". Gli algoritmi che rispondono a questa categoria di domande sono chiamati "algoritmi anomaly detection". L'esempio più comune riguarda l'individuazione di comportamenti anomali nell'uso della carta di credito di una persona. Grazie ai dati si possono creare modelli di acquisto di una persona i quali possono segnalare acquisti ritenuti anomali facilitando e individuando tempestivamente tentativi di frode.
Quanto - quanti?
Gli algoritmi di "apprendimento automatico" grazie ai modelli di regressione possono facilitare le decisioni rispondendo a domande quantitative sul futuro. Aiutano a rispondere, sempre un cerco grado di incertezza, a domande del tipo "quale sarà la temperatura sarà Martedì prossimo? Quale sarà la mia vendite del quarto trimestre?". In generale aiutano a rispondere a domande che richiedono la stima di una quantità nel futuro.
Come è organizzato?
Spesso si desidera comprendere come è strutturato un insieme di dati, come è organizzato, se ci sono dei modi per raggrappare al meglio i dati e così via... capire se ci sono dei modelli che permettono di descrivere l'organizzazione degli stessi. Gli "algoritmi di clustering" provano a rispondere a questa necessità.
Esempi comuni di domande nelle quali il clustering può essere utile per fornire una risposta sono: "quali gli spettatori che hanno gli stessi stessi gusti cinematografici?" "Quali modelli di stampante si rompono allo stesso modo?" e così via. Sono algoritmi utilizzati con successo in svariati siti di e-commerce.
Cosa dovrei fare dopo?
Questa classe di algoritmi chiamati "reinforcement learning" aiutano i decisori a capire quali sono le stradi migliori da intraprendere "dopo". Questi algoritmi si sono ispirati al modello "punizione-ricompensa" usati a volte negli esperimenti sociali e biologici. Questi algoritmi "imparano continuamente" dai risultati. In genere è una buona tecnica da usare per i sistemi automatizzati che devono compiere in modo automatico un sacco di piccole decisioni senza supervisione umana. Come per gli esseri uman che imparano un lavoro i risultati vanno via via migliorando nel tempo grazie all'esperienza acquisita dal sistema che nel caso dei sistemi digitali si traduce con "raccolta ed analisi dei dati".
L'efficacia della data science consiste nell'applicare il "mix giusto" di algoritmi in funzione degli obiettivi attesi, dei dati e delle risorse disponiibli. Per avere una panoramica dell'applicazione di questi algoritmi: introduzione (semplice) alla machine learning.