Big Data: un fenomeno da comprendere

Questo articolo di Cukier and Mayer-Schoenberger sostiene che la rivoluzione dei Grandi Dati consista di tre cose:

  • Raccogliere e usare grandi quantità di dati invece di piccoli campioni
  • Accettare il disordine nei propri dati
  • Fare a meno della causalità

L’articolo sostiene infatti che facendo uso dei Grandi Dati possiamo ignorare la causalità per il fatto che la quantità di dati che possediamo è così grande che letteralmente può tener traccia della verità. Il nuovo approccio ai dati presuppone quindi che N=TUTTO (con N di solito si indica la taglia del campione di un’analisi statistica). Ma può davvero darsi che N=TUTTO?
L’esempio delle elezioni (preso dallo stesso articolo) già di per sé costituisce un controesempio importante: anche se campioniamo ogni singola persona che esce dai seggi elettorali abbiamo sempre il problema che non sappiamo nulla di coloro che non sono andati a votare e queste persone possono essere proprio le persone con cui dovremmo parlare per capire i reali problemi elettorali di un Paese.
big-dataUn’altra conseguenza pericolosa di N=TUTTO è l’idea che i dati possano essere in qualche modo oggettivi. In questo articolo del New York Times ad un certo punto uno scienziato dei dati dice: “Mettiamo tutto dentro il sistema e lasciamo che i dati parlino da soli”. L’articolo presenta un algoritmo per l’assunzione di risorse umane in un’azienda, ma pensiamoci un attimo. Supponiamo di confrontare candidati donne e uomini con curriculum esattamente identici che siano stati assunti nel passato. Dai dati risulterà, supponiamo, che le donne hanno avuto la tendenza a licenziarsi/essere licenziate più frequentemente, essere promosse meno frequentemente e a dare feedback negativi sull’ambiente di lavoro rispetto ai colleghi uomini. Ne segue che qualsiasi algoritmo consiglierà all’azienda di preferire sempre un candidato uomo a parità di curriculum. Questo accade perché tale algoritmo ignora le elementari leggi di causalità e non contempla la possibilità che l’azienda in questione possa trattare i suoi impiegati donna meno bene rispetto alle controparti maschili. In definitiva i dati non sono oggettivi e soprattutto non parlano da soli: i dati sono solo un pallido eco quantitativo di una realtà molto più complessa. Ecco perchè occorre studiarli e analizzarli a fondo, e la componente umana, ancora una volta, gioca un ruolo importante.

Qualche settimana fa avevamo promesso di dare una definizione più rigorosa del termine “Grandi Dati”. Riprendiamo quella che compare nel Capitolo Secondo del libro Doing Data Science di Cathy O’Neil e Rachel Schutt, che ci sembra la più rigorosa e densa di significato.

 

  • “Grande” è una definizione dinamica. Dire che le quantità di dati oltre 1 petabyte sono Grandi Dati non ha senso perché rende la definizione assoluta. Soltanto quando la grandezza di questi dati diventa impegnativa ha senso riferirsi ad essi con la parola “Grande”. Dunque “Grande” è un termine relativo che si può usare quando la dimensione dei dati va oltre le capacità delle soluzioni computazionali (in termini di memoria, capacità di storage, complessità e velocità di processazione) dello stato dell’arte tecnologico corrente. Dunque negli anni Settanta Grandi Dati significava qualcosa di diverso rispetto a quello che significa oggi.
  • “Grandi” sono i dati che non stanno in una sola macchina. Individui diversi e compagnie diverse hanno differenti risorse computazionali. Dunque i dati sono grandi se non ci stanno in una sola macchina, perché il singolo scienziato deve imparare nuove tecniche e metodi di hosting e storage per poterci lavorare.
  • I Grandi Dati sono anche un fenomeno culturale che descrive quanto i dati facciano parte delle nostre vite, ormai accelerate dagli avanzamenti della tecnologia.
  • Le quattro V: Volume, Varietà, Velocità e Valore. Su molti whitepaper più o meno seri circola l’idea che questi aggettivi siano un modo per caratterizzare i Grandi Dati.

Facci sapere cosa ne pensi: commenta qui!

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

w

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: