I dati aperti

I dati sono oggi la pozione magica che trasforma ogni chiacchierata in una discorso scientifico.
Dopo aver sottolineato per almeno un secolo quanto la scuola italiana sia un unicum nel panorama mondiale perché centrata sulle discipline umanistiche, dopo aver riconosciuto quanto è arretrata rispetto agli altri Paesi industrializzati esattamente per gli stessi motivi, ora improvvisamente siamo affamati di dati e numeri. Ma i dati non sono un frutto che cresce sugli alberi. I dati non sono, appunto, dati, ma bisogna andarseli a cercare. E a volte, non è nemmeno tanto facile, perché non vengono pubblicati, o vengono pubblicati solo in forma già elaborata, sintetica, visiva, insomma chiusa. Con i dati chiusi non si va molto più in là dei discorsi che li usano.
Però esistono anche i dati aperti, con i quali si potrebbe capire cosa è successo, cosa sta succedendo e ipotizzare cosa succederà - che si tratti dei dati sui vaccini o quelli sulle competenze matematiche degli studenti italiani.
Cosa sono i dati aperti?
Cominciamo a sgomberare il campo dagli equivoci. Dati aperti non significa necessariamente e soltanto gratuiti, esattamente come opensource non significa necessariamente e soltanto software gratis. Nella nostra cultura le due parole sono associate all'interno di una concezione dei dati come concessione dall'alto. Dati aperti, secondo il Decreto Legislativo del 7 marzo 2005, significa :

  1. disponibili secondo i termini di una licenza che ne permetta l'utilizzo da parte di chiunque, per qualsiasi finalità (anche commerciale), in formato disaggregato;
  2. accessibili attraverso le tecnologie dell'informazione e della comunicazione in formato adatto all'utilizzo automatico e provvisti dei relativi metadati;
  3. disponibili gratuitamente, oppure ai costi marginali sostenuti per la loro riproduzione e divulgazione, anche tramite reti telematiche.
Gli opendata rappresentano il punto di arrivo di un progetto di democratizzazione delle conoscenze: tutte le conoscenze finalmente a disposizione di tutti.
Questo non necessariamente significa che tutti sappiano usarli. E' necessaria un'informazione diffusa, formazione adeguata e la creazione di strumenti intermedi che permettano di effettuare ricerche, selezioni, esportazioni.

Uno degli usi meno citati quando si parla di opendata è quello relativo all'educazione. E' vero che nel portale opendata del Ministero dell'Istruzione italiano sono disponibili i dati relativi alle scuole e agli attori del sistema (per saperne di più, fate riferimento ad una delle schede di attività proposta). Ma gli opendata possono avere un senso molto, molto più ampio.


Per arricchire il volume con un punto di vista diverso, ho chiesto ad alcuni amici (Andrea Borruso, Maurizio Napolitano e Flavia Marzano) che si sono occupati a lungo e professionalmente di opendata, di rispondere ad alcune domande sul rapporto tra dati aperti ed educazione. Le domande erano piuttosto provocatorie: ho cercato di mettere in evidenza non solo gli aspetti più ovvi e positivi dell'uso dei dati aperti nell'educazione, ma anche quelli che potrebbero costituire un ostacolo, se non affrontati correttamente. Ci sono questioni sociali, come il fatto che le aziende possano fare affari partendo dai dati aperti che sono prodotti dagli enti pubblici, e quindi con soldi di tutti, o etiche, come il fatto che la pubblicazione dei dati aperti sembrano contraddire l'esigenza di rispettare la privacy dei cittadini.
Riporto qui le domande e le loro risposte.

1. Tutti o qualcuno? - Tutti devono saper mettere un cerotto, ma non tutti devono essere bravi chirurghi. Sapere cercare e interpretare dei dati è una competenza chiave di ogni cittadino o è necessaria solo per alcune professioni particolari?
AB: A tutti probabilmente prima o poi sarà necessario avere delle competenze di base su questi temi. E allora diventa un po' come la matematica e l'analisi logica: è essenziale che l'alfabetizzazione sui dati sia in programma a scuola, in modo che sia uno strumento anche inconsapevole comprendere in modo critico il nostro mondo. MN: Tutti devono poter provare l'esperienza di mettere le mani nella marmellata per capire come è fatta. Poi, chi vorrà mangiarla tutta o provare a farla, avrà modo di imparare, ma senza una esperienza in tal senso diventa difficile poi capire tutto il resto. Parlando di dati: ne facciamo uso ogni giorno per prendere decisioni, sia che siamo al supermercato a fare la spesa, sia che stiamo scegliendo il percorso da fare per arrivare a casa. Non è importante che siano per forza in digitale, quello che è importante è essere consapevoli che abbiamo sempre un momento in cui riflettiamo e, sulla base dei dati che riusciamo ad acquisire, con gli strumenti che abbiamo, poi prendiamo decisioni. FM: E' sicuramente importante che ogni cittadino sappia cercare e leggere i dati prima di tutto per garantire a se stesso conoscenza, ma anche per poter essere certo di non subire informazioni con controllabili. Sicuramente in alcune professioni sono richieste ulteriori competenze come ad esempio big data e sentiment analysis, ma la base delle informazioni e dei dati è prioritaria in ogni ambiente e in ogni settore e occupazione.

2. A che età? - C'è un momento per giocare e un momento per decidere. A che età ragazze e ragazzi dovrebbero diventare consapevoli dell'importanza di aver accesso ai dati per fare una scelta?
AB: Ricordo che in terza media, riuscii (un po') a comprendere la bellezza di pagare le tasse. Direi nella secondaria, anche di primo grado, con percorsi adeguati all'età. MN: Sarebbe bello che la statistica descrittiva fosse insegnata appena si hanno le prime nozioni di matematica di base. Se prendiamo un pacchetto di caramelle colorate e chiediamo ad un bimbo o bimba di scegliere quello che, a suo giudizio, ne contiene di più, è molto probabilmente che - se non sa ancora contare - comincerà a metterla in fila per colore e, la fila più lunga sarà la sua scelta. Forse non tutti fanno così, ma sicuramente, nelle scelte, cercheranno di trovare una soluzione che dia loro modo di capire come apprendere dei dati per fare la scelta migliore. Si può quindi cominciare a fare capire i dati con percorsi semplici semplici assieme alla matematica e poi alla statistica. Si tratta solo di dare metodo sulle scelte decisionali. FM: Fin da piccolissimi è importante che capiscano il concetto di "ordine di grandezza" per capire se quanto chiedono o quanto ricevono è sufficiente e giusto. Fin dall'asilo si possono aiutare i bambini a giocare con i numeri e con i dati per farne capire loro l'importanza. Con quale criterio decidiamo che il bicchiere è mezzo pieno o mezzo vuoto? Diventa allora importante sapere quanti centilitri ci sono per capire se potrò sopravvivere fino a sera o fino a fine anno.

3. Dati grezzi o elaborati? - Quando si compra una marmellata si vanno a leggere gli ingredienti sull'etichetta, ma non si va a visitare la fabbrica né i frutteti. Allora perché andare a cercare i dati originali, grezzi, anziché quelli elaborati?
AB: Anche qui la pongo diversamente. Se la marmellata la devi soltanto mangiare, vai in fabbrica perché spinto da curiosità (ci sono altre ragioni ovviamente). Se devi fare un'analisi sul perché qualche volta c'è un nocciolo, dovrai andare in fabbrica. Se vuoi produrre la tua marmellata, partirai dagli ingredienti. Sul tema dei dati aperti e/o dei dati civici, il dato grezzo è fondamentale; a maggior forza se i decisori fanno scelte che hanno un impatto sul nostro quotidiano.
MN: L'analisi del dato secondario è il primo punto di partenza in un percorso didattico, poi da lì si può insegnare come crearli scoprendo così il mondo dei dati grezzi e, ahimè, anche di quelli non strutturati da rendere strutturati.
FM: I dati sono gli ingredienti di fatto. Ovvero io voglio sapere che dentro il bicchiere ci sono 150 centilitri di acqua e devo sapere che sono 150 centilitri e non 150 litri (quindi devo capire l'ordine di grandezza) e non voglio sentirmi dire "il bicchiere è mezzo pieno, sta tranquilla". Voglio conoscere il dato originale e grezzo (mezzo pieno è il dato elaborato) per decidere se potrò sopravvivere 1 giorno o 100 (ipotizzando di avere bisogno di un libro e mezzo al giorno di acqua).

4. Narrazioni - Tra le nuove professioni che ormai da qualche anno sono comparse ci sono i data journalist e i data storytellers. Quanto è importante costruire una storia intorno ai dati per una loro comunicazione efficace e coinvolgente?
AB: È importante soprattutto per dare efficacia alla storia da raccontare. Specie se si racconta di qualcosa che si può misurare, contare, rappresentare e schematizzare.
MN: I dati sono per loro natura noiosi. Saperli trasformare in storie è il modo migliore in assoluto per veicolari alle persone, abbassare le distanze e creare maggiore dialogo sui problemi. La narrazione deve comunque permettere di essere ricostruita fornendo anche i dati e il metodo. L'uso dei grafici non deve essere centrale: è il sapere trasmettere emozioni, rispondere o scoprire nuove domande, ispirare e prendere decisioni che devono stare al centro del percorso.
FM: Sicuramente è importante saper "raccontare" i dati (il bicchiere mezzo pieno ne è un esempio), ma è essenziale avere prima le basi sui dati per evitare di fare arrivare a chi ascolta il dato sbagliato. In epoca di pandemia Covid ho sentito un giornalista spaventato dire "in India ci 100.000 contagi in un giorno" e in Italia molti meno... Ecco sapendo raccontare i dati quelli inglesi sono 1 ogni 10.000 abitanti e in Italia 3 ogni 10.000 abitanti... Non significa ovviamente che gli indiani possono stare tranquilli, ma il confronto è stato fatto nel modo sbagliato.

5. Domande e risposte - Recentemente, anche a seguito della pandemia COVID-19, l'attenzione verso i dati – per fortuna - è aumentata. D'altro canto, non si rischia di dimenticare che i dati possono dire cose diverse in base a come li si interroga?
AB: Ai dati possiamo fare dire qualsiasi cosa. Anche sciocchezze. E proprio per questo è utile che siano disponibili, perché potrò distinguere una sciocchezza da qualcosa di sensato.
MN: I dati possono ingannare ed è per questo che vanno sempre accompagnati dalla loro metadatazione e dalla metodologia con cui sono stati raccolti. Quando poi sono usati per prendere decisioni deve essere spiegato il come questo avviene ( = algoritmo).
FM: La rappresentazione dei dati relativi alla pandemia è avvenuta in maniera non omogenea sia sotto il profilo geografico che sotto il profilo della tipologia dei dati. L'analisi dei dati è sempre stata fornita in maniera inadeguata a una piena comprensione dei fenomeni che si stavano esaminando. Il dato più rilevante era il rapporto tra contagiati e numero dei tamponi e non il valore assoluto del numero dei contagiati. Si è discusso poi di RT senza dire come viene calcolato, non dando quindi la possibilità di comprendere se fosse un parametro realmente significativo. Confermo quindi l'importanza di avere dati corretti, aggiornati e grezzi, proprio per poterli elaborare e analizzare in maniera neutra e non condizionati da visioni o opportunità.

6. Privacy - Avere tanti i dati ci permette di prevedere il comportamento del pianeta, ma anche dei singoli. Non c'è il rischio che questa attenzione alla raccolta dei dati metta in secondo piano la difesa della nostra privacy?
AB: Per me, fin troppo spesso, la privacy è un ostacolo strumentale all'accesso ai dati. L'anonimizzazione è una procedura che richiede ovviamente uno sforzo, richiede competenze e va messa nella catena di montaggio dei dati pubblici. Va messa a budget. L'alfabetizzazione sul rispetto dei dati personali deve essere un pezzo di quella sui dati aperti.
MN: La privacy è il baluardo con cui i dati non vengono resi disponibili. va insegnato il concetto di privacy by design
FM: Siamo disposti a utilizzare i social network, i motori di ricerca, la geolocalizzazione sui nostri smartphone ... senza mai pensare alla nostra privacy. Con questo non voglio dire che la normativa sulla privacy non sia essenziale, dico che dobbiamo aumentare la conoscenza e la consapevolezza (anche nell'utilizzo degli strumenti sopra indicati) proprio per evitare di diffondere informazioni private.

7. Dati aperti - "Data is new oil", big data, data mining... il terzo millennio è sicuramente quello dei dati. Ma i dati sono tutti uguali o alcuni sono più uguali degli altri? Che ruolo posso giocare in questo millennio i dati aperti?
AB: Il valore dei dati dipende molto dal contesto. Sono più "uguali", con queste modalità di accesso: - disponibili gratuitamente; - leggibili meccanicamente; - fornite mediante API; - fornite come download in blocco, se del caso. Prendendo ancora spunto dalla direttiva europea PSI, sono sicuramente da considerare di grande interesse generale:

  1. Dati geospaziali
  2. Dati relativi all'osservazione della terra e all'ambiente
  3. Dati meteorologici
  4. Dati statistici
  5. Dati relativi alle imprese e alla proprietà delle imprese
  6. Dati relativi alla mobilità
MN: I dati aperti sono cruciali, ma altrettanto cruciale deve essere il fatto che siano fatti bene FM: I dati aperti sono un'opportunità per imprese, università e singoli cittadini per analizzare, capire, studiare, decidere, descrivere, ascoltare, collaborare, partecipare e… raccontare! Ognuno può fruire dei dati (se sono aperti) per prendere decisioni sulla propria vita, sul proprio futuro, ma anche per sviluppare il proprio business e quindi generare opportunità e lavoro.

8. Dati e soldi pubblici - E' corretto che qualcuno faccia un business a partire da dati aperti raccolti con denaro pubblico?
AB: Se parliamo di "correttezza", c'è da attenersi alle licenze. In alcuni casi ad esempio basterà citare la fonte, in altri tutte i dati derivati avranno la stessa licenza dei dati sorgente. Su dati di particolare rilevanza e impatto per il quotidiano, potrebbe essere utile immaginare di restituire sempre qualcosa dalla loro elaborazione: dalla pulizia/arricchimento del dato sorgente, a un'evidenza nuova frutto dell'analisi dei dati grezzi.
MN: Gli open data vanno visti come un bene comune.
FM: La Pubblica Amministrazione italiana (e non solo per fortuna) deve aprire i propri dati (ovviamente garantendo sicurezza e privacy) proprio perché sono generati con denaro pubblico, non sono "suoi", sono di tutti. Se questi dati poi riescono ad essere utilizzati dalle imprese per fare business, bene, avranno prodotto opportunità!

9. Dati e software - Dati aperti e software libero sono associati spesso (ma non sempre). C'è una connessione significativa o lo strumento non è importante?
AB: I termini strumentali non c'è alcuna connessione. Si possono fare analisi pregevoli sia con software con licenza aperta, che chiusa. Ci sono legami culturali forti, in cui da collante forte fa la condivisione della conoscenza. Chi frequenta le pratiche del software aperto avrà facilità di ingresso nel mondo dei dati aperti e viceversa.
MN: Non ci deve essere alcun legame sul fronte delle licenze di riuso di questi due oggi. Quello che deve essere invece garantita è l'interoperabilità fra formati di dati e/o servizi di distribuzione/interrogazione
FM: Sicuramente la prima connessione è relativa alla "condivisione della conoscenza", sia i dati aperti che il software libero hanno licenze che permettono di essere condivisi! Lo strumento con cui si trattano i dati (software libero o meno) può essere importante se l'elaborazione è fatta da una pubblica amministrazione o fatta per diffondere dati a cittadini. Io voglio che nella medicina che mi ha dato il dottore ci sia il bugiardino anche se non sono dottoressa né farmacologa, lo voglio perché so che qualcuno al mondo può analizzare i contenuti e darmi informazioni che mi possono riguardare. Allo stesso modo voglio vedere il software con cui sono elaborati i dati (perché so che qualcuno al mondo può analizzarlo e capire come funziona e come elabora i dati).

10. Dati e parole - Cosa consiglieresti ad un docente di area umanistica che voglia utilizzare i dati aperti con i suoi studenti?
AB:
- le mappe
- i grafi (analisi delle reti)
- i testi (esempio, analisi dei "sentimenti")
MN: Ciascuno studente ha, nel suo percorso, la creazione di dati strutturati da dati non strutturati come 'le parole": basta pensare alle schede che ogni studente va a fare per un romanzo come i Promessi Sposi da cui raccoglie i nomi dei personaggi, dove si muovono, i legami fra di loro e molto altro ancora. Il Natural Language Processing è fatto sempre dagli studenti, ma non con strumenti informatici: partire con un approccio più data driven anche nella lettura di romanzi, è il primo passaggio per capire come passare dai dati non strutturati ai dati strutturati ed avere più rispetto per le fonti.
FM: Sicuramente esistono dati che non sono numeri: un elenco di nomi, o di indirizzi o di caratteristiche di una tipologia di oggetti. Se tutti i docenti (dalle elementari in poi) sapessero leggere e capire i dati, sarebbe davvero facile per loro far capire ai loro studenti l'importanza di averli, non elaborati da terzi, fornendo loro la capacità di leggerli, interpretarli ed elaborarli. Un docente anche di area umanistica dovrebbe essere in grado di far amare ai suoi studenti i dati anche con giochi che interessano loro e che possono servire loro per la loro vita anche ludica oltre che per il loro futuro lavorativo. I dati devono essere alla base delle decisioni delle persone, quindi suggerisco anche che i docenti insegnino ai ragazzi i cosiddetti "Fermi problems", ovvero problemi di "stima" che servono per insegnare l'analisi dimensionale, l'approssimazione e l'importanza di identificare chiaramente premesse, assunzioni e ipotesi fatte.