Viviamo in un’era che produce un numero incalcolabile di dati. L’evoluzione dei dispositivi mobili, sempre più diffusi, è destinata a far aumentare in modo esponenziale, ogni anno, il volume di dati generato.
I Big Data però, non sono solo “tanti dati”. Quello che davvero li caratterizza sono i vari modi in cui vengono prodotti e veicolati tra diversi settori sociali. Inoltre, spesso i dati non sono nemmeno di tipo strutturato, ovvero incasellabili in tabelle, ma sono presenti sotto forma di documenti, meta dati, posizioni geografiche, valori rilevati da sensori IoT e numerose altre forme, dal semi-strutturato al completamente destrutturato.
Conservare questa moltitudine di dati presso i tradizionali fornitori di cloud storage costa parecchio e un ulteriore problema nasce nei passaggi di condivisione, perché questi potrebbero essere smarriti, corrotti, non aggiornati o acquisiti da terzi non autorizzati.
Molti dei dati che ci riguardano, raccolti a livello digitale, vengono collezionati da compagnie ed agenzie di ricerca e i processi con cui vengono interpretati e diffusi sono molto complessi. Tradotto significa ad esempio, che possono essere parziali, corrotti o inservibili perché troppo vecchi.
Chi crea le banche dati, inoltre, tende ad adattarle alle proprie preferenze metodologiche e concettuali, generando così archivi che contengono soprattutto dati di persone con preferenze simili. È anche chiaro che chi è esposto in prima persona nella creazione delle banche dati possa veicolarli a proprio vantaggio. Inoltre, la mancanza delle autorizzazioni alla condivisione dei dati ha delle conseguenze rilevanti: come l’abbassamento della qualità dell’analisi statistica, causata dalla mancanza di dati aggiornati o incrociati. La loro gestione evolve al punto tale da influire anche sulla ricerca scientifica: l’universo dei dati può essere estratto, valutato e trasformato in una fonte di preziose informazioni. Si sono moltiplicate, infatti, le possibilità di produzione e raccolta dati, grazie anche alla loro velocità di diffusione, generando così nuove frontiere inesplorate di ricerca e nuovi orizzonti di collaborazione tra ricercatori di discipline diverse.
Si è diffusa però erroneamente l’idea che i Big Data bastino per raccontare direttamente la realtà, quando invece le loro interpretazioni, il metodo di analisi e la loro provenienza risulta essere di fondamentale importanza.
Ciò che osserviamo oggi invece, è che viviamo nell’era della post-verità in cui “non esistono fatti, solo interpretazioni” (cit. Friedrich Nietzsche dei Frammenti Postumi 1885–1887).
I dati fanno parte del processo di costruzione della conoscenza scientifica, e i big data sono una risorsa aggiuntiva che si può sfruttare, senza però stravolgere il metodo scientifico.
Sabina Leonelli (professoressa di filosofia e storia della scienza all’università di Exeter, dal 2014 è principal investigator del progetto Erc “Data Science”) si occupa proprio di capire come i big data si inseriscono nella pratica e nella metodologia scientifica, e come vengono utilizzati per modificare il rapporto tra tecnoscienza e società. Una parte del suo progetto si occupa proprio di seguire il tragitto che i dati percorrono, dalla loro generazione al loro utilizzo, passando per tutti gli stadi intermedi di analisi e rielaborazione.
E’ interessante riportare un passaggio di una sua intervista a prova di quanto detto finora:
“Le fonti di dati a cui i ricercatori hanno accesso sono molto limitate, spesso selezionate sulla base degli interessi di chi finanzia la ricerca piuttosto che sul tipo di conoscenza che si vuole generare.
Tutti i grandi filosofi hanno sempre riconosciuto che non esistono dati “grezzi”, ovvero dati che non siano già mediati.”
Possiamo quindi affermare che i dati non vengono prodotti indipendentemente dall'interpretazione umana ma sono il risultato delle scelte adottate dai singoli gruppi di ricerca.
“Quando un ricercatore produce dati, lo fa attraverso strumentazioni e apparati particolari, che sono costruiti sulla base di principi teorici molto precisi e che racchiudono in sé la traccia di tutte queste prospettive. Quindi tutti i dati provengono da un certo tipo di prospettiva concettuale e anche il modo in cui vengono organizzati, spesso è basato su teorie, su aspettative di come si potrebbe usarli.”
Un altro aspetto molto importante è che questi dati, proprio perché raccolti da sistemi eterogenei, non possono essere processati con le tecniche tradizionali di gestione dei database. I dati sono sempre più destrutturati, variano molto velocemente, sia in quantità ma anche in tipologia, per cui è necessario pensare a database non strutturati.
“Molto spesso ad esempio non è chiaro chi adotta quei dati che vengono creati in un laboratorio scientifico ogni volta che si produce una sequenza genetica; oppure in uno studio medico ogni volta che si cominciano ad annotare delle osservazioni su quello che si osserva in un paziente. Cosa succede a questi dati una volta che vengono messi online tramite un database o un sito internet?
E’ questo percorso che è importantissimo tracciare. Questo vuol dire focalizzarsi prima di tutto sul modo in cui i dati vengono mobilizzati tramite tecnologie digitali e capire come queste funzionano, come si relazionano l’una con l’altra. Per esempio con i dati genetici questo è molto complesso perché esistono ormai migliaia di siti internet e di database che assorbono questi dati, se li scambiano tra di loro, li arricchiscono e li classificano in vari modi, e poi magari li passano a un altro servizio, a un altro settore. Cercare di tracciare tutti questi movimenti è un processo molto complesso. E poi, ancora più complesso è ricostruire i modi in cui i dati vengono prelevati e utilizzati per scopi precisi.”
È qui che la Blockchain può venire in aiuto dei Big Data.
Quando si tratta di gestione dei Big Data nelle ricerche scientifiche, le sfide più importanti da affrontare sono la sicurezza, la condivisibilità e l’interoperabilità. Se le informazioni sono isolate e archiviate su più sistemi che non consentono il regolare scambio di informazioni, i dati diverrebbero scarsi.
La blockchain offre la possibilità di condividere, tracciare e rendere accessibili i dati a tutti i soggetti partecipanti alla catena senza possibilità di errore e/o corruzione, consentendo transazioni istantanee senza rischi e a basso costo.
I Big Data possono avvantaggiarsi di un ulteriore livello di sicurezza grazie alla tecnologia DLT (Distributed Ledger Technology) della Blockchain. A differenza dei metodi tradizionali, le informazioni nella rete sono sicure e non possono essere modificate. In secondo luogo, l’archiviazione de Big Data può essere maggiormente strutturata e trasparente. Effettuare analisi sui dati diventa così molto più efficiente e più facile. L’utilizzo della tecnologia Blockchain può anche aiutare a rilevare frodi e/o errori. E’ infatti possibile tracciare le transazioni e i dati, dalle sue origini e rilevarne eventuali anomalie.
Quello che si propone Scrypta è di fornire una soluzione affidabile per la gestione e la condivisione dei Big Data attraverso applicazioni blockchain. I protocolli algoritmici consentono ai dati di essere raccolti, conservati, analizzati e incrociati con garanzia di sicurezza e senza che sia rivelata alcuna informazione personale, garantendo un’adeguata interoperabilità tra infrastrutture per uno scambio efficiente di dati.
Scrypta sta studiando una piattaforma appositamente creata per la ricerca accademica e scientifica che sfrutta la tecnologia blockchain. I ricercatori possono registrare una catena di record permanente, valida e immutabile in tempo reale per tutti i prodotti scientifici e accademici, comprese le operazioni di citazione / attribuzione, fin dalle prime fasi della ricerca.
Utilizzando la piattaforma, i ricercatori saranno in grado di dimostrare le proprietà e l’esistenza dei propri studi, ampliare l’accesso ai loro prodotti scientifici e accademici, fornire e ricevere attribuzioni “in tempo reale” per nuovi lavori in modo più completo e rapido e costruire e dimostrare l’insieme dei loro contributi accademici.
Per condurre una ricerca scientifica, sono necessari enormi quantità di dati. I ricercatori si concentrano su questi set di informazioni e conducono test regolari in circostanze diverse per generare report, statistiche e rapporti di efficacia. Sulla base di questi, i dati vengono studiati in modo da analizzare efficacemente i risultati ottenuti.
Al fine di rendere le prove scientifiche più eque e trasparenti, i ricercatori potranno utilizzare specifiche dApps interconnesse con la tecnologia blockchain di Scrypta in modo da produrre studi sicuri, imparziali e permanenti.
I documenti creati e utilizzati in questo processo, come il consenso informato, i piani di ricerca, i regolamenti e il protocollo di studio, saranno contrassegnati dal timestamp. Ciò significa che i documenti avranno una prova certa corredata da dettagli specifici concernenti la loro creazione. Inoltre, grazie alla blockchain di Scrypta i processi di archiviazione, i dati raccolti, gli studi compiuti e le prove scientifiche saranno al sicuro da eventuali frodi, perdita di dati e incidenti; inoltre sarà possibile ridurre sensibilmente i costi di revisione.
Molti dei dati che vengono raccolti e utilizzati a livello globale possono provenire dalla comunità scientifica ma è possibile integrare anche i dati provenienti dal resto della società, che diventa così soggetto attivo nel campo della ricerca. Basti pensare a quei dati che vengono raccolti ogni giorno attraverso l’utilizzo delle cosiddette Healthy-Apps: applicazioni che raccolgono dati sulle abitudini e lo stato di salute degli utilizzatori.
È di fondamentale importanza far crescere la consapevolezza delle persone sull'uso di queste tecnologie poiché queste possono trasformare il rapporto tra scienza e società.
SCRYPTA - Adaptive BlockchainWebsite: www.scryptachain.org
Foundation: https://scrypta.foundation
Block Explorer: https://chainz.cryptoid.info/lyra
Official Github: https://github.com/scryptachain
Twitter: https://twitter.com/scryptachain
Discord: https://discord.me/scryptachain
Telegram: https://t.me/scryptachain_official
e-mail: info@scryptachain.org