Oltre il reale, oltre il GDPR: i dati ‘personali’ sintetici

Nell’era dei big data e dell’intelligenza artificiale, la disponibilità di informazioni e di processarle è un fattore competitivo essenziale per le imprese private come per le organizzazioni pubbliche. Ma gestire informazioni significa, come ben sa chi si occupa di data management, impegno di risorse per acquisire database o anche individuali, selezionare le informazioni forti da quelle che costituiscono rumore di fondo, processarle in maniera corretta.

dati sintetici sono definiti come “constructed using multiple imputation so that they can be validly analyzed using standard statistical software”

Inoltre, se le informazioni attengono a persone, vanno considerate le limitazioni rivenienti dalle norme, come il GDPR in Europa, emanate per la protezione delle persone fisiche con riguardo al trattamento dei dati personali e alla loro messa in circolazione.

In questo contesto, con l’amplificarsi delle potenzialità di calcolo, ancor crescenti con il nuovo filone dell’informatica quantistica e la maturazione del machine learning, nuove possibilità sono offerte ai data manager dai dati di origine sintetica ovvero di dati (testuali ma anche immagini) creati a tavolino ma originati – attraverso modellazione statistica e algoritmi - in maniera tale da rispecchiare le caratteristiche della base dati di riferimento, non necessariamente basati su una distribuzione normale, senza la possibilità (se ben costruiti) di risalire ai dati originari.

L’inclusione nel lessico tecnico dei dati sintetici risale a Donald B. Rubin, docente di statistica di Harvard. In un articolo del 1993: li definisce come “constructed using multiple imputation so that they can be validly analyzed using standard statistical software”. Ormai i dati sintetici sono a pieno titolo nella cassetta degli attrezzi dei data scientists e, quelli personali, degli esperti di privacy.

Il Garante europeo dei dati personali (EDPS) si occupa sul proprio portale di tali dati e mette anche a disposizione un interessante cruscotto informativo, in progressivo aggiornamento, su diversi aspetti dei dati sintetici (nonché, è utile citarlo, su digital currency, metaverso, fake news e deep learning).

La proposta di Regolamento UE sull’intelligenza artificiale menziona i dati sintetici (art. 54), affiancandoli a quelli anonimizzati, quando indica le condizioni di utilizzo dei dati personali nell’ambito del c.d. spazio di sperimentazione normativa per l'IA.

I dati sintetici possono costituire una soluzione più robusta rispetto all’anonimizzazione dei dati personali che, se non ben condotta, potrebbe consentire un “recupero” delle informazioni originarie come nel caso, sebbene risalente nel tempo, delle recensioni cinematografiche di (500.000!) utenti Netflix ai tempi, risalenti ma non molto, in cui distribuiva DVD.

I dati sintetici, nuovi e artificiali, possono addirittura costituire un multiplo di quelli “seme” senza che ciascun elemento, come detto, possa essere ricondotto o decodificato sui dati originali. Ne deriva, una volta impostata la metodologia: a) un minor costo di “acquisizione” dei dati e b) esenzione dalla normativa sulla privacy, come il GDPR in Europa.

Molti, se non tutti, possono essere i settori in cui possa rivelarsi utile il ricorso a dati sintetici, con finalità di business o di ricerca, basti citare il progetto Synthema, portato avanti da un consorzio plurinazionale di cui fanno parte anche soggetti italiani e che ha vinto un finanziamento della Commissione UE, volto a sviluppare nuovi sistemi di analisi dati basati sull’intelligenza artificiale per utilizzare le informazioni cliniche e biologiche dei pazienti in maniera GDPR- compliant, generando appunto dati sintetici, per superare la scarsità e la frammentazione delle informazioni disponibili oggi per la ricerca.

Tutto risolto allora? Il GDPR può essere messo da parte? Ovviamente, e per diversi aspetti, non è così. Che si tratti o meno di dati personali alcune questioni devono essere ben considerate potendo alla generazione di nuovi dati accompagnarsi la generazione di nuovi rischi per tutti, atteso che i dati sintetici se incongrui potrebbero portare a decisioni (di business, politiche, educative sanitarie etc).

Quindi occorre porre attenzione ad esempio ai rischi di distorsione decisionale cui possono indurre dati sintetici non rappresentativi dei fenomeni cui si rivolgono; inoltre ci potranno essere rischi di discriminazione se i dati sintetici non sono rappresentativi dell’articolazione della popolazione di riferimento; ma anche rischi per la privacy se i dati sintetici non sono effettivamente disaccoppiati da quelli delle persone da cui sono originati.

Per chiudere questa illustrazione, ecco alcuni spunti di riflessione per chi si occupa di privacy e per i RPD, laddove si debbano trattare dati sintetici:

1. il seme per la generazione dei dati, laddove costituito da dati personali è lecitamente trattato?
2. sono stati definiti criteri per verificare che l’algoritmo di trasformazione dei dati reali in dati sintetici non sia viziato da carenze nella rielaborazione della base dati? e che dai dati sintetici non sia possibile andare a ritroso e ricostruire quelli reali, specie se personali?
3. il ricorso a tali dati è trasparente (si pensi alla tecnica del DeepFake che permette di operare su immagini e filmati creando contenuti multimediali sintetici che possono impattare sulla pubblica opinione e, nel caso coinvolgano falsamente persone, con conseguenze rilevantissime sulla loro vita)?
4. il RPD è coinvolto in processi di generazione e utilizzo di dati sintetici generati da dati personali?
5. il trattamento dei dati sintetici, laddove attengano a dati personali, trovano menzione nel Registro dei trattamenti? E nelle informative?

Infine un sintetico, ma reale, dubbio: ma non è che, mentre questa nuovo filone di intelligenza artificiale si sviluppa, occorra iniziare a pensare a una regolamentazione dei dati sintetici (personali e non), sotto il profilo della responsabilità giuridica, etica e, last but not least, privacy?

Note sull'Autore

Pasquale Mancino

Componente del Gruppo di Lavoro per la privacy nella Pubblica Amministrazione. Nota: Le opinioni espresse sono a titolo esclusivamente personale e non coinvolgono l’Ente di appartenenza dell’autore

Prev I rischi sulla privacy delle chatbot: da Replika a ChatGPT

Next Privacy by design e accountability per l’acquisizione dei consensi nelle attività di marketing