La pubblica disponibilità di dati personali su Internet non implica la legittimità del web scraping
È noto che gli algoritmi di machine learning per migliorare le proprie prestazioni hanno bisogno di un costante e massivo addestramento reso possibile da enormi database che contengono testi, video, fotografie, suoni, ecc. Si tratta di dati che in molti casi sono raccolti dal web attraverso tecniche c.d. di web scraping rese possibili da specifici software denominati crawler. Ma è legittimo raccogliere dati personali dal web anche se postati pubblicamente al fine di alimentare database di addestramento?
Recentemente il Garante si è occupato in più occasioni del fenomeno dello scraping.
Con un primo provvedimento (10 febbraio 2022) reso nei confronti della società americana Clearview AI ha inibito e sanzionato il comportamento della società che attraverso questa tecnica aveva creato un database di oltre 10 miliardi di immagini facciali raccolte da fotografie acquisite dal web. Si trattava nella maggior parte dei casi di fotografie postate su social e siti web da persone private. Sul punto il Garante ha osservato come la pubblica disponibilità di dati in Internet non implica, per il solo fatto del loro pubblico stato, la legittimità della loro raccolta da parte di soggetti terzi. Infatti, ogni dato che viene pubblicato on-line subisce tale operazione di trattamento (segnatamente, la diffusione), sulla scorta di una base giuridica e per finalità determinate e legittime stabilite e perseguite dal titolare del trattamento che ne ha disposto la pubblicazione.
Pertanto, la pubblicazione sul web di dati personali da parte del soggetto cui si riferiscono, ad esempio nell’ambito di un social media network, non comporta, di per sé, una condizione sufficiente per legittimarne il libero riutilizzo da parte di soggetti terzi. Se, infatti, è vero che il Regolamento (e, quindi, nella fattispecie, il principio di finalità di cui all’art. 5, par. 1, lett. b), del Regolamento) non si applica ai trattamenti di dati personali effettuati da una persona fisica per l’esercizio di attività a carattere esclusivamente personale o domestico (cd. household exemption, di cui all’art. 2, par. 2, lett. c), del Regolamento), anche con riferimento ad attività on-line, è altresì vero che la deroga va interpretata in senso restrittivo.
Come sancito dalla Corte di giustizia dell’Unione europea, la deroga “comprende unicamente le attività che rientrano nell’ambito della vita privata o familiare dei singoli, il che manifestamente non avviene nel caso del trattamento di dati personali consistente nella loro pubblicazione su Internet in modo da rendere tali dati accessibili ad un numero indefinito di persone” (cfr. sentenza 6 novembre 2003, causa C-101/01, par. 47). Deve, pertanto, ritenersi che anche la pubblicazione di dati personali da parte dell’interessato sui social network sia vincolata al mero scopo per cui l’interessato ha inteso renderli pubblici (ad esempio, la visibilità nell’ambito di un particolare social network per i soli fini sottesi all’utilizzo di tale piattaforma).
Il web scraping è stato oggetto anche di un altro provvedimento (Provv. 17 Maggio 2023) con il quale il Garante ha vietato la costituzione e diffusione online di un elenco telefonico formato “rastrellando” i dati (numeri telefonici) da internet. In questo caso l’Autorità ha osservato come l’attuale quadro normativo non consente la creazione di elenchi telefonici generici che non siano estratti dal DBU, il data base unico che contiene i numeri telefonici e i dati identificativi dei clienti di tutti gli operatori nazionali di telefonia fissa e mobile, istituito dall’AGCOM con le delibere n.36/02/CONS e n. 180/02/CONS.