Attacchi di poisoning, attenzione all’avvelenamento dei dati
Il data poisoning consiste in una minaccia alla sicurezza dei sistemi di Intelligenza artificiale (IA) riferito alle componenti di Machine Learning (ML): una modifica “malevola” dei dati di addestramento (training data set) di tali componenti può generare una distorsione dei risultati prodotti dal sistema in favore degli obiettivi perseguiti dall’attaccante.
(Nella foto: Luigi Carrozzi, funzionario del Garante per la protezione dei dati personali, è intervenuto al Privacy Day Forum sul tema del "data poisoning")
L’ampia “superfice d’attacco” offerta dai sistemi di Intelligenza Artificiale a causa della loro complessità, espone tali sistemi a varie tipologie di minacce, molte riconducibili a quelle tipiche dei sistemi ICT, ma altre con caratteristiche specifiche, che è necessario conoscere e saper gestire adeguatamente.
Il data poisoning è una delle più concrete minacce per i sistemi di Machine Learning che ne compromette le funzionalità. Tali minacce devono essere efficacemente gestite, in particolate quando ai sistemi è richiesto un elevato livello di affidabilità visti i potenziali impatti sull’uomo (ad es. applicazioni per infrastrutture critiche, sistemi a guida autonoma, settore sanitario, etc.).
Il data poisoning può essere contrastato innanzitutto includendo le applicazioni di ML ed i dataset utilizzati per l’addestramento nei processi di sicurezza dell’organizzazione proteggendo tali sistemi da possibili intrusioni di soggetti non autorizzati e da inserimenti di codice malevolo. È inoltre raccomandata l’adozione di specifici approcci di data quality (con particolare riferimento alle dimensioni dell’accuratezza e della completezza dei dati) a cominciare delle catene di fornitura dei dati (supply chain), attraverso opportuni controlli dei dati in ingresso acquisiti da terze parti e la “sanificazione” dei dati, al fine di identificare ed escludere possibili dati corrotti nei data set di addestramento. La complessità e la tumultuosa evoluzione della tematica richiede un approccio corale.
È fondamentale il contributo che il settore della ricerca può offrire nell’ambito della sicurezza dei sistemi di Machine Learning, con lo sviluppo e la diffusione delle conoscenze sulle minacce emergenti e le relative vulnerabilità dei sistemi di Intelligenza Artificiale. Altrettanto prezioso è il contributo degli organismi di standardizzazione, con l’identificazione di pratiche di riferimento e framework di gestione specifici per la sicurezza dell’IA.
Ma è anche necessario che progettisti e sviluppatori di sistemi di IA adottino un robusto approccio alla sicurezza «by design» e che le organizzazioni, in qualità di utilizzatori, in particolare quando adottano applicazioni di IA critiche per le persone e la comunità, integrino nei processi di gestione della sicurezza anche le minacce specifiche dei sistemi di IA. È fondamentale pertanto conoscere minacce e vulnerabilità dei sistemi adottati, calcolando i rischi specifici non solo per l’operatività dell’organizzazione ma anche per le persone e la comunità dei soggetti che possono essere coinvolti nelle conseguenze di utilizzi impropri o comportamenti inadeguati di tali sistemi.
Si ricorda inoltre che il GDPR (Regolamento UE 2016/679) oltre all’esattezza e alla necessità che i dati siano adeguati, pertinenti e limitati a quanto necessario rispetto alle finalità, sancisce la sicurezza quale principio fondamentale per il corretto del trattamento dei dati personali. In tal senso l’attenzione ai processi di data quality e di sicurezza sopra menzionati è sostanziale.
Nel video: lo speech di Luigi Carrozzi al Privacy Day Forum 2023. Sotto le slides dell'intervento)