Data Scraping: il caso SocialArks

Un errore nella configurazione cloud di SocialArks ha permesso la diffusione dei dati relativi a 318 milioni di record di account social, fra Facebook, Instagram e LinkedIn. In totale si tratta di più di 400GB di dati di profili pubblici e privati di 214 milioni di utenti dei social media di tutto il mondo. Tali record sono stati diffusi su internet - compresi i dettagli di celebrità e influencer molto seguiti negli Stati Uniti e nel resto del mondo.

(Nella foto: Pierguido Iezzi, co-founder e Ceo di Swascan)

Come sono stati sottratti i dati? - Questo leak, molto rilevante per volumi e per l'ampio raggio di azione, deriva da un errore di configurazione di un database ElasticSearch di proprietà di SocialArks, una società con quartier generale in Cina impegnata nella gestione di profili social.

Fra i dati trapelati, non mancano dati sensibili relativi a utenti di FB, IG, LinkedIn e altre piattaforme.
Il server, collegato a Internet, era totalmente privo di password, crittografia o altri strumenti di protezione dei dati. Il suo rinvenimento sarebbe avvenuto durante dei controlli di routine sugli indirizzi IP, eseguiti specificamente per cercare database a rischio. In totale, il server conteneva più di 318 milioni di record.

Cos'è SocialArks - SocialArks è una piattaforma per la gestione dei dati social, utilizzata anche per programmare gli annunci pubblicitari sulle principali piattaforme e pianificare le campagne di marketing.

Nella pagina che descrive i propri servizi, SocialArks si definisce come una "società internazionale per il social-media management, dedicata a risolvere problemi di brand building, marketing e social customer management nel settore del commercio estero con la Cina".
Quali dati erano contenuti nel server compromesso?

Il server interessato, ospitato da Tencent, è stato diviso in vari indici, al fine di memorizzare i dati ottenuti da varie fonti social. Tale indicizzazione ha reso ancora più semplice il compito dei ricercatori di sicurezza nell'analisi dei dati provenienti dai social-media.

Da quanto emerge, i dati sarebbero frutto di un lavoro di data-scraping portato avanti da SocialArks. Con questo termine si intende una sorta di "pesca a strascico", destinata ad acquisire un'enorme massa di dati senza alcun target specifico. Tale pratica, oltre a porre questioni morali, si pone in netta violazione rispetto ai termini di servizio di varie piattaforme, fra cui Facebook, Instagram e LinkedIn.

SocialArks

Le proporzioni del problema - I dati sottratti illecitamente farebbero capo a più di 11 milioni di utenti Instagram, oltre 66 milioni di iscritti a LinkedIn e più di 81 milioni di profili utente su Facebook.

I record contenevano dati sensibili come immagini di profilo, bio (la didascalia in cui è possibile descrivere in maniera stringata la propria persona), numero totale di follower, impostazioni sulla geolocalizzazione, dettagli di contatto come indirizzo e-mail e numero di telefono, numero di commenti ricevuti, hashtag più utilizzati, posizione lavorativa e altro ancora.

L'esistenza di una repository centrale contenente tali informazioni apre la porta ad attacchi di social-engineering automatizzati e ad alto volume.

La maggior parte del data scraping è del tutto innocuo, essendo effettuato da sviluppatori web, business analysts e società "oneste". In questi casi i dati vengono conservati con attenzione e protetti.

Va ribadito che, anche se tali dati sono ottenuti legalmente, nel caso in cui vengano conservati senza un'adeguata struttura di sicurezza informatica, possono essere sottratti e finire nelle mani sbagliate in occasione di uno dei tanti "leaks" che hanno fatto notizia negli ultimi anni.

Quando informazioni private tra cui numeri di telefono, indirizzi e-mail e date di nascita vengono estratte e/o divulgate, i criminali dispongono dell'armamentario sufficiente per sferrare attacchi mirati con furto di identità.

Risulta comunque interessante di per sé che il data scraping sia avvenuto e abbia raggiunto lo scopo di raccogliere informazioni pubbliche e private da utenti registrati. Come spesso accade, sono stati i profili pubblici a essere vittima di questa tecnica di “pesca”, tanto grossolana quanto efficace.

Solitamente, i grandi social come Facebook e Instagram, bloccano tentativi di data scraping massivo, dato che sono proprio i dati relativi ai propri utenti a dare valore a questi due grandi marchi del mondo digitale.

Un account privato risolverebbe davvero la questione? - La risposta è no. E l’esempio di LinkedIn è tanto chiaro quanto provvidenziale. Questo social, nato specificamente per creare e stabilire connessioni nell’ambiente lavorativo, richiede una certa dose di trasparenza nel proprio profilo utente affinché questo possa connettersi con altri. Impostare il profilo come privato renderebbe molto più complesso l’intrecciarsi di questa rete.

L’onere in questo caso dovrebbe ricadere quasi interamente sulle piattaforme proprietarie dei social. Con i potenti mezzi a loro disposizione dovrebbero creare un ecosistema sicuro per i propri utenti, anche quelli che hanno scelto di condividere pubblicamente le proprie informazioni. Ma affinché si inneschi un cambiamento in tale direzione, è necessaria una forte presa di posizione da parte degli utenti stessi che devono chiedere con sempre maggiore forza trasparenza e sicurezza nei termini d’uso di tutti i social e nella gestione (e storage) dei dati personali. Non abbassiamo la guardia!