I ricercatori dell’Università di Melbourne (UoM) e della Singapore University of Technology and Design (SUTD) hanno sviluppato un algoritmo in grado di rilevare eventi importanti in base alla scala temporale e geografica degli argomenti attivamente discussi sui social media. Il loro algoritmo, dettagliato nel Journal of Big Data, non richiede di sapere quali eventi rilevare in anticipo e può essere adattato per utilizzare risoluzioni geografiche e temporali più piccole o più grandi per riflettere la natura dinamica degli eventi della vita reale.
I social media sono diventati il mezzo di comunicazione di riferimento, soprattutto perché i post possono essere caricati e diffusi quasi istantaneamente. Dato che molti utenti condividono attivamente osservazioni e foto di eventi che accadono intorno a loro, tali informazioni in tempo reale rendono i social media una fonte interessante di ultime notizie.
Tuttavia, con più di due terzi delle persone su Internet, o 2,5 miliardi di persone, che utilizzano queste piattaforme a livello globale, sono necessarie strategie per farsi strada nel rumore per estrarre utili dati specifici dell’evento. Per gli eventi potenzialmente letali che richiedono personale di emergenza e di sicurezza, la necessità di informazioni immediate e specifiche per l’evento è tanto più acuta.
“Elementi di tempo e spazio ti danno una migliore risoluzione di dove e quando si verificano gli eventi”, ha affermato il coautore dello studio SUTD Assistant Professor Kwan Hui Lim. “Se c’è qualche tipo di disastro, vuoi sapere dove e quando sta accadendo in modo da poter allocare le giuste risorse in quella particolare posizione”.
L’ algoritmo sviluppato da Asst Prof Lim e da un team guidato dal professor Shanika Karunasekera dell’UoM adotta una struttura a quattro fasi per identificare eventi a diverse risoluzioni spazio-temporali. Dato un flusso di post sui social media georeferenziati, la prima fase determina la granularità o la risoluzione nello spazio per rilevare gli eventi. Ciò si ottiene suddividendo un’area geografica in più scale in base alla densità dei post sui social media.
Nella seconda fase, l’algoritmo utilizza metodi statistici per identificare gli eventi in base a regioni con una densità inaspettatamente alta o bassa di attività sui social media. Questi eventi, che sono fissi nel tempo, vengono accorpati nella terza fase se si verificano nella stessa area geografica a intervalli di tempo consecutivi, dando per ogni evento una durata stimata. La quarta e ultima fase elimina quindi tutti gli eventi che si rivelano essere rumore.
Oltre alla capacità di personalizzare la scala dello spazio e del tempo per identificare gli eventi, l’algoritmo è unico in quanto non richiede l’identificazione preventiva degli eventi da rilevare. “Questo ha sia vantaggi che svantaggi”, ha osservato il prof. Asst Lim. “I vantaggi sono che non hai bisogno di un set di dati preesistente con eventi pre-etichettati. Senza questi eventi preesistenti, puoi utilizzare l’algoritmo per rilevare nuovi eventi che non hai mai visto prima. Lo svantaggio è che devi determinare manualmente la soglia che attiverà un avviso dal sistema.”
I ricercatori hanno convalidato il loro algoritmo su flussi di post provenienti dalle principali città del mondo, concentrandosi su due piattaforme di social media con modalità molto diverse: il servizio di microblogging Twitter e la piattaforma di condivisione di foto Flickr. Il nuovo algoritmo ha superato due algoritmi di base basati su metriche standard come precisione e richiamo, nonché una nuova misura chiamata indice di forza sviluppata dal team.
L’indice di forza misura la frazione delle entità principali, che possono includere hashtag o menzioni su Twitter o tag immagine e descrizioni su Flickr, rispetto al numero totale di post sull’evento rilevato. Secondo Asst Prof Lim, altri domini che utilizzano il recupero o la classificazione delle informazioni potrebbero trarre vantaggio dall’applicazione dell’indice di forza.
In futuro, l’algoritmo potrebbe essere rafforzato rendendolo multimodale, ha affermato Asst Prof Lim. Dato che le persone sui social media tendono ad essere selettive in ciò che scelgono di dire e a variare il tipo di informazioni che condividono su piattaforme diverse, un algoritmo in grado di combinare dati provenienti da più fonti, come Twitter e Flickr, nonché i media tradizionali , può migliorare l’affidabilità del rilevamento degli eventi.
“I social media sono un potenziale tesoro di dati per i governi, i media e le aziende allo stesso modo. Sono particolarmente utili come fonte di ultime notizie, specialmente per i primi soccorritori come il personale di emergenza e di sicurezza. Questo sofisticato algoritmo aiuterà queste organizzazioni a risolvere il problema rumore per estrarre solo le informazioni necessarie di cui hanno bisogno”, ha concluso il prof Karunasekera.
_____________________________________________________________________________
Ulteriori informazioni: Yasmeen George et al, Rilevamento di eventi spazio-temporali in tempo reale sui social media georeferenziati, Journal of Big Data (2021). DOI: 10.1186/s40537-021-00482-2 Yasmeen George et al, Rilevamento di eventi spazio-temporali in tempo reale sui social media georeferenziati, Journal of Big Data (2021). DOI: 10.1186/s40537-021-00482-2
Leave a Reply