Sfruttare al meglio le campagne di crowdsourcing

Marketing customer target audience concept

Negli ultimi anni il crowdsourcing, che prevede il reclutamento di membri del pubblico per aiutare a raccogliere dati, è stato estremamente utile per fornire ai ricercatori set di dati unici e ricchi, coinvolgendo anche il pubblico nel processo di scoperta scientifica. In un nuovo studio, un team internazionale di ricercatori ha esplorato come i progetti di crowdsourcing possono fare l’uso più efficace dei contributi dei volontari.

Le attività di raccolta dati attraverso il crowdsourcing spaziano da attività sul campo, come il birdwatching, ad attività online come la classificazione delle immagini per progetti come il Galaxy Zoo di grande successo, in cui i partecipanti classificano le forme delle galassie, e Geo-Wiki, in cui vengono interpretate le immagini satellitari per la copertura del suolo, l’uso del suolo e gli indicatori socioeconomici. Ottenere input da così tanti partecipanti che analizzano una serie di immagini, tuttavia, solleva domande su quanto siano effettivamente accurate le risposte inviate. Sebbene esistano metodi per garantire l’accuratezza dei dati raccolti in questo modo, spesso hanno implicazioni per le attività di crowdsourcing come la progettazione del campionamento e i costi associati.

Nel loro studio appena pubblicato sulla rivista PLOS ONE , i ricercatori dell’IIASA e colleghi internazionali hanno esplorato la questione dell’accuratezza indagando quante valutazioni di un’attività devono essere completate prima che i ricercatori possano essere ragionevolmente certi della risposta corretta.

“Molti tipi di ricerca con la partecipazione del pubblico implicano che i volontari classifichino immagini difficili da distinguere per i computer in modo automatizzato. Tuttavia, quando un compito deve essere ripetuto da molte persone, rende più efficiente l’assegnazione di compiti alle persone che li svolgono se si è certi della risposta corretta. Ciò significa che viene sprecato meno tempo dei volontari o dei valutatori pagati e gli scienziati o altri che richiedono i compiti possono ottenere di più dalle limitate risorse a loro disposizione”, spiega Carl Salk, un alunno del programma estivo per giovani scienziati IIASA (YSSP) e da lungo tempo tempo collaboratore IIASA attualmente associato all’Università svedese di scienze agrarie.

I ricercatori hanno sviluppato un sistema per stimare la probabilità che la risposta della maggioranza a un compito sia sbagliata, quindi hanno smesso di assegnare il compito a nuovi volontari quando quella probabilità è diventata sufficientemente bassa o la probabilità di ottenere una risposta chiara è diventata bassa. Hanno dimostrato questo processo utilizzando una serie di oltre 4,5 milioni di classificazioni uniche da parte di 2.783 volontari di oltre 190.000 immagini valutate per la presenza o l’assenza di terreni coltivati. Gli autori sottolineano che, se il loro sistema fosse stato implementato nella campagna di raccolta dati originale, avrebbe eliminato la necessità del 59,4% di valutazioni dei volontari e che se lo sforzo fosse stato applicato a nuovi compiti, avrebbe consentito più del doppio la quantità di immagini da classificare con la stessa quantità di lavoro.

Secondo i ricercatori, questo metodo può essere applicato a quasi tutte le situazioni in cui è richiesta una classificazione sì o no (binaria) e la risposta potrebbe non essere molto ovvia. Gli esempi potrebbero includere la classificazione di altri tipi di uso del suolo, ad esempio: “c’è foresta in questa immagine?”; identificare le specie, chiedendo: “c’è un uccello in questa foto?”; o anche il tipo di attività “ReCaptcha” che svolgiamo per convincere i siti Web che siamo umani, come ad esempio: “c’è un semaforo in questa immagine?”. Il lavoro può anche contribuire a rispondere meglio a domande importanti per i responsabili politici, come la quantità di terra utilizzata nel mondo per la coltivazione dei raccolti.

“Man mano che i data scientist si rivolgono sempre più alle tecniche di apprendimento automatico per la classificazione delle immagini, l’uso del crowdsourcing per creare librerie di immagini per la formazione continua ad acquisire importanza. Questo studio descrive come ottimizzare l’uso della folla per questo scopo, fornendo una guida chiara quando rifocalizzare gli sforzi quando viene raggiunto il livello di confidenza necessario o una particolare immagine è troppo difficile da classificare”, conclude il coautore dello studio, Ian McCallum, che guida il Novel Data Ecosystems for Sustainability Research Group presso IIASA.

Riferimento

Salk, C., Moltchanova, E., Vedi, L., Sturn, T., McCallum, I., Fritz, S. (2022). Quante persone hanno bisogno di classificare la stessa immagine? Un metodo per ottimizzare i contributi dei volontari nelle classificazioni geografiche binarie. PLOS ONE DOI: 10.1371/journal.pone.0267114

%d blogger hanno fatto clic su Mi Piace per questo: