
CREDITO
Foto di Chelsea Seeber per Virginia Tech
Oggi sarebbe difficile trovare un settore che non utilizzi i dati in qualche modo. Che si tratti di operatori sanitari che utilizzano i dati per segnalare il tasso di infezioni influenzali in un determinato stato, produttori che utilizzano i dati per comprendere meglio i tempi medi di produzione o persino un piccolo proprietario di un bar che sfoglia i dati di vendita per conoscere il latte più venduto del mese precedente, i dati può rivelare schemi e offrire spunti sul nostro comportamento quotidiano.
Tutti questi dati svolgono un ruolo fondamentale nel processo decisionale dell’intelligenza artificiale (AI). Inoltre, crea un serio bisogno per le persone di comprendere il valore dei dati in primo luogo. Comprendendo in che modo le singole fonti di dati contribuiscono ai processi decisionali basati sulla tecnologia, possiamo creare un’esperienza più efficace e migliore per tutti gli utenti di intelligenza artificiale.
Ad esempio, gli studi hanno dimostrato che il software di riconoscimento facciale prevalente funziona in modo meno affidabile nell’identificare donne e persone di colore rispetto agli uomini bianchi, riflettendo squilibri nei dati facciali che rappresentano popolazioni diverse. Misurare il valore dei dati ci consente di eliminare gli input che potrebbero contribuire a modelli distorti. Inoltre, comprendere il valore dei dati ci consente di assegnare prezzi adeguati alle fonti di dati, facilitando così la condivisione dei dati. Ciò è particolarmente importante per i settori in cui determinati dati sono difficili da ottenere o per le piccole imprese alle prese con un accesso limitato ai dati.
L’assistente professore Ruoxi Jia del Dipartimento di ingegneria elettrica e informatica di Bradley presso Virginia Tech ha ricevuto un premio Faculty Early Career Development (CAREER) della National Science Foundation (NSF) per studiare le teorie fondamentali e gli strumenti computazionali necessari per misurare il valore dei dati.
La sovvenzione quinquennale di $ 500.000 consentirà a Jia e al suo team di sviluppare tecniche di valutazione dei dati scalabili e affidabili che supportano l’acquisizione strategica dei dati e migliorano l’analisi dei dati basata sull’apprendimento automatico.
“In questo momento, c’è molta eccitazione per l’apprendimento automatico e l’intelligenza artificiale, soprattutto dopo l’emergere di ChatGPT”, ha affermato Jia. “Ma quello che c’è sotto il cofano sono molti dati. Questo è ciò che rende possibile questo tipo di macchina, ed è quello che puntiamo a migliorare”.
ChatGPT, un chatbot AI lanciato questo autunno, consente agli utenti di chiedere aiuto con cose come scrivere saggi, redigere piani aziendali, generare codice e persino comporre musica. Al 4 dicembre, ChatGPT contava già oltre 1 milione di utenti.
Open AI ha costruito il suo sistema di generazione automatica su un modello chiamato GPT 3, addestrato su miliardi di token. Questi token, utilizzati per l’elaborazione del linguaggio naturale, sono simili alle parole in un paragrafo. Per fare un confronto, il romanzo “Harry Potter e l’Ordine della Fenice” ha circa 250.000 parole e 185.000 gettoni. In sostanza, ChatGPT è stato addestrato su miliardi di punti dati, rendendo possibile questo tipo di macchina intelligente.
Jia ha sottolineato l’importanza della qualità dei dati e il modo in cui può influire sui risultati del machine learning.
“Se si inseriscono dati errati nell’apprendimento automatico, si otterranno risultati negativi”, ha affermato Jia. “Noi lo chiamiamo ‘spazzatura dentro, spazzatura fuori.’ Vogliamo ottenere una comprensione, in particolare una comprensione quantitativa, di quali dati sono più preziosi e quali sono meno preziosi ai fini della selezione dei dati.
L’importanza di dati più basati sulla qualità è stata notata dagli sviluppatori di ChatGPT quando hanno appena annunciato il rilascio di GPT-4. L’ultima tecnologia è “multimodale”, il che significa che immagini e messaggi di testo possono spronarla a generare contenuti.
Per sviluppare questo tipo di intelligenza artificiale è necessaria una grande quantità di dati, ma non tutti i dati sono open source o pubblici. Alcuni set di dati sono di proprietà di entità private e la privacy è coinvolta. Jia spera che in futuro possano essere introdotti incentivi monetari per aiutare ad acquisire questi tipi di set di dati e migliorare gli algoritmi di apprendimento automatico necessari in tutti i settori.
Il laureato dell’Università della California-Berkeley ha avuto conversazioni con Google Research e Sony AI Research, tra gli altri, che sono interessati ai vantaggi della ricerca. Jia spera che queste aziende adotteranno la tecnologia sviluppata e fungeranno da sostenitori della condivisione dei dati. La condivisione dei dati e l’adozione di algoritmi di apprendimento automatico migliorati andranno a vantaggio non solo delle industrie ma anche dei singoli consumatori. Ad esempio, se hai mai avuto una brutta esperienza con un chatbot del servizio clienti, hai riscontrato dati di bassa qualità e una progettazione scadente dell’algoritmo di apprendimento automatico.
Jia spera di utilizzare il suo background e la sua esperienza nel settore per migliorare queste interazioni basate sul Web per tutti. Da bambina in età scolare, a Jia sono sempre piaciute la matematica e le scienze, ma la sua decisione di entrare nel campo dell’ingegneria elettrica e informatica è nata dal suo desiderio di aiutare le persone.
“Entrambi i miei genitori sono medici. È stato fantastico crescere vedendoli aiutare i pazienti con una sorta di formula medica “, ha detto Jia. “Ecco perché ho scelto di studiare matematica e scienze. Puoi avere un impatto concreto. Sto usando un diverso tipo di formula per aiutare, ma mi piace che perseguire questa carriera mi abbia fatto sentire come se potessi fare la differenza nella vita di qualcuno.
Il premio CAREER è il premio più prestigioso della National Science Foundation per i docenti all’inizio della carriera con il potenziale per servire come modelli di ruolo accademici nella ricerca e nell’istruzione e per guidare i progressi nella missione della loro organizzazione. Nel corso di questo progetto, Jia ha dimostrato il suo desiderio di fungere da modello accademico per studenti laureati, universitari e persino K-12.
È una facoltà principale del Sanghani Center for Artificial Intelligence and Data Analytics , precedentemente noto come Discovery Analytics Center. Il centro ha più di 20 docenti e 120 studenti laureati, due dei quali stanno lavorando direttamente con Jia per condurre la ricerca pianificata.
Jia prevede di implementare un piano educativo che fornisca agli studenti le competenze per sfruttare i dati per migliorare il processo decisionale che ha un impatto sulla società. Questo piano educativo inizierà con nuovi corsi di apprendimento automatico per studenti universitari nei primi due anni del progetto e si concentrerà sull’impegno K-12 negli anni dal terzo al quinto.
“C’era un famoso statistico di nome John Tukey”, ha detto Jia. “Aveva un detto secondo cui la cosa migliore dell’essere uno statistico è che puoi giocare nel cortile di tutti. L’apprendimento automatico è molto simile. Tocca molte aree del lavoro dei miei colleghi, quindi è facile per me creare connessioni e collaborare con altre persone. Sento davvero che la mia ricerca è un privilegio. È un privilegio lavorare in quest’area che interessa a molte persone”.
Leave a Reply