Un nuovo framework per i dati di web scraping per garantirne la validità per l’uso negli studi di marketing

I ricercatori dell’Università Erasmus di Rotterdam, dell’Università di Tilburg, dell’INSEAD e dell’Università di Oxford hanno pubblicato un nuovo articolo sul  Journal of Marketing  che propone un quadro metodologico incentrato sul miglioramento della validità dei dati web.

Lo studio, di prossima pubblicazione sul  Journal of Marketing,  si intitola ” Fields of Gold: Scraping Web Data for Marketing Insights ” ed è scritto da Johannes Boegershausen, Hannes Datta, Abhishek Borah e Andrew T. Stephen.

La recente sentenza del Nono Circuito in HiQ Labs v. LinkedIn sottolinea l’importanza di affrontare le sfide legali quando si utilizza il web scraping per raccogliere dati per la ricerca accademica. Sebbene possa essere consentito raccogliere informazioni da siti disponibili al pubblico, i ricercatori devono comunque essere cauti su come progettano il loro software di estrazione. Ad esempio, la raccolta di informazioni dai profili utente disponibili al pubblico in alcune giurisdizioni può innescare problemi di privacy e spinge i ricercatori ad anonimizzare i propri dati già durante la raccolta.

Mentre i ricercatori di marketing utilizzano sempre più i dati web, le sfide idiosincratiche e talvolta insidiose nella sua raccolta hanno ricevuto un’attenzione limitata. In che modo i ricercatori possono garantire che i set di dati generati tramite web scraping e API siano validi? Questo gruppo di ricerca ha sviluppato una nuova struttura che mette in evidenza come affrontare i problemi di validità richieda la considerazione congiunta di idiosincratiche questioni tecniche e legali/etiche.

Gli autori affermano che “Il nostro framework copre l’ampio spettro di problemi di validità che sorgono lungo le tre fasi della raccolta automatica di dati web per uso accademico: selezione delle fonti di dati, progettazione della raccolta ed estrazione dei dati. Nel discutere il quadro metodologico, offriamo un esempio di marketing stilizzato a scopo illustrativo. Forniamo anche raccomandazioni per affrontare le sfide che i ricercatori incontrano durante la raccolta di dati web tramite web scraping e API”.

L’articolo fornisce inoltre una revisione sistematica di oltre 300 articoli che utilizzano dati web pubblicati nelle prime cinque riviste di marketing. Utilizzando questa recensione, i ricercatori spiegano come i dati web abbiano avanzato il pensiero di marketing. Comprendere la ricchezza e la versatilità dei dati web è inestimabile per gli studiosi curiosi di integrarli nei loro programmi di ricerca.

I ricercatori interessati possono accedere al database sviluppato per questa recensione sul sito Web di accompagnamento all’indirizzo  https://web-scraping.org/.  Questo sito Web offre anche ulteriori utili risorse ed esercitazioni per la raccolta di dati Web tramite web scraping e API.

I ricercatori aggiungono: “Utilizziamo il nostro quadro metodologico e la nostra tipologia per portare alla luce nuovi e sottosfruttati ‘campi d’oro’ associati ai dati web. Cerchiamo di demistificare l’uso del web scraping e delle API e quindi facilitare un’adozione più ampia dei dati web in tutta la disciplina di marketing. La nostra sezione Future Research evidenzia nuove e creative vie di utilizzo dei dati web che includono l’esplorazione di fonti sottoutilizzate, la creazione di ricchi set di dati multi-sorgente e lo sfruttamento completo del potenziale delle API oltre l’estrazione dei dati”.

Articolo completo disponibile su: https://doi.org/10.1177/00222429221100750

%d