Una guida per prevenire il web scraping

Il co-fondatore e CEO di Fingerprint Dan Pinto approfondisce il brusio che circonda il web scraping, le sue implicazioni legali ed etiche e le strategie per le aziende per salvaguardare i propri dati dai bot di scraping.

Il data scraping, in particolare il web scraping, è nella mente dei leader tecnologici, dei regolatori e dei difensori dei consumatori. I leader di una dozzina di gruppi internazionali di controllo della privacy hanno inviato ai social media una dichiarazioneOpens a new window esortandoli a proteggere le informazioni degli utenti dai bot di scraping. Nel frattempo, X Corp (precedentemente nota come Twitter) ha citato in giudizio quattro persone senza nome per aver cancellato il suo sito. Google e OpenAI affrontano anche azioni legali per violazioni della privacy e del copyright legate al web scraping.

Lo scraping dei dati non è illegale. È un grande affare. Gli esperti prevedono che il valore di mercato del software di web scraping raggiungerà quasi 1,7 miliardi di dollari entro il 2030, rispetto ai 695 milioni di dollari del 2022. Lo scraping può essere utile, permettendoci di monitorare i prezzi dei voli o confrontare prodotti tra siti. Le aziende lo utilizzano per raccogliere ricerche di mercato o informazioni aggregate. I popolari modelli di linguaggio di grandi dimensioni (LLM) come Bard e ChatGPT vengono addestrati su dati raccolti.

Il web scraping esiste da molti anni. Allora perché è diventata una parola d’ordine che genera così tanta preoccupazione? E cosa possono fare le aziende per prevenirlo?

Cominciamo dalle basi. Il Web scraping utilizza in genere i bot per estrarre informazioni dai siti Web. La pratica ha molte applicazioni, da quelle utili a quelle famigerate.

Il web scraping è diverso dal web crawling. I motori di ricerca utilizzano i web crawler per indicizzare le pagine web e fornire risultati di ricerca agli utenti che seguono un collegamento alla fonte. Lo scraping dei dati implica l'estrazione dei dati dalla pagina e il loro utilizzo altrove. Per usare un'analogia: la scansione crea un elenco di libri della biblioteca da controllare. Raschiare copie dei libri da portare a casa.

Lo scraping AI, d’altro canto, entra in un’area grigia perché non restituisce valore al creatore del contenuto originale. Quanto più disconnesso è il flusso di valore dall’autore originale, tanto più immorale è lo scraping dei dati.

Per saperne di più: Combattere gli attacchi di phishing e di compromissione della posta elettronica aziendale

Probabilmente tutti abbiamo visto web scraping su siti di ricerca di viaggi, annunci immobiliari e aggregatori di notizie, tra molti altri. Tuttavia, la popolarità dell’intelligenza artificiale generativa sta portando in primo piano le preoccupazioni. Gli ingegneri addestrano questi modelli sui dati, comprese le informazioni personali e la proprietà intellettuale, recuperati dal web. Il LLM potrebbe replicare le informazioni proprietarie senza attribuire correttamente il creatore. Gli esperti ritengono che questi problemi di copyrightOpens a new window arriveranno alla Corte Suprema degli Stati Uniti.

Inoltre, gli scaper stanno diventando più avanzati. Anche se tecnicamente lo scraping non conta come una violazione dei dati, molti malintenzionati utilizzano le informazioni a fini malvagi, tra cui:

Anche i raschiatori animati da buone intenzioni creano effetti a catena. I bot consumano larghezza di banda durante ogni visita al sito Web, causando tempi di caricamento più lunghi, costi di hosting più elevati o interruzioni del servizio. E qualsiasi contenuto duplicato risultante potrebbe danneggiare l'ottimizzazione dei motori di ricerca.

I politici e le agenzie governative stanno attualmente valutando come mettere dei guardrail sui robot scraping. Tuttavia, recenti sentenze suggeriscono che le normative potrebbero garantire ai bot l’accesso a informazioni liberamente disponibili.

Indipendentemente dalle questioni etiche, le aziende possono decidere quali dati rendere disponibili.

Bloccare il 100% dei tentativi di scraping è impossibile. Invece, il tuo obiettivo dovrebbe essere quello di rendere più difficile per gli scraper l’accesso ai tuoi dati protetti. Ecco come.

I bot inviano molti segnali che gli utenti umani non inviano, inclusi errori, override di rete e incoerenze degli attributi del browser. L'intelligenza del dispositivo rileva questi segnali per distinguere potenziali raschiatori. I robot si comportano anche diversamente dagli umani. L'intelligenza del dispositivo aiuta a monitorare il comportamento dei visitatori per segnalare azioni sospette, come molti tentativi di accesso o richieste ripetute delle stesse informazioni.

Realisticamente, le aziende devono combinare diverse funzionalità di sicurezza per creare ostacoli sufficienti per i robot. Con la crescente sofisticazione dei raschiatori, le protezioni richiedono aggiornamenti frequenti per mantenerne l'efficacia.

Notizia