Breve storia delle tecniche anti-scraping e del loro utilizzo da parte dei proprietari di siti web
I sistemi anti-bot si sono evoluti dal semplice blocco IP al sofisticato fingerprinting. Ecco come siamo arrivati qui, come lo gestiamo e dove stiamo andando.
Il web è pieno di dati di cui le organizzazioni hanno legittimamente bisogno. Analisi dei prezzi, monitoraggio del mercato, analisi competitiva. Le persone che controllano questi dati non vogliono che tu li abbia.
I sistemi anti-bot come DataDome analizzano decine di segnali per decidere se consentire una visita. Con l’aumentare della complessità delle architetture backend e dei costi di hosting, esiste un incentivo economico diretto a bloccare i bot. Dal rilascio di ChatGPT alla fine del 2022, il traffico bot è esploso, e con esso la pressione sui proprietari dei siti per reagire. Il risultato: le tecnologie anti-bot sono ora diffuse ovunque e diventano più aggressive ogni anno.
L’era del blocco IP
Negli anni 2010, quando il web scraping è diventato ampiamente utilizzato dalle organizzazioni per monitorare, accedere e interagire con i dati, il modo principale per rilevare i bot era il loro indirizzo IP. Il segnale più semplice era il volume: i bot generano più traffico degli utenti umani. Se molto traffico proviene da un singolo indirizzo IP, il bot è facile da individuare. Consideriamo il caso d’uso del monitoraggio dei prezzi ogni giorno su un sito web con 20.000 SKU: si tratta di un volume di richieste molte volte superiore a quello che farebbe anche un utente umano molto motivato. Anche le richieste con stringhe user-agent sospette o mancanti venivano banalmente bloccate.
La domanda posta ai sistemi anti-bot è: questo traffico proviene da un essere umano o da un bot? Poiché il traffico legittimo è prezioso, dovrebbe applicarsi un certo livello di tolleranza: in caso di dubbio, si dovrebbe presumere che si tratti di un essere umano. I siti erano soliti mantenere questa tolleranza piuttosto ampia, partendo dal presupposto che bloccare anche solo l'1% dei visitatori legittimi avrebbe significato una perdita di fatturato inaccettabile. Da allora la tendenza si è spostata verso un blocco più aggressivo. Un grande rivenditore francese di fai-da-te, per esempio, è noto per bloccare quantità significative di utenti legittimi, potenzialmente paganti, presumibilmente nel tentativo di ridurre i costi di distribuzione dei contenuti ai bot.
La contromisura più utilizzata contro il rilevamento è stata l’uso di pool di indirizzi IP resi accessibili tramite proxy web. Sono disponibili varie qualità di indirizzi IP. Gli IP di data center sono economici e ideali per accedere a siti web con protezioni leggere. Gli IP residenziali sono forniti dagli ISP o da singoli utenti dietro piccoli incentivi, e talvolta da botnet illegittime in esecuzione su computer piratati, router domestici o altri dispositivi IoT (come la botnet IPIDEA recentemente smantellata da Google). Poiché appaiono come utenti reali, vengono accettati quasi universalmente dai sistemi anti-bot. I più costosi IP mobile sono spesso considerati la Rolls-Royce degli indirizzi IP per lo scraping.
L’era del fingerprinting
Negli ultimi anni, le tecniche anti-bot si sono evolute ed sono diventate più diffuse. Con gli indirizzi IP residenziali diventati economici e facilmente disponibili, passando da circa 15$ a 3$ per GB nell’arco di circa 10 anni, il blocco basato su IP ha perso gran parte della sua efficacia. I sistemi di rilevamento sono stati costretti a guardare altrove, rivolgendosi al browser web stesso attraverso una serie di tecniche collettivamente note come fingerprinting.
Considera uno scraper che ha risolto il problema degli IP. Ruota attraverso proxy residenziali, varia i tempi delle richieste e supera i controlli di base. Poi arriva su un sito che utilizza il rilevamento delle impronte digitali. Il sito interroga silenziosamente il browser: quale GPU sta renderizzando questa pagina? Quali font sono installati? Come appare un elemento canvas quando viene disegnato? Cosa restituisce l’API AudioContext? Lo scraper sta eseguendo Chrome headless su una VM di un data center. Non ha una GPU reale, ha solo una manciata di font predefiniti e un viewport che non è mai stato ridimensionato da una mano umana. Ogni risposta che fornisce è sbagliata, o meglio, troppo perfetta. In pochi millisecondi, la richiesta viene segnalata.
Questo è ciò che rende il fingerprinting così efficace. Mentre gli scraper possono acquistare proxy residenziali e servizi di risoluzione CAPTCHA già pronti, il fingerprinting li costringe a risolvere un problema più complesso: far sembrare reali i loro browser. Gli operatori preferiscono browser headless uniformi su larga scala, ma il fingerprinting richiede varietà. Ogni istanza necessita di una combinazione plausibile di segnali hardware, ed è molto difficile da falsificare quando il server sottostante ha una GPU, uno stack di driver e una configurazione del sistema operativo completamente diversi da quelli di un laptop reale.
Lo scraping sta diventando più difficile
L’effetto cumulativo di queste difese è misurabile. In tutto il settore, i tassi di successo dello scraping sono in calo. Più operazioni richiedono intervento manuale rispetto a due o tre anni fa. Lo sentiamo dai clienti che gestiscono in parte il proprio scraping e da altri attori del settore. Target che prima erano accessibili con strumenti di base ora richiedono un’ingegneria attenta. Target che richiedevano un’ingegneria attenta ora a volte richiedono un’infrastruttura dedicata.
Non si tratta di un calo temporaneo. Le difese descritte sopra si stanno accumulando. Ogni nuovo livello, analisi degli IP, fingerprinting, rilevamento comportamentale, aumenta il costo base di accesso. E la prossima generazione di tecniche lo aumenterà ulteriormente.
I prossimi 5 anni nelle tecniche anti-bot
L’ambiente sta evolvendo rapidamente. Alcune previsioni da Stratalis.
I Private Access Token diventeranno un ostacolo significativo. Apple ha introdotto i Private Access Token (PAT) nel 2022. Questi token permettono a un dispositivo di dimostrare di essere reale, posseduto da una persona reale e di eseguire software legittimo, il tutto senza rivelare l’identità. Il server non vede mai chi sei. Sa solo che non sei un bot. Per gli scraper, questo è un problema. Non puoi falsificare un PAT senza accesso al secure enclave di un dispositivo reale. Man mano che l’adozione si diffonderà oltre Safari e l’ecosistema Apple ad altri browser e piattaforme, i PAT potrebbero diventare un controllo standard che renderà molto più difficile produrre traffico sintetico.
Diversi provider di indirizzi IP non riusciranno a rispondere alle nuove tecniche di rilevamento dei proxy e spariranno di conseguenza. Ciò che viene rilevato non sono gli indirizzi IP in sé, ma i proxy che li servono. Prevediamo che almeno un importante operatore anti-bot implementerà nuove misure di rilevamento tutte in una volta, bloccando una quota rilevante del traffico proxy da un giorno all’altro. I provider che non l’avranno visto arrivare troveranno le loro reti improvvisamente inutilizzabili, e i loro modelli di business insieme a esse.
Grandi pool di dispositivi reali diventeranno necessari per accedere alla maggior parte dei siti su larga scala. Crediamo che il futuro richiederà agli operatori di costruire grandi pool di dispositivi eterogenei per rimanere invisibili. Quando fingerprinting, PAT e rilevamento dei proxy convergeranno, l’unico modo affidabile per sembrare umani sarà effettivamente essere in esecuzione su hardware consumer reale con installazioni OS genuine, browser reali e attestazione autentica del dispositivo. Questo sposta la disciplina da un problema puramente software a un problema di logistica hardware.
Come gestiamo gli anti-bot in Stratalis
I sistemi anti-bot sono molto inefficaci nel fermare un autore di bot anche solo minimamente determinato dall’estrarre dati da un sito. Ma sono molto efficaci nel rendere non economico l’accesso su larga scala.
Il nostro approccio è di precisione chirurgica e dipende dai requisiti dei nostri clienti. L’obiettivo è accedere ai dati a un costo che renda economicamente sostenibile l’operazione desiderata. Vuoi monitorare i tuoi concorrenti, ma non con un budget che eclissa qualsiasi potenziale beneficio.
Il primo livello di gestione degli anti-bot è un’infrastruttura robusta che fa tutto correttamente: gestione delle sessioni, gestione dei cookie, coerenza dell’impronta digitale TLS, ordinamento corretto delle intestazioni e tempistica realistica delle richieste. Sbagliare queste basi è il modo più veloce per essere segnalati. Farle bene significa che la maggior parte delle richieste non attiva mai un’ispezione più approfondita.
Il secondo livello consiste nel trattare le richieste ai siti web come una risorsa scarsa da ottimizzare. Possiamo ottenere gli stessi dati con meno accessi? Il nostro cliente ha bisogno di aggiornare tutti i dati alla stessa frequenza, o c’è un ordine di importanza che ci permette di fornire il 95% del valore con un quinto del traffico?
Il terzo livello diventa specifico per il target. Un web scraper esperto esamina le difese attive, le testa e cerca l’insieme più economico di tecniche efficaci: selezione del pool di proxy, browser headless vs headful, pool di computer host e altro. Cercano anche come combinare opzioni più costose con quelle meno costose nella stessa missione.
Allo stesso tempo, prendiamo seriamente la nostra missione di R&D e monitoriamo costantemente il panorama anti-bot per costruire risposte più sofisticate.
Dove ti lascia tutto questo
Se gestisci il tuo scraping, i costi di manutenzione stanno aumentando e continueranno ad aumentare. Le pipeline che funzionavano in modo affidabile l’anno scorso richiedono più attenzione quest’anno. Lo sforzo tecnico necessario per restare un passo avanti rispetto ai sistemi di rilevamento cresce più velocemente di quanto la maggior parte dei team possa assorbire insieme al proprio lavoro principale.
Se esternalizzi lo scraping, la domanda non è più se il tuo fornitore può ottenere i dati oggi. È se sarà ancora in grado di farlo l’anno prossimo, quando i PAT saranno diffusi, le reti di proxy si assottiglieranno e il fingerprinting avrà un’altra generazione di segnali da controllare. I fornitori che trattano lo scraping come una commodity saranno i primi a perdere l’accesso. Quelli che lo trattano come una disciplina si adatteranno.
Questa è la scommessa che abbiamo fatto in Stratalis, ed è una che siamo pronti a continuare a fare.