Brève histoire des techniques anti-scraping et de leur utilisation par les propriétaires de sites web
Les systèmes anti-bot ont évolué du simple blocage d'IP à l'empreinte digitale sophistiquée. Voici comment nous en sommes arrivés là, comment nous y faisons face, et vers où cela se dirige.
Le web regorge de données dont les organisations ont légitimement besoin. Veille tarifaire, surveillance de marché, analyse concurrentielle. Les personnes qui contrôlent ces données veulent de plus en plus vous empêcher d’y accéder.
Les systèmes anti-bot comme DataDome analysent des dizaines de signaux pour décider si une visite doit être autorisée. Avec la complexification des architectures backend et l’augmentation des coûts d’hébergement, il existe une incitation financière directe à bloquer les bots. Depuis la sortie de ChatGPT fin 2022, le trafic bot a explosé, et avec lui la pression sur les propriétaires de sites pour riposter. Résultat : les technologies anti-bot sont désormais omniprésentes et deviennent plus agressives chaque année.
L’ère du blocage IP
Dans les années 2010, alors que le web scraping était largement utilisé par les organisations pour surveiller, accéder et interagir avec des données, la principale méthode de détection des bots reposait sur leur adresse IP. Le signal le plus simple était le volume : les bots génèrent plus de trafic que les utilisateurs humains. Si beaucoup de trafic provient d’une seule adresse IP, le bot est facile à repérer. Prenons le cas d’usage de la surveillance quotidienne des prix sur un site de 20 000 références : cela représente bien plus de requêtes que n’en ferait même un utilisateur humain très motivé. Les requêtes avec des chaînes user-agent suspectes ou manquantes étaient également bloquées sans difficulté.
La question posée aux systèmes anti-bot est la suivante : ce trafic provient-il d’un humain ou d’un bot ? Étant donné que le trafic légitime a de la valeur, un certain niveau de tolérance devrait s’appliquer : en cas de doute, il faut présumer qu’il s’agit d’un humain. Autrefois, les sites appliquaient une tolérance assez large, partant du principe que bloquer ne serait-ce que 1 % des visiteurs légitimes représenterait une perte de revenus inacceptable. La tendance s’est depuis orientée vers un blocage plus agressif. Un grand distributeur français de bricolage, par exemple, est connu pour bloquer des volumes importants d’utilisateurs légitimes susceptibles d’acheter, prétendument dans le but de réduire le coût de diffusion de contenu aux bots.
La contremesure la plus répandue contre la détection repose sur des pools d’adresses IP accessibles via des proxies web. Différentes qualités d’adresses IP sont disponibles. Les IP de datacenter sont peu coûteuses et idéales pour accéder à des sites web faiblement protégés. Les IP résidentielles sont fournies par les FAI ou par des utilisateurs individuels contre de petites incitations, et parfois par des botnets illégitimes fonctionnant sur des ordinateurs piratés, des routeurs domestiques ou d’autres appareils IoT (comme le botnet IPIDEA récemment démantelé par Google). Parce qu’elles ressemblent à de vrais utilisateurs, elles sont presque universellement acceptées par les systèmes anti-bot. Les IP mobiles, plus onéreuses, sont souvent considérées comme la Rolls-Royce des adresses IP de scraping.
L’ère de l’empreinte digitale
Au cours des dernières années, les techniques anti-bot ont à la fois évolué et se sont largement répandues. Alors que les adresses IP résidentielles sont devenues bon marché et largement disponibles, passant d’environ 15 $ à 3 $ par Go sur une période d’environ 10 ans, le blocage basé sur l’IP a perdu une grande partie de son efficacité. Les systèmes de détection ont dû chercher ailleurs, se tournant vers le navigateur web lui-même à travers un ensemble de techniques collectivement connues sous le nom de fingerprinting.
Prenons un scraper qui a résolu le problème des adresses IP. Il alterne entre des proxies résidentiels, varie le timing de ses requêtes et passe les vérifications de base. Puis il rencontre un site utilisant la détection d’empreintes digitales. Le site interroge discrètement le navigateur : quel GPU affiche cette page ? Quelles polices sont installées ? À quoi ressemble un élément canvas une fois dessiné ? Quelle sortie produit l’API AudioContext ? Le scraper exécute Chrome en mode headless sur une VM de data center. Il n’a pas de vrai GPU, quelques polices par défaut, et une fenêtre qui n’a jamais été redimensionnée par une main humaine. Chaque réponse qu’il donne est fausse, ou plutôt, trop parfaite. En quelques millisecondes, la requête est signalée.
Voilà ce qui rend le fingerprinting si efficace. Si les scrapers peuvent acheter des proxys résidentiels et des services de résolution de captchas prêts à l’emploi, le fingerprinting les oblige à résoudre un problème plus complexe : faire paraître leurs navigateurs réels. Les opérateurs préfèrent des navigateurs uniformes et headless à grande échelle, mais le fingerprinting exige de la variété. Chaque instance nécessite une combinaison plausible de signaux matériels, et c’est très difficile à simuler lorsque le serveur sous-jacent possède un GPU, une pile de pilotes et une configuration OS complètement différents d’un véritable ordinateur portable.
Le scraping devient plus difficile
L’effet cumulatif de ces défenses est mesurable. Dans l’ensemble du secteur, les taux de réussite du scraping diminuent. Plus de missions nécessitent une intervention manuelle qu’il y a deux ou trois ans. Nous l’entendons de la part de clients qui gèrent une partie de leur propre scraping et d’autres acteurs du domaine. Des cibles qui étaient accessibles avec des outils basiques nécessitent désormais une ingénierie soignée. Des cibles qui nécessitaient une ingénierie soignée exigent maintenant parfois une infrastructure dédiée.
Ce n’est pas une baisse temporaire. Les défenses décrites ci-dessus se cumulent. Chaque nouvelle couche, analyse IP, fingerprinting, détection comportementale, augmente le coût de base d’accès. Et la prochaine génération de techniques l’augmentera encore davantage.
Les 5 prochaines années en techniques anti-bot
L’environnement évolue rapidement. Quelques prédictions de Stratalis.
Les Private Access Tokens deviendront un obstacle majeur. Apple a introduit les Private Access Tokens (PAT) en 2022. Ces tokens permettent à un appareil de prouver qu’il est réel, possédé par une personne réelle et exécute un logiciel légitime, le tout sans révéler son identité. Le serveur ne voit jamais qui vous êtes. Il sait simplement que vous n’êtes pas un bot. Pour les scrapers, c’est un problème. On ne peut pas simuler un PAT sans accès à l’enclave sécurisée d’un véritable appareil. À mesure que l’adoption s’étendra au-delà de Safari et de l’écosystème Apple vers d’autres navigateurs et plateformes, les PAT pourraient devenir une barrière standard rendant le trafic synthétique beaucoup plus difficile à produire.
Plusieurs fournisseurs d’adresses IP ne parviendront pas à contrer les nouvelles techniques de détection des proxys et disparaîtront en conséquence. Ce qui est détecté, ce ne sont pas les adresses IP elles-mêmes, mais les proxys qui les servent. Nous nous attendons à ce qu’au moins un grand acteur anti-bot déploie de nouvelles mesures de détection d’un seul coup, bloquant une part importante du trafic proxy du jour au lendemain. Les fournisseurs qui ne l’auront pas vu venir verront leurs réseaux devenir subitement inutilisables, et leurs modèles économiques avec eux.
De larges pools d’appareils réels deviendront nécessaires pour accéder à la plupart des sites à grande échelle. Nous pensons que l’avenir obligera les opérateurs à constituer de vastes pools d’appareils hétérogènes pour rester discrets. Lorsque le fingerprinting, les PAT et la détection de proxy convergeront, la seule façon fiable de paraître humain sera d’utiliser réellement du matériel grand public avec des installations OS authentiques, de vrais navigateurs et une attestation d’appareil légitime. Cela transforme la discipline d’un problème purement logiciel en un problème de logistique matérielle.
Comment nous gérons les anti-bots chez Stratalis
Les systèmes anti-bot sont très inefficaces pour empêcher un auteur de bot un tant soit peu déterminé d’obtenir des données d’un site. Mais ils sont très efficaces pour rendre l’accès à grande échelle non rentable.
Notre approche relève de la précision chirurgicale et dépend des exigences de nos clients. L’objectif est d’accéder aux données à un coût qui rend l’opération souhaitée économiquement viable. Vous voulez surveiller vos concurrents, mais pas avec un budget qui éclipse tout bénéfice potentiel.
La première couche de gestion des anti-bots est une infrastructure robuste qui fait tout correctement : gestion des sessions, traitement des cookies, cohérence de l’empreinte TLS, ordre correct des en-têtes et timing réaliste des requêtes. Négliger ces fondamentaux est le moyen le plus rapide d’être signalé. Bien les maîtriser signifie que la plupart des requêtes ne déclenchent jamais d’inspection plus approfondie.
La deuxième couche consiste à traiter les requêtes vers les sites web comme une ressource rare à optimiser. Pouvons-nous obtenir les mêmes données avec moins de requêtes ? Notre client a-t-il besoin de rafraîchir toutes les données à la même fréquence, ou existe-t-il un ordre d’importance qui nous permet de fournir 95 % de la valeur avec un cinquième du trafic ?
La troisième couche devient spécifique à la cible. Un expert en web scraping examine les défenses actives, les teste et cherche l’ensemble de techniques le moins coûteux qui soit efficace : sélection du pool de proxys, navigateur sans interface ou avec interface, pool d’ordinateurs hôtes, et plus encore. Il cherche également comment combiner des options plus coûteuses avec des options moins coûteuses dans la même mission.
Parallèlement, nous prenons notre mission de R&D au sérieux et surveillons constamment le paysage anti-bot pour construire des réponses plus sophistiquées.
Où cela vous mène
Si vous gérez votre propre scraping, les coûts de maintenance augmentent et continueront d’augmenter. Les pipelines qui fonctionnaient de manière fiable l’année dernière nécessitent plus d’attention cette année. L’effort d’ingénierie requis pour garder une longueur d’avance sur la détection croît plus rapidement que ce que la plupart des équipes peuvent absorber en parallèle de leur travail principal.
Si vous externalisez le scraping, la question n’est plus de savoir si votre prestataire peut obtenir les données aujourd’hui. C’est de savoir s’il pourra encore le faire l’année prochaine, quand les PAT seront généralisés, que les réseaux de proxys se raréfieront et que le fingerprinting disposera d’une nouvelle génération de signaux à vérifier. Les prestataires qui traitent le scraping comme une commodité seront les premiers à perdre l’accès. Ceux qui le traitent comme une discipline s’adapteront.
C’est le pari que nous avons fait chez Stratalis, et nous comptons bien le tenir.