Collecte de données
3. Démonstration pratique de collecte de données
L’OSINT n’est pas une discipline purement théorique : elle est profondément ancrée dans la pratique.
👉 Savoir où chercher, quels outils utiliser, c’est bien.
Mais encore faut-il savoir mettre en œuvre une démarche concrète de collecte.
Dans ce chapitre, nous allons illustrer une démarche simple de collecte de données, reproductible sur une grande variété de cibles.
Le but est de vous donner un cadre méthodologique que vous pourrez adapter à vos futures enquêtes.
Pourquoi une démonstration pratique ?
-
Pour passer du concept à l’action.
-
Pour comprendre comment les outils interagissent avec les données cibles.
-
Pour anticiper les éventuels pièges ou blocages techniques.
-
Pour intégrer de bonnes pratiques dès les premières phases de collecte.
👉 La collecte OSINT efficace repose sur une méthodologie claire et rigoureuse.
Démarche type : exemple simple
1️⃣ Identifier une page cible
Tout commence par le choix d’une source ouverte pertinente.
Exemples :
-
Un annuaire d’entreprises.
-
Un registre officiel.
-
Une liste publique de membres d’une association.
-
Une page de résultats d’un forum.
👉 Il est essentiel de vérifier en amont que la source est légalement accessible et que sa réutilisation est compatible avec le RGPD et les CGU du site.
2️⃣ Analyser la structure de la page
Avant de scraper quoi que ce soit, l’enquêteur OSINT doit comprendre comment l’information est présentée.
Utilisez les outils de votre navigateur :
-
Inspecteur HTML F12 (clic droit > "Inspecter" sur Chrome/Firefox).
-
Analysez les éléments HTML clés :
-
balises
<div>,<table>,<span>,<li>,<p>. -
attributs
class,id,data-*.
-
👉 Cela permet de repérer les zones où les informations utiles sont contenues.
Conseil : documentez cette étape → cela facilitera la création d’un sitemap dans votre outil de scraping.
3️⃣ Utiliser un outil de scraping
Prenons ici l’exemple de Web Scraper.io, simple à utiliser pour les débutants.
Démarche :
-
Installez l’extension dans Chrome.
-
Créez un nouveau projet de scraping.
-
Définissez un sitemap pour indiquer comment naviguer dans les pages :
-
ex : cliquer sur "page suivante", parcourir un tableau, extraire les informations par ligne.
-
-
Sélectionnez les éléments à extraire :
-
ex : nom de l’entreprise, adresse, numéro de téléphone.
-
Lancez la collecte :
-
L’outil parcourt automatiquement les pages et stocke les données extraites.
👉 Résultat : vous obtenez un fichier brut (CSV, JSON…) que vous pouvez exploiter.
4️⃣ Organiser les données extraites
L’extraction brute ne suffit pas → il faut organiser les données.
Bonnes pratiques :
-
Nettoyer les champs (supprimer les espaces inutiles, normaliser les formats).
-
Structurer les données :
-
en fichier CSV pour un traitement tableur.
-
en base de données pour des analyses croisées plus poussées.
-
Exemple : injecter les données dans une base SQLite ou un tableur Google Sheets pour faciliter la manipulation.
👉 L’organisation des données conditionne leur exploitabilité en phase d’analyse.
Cibles potentielles pour la collecte OSINT
Cette démarche simple est applicable à de nombreuses cibles publiques :
-
Annuaires d’entreprises (Kbis, OpenCorporates…).
-
Forums thématiques (communautés professionnelles, techniques…).
-
Profils publics sur les réseaux sociaux (avec prudence et dans le respect des CGU).
-
Publications de presse (extraction de listes d’articles, de dates, d’auteurs).
Bonnes pratiques essentielles
⚠️ Toujours respecter :
-
Les conditions d’utilisation des sites.
-
Le droit applicable en matière de données personnelles.
-
L’éthique professionnelle :
-
pas de scraping abusif.
-
pas d’exploitation illégitime de données.
-
pas de diffusion irresponsable des informations collectées.
-
👉 L’OSINT n’est pas une "course au volume" → c’est une recherche qualitative et traçable.
En synthèse
Cette démonstration montre que le scraping n’est pas réservé aux développeurs chevronnés.
Avec une bonne méthodologie et des outils adaptés, tout enquêteur OSINT peut rapidement mettre en place des collectes efficaces.
Mais il est crucial de :
-
comprendre la structure des sources,
-
utiliser les outils avec discernement,
-
organiser rigoureusement les données.
"En OSINT, ce n’est pas la vitesse de collecte qui compte, c’est la qualité des données et la rigueur du processus." 🧑💻