Collecte de données

Site:	MOOC OSINT FR
Cours:	🎓 MOOC OSINT-FR - Qu'est-ce que l'OSINT ?
Livre:	Collecte de données

Imprimé par:	Guest user
Date:	dimanche 23 novembre 2025, 18:06

Description

Ce module présente des techniques et outils pour l'extraction et la collecte de données en sources ouvertes.

Table des matières

1. Techniques d’extraction de données (web scraping basique)
2. Introduction à quelques outils gratuits
3. Démonstration pratique de collecte de données

1. Techniques d’extraction de données (web scraping basique)

Le web est un immense gisement de données.
Mais tout ce qui est visible par un navigateur n’est pas forcément facile à exploiter manuellement :

trop de pages à consulter,
informations dispersées,
contenu chargé dynamiquement…

👉 C’est là que le web scraping entre en jeu.

Le web scraping consiste à automatiser la collecte de données en naviguant sur les sites web de manière programmée ou semi-automatique, afin d’en extraire les informations qui vous intéressent.

Mais attention : c’est une technique puissante qui demande d’être maniée avec prudence et dans un cadre légal strict.

Pourquoi utiliser le web scraping en OSINT ?

Pour extraire rapidement de gros volumes de données non disponibles via une API.
Pour surveiller des évolutions de contenu sur un site donné.
Pour collecter des listes d’entités (entreprises, personnes, publications, dates…).
Pour documenter des structures de réseaux en analysant des répertoires en ligne.

En résumé : le web scraping est l’outil du praticien OSINT quand il faut passer à l’échelle.

Méthodes courantes

🧩 1️⃣ Extensions de navigateur

Pour débuter ou pour les cas simples, il existe des extensions qui permettent de "scraper en point and click".

Exemple :

Webscraper.io : extension Chrome permettant de :
- définir un plan de navigation (sitemap),
- sélectionner les éléments à extraire,
- lancer une collecte automatisée.

Avantages :

Facile à prendre en main.
Pas besoin de coder.

Limites :

Pas toujours adapté aux sites très dynamiques.
Moins flexible que le scraping programmatique.

🌐 2️⃣ Outils en ligne (no-code / low-code)

ParseHub, Octoparse et consorts offrent des interfaces visuelles pour configurer des "robots" de scraping.

Fonctionnalités typiques :

Navigation multi-pages.
Gestion des scrolls infinis.
Extraction de contenu dynamique (JavaScript).
Planification de scraping régulier.

Idéal pour :

Les utilisateurs non développeurs souhaitant automatiser des extractions complexes.

⚠️ Certains services gratuits ont des limitations de volume ou d’export.

🖥️ 3️⃣ Scripts en Python

Pour les cas les plus puissants et flexibles, le praticien OSINT expérimenté utilise :

BeautifulSoup → pour parcourir le code HTML et extraire les données.
Scrapy → framework complet de scraping pour des projets structurés.

Avantages :

Contrôle total sur la collecte.
Possibilité d’ajouter des règles de nettoyage, de formatage, de suivi.
Adapté à des collectes massives ou régulières.

exemple de code:

from bs4 import BeautifulSoup
import requests

url = "https://example.com"
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

for link in soup.find_all("a"):
print(link.get("href"))

Points de vigilance

👉 Le scraping n’est pas un "super-pouvoir illimité".
Il doit être pratiqué en respectant :

Les conditions d’utilisation du site (CGU) :
- Certains sites interdisent explicitement le scraping automatique.
- Le non-respect peut entraîner un blocage ou des poursuites.
Le cadre légal :
- Ne pas scraper de données personnelles en violation du RGPD.
- Ne pas scraper des contenus protégés par le droit d’auteur sans autorisation.
L’éthique professionnelle :
- Ne pas saturer les serveurs cibles (évitez les requêtes en boucle rapide).
- Ne pas collecter plus que nécessaire.

Bonnes pratiques

Identifier clairement ce que vous voulez collecter avant de scraper.
Tester vos scripts avec modération.
Respecter les règles du site (le fichier robots.txt est une indication technique utile, même si non juridiquement contraignante).
Documenter la provenance des données collectées.
Vérifier la qualité des données (le scraping peut introduire des erreurs).

En synthèse

Le web scraping est une compétence clé pour l’enquêteur OSINT :

il permet d’automatiser l’extraction d’informations,
il donne accès à des volumes de données inexploitables manuellement,
il nécessite une pratique rigoureuse et éthique.

"Un bon scraper est discret, précis, respectueux — et toujours plus curieux que bruyant." 🧑‍💻

2. Introduction à quelques outils gratuits

Quand on débute en OSINT, on pourrait croire que seules des plateformes onéreuses permettent d’atteindre un niveau professionnel.
👉 Faux. Il existe aujourd’hui une galaxie d’outils gratuits — ou en version Community — qui permettent d’obtenir d’excellents résultats.

Le praticien OSINT avisé sait choisir ses outils :

en fonction de la tâche,
en fonction de la cible,
en fonction de ses contraintes éthiques et légales.

Ce chapitre vous présente quelques indispensables, qui vous permettront déjà de réaliser des enquêtes OSINT profondes et méthodiques.

Pourquoi utiliser des outils dédiés ?

Gagner en efficacité → automatiser ce qui serait trop long manuellement.
Explorer plus loin → certaines connexions ne sont visibles que par analyse croisée.
Structurer l’information → bien visualiser un graphe de relations, un historique, une cartographie.

👉 Un bon outil ne remplace pas votre cerveau, mais il en démultiplie les capacités.

1️⃣ Web Scraper.io

Web Scraper.io est une extension Chrome permettant de configurer facilement des plans de scraping.

Avantages :

Interface conviviale → pas besoin de coder.
Permet de définir des "sitemaps" pour naviguer automatiquement.
Extraction de contenu structuré (textes, liens, images, tableaux).

Idéal pour :

Extraire des listings d’annuaires en ligne.
Collecter des listes de publications.
Automatiser la récupération de contenu répété sur plusieurs pages.

Limites :

Moins performant que des frameworks type Scrapy pour les sites très complexes ou très dynamiques.
Certaines protections anti-scraping peuvent bloquer l’outil.

Cas d’usage typique :
👉 Extraire une liste de conférenciers sur le site d’un événement, ou un annuaire professionnel public.

2️⃣ Maltego Community Edition (CE)

Maltego est un incontournable de l’OSINT pro.
Sa version Community gratuite (Maltego CE) est limitée en nombre de requêtes, mais suffisante pour beaucoup d’enquêtes.

Principales forces :

Cartographier les relations entre entités :
- noms de personnes,
- adresses email,
- domaines,
- adresses IP,
- comptes de réseaux sociaux.
Visualisation sous forme de graphes interactifs :
- Voir clairement les liens entre les différentes entités.
- Enrichir les noeuds avec de nouvelles données.
Grande extensibilité grâce aux transforms → modules qui permettent d’interroger automatiquement des bases de données tierces.

Cas d’usage typique :
👉 Cartographier l’écosystème numérique d’une entreprise, à partir d’un simple nom de domaine.

3️⃣ SpiderFoot OSS

SpiderFoot est une plateforme d’automatisation massive de la collecte OSINT.

Deux versions :

SpiderFoot OSS → open source, à installer localement.
SpiderFoot HX → version en ligne (payante).

Même en OSS :

Permet de lancer des analyses complètes sur une entité (domaine, IP, pseudo, email, nom).
Explore automatiquement de nombreuses sources :
- bases WHOIS,
- historiques DNS,
- fuites de données,
- réseaux sociaux,
- moteurs de recherche.

Particularité :
👉 SpiderFoot génère un rapport exhaustif et structuré, avec liens cliquables et évaluation des risques.

Cas d’usage typique :
👉 Réaliser un "profilage complet" d’un nom de domaine ou d’un alias en quelques minutes.

Bonnes pratiques dans l’usage des outils gratuits

1️⃣ Toujours commencer par comprendre ce que fait l’outil :
Un outil mal compris produit des faux positifs.

2️⃣ Ne pas en abuser :
Le fait qu’un outil soit "gratuit" ne signifie pas qu’il faille lancer des "scraps" agressifs.

3️⃣ Documenter vos recherches :
Gardez la traçabilité de ce que vous avez extrait, et comment.

4️⃣ Ne pas mélanger vie privée et enquêtes :
Utiliser des navigateurs / VM / comptes dédiés lors de l’utilisation de ces outils.

En synthèse

Les outils gratuits n’ont rien de "moins pro" — ce sont souvent les bases du kit OSINT du quotidien.
Ce qui fait la différence, c’est votre capacité à les utiliser intelligemment, avec rigueur et méthode.

"L’outil parfait n’existe pas. L’enquêteur avisé assemble les bons outils — et c’est cette boîte à outils qui fait sa force." 🧑‍💻🛠️

3. Démonstration pratique de collecte de données

L’OSINT n’est pas une discipline purement théorique : elle est profondément ancrée dans la pratique.
👉 Savoir où chercher, quels outils utiliser, c’est bien.
Mais encore faut-il savoir mettre en œuvre une démarche concrète de collecte.

Dans ce chapitre, nous allons illustrer une démarche simple de collecte de données, reproductible sur une grande variété de cibles.
Le but est de vous donner un cadre méthodologique que vous pourrez adapter à vos futures enquêtes.

Pourquoi une démonstration pratique ?

Pour passer du concept à l’action.
Pour comprendre comment les outils interagissent avec les données cibles.
Pour anticiper les éventuels pièges ou blocages techniques.
Pour intégrer de bonnes pratiques dès les premières phases de collecte.

👉 La collecte OSINT efficace repose sur une méthodologie claire et rigoureuse.

Démarche type : exemple simple

1️⃣ Identifier une page cible

Tout commence par le choix d’une source ouverte pertinente.

Exemples :

Un annuaire d’entreprises.
Un registre officiel.
Une liste publique de membres d’une association.
Une page de résultats d’un forum.

👉 Il est essentiel de vérifier en amont que la source est légalement accessible et que sa réutilisation est compatible avec le RGPD et les CGU du site.

2️⃣ Analyser la structure de la page

Avant de scraper quoi que ce soit, l’enquêteur OSINT doit comprendre comment l’information est présentée.

Utilisez les outils de votre navigateur :

Inspecteur HTML F12 (clic droit > "Inspecter" sur Chrome/Firefox).
Analysez les éléments HTML clés :
- balises <div>, <table>, <span>, <li>, <p>.
- attributs class, id, data-*.

👉 Cela permet de repérer les zones où les informations utiles sont contenues.

Conseil : documentez cette étape → cela facilitera la création d’un sitemap dans votre outil de scraping.

3️⃣ Utiliser un outil de scraping

Prenons ici l’exemple de Web Scraper.io, simple à utiliser pour les débutants.

Démarche :

Installez l’extension dans Chrome.
Créez un nouveau projet de scraping.
Définissez un sitemap pour indiquer comment naviguer dans les pages :
- ex : cliquer sur "page suivante", parcourir un tableau, extraire les informations par ligne.
Sélectionnez les éléments à extraire :
- ex : nom de l’entreprise, adresse, numéro de téléphone.

Lancez la collecte :

L’outil parcourt automatiquement les pages et stocke les données extraites.

👉 Résultat : vous obtenez un fichier brut (CSV, JSON…) que vous pouvez exploiter.

4️⃣ Organiser les données extraites

L’extraction brute ne suffit pas → il faut organiser les données.

Bonnes pratiques :

Nettoyer les champs (supprimer les espaces inutiles, normaliser les formats).
Structurer les données :
- en fichier CSV pour un traitement tableur.
- en base de données pour des analyses croisées plus poussées.

Exemple : injecter les données dans une base SQLite ou un tableur Google Sheets pour faciliter la manipulation.

👉 L’organisation des données conditionne leur exploitabilité en phase d’analyse.

Cibles potentielles pour la collecte OSINT

Cette démarche simple est applicable à de nombreuses cibles publiques :

Annuaires d’entreprises (Kbis, OpenCorporates…).
Forums thématiques (communautés professionnelles, techniques…).
Profils publics sur les réseaux sociaux (avec prudence et dans le respect des CGU).
Publications de presse (extraction de listes d’articles, de dates, d’auteurs).

Bonnes pratiques essentielles

⚠️ Toujours respecter :

Les conditions d’utilisation des sites.
Le droit applicable en matière de données personnelles.
L’éthique professionnelle :
- pas de scraping abusif.
- pas d’exploitation illégitime de données.
- pas de diffusion irresponsable des informations collectées.

👉 L’OSINT n’est pas une "course au volume" → c’est une recherche qualitative et traçable.

En synthèse

Cette démonstration montre que le scraping n’est pas réservé aux développeurs chevronnés.
Avec une bonne méthodologie et des outils adaptés, tout enquêteur OSINT peut rapidement mettre en place des collectes efficaces.

Mais il est crucial de :

comprendre la structure des sources,
utiliser les outils avec discernement,
organiser rigoureusement les données.

"En OSINT, ce n’est pas la vitesse de collecte qui compte, c’est la qualité des données et la rigueur du processus." 🧑‍💻