Python Automatisation d’un Pipeline ETL (web-scraping)
Technologies Utilisées :
BeautifulSoup – Analyse et extraction de contenu HTML
Requests – Requêtes HTTP pour le scraping
OS / Pathlib – Gestion des fichiers et dossiers
CSV – Export et manipulation de données
- Git / GitHub – Gestion de versions et hébergement du code
Compétences Acquises:
- Configurer un environnement Python professionnel
- Extraire et structurer des données à partir d’un site web (scraping)
- Automatiser des tâches répétitives à l’aide de scripts Python
- Créer une pipeline ETL complète (Extract, Transform, Load)
- Exporter et nettoyer des données dans des fichiers CSV
- Gérer des fichiers et images téléchargées via code
- Utiliser Git et GitHub pour le contrôle de version
- Rédiger une documentation technique claire et structurée
Description
Books Online
25 avril 2025
Contexte : Dans le cadre de ma formation OpenClassrooms en développement web, j’ai réalisé un projet visant à automatiser la collecte et l’analyse de données de marché pour une librairie en ligne fictive, Books Online.
L’objectif était de remplacer la veille concurrentielle manuelle — trop chronophage — par un programme Python capable d’extraire, transformer et charger (ETL) des données issues du site Books to Scrape.
Ce projet a permis de concevoir une application exécutable à la demande, capable de récupérer les prix, catégories, notes et images de centaines de livres et de les organiser automatiquement dans des fichiers CSV et des dossiers structurés.
Langages de Programmation: Python, Markdown (documentation technique)
Outils: PyCharm, Git et GitHub, Terminal / ligne de commande, Environnement virtuel Python (venv), CSV & Fichier I/O, Markdown pour le README.md