Python Automatisation d’un Pipeline ETL (web-scraping)

Technologies Utilisées :

BeautifulSoup – Analyse et extraction de contenu HTML
Requests – Requêtes HTTP pour le scraping
OS / Pathlib – Gestion des fichiers et dossiers
CSV – Export et manipulation de données
Git / GitHub – Gestion de versions et hébergement du code

Compétences Acquises:

Configurer un environnement Python professionnel
Extraire et structurer des données à partir d’un site web (scraping)
Automatiser des tâches répétitives à l’aide de scripts Python
Créer une pipeline ETL complète (Extract, Transform, Load)
Exporter et nettoyer des données dans des fichiers CSV
Gérer des fichiers et images téléchargées via code
Utiliser Git et GitHub pour le contrôle de version
Rédiger une documentation technique claire et structurée

Description

Books Online
GitHub
Books To Scrape
25 avril 2025

Contexte : Dans le cadre de ma formation OpenClassrooms en développement web, j’ai réalisé un projet visant à automatiser la collecte et l’analyse de données de marché pour une librairie en ligne fictive, Books Online.
L’objectif était de remplacer la veille concurrentielle manuelle — trop chronophage — par un programme Python capable d’extraire, transformer et charger (ETL) des données issues du site Books to Scrape.
Ce projet a permis de concevoir une application exécutable à la demande, capable de récupérer les prix, catégories, notes et images de centaines de livres et de les organiser automatiquement dans des fichiers CSV et des dossiers structurés.

Langages de Programmation: Python, Markdown (documentation technique)

Outils: PyCharm, Git et GitHub, Terminal / ligne de commande, Environnement virtuel Python (venv), CSV & Fichier I/O, Markdown pour le README.md