Python Automatisation d’un Pipeline ETL (web-scraping)

 

Technologies Utilisées :

  • BeautifulSoup – Analyse et extraction de contenu HTML

  • Requests – Requêtes HTTP pour le scraping

  • OS / Pathlib – Gestion des fichiers et dossiers

  • CSV – Export et manipulation de données

  • Git / GitHub – Gestion de versions et hébergement du code

Compétences Acquises:

  1. Configurer un environnement Python professionnel
  2. Extraire et structurer des données à partir d’un site web (scraping)
  3. Automatiser des tâches répétitives à l’aide de scripts Python
  4. Créer une pipeline ETL complète (Extract, Transform, Load)
  5. Exporter et nettoyer des données dans des fichiers CSV
  6. Gérer des fichiers et images téléchargées via code
  7. Utiliser Git et GitHub pour le contrôle de version
  8. Rédiger une documentation technique claire et structurée

 

 

Description

Contexte : Dans le cadre de ma formation OpenClassrooms en développement web, j’ai réalisé un projet visant à automatiser la collecte et l’analyse de données de marché pour une librairie en ligne fictive, Books Online.
L’objectif était de remplacer la veille concurrentielle manuelle — trop chronophage — par un programme Python capable d’extraire, transformer et charger (ETL) des données issues du site Books to Scrape.
Ce projet a permis de concevoir une application exécutable à la demande, capable de récupérer les prix, catégories, notes et images de centaines de livres et de les organiser automatiquement dans des fichiers CSV et des dossiers structurés.

Langages de Programmation: Python, Markdown (documentation technique)

Outils:  PyCharm, Git et GitHub, Terminal / ligne de commande, Environnement virtuel Python (venv), CSV & Fichier I/O, Markdown pour le README.md

Sierra Ripoche
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.