Un pipeline de données GoodReads de bout en bout pour la construction de Data Lake, Data Warehouse et Analytics Platform.
GoodReads (Kaggle competition)
October 2019
to 2020
Student Project
Montréal
Canada - Québec
Les données sont capturées en temps réel à partir de l'API goodreads à l'aide de l'encapsuleur Goodreads Python.
Les données collectées à partir de l'API goodreads sont stockées sur le disque local et sont déplacées en temps opportun vers le Landing Bucket sur AWS S3.
Les travaux ETL sont écrits et planifiés dans le flux d'air pour s'exécuter toutes les 10 minutes.
Les technologies utilisées: Aws-s3, Aws-Redshift, Apache-spark, Aws-emr, Airflow-dag, Python
Assister un Directeur Administratif et Financier d'une PME qui doit fournir à son Conseil d'Administration un tableau de bord avec les indicateurs permettant de prendre les bonnes décisions pour engager l'avenir de l'entreprise.
De modéliser et créer un entrepôt de données contenant les informations du référentiel de données et des fichiers sur les devis.
De créer un rapport statique permettant de visualiser des données sur les devis. De fournir un cube multidimensionnel exploitable sous Excel et permettant d’analyser les devis sur différents axes. De réaliser une consolidation des données puis une extraction sous forme de fichier plat CSV.
De créer un rapport statique permettant de visualiser des données sur les devis. De fournir un cube multidimensionnel exploitable sous Excel et permettant d’analyser les devis sur différents axes. De réaliser une consolidation des données puis une extraction sous forme de fichier plat CSV.
Les technologies utilisées: SQL, Business Intelligence, Reporting, Tableau de bord, Informatique decisionelle(SSIS, SSAS, SSRS)