Mes compétences :
Python Programming
Visual Basic for Applications
SQL
Data Mining
SAS Statistical Package
MongoDB
Business Objects
Python
R
Entreprises
Groupe OPEN
- Consultant Data Scientist
2016 - 2016Dans le cadre d'un projet interne pour le groupe Open, proposer une solution permettant d’accélérer le traitement des tickets d’incidents.
- Etat de l'art : Existence de logiciel de service management, Logiciels se présentant comme une interface web, Proposition d'une solution allant au-delà de gestion et statistiques descriptives.
- Extraction de features python (nltk).
- Textmining sur les commentaires en vue d'une segmentation des tickets de centre de service.
- Textmining, Analyse de sentiment, TFIDF. (R, Python)
- Importation base de données sur le clustet Elasticsearch
- Identification des principales mots clés par documents avec Python
- Création d’une base de données recueillant les informations de chaque ticket d’incidents.
- TF-IDF pour ressortir les mots les plus utiles.
- Analyse descriptive de l'ensemble de l'échantillon (Tableau Software)
- Modélisation et prévisions du temps entre les différentes étapes de traitements d'un temps.
Outils utilisés : R(rvest, tm), Rstudio, Python(Numpy, Scikit-Learn, Pandas), Spark, Hadoop.
Equipes : Quatre Data Scientist.
Data Visualisation :Tableau Software, ElasticSearch(Json), Kibana, Cartodb. R(ggplot, ggplot2)
Groupe OPEN
- Consultant Data Scientist
2016 - 2016Analyse de données bancaires : Data Visualisation pour BNP security services
* Traitement de données R, Python ;
* Data Mining et stockage dans ElasticSearch, visualisation avec Kibana ;
* Mise en œuvre de rapports de données Tableau Software, CartoDB.
Analyse de données pour Mutuelle social agricole : Proposer une solution permettant d'accélérer le traitement des tickets d'incidents.
* Extraction de features python(nltk) ;
* Text mining sur les commentaires en vue d'une segmentation des tickets de centre de service ;
* Text mining, Analyse de sentiments, TFIDF
Projet de mémoire (en cours) pour la certification Big Data de Centrale Supélec : Visualisation objets perdu de la SNCF en temps réel.
* Nettoyage / pré-traitements via R, Python ;
* Création carte avec python (numpy, pandas, leaflet, folium) ;
* Classification des objets types (avec MlLib) et sur des échantillons (avec Scikit-learn) ;
* Visualisation avec Ggplot. ;
Creteil2014 - 2015Master 2 MASERATI (Méthodes Appliquées de la Statistique & de l'Econométrie pour la Recherche, l'Analyse & le Traitement de l'Information)
Econométrie : SériesTemporelles (Modèles ARIMA, ARIMAX, VAR, ARCH, GARCH)
Econométrie des variables qualitatives (Modèles Probit, Tobit)
Econométrie semi et non paramétrique, Bootstrap et Simulation Monte Carlo,
Données de Panel, Modèles de Durées, Méthodes de Scoring, Bootstrap et Simulation
Statistique: Analyse de données (ACP, ACM, ACF), Techniques de classification, Datamining
Technique