Menu

Thomas GIRAULT

RENNES

En résumé

Depuis 2003, la problématique générale mes recherches s'inscrit dans les domaines du traitement automatique des langues (TAL), de l'ingénierie des connaissances et de l'apprentissage artificiel. J'oriente actuellement ces travaux autour de la thématique du Big Data.

Depuis avril 2013, je suis chargé du développement d'outils d'analyse statistique de l'ensemble des requêtes saisies sur pagesjaunes.fr. Il s'agit d'étudier le comportement (web analyse) et le lexique (text mining) adoptés par ses utilisateurs en ayant l'objectif d'améliorer la pertinence du moteur de recherche.

Mes travaux sont détaillés sur mon site Web :
http://thomas.girault.fr
http://thomas.girault.free.fr/cv_thomas_girault.pdf


Compétences en informatique
- Programmation orientée objet : C++, Java, Python
- Big Data : Hadoop, Hive, Pig, Spark, Elastic Search
- Parallélisme et multithreading : Java et C Posix
- Web : Php, XML, HTML5/CSS, JavaScript, Node.js, Flex/ActionScript
- Bases de données : PostgreSQL, PL/PGSQL, PostGIS, MySQL
- Autres langages : Scala, Perl, Prolog, Haskell, Scheme, Lisp, Shell, Pure Data
- Divers : Programmation et visualisation scientifique (Numpy, Pandas, Scikit-learn, notions en Matlab et R)
- Creative coding : OpenFrameworks, Processing, Kinect, Blender, Arduino
- Administration et programmation système (Linux, Windows, Hackintosh)


Langues
- Anglais : bonne compréhension et communication à l'oral, expérience de l'écriture académique
- Notions élémentaires en allemand, japonais et indonésien
- Plus d’une quinzaine de séjours à l’étranger dont une année universitaire au Royaume Uni

Mes compétences :
Processing
JAVA
Python
C++
Postgresql
PHP
Text mining
Machine Learning
Traitement automatique des langues
Bases de données
Apprentissage automatique
Pig
Hive
Hadoop
OpenFrameworks
Elasticsearch
Apache Spark
Scala

Entreprises

  • Pagesjaunes.fr - Ingénieur Big Data

    2013 - maintenant
  • Equipe PILGRIM (IRISA, Université de Rennes 1) - Ingénieur de recherche indépendant

    2011 - 2012
  • Université Catholique de l'Ouest (UCO), Guingamp - Enseignement universitaire

    2007 - 2008 Deux semestres d’enseignement (50 heures : CM+TD+TP)
    Deuxième année de licence mathématiques et informatique
    « Programmation orientée objet avancée » (multithreading en Java, génie logiciel avec UML)}
  • Orange Labs Lannion - Ingénieur R&D

    Paris 2005 - 2008 Spécialités : fouille de données textuelles, recherche d’information, extraction d’information

    Encadrement d’un stage de Master 2 professionnel : « Extraction de connaissances issues de Wikipédia pour la constitution automatique d’ontologies multilingues »
  • IRISA Rennes - Thèse de doctorat

    2005 - 2010 Dans le cadre d'un contrat CIFRE entre France Télécom R\&D Lannion et l'Université de Rennes 1, j'ai poursuivi mes recherches en thèse (soutenue le 18 juin 2010) en bénéficiant de l'encadrement de Pascale Sébillot (équipe TexMex à l'IRISA).

    Je me suis alors intéressé à la construction automatique de bases lexicales décrivant la sémantique de mots observés dans des flux de données textuelles.
    Ces flux sont caractérisés par l'emploi d'un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. À cet égard, j'ai contribué à la conception d'un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels (assimilés à des unités de sens) sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable (par réduction de dimensionnalité) qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l'étiquetage manuel d'un petit nombre d'entités nommées (EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations...) à d'autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d'EN observées dans un corpus d'apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l'annotation non supervisée et la classification supervisée des EN d'un corpus de test.

    http://thomas.girault.free.fr/these/these_thomas_girault.pdf
  • Normanet (groupe business decision), Caen - Stage de maîtrise

    2003 - maintenant Conception et réalisation d’un module générique de cartographie (éditeur SVG en Flash/ActionScript)

Formations

  • Université Rennes 1

    Rennes 2005 - 2010 traitement automatique des langues, apprentissage automatique

    Sujet de recherche : «apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d’entités nommées»
  • Université Caen Basse Normandie

    Caen 2004 - 2005 Informatique

    Master 2 Recherche : « langage, image, document »

    Sujet de recherche : « annotation et structuration automatique de corpus de dialogue »
  • University Of Sheffield (Sheffield)

    Sheffield 2003 - 2004 apprentissage automatique, traitement automatique des langues et de la parole

    Maîtrise d'informatique ESAMUS

    Sujet de recherche : «symbolic machine learning for phrase chunking and robust parsing»
  • Université Caen Basse Normandie

    Caen 2002 - 2003 Conception et réalisation d'un système d'indexation multilingue de la presse en ligne

Réseau