Expires soon ENGIE

Alternance R&D chez ENGIE LAB – Classification sémantique des documents textuels

  • CDI
  • Saint-Denis (Seine-Saint-Denis)
  • IT development

Job description



ENGIE est un acteur mondial de l’énergie, résolument engagé dans la transition énergétique et expert dans 3 métiers : Energies renouvelables, gaz, services. ENGIE compte 160 000 collaborateurs, nos clients, nos partenaires et nos parties prenantes, nous formons une communauté d’Imaginative Builders, engagés chaque jour pour un progrès plus harmonieux. Avec un chiffre d’affaires en 2018 : 60,6 milliards d’euros.
A la recherche de professionnelles et professionnels inventifs et audacieux pour incarner le futur de l’énergie au service de ses clients, ENGIE recrute des milliers de talents à travers le monde. Rejoignez un univers de travail épanouissant et innovant, favorisant l’agilité et la créativité afin de répondre aux enjeux énergétiques d’aujourd’hui et de demain.

Le CRIGEN est le centre corporate de R&D et d'expertise opérationnelle dédié aux nouveaux gaz, aux nouveaux usages de l’énergie, au digital et technologies émergentes. Situé en région parisienne à Saint-Denis La Plaine (93), prochainement janvier 2020 à Stains (93), il compte 200 collaborateurs. Il fournit des applications industrielles testées, éprouvées et commercialisables, ainsi que de nouvelles offres basées sur le développement et la mise en commun d'idées innovantes, de connaissances scientifiques et d'expertise technique. Sa capacité à innover constitue un avantage clé pour le Groupe ENGIE.

Le Centre de Recherche Gaz et Énergies Nouvelles (CRIGEN) d'ENGIE et plus particulièrement le Laboratoire Computer Science & Artificial Intelligence (CSAI) a pour ambition de supporter et renforcer, à travers des travaux de recherche, la compétitivité́ des Business Units du Groupe ENGIE et d'apporter des réponses aux défis énergétiques et environnementaux de demain. Situé en région parisienne, le centre de recherche corporate ENGIE LAB CRIGEN dont dépend le Lab CSAI compte 180 collaborateurs. Sa valeur ajoutée réside dans l'innovation, la transformation des besoins spécifiques métiers et des connaissances scientifiques en applications industrielles éprouvées ou en offres commerciales compétitives et innovantes pour les Business Unit du Groupe ENGIE.

Dans le secteur de l’énergie, les larges corpus documentaires issus de l’activité des métiers sont stockés dans de nombreuses bases de données. Ils peuvent couvrir plusieurs thématiques : marketing, relations client, réglementaires , techniques, etc. Les utilisateurs ont souvent recours à ces bases de données pour répondre d’une manière précise à une question posée et exécuter leurs activités journalières.

 

Pour répondre aux besoins d’uniformité dans la gestion des documents, de contextualisation de l’information et de regroupement des documents, Le Lab CSAI souhaiterait développer et promouvoir l’utilisation d’un modèle de classification consolidé pour organiser les répertoires documentaires.

La variation lexicale (ex. synonymes) et l’ambiguïté sémantique des mots sont parmi les facteurs qui limitent les performances des approches classiques d’interrogation des documents. Les modèles sémantiques (en particulier les ontologies) permettent de représenter de manière explicite la signification implicite des données en spécifiant les concepts et les relations présents dans les données [1]. Ces ontologies permettent d’assurer une certaine interopérabilité et de faciliter les recherches sémantiques plutôt que de simples recherches de chaines de caractères (Nazarenko & al. 2011). L’annotation sémantique de documents à l’aide des ontologies aide à repérer, instancier et enrichir les documents à travers l’ajout des informations importantes.

Dans ce stage d’alternance, nous nous intéressons à réaliser une classification sémantique des documents pour les utilisateurs d’Engie en se basant sur les nouvelles approches de Machine Learning notamment de type Deep Learning et combiner ces approches à des ontologies de domaine. Cela est dans le but de faciliter l’accès à la connaissance disponible dans les nombreuses bases documentaires volumineuses et évolutives.

Vos missions seront les suivantes   :
·  Revue de la littérature sur les approches de la classification et l’annotation sémantique des documents [2, 3, 4] ;
·  Analyse comparative des méthodes de l’état de l’art ;
·  Proposition d’une nouvelle approche de classification sémantique des documents ;
·  Conception et développement de l’approche proposée ;
·  Rédaction d’une documentation pour les travaux selon le besoin ;
·  Participation à la rédaction d’un article scientifique.

Nous vous proposons un contrat de professionnalisation de 1 an pour un démarrage en septembre 2019.

Merci de préciser votre rythme d'alternance, joindre votre planning de présence entreprise ainsi que votre programme de formation + CV et lettre de motivation.

Profil recherché – Compétences requises

Niveau : M1, école ingénieur en informatique, vous avez un profil technique en développement logiciel et une connaissance des technologies de traitement automatique des langues, web sémantique et data science.

Compétences

·  Bonnes connaissances (théoriques et appliquées) en Machine Learning (ML) et Deep Learning
·  Vous maîtrisez les langages de programmation : Python et frameworks ML (sklearn, tensorflow, pytorch)
·  Connaissances des briques technologiques du Web Sémantique
·  Connaissances des problématiques du NLP (reconnaissance d’entités nommées, désambiguïsation, etc. et de quelques outils NLP (ex.  Stanford NLP, SpaCy, NLTK, Gensim, etc.) sera un plus
·  Vous avez une forte capacité d'empathie et le souhait de développer vos connaissances sur les         problématiques métiers, liées au domaine de l’énergie dans un environnent de recherche 
·  Rigueur, méthodologie, sens de l’analyse, autonomie
·  Bon niveau d’anglais.

Détails du poste

·  Localisation : Site de la Direction Recherche et Technologies de Engie à Saint Denis – Stade de France (accès RER B, D, Métro 13)
·  Début du contrat : septembre 2019

[1] M. Pham, S. Alse, C. A. Knoblock, and P. Szekely, “Semantic labeling: A domain-independent approach,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016, vol. 9981 LNCS, pp. 446-462.

 

[2] NAZARENKO, A., GUISSÉ, A., LÉVY, F., OMRANE, N. et SZULMAN, S. (2011).Integrating written policies   in business rule management systems. In Proceedings of RuleML’11.

 

[3] Janod, Killian. (2017). La représentation des documents par réseaux de neurones pour la compréhension de documents parlés.

 

[4] Kshitij Tripathi, Rajendra G. Vyas and Anil K. Gupta. Document classification using artificial neural network, 2019, pp 55-58

Additional Information
·  Posting Date: Aug 8, 2019