Les offres de “Orange”

Expire bientôt Orange

Post Doc Etablissement automatique d'une carte heuristique lors d'une réunion professionnelle (basée sur l'exploitation du Speech2Text) F/H

  • CDD
  • Cesson-Sévigné (Ille-et-Vilaine)
  • Développement informatique

Description de l'offre

about the role

Votre rôle est d'effectuer un travail post doc sur : « Extraction d'informations utiles en temps réel pour la production automatique de cartes heuristiques».

Contexte global du sujet de thèse et état de l'art :

Contexte : L'étude se situe dans le cadre des activités du projet « Instant helper » du projet de recherche Enterprise 4.0. Elle s'insère dans les études actuellement menées sur les outils digitaux d'aide en temps réel.

L'analyse et la compréhension de la conversation inter-humaine en temps réel ainsi que l'extraction d'informations utiles dans des données textuelles progressent au travers de l'IA, des briques d'analyse vocale, syntaxique et sémantique; ce qui laisse entrevoir des opportunités de réalisation de nouveaux services dans le domaine de l'entreprise digitale et des défis quant à la représentation de toutes ces informations pour le salarié afin d'éviter de le noyer dans une masse considérable d'informations mais au contrainte en ciblant, liant et en structurant cette information.

Etat de l'art : De nombreux travaux sont effectués à OLS dans le domaine de la fouille de données, l'apprentissage automatique et le traitement de la langue [1][2][3] sur lesquels nous nous appuierons pour cette mission ainsi que des ouvrages sur les cartes heuristiques et l'apport sur la compréhension et la mémorisation de l'information [4].

Notre volonté, pour cette mission est de construire des services à l'état de l'art en s'appuyant sur des briques internes et externes dans le domaine de l'exploitation et de la visualisation temps réel de l'information.

Dans la section 3 « Le plus de l'offre » , vous trouverez des informations détaillés sur la mission scientifique et les principales activités associées à ce post doc.

about you

Vous êtes titulaire d'un Doctorat : traitement automatique des langues, fouilles de données, Big Data.

·  Compétences en fouille de données, apprentissage et traitement de la langue.
·  Développement de prototypes (Langages : Java/javascript, Html5 : souhaitée).

additional information

Objectif scientifique - verrous à lever :

L'objectif de la prestation post doc est de voir la capacité du système à :

·  identifier les points saillants d'une discussion en cours (tâches, décision, objectifs) et de trouver des relations entre eux
·  trouver des similitudes ou toute relation de synonymie dans les propos évoqués au fil de l'eau afin de supprimer les informations redondantes dans la synthèse visuelle
·  identifier automatiquement dans une conversation en cours les nouveaux sujets de conversation, les sous-sujets (précisions apportées) ou les sujets connexes afin de structurer l'information
·  identifier des relations avec d'autres contenus (transcriptions d'autres réunions, documents textes ou autres cartes heuristiques) afin d'étendre la synthèse et de suggérer du contenu.

A partir de transcriptions textuelles de discussions extraites de réunions formant des corpus d'apprentissage ou de textes variés, il s'agit donc d'apprendre comment détecter des éléments importants et les relier entre eux au sein d'une phrase ainsi qu'à capter des relations dont la portée dépasse la phrase comme associer une information à un contexte cité précédemment en s'appuyant sur les méthodes de fouille de données textuelles. Ces travaux pourront faire l'objet de publications scientifiques.

En lien avec les ergonomes et développeurs d'Orange : l'objectif de la mission portera aussi sur la présentation en temps réel des points saillants et relations associées sous la forme d'une carte heuristique. La carte à produire devant être ludique et esthétique, il serait aussi intéressant de lier automatiquement les mots importants avec des illustrations associées pour faciliter la compréhension et la mémorisation.

Les verrous à lever sont liés aux spécificités du contexte d'exécution du système et en particulier au paramètre d'entrée qui est la transcription vocale brute d'un dialogue entre plusieurs personnes sous forme de flux avec uniquement l'identifiant du locuteur comme donnée complémentaire.

Approche méthodologique-planning :

Une premier période sera consacrée en parallèle :

·  à l'étude du corpus d'apprentissage, les évolutions nécessaires de ce corpus ainsi qu'à la montée en compétences sur les outils internes d'analyse syntaxique, d'analyse sémantique et de fouille de données (PITS, Tilt, Disserto, Vipe , ,..) et externes pouvant contribuer à la réalisation d'outils permettant d'atteindre les objectifs fixés.
·  à la phase de maquettage et de spécifications détaillées des fonctionnalités avec des propositions de présentations des informations saillantes et mettant en évidence les relations entre elles.

Une seconde période sera consacrée à la définition d'une architecture et du workflow de traitements nécessaire sur l'ensemble du corpus d'apprentissage et sur une transcription en cours à partir d'un flux audio.

Suivra ensuite la phase de prototypage des modules de traitement jusqu'à l'affichage dynamique dans une carte heuristique.

Une qualification sera réalisée dans un dernier temps visant à montrer la pertinence des données remontées par le système (précision / rappel).

department

Vous évoluerez dans une équipe de la direction Business des Orange Labs Services : OLS/BIZZ/APPCRM qui travaille en étroite collaboration avec les unités d'affaire Orange Business Services pour la fourniture de services innovants à destination des entreprises.

L'espace de travail de demain, la gestion à distance de terminaux, la virtualisation, les objets connectés sont des exemples de thématiques couvertes également par l'équipe.

Vous travaillerez également en collaboration avec une équipe d'experts sur l'analyse de la parole au sein d'Orange Labs Services et vous suivrez également les avancées d'un projet connexe : le projet ANR Pastel (http://www.agence-nationale-recherche.fr/Projet-ANR-16-CE33-0007)

Qu'est ce qui fait la valeur ajoutée de cette offre ?

L'aspect innovant de cette mission est qu'elle propose d'utiliser des outils de traitement automatique de la parole et du texte pour une adaptation aux données d'une conversation de type réunion en temps réel.

Elle a pour objectif de répondre à un besoin concret d'augmentation de l'efficacité des salariés des entreprises digitales qui ont entre les mains des masses de données qu'il faut savoir distiller afin d'en extraire l'information utile.

Références :

[1] Charlet, D., & Damnati, G. (2017). Simbow at semeval-2017 task 3: Soft-cosine semantic similarity between questions for community question answering. In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017)(pp. 315-319).

[2] Bouchekif, A., Damnati, G., Esteve, Y., Charlet, D., & Camelin, N. (2015). Diachronic semantic cohesion for topic segmentation of tv broadcast news. In Sixteenth Annual Conference of the International Speech Communication Association.

[3] Bouchekif, A., Damnati, G., & Charlet, D. (2014). Speech cohesion for topic segmentation of spoken contents. In Fifteenth Annual Conference of the International Speech Communication Association.

[4] Mind Map : Dessine-moi l'intelligence / Tony Buzan

contract

Post Doc

Faire de chaque avenir une réussite.
  • Annuaire emplois
  • Annuaire entreprises
  • Événements