Expires soon 1000mercis

Stage Data Scientist - NLP

  • Stage
  • 4-6 months
  • Paris (Paris)
  • July 31, 2019
  • Licence, M1, Bac +3/4
  • IT development
  • data scientist
  • NLP

Job description

Numberly aide ses clients à collecter, analyser et mettre à profit leurs données à travers tous les canaux marketing. Pour cela, nous sommes plus de 100 ingénieurs (un quart de Numberly) répartis en équipes à dimension humaine, où nous nous assurons que chacun développe une influence positive et puisse être autonome. Notre croissance soutenue nous pousse à constamment remettre en question nos choix techniques et organisationnels.

Avec sept bureaux dans le monde et des clients dans plus de cinquante pays, nos enjeux sont globaux.

De par notre large gamme de produits interconnectés, nos enjeux techniques sont très variés et souvent complexes. Nos missions quotidiennes consistent à traiter des milliers de requêtes par seconde, distribuées à travers le monde, opérer des bases de données de plusieurs pétaoctets (Big Data™), automatiser l’ensemble de notre infrastructure bare-metal, et construire les interfaces du marketing digital de demain.

Ideal candidate profile

Description du poste

Recursive Topic Modeling pour l’identification de thèmes dans les pages web

Contexte général :

Dans le cadre de la publicité en ligne, une problématique consiste à connaître le contenu sémantique
des pages web sur lesquelles on affiche des bannières publicitaires. Ceci permet a posteriori, d’identifier
les appétences des différents cookies via leur navigation (le cookie d’Alice a visité de nombreuses pages
web dont le topic prépondérant est “voiture”, on peut donc en conclure qu’elle est intéressée par les
voitures) mais aussi de sélectionner des espaces publicitaires spécifiques dont la sémantique correspond
à l’univers de la marque. Par exemple, si une agence de voyage souhaite afficher des publicités, il pourra
être intéressant de diffuser sur des sites internet parlant de voyages.

Présentation du sujet :

Un premier travail a été effectué et permet d’identifier tous les mois 70 topics parmi l’ensemble des
pages web. On pourra par exemple trouver un topic “voyage”. Néanmoins, une agence de voyage
souhaitera probablement être plus spécifique et avoir par exemple une campagne ciblant les sites de
“road trips” ou une campagne ciblant les sites parlant de “voyages de luxe”. Ainsi il est nécessaire de
pouvoir identifier des “sous topics” pour certains des 70 topics identifiés chaque mois.

L’approche utilisée pour l’identification des 70 topics est basé sur le topic modeling (approche non
supervisée) via un modèle de Latent Dirichlet Allocation [1]. Une approche possible pour l’identification
de sous-topics serait de réappliquer un LDA de façon récursive sur les pages webs à forte dominante de
l’un des topics initiaux et ce, pour chacun des topics initiaux. D’autres approches, comme le Hierarchical
LDA [2] sont envisageables. Ces propositions ne sont que des pistes possibles, une recherche
bibliographique exhaustive sera réalisée par le stagiaire afin de sélectionner la méthode la plus adaptée
à la problématique.

Objectifs du stage

L’objectif du stage sera multiple :

- Travailler sur la modélisation du problème

- Explorer les différentes méthodes possibles en effectuant un travail de recherche bibliographique

- Implémenter la méthode choisie, la tester, l’intégrer au processus actuel. La partie expérimentation aura une place tout aussi importante que la modélisation et la recherche bibliographique.

Poursuite possible en CDI



Qualifications

De formation supérieure bac +4 à bac +5 (masters, écoles d'ingénieurs...), spécialisation en mathématiques appliquées, compétences en algorithmique, statistiques et machine learning

Qualités requises : Esprit de recherche, capacité à mesurer son efficacité, autonomie, rigueur, méthode

Environnement de travail Linux, Hadoop, Spark, Python



Informations complémentaires

Même à 500, on prend le temps de partager !

• Lors des fameux “Happy Meetings” parisiens suivis en visio par toutes les équipes dans le monde pour partager l’actualité du groupe
• En se glissant - temporairement - dans la peau de ses collègues avec les "Vis ma vie"
• Avec son “Jedi Master” (sorte de parrain) attribué aux nouvelles recrues
• Et bien sûr, lors des apéros, des cours de yoga, des meetups techniques, des barbecues, de la MMCup (un long week-end d’activités au soleil)... et bien plus encore !

About 1000mercis

Le Groupe 1000 Mercis créé en février 2000 par Yseulys Costes et Thibaut Munier est le pionnier de la publicité et du marketing interactifs. Basé à Paris, Lyon, Londres et New York, il permet aux entreprises d'optimiser leurs actions de conquête et de fidélisation grâce aux médias interactifs tels que Internet, les téléphones mobiles ou les tablettes. Son offre couple conquête de nouveaux clients et fidélisation ainsi qu'une offre de retargeting par email. Ses domaines d'activités sont divers : voyage, grande consommation, distribution spécialisée, banque et assurances... Le groupe compte parmi ses clients SFR, Sephora, Google, Club Med, Nestlé, Canal + ou encore BNP Paribas. Le chiffre d'affaires de 1000 Mercis s’élevait à 36,4 million d'euros en 2012. La société vient d'acquérir Matiro, le pionnier du Trading en Real Time Bidding. 1000 Mercis a été classé 2ème au classement des PME les plus rentables en France et est côté sur le marchélternext by NYSE Euronext.