Data Scientist

Entreprise

Business

The Blockchain Group est une société spécialisée dans les prestations de services intégrés. Elle permet aux entreprises d’exploiter la puissance de l’énergie décentralisée.

Notre entité TRIMANE est spécialisée en Data Intelligence (BI et Big Data, Data Science, Cloud), évoluant dans environnement très innovant. Pure-player et acteur majeur du marché depuis plus de 15 ans, sa mission est de créer de la valeur à partir des données disponibles dans les entreprises, en s’appuyant sur des approches algorithmiques innovantes, des méthodologies spécifiques et de nombreuses technologies.

Forte de son Datalab le CBI², le pôle Recherche, Développement et Innovation de Trimane souhaite consolider et éprouver son savoir-faire dans le traitement massif de données, les process de traitement et analyse des données et l’architecture cloud.

Trimane est basée à Paris et à Toulouse.

Vos missions

Gestion améliorée de la qualité de données par génération automatique de prédicats

L’objectif de ce stage est de s’appuyer sur les techniques d’apprentissage automatique afin d’améliorer cette étape d’identification et de la rendre plus exhaustive. Plus formellement, le but est de parvenir à définir une liste de prédicats permettant de déterminer les points de données jugés anormaux à partir d’un jeu de données arbitraire. Une étape préliminaire cruciale consistera à expliciter formellement ce que constitue le caractère anormal selon le type de donnée géré (relationnelle, tabulaire, temporelle, image, …). Le stagiaire pourra notamment s’inspirer du framework Snorkel qui permet approximativement la fonction inverse (définir manuellement une liste de prédicats et laisser le framework générer des données respectant la forme du jeu de donnée initial). Des techniques de détection d’anomalies basées sur la variation de densité locale peuvent également être envisagées.

Le stagiaire pourra s’appuyer sur un ensemble de jeux de données réels et des règles de nettoyage associées venant de l’historique des réalisations de Trimane. Ces jeux d’entraînement pourront éventuellement être complétés avec des exemples de nettoyage de données fournis librement ici et là sur Internet, dans le respect des licences de réutilisation.

Pendant la durée de stage, ce sujet peut faire l’objet d’évolutions pour s’adapter aux contraintes de la société Trimane. En cas de modification importante, il sera soumis à l’approbation des parties signataires de la convention.

Attendu :

Le stage étant principalement une mission de recherche et d’analyse, l’attendu demandé est un prototype jouant le rôle de preuve de concept et permettant de tester la technologie développée. Une visualisation graphique des résultats par un outil de restitution sera également valorisée et soutenue. Une mise en production au sein d’outils internes et déployés pourra être envisagée selon le niveau de maturité du prototype.

Environnement technique :

L’environnement technique de développement est laissé assez libre. Une préférence est toutefois émise quant à l’utilisation de composants libres et gratuits pour le développement de la solution.

Références :

Framework Snorkel : https://www.snorkel.org/

Travaux de Chris Ré : https://cs.stanford.edu/people/chrismre/

Détection d’anomalies :https://fr.wikipedia.org/wiki/D%C3%A9tection_d%27anomalies

Librairie Great Expectations : https://greatexpectations.io/

Offre Trifacta : https://www.trifacta.com/

 

Votre profil

De solides connaissances en analyse de données et conception de modèles issus du Machine Learning sont requises pour ce stage. Une preuve de concept étant à développer à l’issue de ce stage, la maîtrise d’un langage de programmation, – idéalement Python – est également demandée. Une connaissance des techniques de développement au sein d’un milieu DevOps (versioning avec Git, gestion de conteneurs, création d’image Docker, intégration continue, …) sera en outre valorisée.

Le profil idéal est rigoureux, organisé, créatif techniquement, et capable d’autonomie.

Le/la stagiaire sera encadré(e) tout à long du stage sur l’ensemble des aspects techniques (phases d’analyse, de conception et de développement).

La durée prévue du stage est de 6 mois, il se déroulera en idéalement dans les locaux de Trimane à Paris ou Toulouse. Cependant télétravail est envisageable.

La date de début du stage est prévue courant Avril 2022. Il s’agit d’un stage de pré-embauche rémunéré.

The Blockchain Group favorise l’égalité des chances. À compétences égales, tous nos postes sont ouverts aux personnes en situation de handicap.

CV détaillé et lettre de motivation à transmettre par mail. Les candidatures doivent être adressées à liengie.nal@trimane.fr

Rejoindre Trimane c’est :

  • Un triple suivi de carrière avec vos Référent.e.s technique, RH et commercial
  • Un accès en illimité à nos plateformes de formations, des certifications, des formations en interne autour en BI, Big Data, Machine Learning, Blockchain, développement web et logiciels software
  • Des ateliers de veilles technologiques sur des sujets innovants
  • Un CSE avec des afterworks, des escapes games, et autres activités d’équipe !

Share