Big data manager et back-end developer en CDI (H/F)

L'Institut Imagine recherche un(e) Big Data Manager chargé(e) de développer l'architecture « back-end » intégrant diverses bases de données tout en offrant une interopérabilité entre les portails de données et avec les applications « front-end » de l'Institut.

Institut Imagine

Créé à l’initiative des chercheurs et médecins de l’Hôpital Necker – Enfants malades, l’Institut hospitalo-universitaire (IHU) Imagine développe des programmes scientifiques fondés sur une continuité entre recherche fondamentale, recherche clinique et soins innovants sur les maladies génétiques et les prédispositions génétiques aux maladies fréquentes, de l’enfance à l’âge adulte. Imagine a pour ambition d’accélérer la recherche en l’organisant au plus près du malade afin d’apporter les solutions diagnostiques et thérapeutiques tant attendues par les patients et leurs familles.

L'Institut est composé de plus de 550 personnes et comprend 28 laboratoires de recherche impliqués ans les thématiques suivantes : génétique, immunologie, maladies infectieuses, hématologie, néphrologie, troubles du développement, maladies métaboliques, dermatologie et gastro-entérologie. Des plateformes technologiques de pointes en génomique, séquençage unicellulaire, protéomique et imagerie cellulaire, ainsi qu'en bioinformatique et data science viennent renforcer les équipes de recherche.

Dans l’optique de développer les programmes transverses, Imagine a récemment mis en place un programme intégré de soins et de recherche (iCARP) sur les systèmes informatiques d'aide à la décision (CDSS). Le programme CDSS vise le développement d'applications translationnelles dans les domaines de la bioinformatique, de l'informatique médicale, de l'intelligence artificielle et de l'analyse des mégadonnées. La recherche fondamentale et appliquée se concentrent sur le développement de méthodes et de logiciels informatiques innovants, de pipelines d'analyse de données et d'interfaces informatiques pour aider à la décision médicale dans un contexte clinique. Cela inclue des approches de phénotypage et d’apprentissage profond sur des données hétérogènes pour améliorer le diagnostic, le pronostic et les stratégies thérapeutiques.

MISSIONS

L'Institut Imagine s'est engagé à mettre en œuvre des protocoles d'intégration de données et des systèmes de gestion des big data pour renforcer le développement d'applications d'intelligence artificielle. Les principales sources de big data développées à l'Institut couvrent le séquençage génomique (exomes et génomes entiers) et le profilage multi-omique des échantillons de patients (à la fois en masse et au niveau de la cellule unique) ainsi que les données cliniques (y compris les dossiers médicaux électroniques, les phénotypes structurés, l'imagerie et le texte). Dans ce contexte, l'Institut Imagine recherche un(e) Big Data Manager chargé(e) de développer l'architecture « back-end » associée et intégrant diverses bases de données tout en offrant une interopérabilité entre les portails de données et avec les applications « front-end » de l'Institut.

Sous la supervision scientifique du coordinateur de l'iCARP CDSS, il/elle sera ainsi responsable de la coordination avec les laboratoires de recherche et les plateformes technologiques de l’Institut, notamment ceux impliqués dans la génération, le traitement et l'analyse des données tels que la plateforme génomique, le labtech single-cell, la plateforme protéomique, la plateforme bioinformatique, la plateforme « data science » et le centre de ressources biologiques de l'Institut.

Il/elle sera en charge de :

  • La définition de modèles de données, de métadonnées et de protocoles d'échange de données en coordination avec les plateformes technologiques de données.
  • La mise en œuvre des standards FAIR pour la gestion des données (Findability, Accessibility, Interoperability and Reusability) en conformité avec les directives nationales et internationales : Institut Français de Bio-infomatique, ELIXIR-Excelerate (https://bioschemas.org), et Global Alliance for Genomics & Health (GAGH ; https://beacon-project.io)
  • La mise en œuvre et la gestion de bases de données NoSQL distribuées (MongoDB, HBase), y compris la configuration de la stratégie de réplication, la gestion des transactions et la récupération.
  • La mise en œuvre de formats de stockage distribués et de systèmes de sérialisation pour le big data basés sur Hadoop HDFS et des fichiers json, parquet et avro.
  • La conception et mise en œuvre de protocoles d'indexation de recherche tels que ElasticSearch et Solr.
  • La mise en œuvre de protocoles de communication client-serveur basés sur des API RESTful ainsi que des API gRPC et coordination avec les applications frontales de l'Institut.
  • La définition et la mise en œuvre de politiques de gestion des données, notamment des systèmes d’autorisation, des protocoles de cryptage des données, des applications multi-clients et des requêtes équilibrées en charge.
  • Le déploiement, la mise à l'échelle et la gestion d'applications conteneurisées avec Docker et Kubernetes dans un écosystème Hadoop.

QUALIFICATION ET COMPÉTENCES PERSONNELLES

  • Développeur/développeuse senior Java 8+ avec expérience dans Maven et Junit
  • Connaissance avancée d’au moins un langage SQL (MySQL, PostgrSQL, Spark SQL)
  • Expérience d’au moins une base de données NoSQL (MongoDB, HBase)
  • Déploiement CI/CD : par exemple GitHub, Jenkins, Docker
  • Expérience dans les technologies de calcul distribué : Hadoop et Spark
  • Kubernetes, Zookeper et déploiement de l'informatique dans le « cloud »
  • Excellentes compétences en communication orale et écrite en anglais

CONTRAT

  • Contrat à durée indéterminée
  • Salaire selon profil

MODALITES DE RECRUTEMENT

La lettre de candidature et le CV sont à envoyer par voie électronique sous la référence Imagine_195 à recrutement@institutimagine.org.

CONTACT

Antonio RAUSELL, coordinator of the iCARP Computational Decision Support Systems -  antonio.rausell@institutimagine.org.