Une méthodologie pour trier les données génétiques

On assiste depuis une dizaine d’années à la multiplication des données génomiques, due aux avancées technologiques d’analyse à grande échelle. Ces données représentent une potentielle source de progrès pour le diagnostic et le traitement personnalisé des patients, le challenge consiste à analyser et interpréter cette masse d’informations. Soutenus notamment par MSDAVENIR et l’Agence Nationale de la Recherche, Antonio Rausell et son équipe de recherche en Bioinformatique Clinique proposent, grâce au machine learning, une technique pour faire un premier tri dans ces données.

Publié le 14.02.2019

Accélérer la recherche

  • Intelligence artificielle
Antonio Raussel

Antonio Rausell, chercheur Inserm et directeur du laboratoire de Bioinformatique Clinique à l’Institut Imagine, s’est donné pour mission de mieux comprendre les variants génétiques. Les variants sont ces petites différences génétiques qui font notre singularité. Ces modifications, qui apparaissent spontanément dans notre génome, peuvent avoir des conséquences au niveau moléculaire, cellulaire, à l’échelle de la personne, ou même être à l’origine de maladies.

L’une des difficultés réside dans leur interprétation, car la plupart n’ont pas d’effet visible. Les variants génétiques que l’on trouve dans un individu sont nombreux et variés : ils peuvent se trouver dans les régions codantes – celles qui contiennent l’information nécessaire à la production des protéines, chevilles ouvrières des cellules – ou dans les régions non codantes, qui constituent quelques 98 % de notre génome. Longtemps inconnu, autrefois considéré comme inutile, le rôle des régions non codantes apparaît comme de plus en plus important. « C’est comme chercher une aiguille dans une botte de foin, compare Barthélémy Caron, étudiant en doctorat dans l’équipe d’Antonio Rausell et premier auteur de l’étude. Avec ce travail de longue haleine, on espère découvrir les causes de certaines maladies génétiques. Car à ce jour, pour la moitié des 4 000 maladies génétiques rares recensées, les gènes ou variants causaux n’ont pas été caractérisés. »

Explorer la matière noire du génome

Des millions de variants différents – majoritairement bénins – ont déjà été identifiés. Aujourd’hui, les outils disponibles donnent accès à un grand nombre de données aussi bien dans les régions codantes que non-codantes. « Déterminer les variants, notamment au niveau des régions non-codantes pouvant être la cause d’une pathologie, est un véritable challenge pour les médecins et les chercheurs, » explique le chercheur.

Grâce au soutien de MSDAVENIR dans le cadre du projet DEVO-DECODE, et de l’Agence Nationale de la Recherche via les Investissements d’Avenir et le projet C’IL-LICO, l’équipe d’Antonio Rausell a mis au point une méthodologie pour identifier dans le génome non-codant d’une personne les variants les plus influents.

« En recourant au machine learning et à l’ensemble des données déjà disponibles, notre méthode effectue un premier tri. Nous priorisons les variants en fonction de leur potentiel impact pathogène. Ensuite, les médecins et les équipes expérimentales peuvent se focaliser sur ces variants pour valider s’ils sont réellement la cause des maladies », explique le chercheur.

Avec cette plongée dans les zones méconnues de la génétique, l’équipe Antonio Rausell espère apporter une nouvelle perspective à l’étude des maladies génétiques, et surtout identifier leur origine moléculaire. « C’est crucial pour les patients et leur famille de pouvoir nommer la maladie et d’en connaître la cause, explique Antonio Rausell. Découvrir l’origine des maladies constitue généralement un premier pas vers une piste thérapeutique. »

Désormais, le logiciel est accessible en open source pour toute la communauté et le résultats disponibles en ligne. Cette méthodologie est accessible au sein de la plateforme de bioinformatique d’Imagine, et est également à disposition de toute la communauté scientifique. « Notre démarche illustre parfaitement l’esprit Imagine, conclut Antonio Rausell. Notre méthode a immédiatement été mise à disposition des autres chercheurs et des médecins pour qu’elle puisse bénéficier aux patients et remplir l’une des missions premières de l’Institut, à savoir mieux caractériser les maladies génétiques et les soigner. »