SOS bases de données

AntoineB 11 juin, 2008 • Economie, Que du bon

Les bases de données en biologie fleurissent tellement qu’on en oublierait presque que leur survie ne tient parfois qu’à un fil. Régulièrement, lorsque leur financement est renégocié, ce n’est pas tant leur utilité que leur priorité ou leur pertinence qui est contestée. Ce qui suffit à enterrer des projets essentiels pour la recherche et le développement en biologie.

Les bases de données, dont l’essor est venu du boom de l’Internet, font désormais partie du paysage de la recherche en biologie. La liste publiée par la revue Nucleic Acids Research dans son numéro spécial de janvier 2008 recense 1078 bases de données publiques rien que dans le domaine de la biologie moléculaire, de la plus large à la plus spécialisée. On distingue couramment les bases de données bibliographiques (et éventuellement de citations) et les bases de données de résultats d’expériences : les premières compilent les articles et la littérature publiés tandis que les secondes donnent accès aux données brutes issues notamment de la génomique et des grands projets de séquençage. Plus anecdotiques sont les bases de données factuelles qui recensent par exemple les médicaments autorisés ou les essais cliniques en cours.

http://www.flickr.com/photos/shawnandhooisee/

Les bases de données bibliographiques

Les bases de données bibliographiques sont quotidiennement utilisées par les chercheurs car elles représentent un état de l’art, aussi bien des méthodes scientifiques que des résultats et des connaissances actuels. Mais plus qu’un support à la recherche en laboratoire, elles sont parfois le lieu même où progresse la science. Ainsi, une fouille considérable des bases de données bibliographiques, pendant six mois, a permis au biophysicien Vladimir Uversky de montrer en 2000 qu’une majorité de protéines sont non structurées. Ce fait avait été observé précédemment dans une centaine de publications décrivant des protéines mais interprété comme une “structuration induite”(1), la déstructuration native (2) étant considérée comme un artefact. D’où l’importance que peut prendre la fouille de la littérature existante pour faire parler des résultats anciens à la lumière de nouvelles hypothèses biologiques. Ou encore, Don Swanson a mis au point une méthode de découverte des chaînes de causalité entre deux littératures médicales déconnectées, utilisant l’outil Arrowsmith. Avec le succès suivant, obtenu en 1986 : on savait que dans la maladie de Raynaud, caractérisée par un arrêt temporaire de la circulation sanguine dans les extrémités, la viscosité du sang augmente. Or un autre corpus de la littérature constatait que l’huile de poisson augmente la fluidité du sang. Swanson formula donc l’hypothèse nouvelle que l’huile de poisson a un effet bénéfique contre la maladie de Raynaud, hypothèse validée par une équipe de l’Albany Medical College de New York en 1989.

Pourtant, l’utilisation des bases de données bibliographiques pourrait être compromise. En effet, la concentration des grands acteurs privés du domaine est préoccupante. Depuis plusieurs années, Wiley, Elsevier et consorts se concentrent verticalement et contrôlent toute la chaîne, de l’édition à la diffusion. Thomson Scientific a acquis une situation d’oligopole après l’acquisition des bases de données de l’Institute for Scientific Information dont le fameux et controversé Science Citation Index à l’origine du calcul du facteur d’impact des revues scientifiques. Résultat : l’utilisateur est rarement gagnant puisqu’il fait face à des éditeurs plus puissants. Preuve en est les difficultés croissantes rencontrées par le consortium Couperin pour négocier les prix des abonnements aux revues scientifiques des institutions françaises, face à ces mêmes éditeurs. Heureusement qu’il existe des initiatives salutaires comme la base publique Medline PubMed maintenue par le National Center for Biotechnology Information américain. Elle devrait continuer à jouer son rôle de référence, s’améliorant sans cesse. Autre projet, récent et européen celui-là, E-BioSci propose une plateforme de recherche innovante adossée aux bases de données bibliographiques PASCAL, Medline et quelques bases privées.

Les bases de données de résultats d’expériences

Pour les bases de données de résultats d’expériences, la vie est encore moins rose. En 1999, le rapport du groupe de travail de l’OCDE sur la bio-informatique reconnaissait leur importance et encourageait leur développement dans deux domaines encore peu couverts, la biodiversité et la neuro-informatique, en estimant qu’ils pourraient s’articuler avec profit aux bases de données existantes en matière de génomique. Selon ce rapport, moins de 10 millions de dollars suffisent à financer les trois principales bases de données de séquences nucléotidiques (3) qui permettent une création de valeur par les industries pharmaceutiques, de l’agrobusiness et de la santé qui se compte en milliards de dollars ! Ce point est désormais bien acquis et on voit tous les mois naître de nouvelles bases de données, qui de couvrir la séquence des peptides (4) reconnaissant les molécules du complexe majeur d’histocompatibilité (5), qui de rendre publique la taxonomie des champignons (6). Mais le danger est que, dans le système américain dont nous vient la grande majorité de ces bases de données, il est moins facile d’obtenir une bourse pour maintenir une base de données en fonctionnement que pour en créer une nouvelle. Et les bourses ne sont attribuées que pour une durée de 3 à 5 ans. D’où la disparition régulière de bases de données de résultats d’expériences : sur 89 bases de données actives en 2000 et contactées par la revue Nature en 2005, 44 affirmaient lutter pour survivre et 7 avaient déjà rendu l’âme. Et d’après cette même enquête, cela touche aussi bien les bases de données spécialisées que les bases de données pluridisciplinaires à portée internationale comme celles maintenues par le renommé European Bioinformatics Institute (EMBL-EBI). Et c’est aussi vrai en Europe où, pour les chercheurs, l’attribution d’une bourse est consubstantielle à la soumission d’un projet original, dont est écarté de fait l’entretien d’une base de données. Alors, les survivants sont ceux qui arrivent à diversifier leurs sources de financement ou à mobiliser une communauté de chercheurs autour de leur base de données. On en voit aussi solliciter les étudiants pour obtenir une main d’œuvre gratuite et faire appel à la générosité de leurs collègues pour obtenir du matériel informatique…

Pourtant, d’après le rapport du groupe de travail de l’OCDE, à un doublement de la taille des bases de données génomiques (tous les 18 mois environ) ne correspond qu’une augmentation de 10% des coûts de maintenance. Rien de rédhibitoire, donc. Autre avatar de cette situation, les bases de données qui passent de la gratuité à l’accès payant par manque de financement. C’était le cas en octobre 2005 de l’Influenza Sequence Database maintenue par le Los Alamos National Laboratory, qui est l’une des bases les plus exhaustives en matière d’information sur la génétique des virus de la grippe. Ceci alors même que la grippe aviaire fait peur dans les pays les moins aptes à payer la somme de 10 000 dollars par an pour accéder à cette source d’information !

Finalement, il semble que ce sont les bases de données de brevets qui s’en sortent le mieux. Ainsi, les outils de recherche des bases de données maintenues par les offices des brevets s’améliorent, couvrent les séquences génétiques et permettent désormais de télécharger les documents entiers sous forme de fichier pdf, le tout gratuitement. Les séquences brevetées (7) s’invitent aussi dans les bases de données de génomique comme GenBank, DNA Data Bank of Japan (DDBJ) et EMBL Nucleotide Sequence Database. Et c’est d’importance quand on sait qu’aujourd’hui, de plus en plus de résultats primaires de la recherche biologique sont d’abord publiés dans les brevets et qu’ils acquièrent de fait une protection juridique qui les rend peut-être plus incontournables que les résultats publiés dans des revues. Mais ce serait un comble que les données les plus facilement accessibles soient celles qui sont protégées ! Il faut donc réagir aujourd’hui pour ne veut pas voir nos bases de données en biologie mourir demain.

Définitions :

  • (1) structuration induite : sous l’hypothèse de la structuration induite, la forme “normale” d’une protéine est sa forme structurée en 3D (celle étudiée classiquement avec ses feuillets bêta et hélices alpha) mais elle ne la prend qu’après interaction avec d’autres constituants de la machinerie cellulaire type ligands.
  • (2) déstructuration native : sous l’hypothèse de la déstructuration native, la forme “normale” d’une protéine est sa forme déstructurée. Elle est fonctionnelle malgré l’absence de structure tridimensionnelle stable et son état désordonné est nécessaire à son fonctionnement. Son incapacité à adopter une structure 3D précise confère en effet à ces protéines une grande flexibilité structurale, leur permettant d’interagir avec plusieurs partenaires structuralement différents et selon des vitesses d’association et dissociation rapides.
  • (3) séquences nucléotidiques : Dans le cas d’une séquence d’ADN, le “texte” est une suite formée uniquement de 4 lettres correspondant aux quatre nucléotides formant l’enchainement de l’ADN : A pour adénine, G pour guanine, T pour thymine, C pour cytosine. Il faut faire attention si le sens de lecture peut être 3′ vers 5′ ou inverse.
  • (4) séquence des peptides : Cette séquence correspond à ce qu’on appelle la structure primaire de la protéine en biochimie. On appelle traduction, l’étape de synthèse protéique à partir d’une séquence nucléotidique, cette étape peut être facilement prédite par des logiciels informatiques pour l’identification de gènes jusqu’alors inconnus. Le code génétique donne une lettre de l’alphabet pour chacun des 21 acides aminés existant, en correspondance aux différents codons. Comme un codon est formé de trois bases, la séquence protéique est trois fois plus courte que la séquence nucléique correspondante.
  • (5) complexe majeur d’histocompatibilité (CMH) : Désigne en immunologie un système de reconnaissance du soi présent chez la plupart des vertébrés. Chez l’être humain, on parle de HLA.
    Découvert par Jean Dausset en 1958. Il fait la première description de ces antigènes à la surface des globules blancs sanguins (leucocytes) à partir de l’analyse de réactions d’agglutination obtenues avec des sérums de sujets immunisés à l’occasion de transfusions sanguines.
  • (6) la taxonomie ou taxinomie : C’est la science qui a pour objet de décrire les organismes vivants et de les regrouper en entités appelées taxons (familles, genres, espèces, etc.) afin de pouvoir les nommer et les classer. C’est aussi la science des lois et règles qui déterminent l’établissement des méthodes et systèmes de classement (systématique).
  • (7) séquences brevetées : les séquences de gènes et de protéines, à condition qu’elles aient été obtenues artificiellement ou qu’elles aient été rattachées à une fonction précise de l’organisme, peuvent faire l’objet d’un dépôt de brevet dans la plupart des pays. Cette pratique n’est pas anecdotique, les séquences brevetées couvrent par exemple 20% du génome humain (source : Jensen and Murray (2005), “Intellectual Property Landscape of the Human Genome”, Science, Vol. 310. no. 5746, pp. 239-240).

Sources :

Marqué comme: ,

AntoineB
Email à cet auteur | Tous les Articles par AntoineB

Laisser un Commentaire