Pari scientifique gagné ! Grâce à la mobilisation de 75 000 internautes volontaires, la base de données du Décrypthon est désormais en libre accès sur internet.
Évry, le 12 septembre 2002
La base de données du Décrypthon, réalisée par l’AFM, IBM France et Genomining, grâce à la mobilisation, dans le cadre du Téléthon 2001, de 75 000 internautes volontaires, est désormais à la disposition de la communauté scientifique internationale. Elle est disponible gratuitement sur internet. Avec ses comparaisons de 550 000 protéines issues de plus de 76 génomes différents, ses 2 189 278 fichiers de résultats bruts répartis en 17 000 répertoires, cette base de données est la base la plus exhaustive jamais réalisée sur les protéines du monde vivant. Son exploitation pourra notamment permettre aux chercheurs de progresser plus rapidement dans la compréhension des maladies génétiques et des maladies rares et dans le développement de nouvelles thérapeutiques. La réussite de ce projet est l’aboutissement d’une rencontre inédite au confluent de la technologie informatique, de la recherche et de la solidarité.
Une bibliothèque de comparaisons des protéines
L’opération ” Décrypthon “, lancée par l’AFM dans le cadre du Téléthon 2001, se conclut avec succès par la mise en ligne d’une base de données d’une ampleur sans précédent sur les protéines. Mise en forme et validée par Genomining, elle est composée des résultats des comparaisons de toutes les protéines connues au début de l’année 2002 dans le monde vivant : depuis les organismes unicellulaires, comme les bactéries, jusqu’aux vertébrés dont la souris et l’homme, en passant par les organismes pluricellulaires tels que la drosophile (mouche du vinaigre) ou l’arabète (une plante)…Au total, près de 550 000 protéines, issues de plus de 76 génomes, ont été comparées et pourront ainsi être classées en famille de protéines homologues à travers les différentes espèces. Il s’agit d’une véritable bibliothèque de comparaisons des protéines.
Cette base est en libre accès sur le site internet du centre ressources Infobiogen (centre national pour la recherche, le développement et l’exploitation de l’informatique appliquée à la Génomique) : www.infobiogen.fr/services/decrypthon/
Elle contient 2 189 278 fichiers de résultats bruts répartis en 17 000 répertoires, soit l’équivalent d’une bibliothèque de plus de 25 000 volumes ! Elle bénéficie d’un système d’accès simplifié aux données, un ” moteur de recherche ” développé par Genomining et l’AFM, qui facilite l’interrogation de la base à distance. Il sera ainsi très simple de retrouver les protéines similaires à une protéine dont on connaît l’identifiant (nom donné à la protéine dans la base de données).
Une base de données constituée en un temps record
Cette base de données a été réalisée grâce à la participation de plus de 75 000 internautes qui ont accepté de ” mettre à disposition ” la puissance inutilisée de leur PC pour effectuer les milliards de calculs complexes nécessaires à la constitution de cette base. Grâce à cette mobilisation unique en France et au Grid Computing, technologie innovante du calcul distribué sur Internet mise en oeuvre par les équipes d’IBM Global Services, pour répartir l’ensemble des calculs entre les internautes, la base a pu être constituée en moins de deux mois, alors qu’il aurait fallu plus de 1170 années pour la réaliser à l’aide d’un seul ordinateur ! Chaque ordinateur a contribué à hauteur d’environ 133 heures, soit plus de 10 millions d’heures de calcul au total. Ces ” calculs distribués ” ont permis de comparer 559 275 séquences protéiques au moyen d’un programme développé par Genomining selon l’algorithme d’alignement local de Smith-Waterman. Les 21 serveurs IBM ont hébergé l’ensemble des solutions et des données pendant toute la durée de l’opération.
Premiers résultats et nouvelles perspectives
La base de données ainsi constituée est un outil important pour une meilleure compréhension des maladies génétiques. Son exploitation devrait permettre aux chercheurs de travailler plus facilement et plus rapidement sur ces éléments complexes et essentiels de notre organisme que sont les protéines. Jusqu’à présent, en effet, faute de disposer de l’infrastructure technologique nécessaire pour entreprendre une analyse exhaustive, les chercheurs étaient souvent limités à la comparaison des protéines d’un nombre limité d’espèces ou à la comparaison de protéines au sein d’une même espèce.
EBI, l’European Bioinformatics Institute, qui collabore avec Genomining depuis plusieurs mois, a par exemple d’ores et déjà téléchargé les résultats de la base de données du Décrypthon et planifie de l’incorporer à son projet CluSTr. Ce projet vise à produire une classification automatique des protéines.
Par ailleurs, de nombreux projets exploitant les données de cette base peuvent désormais être envisagés par des chercheurs du monde entier dans leurs travaux, notamment pour :
– prédire la fonction inconnue d’une protéine grâce à la comparaison de sa séquence avec celle des protéines dont les fonctions sont connues dans l’ensemble du monde vivant. C’est l’annotation du protéome, c’est-à-dire la description de la fonction biologique d’une séquence protéique. Les chercheurs pourront ainsi progresser plus vite dans la compréhension des mécanismes des maladies génétiques.
– progresser dans la connaissance des structures des protéines en trois dimensions, aujourd’hui très limitée. Les protéines sont des molécules complexes dont les repliements sculptent d’innombrables figures dans l’espace dont la disposition est en général stable pour une protéine donnée. Aujourd’hui, seul un nombre limité de structures tridimensionnelles de protéines a été établi de façon expérimentale et on a bien du mal à prédire à partir du code linéaire des séquences de gènes, comment les protéines se replient dans l’espace. Or la connaissance de cette structure tridimensionnelle des protéines est essentielle car elle détermine leur fonction.
– croiser les données du génome avec celles du protéome. Le génome humain comporte un certain nombre de variations entre les individus (polymorphismes). L’étude de ces variations (ou ” SNP “) permet d’identifier les gènes en cause dans les maladies. Toutefois, si l’on sait repérer ces variations sur le génome, on ne sait pas déterminer systématiquement dans quelle mesure celles-ci sont impliquées dans les défauts de fonctionnement des organismes. Aussi, les chercheurs misent-ils sur les comparaisons de protéines (un gène codant en effet une ou plusieurs protéines) pour repérer les régions protéiques qui ont été le moins modifiées au cours de l’évolution. Des séquences particulièrement intéressantes puisque l’on sait depuis longtemps que ce sont ces séquences qui, lorsqu’elles sont modifiées, ont les conséquences les plus graves sur le fonctionnement des organismes.
L’AFM évalue actuellement plusieurs projets d’exploitation du Décrypthon à partir desquels elle fera très certainement à nouveau appel à la communauté des internautes. Elle leur renouvelle tous ses remerciements pour avoir relevé, si nombreux, le défi du Décrypthon.
Pour en savoir plus sur l’accès aux résultats et leur exploitation scientifique : consultez le site www.infobiogen.fr/db/decrypthon/index.html
Pour toute question sur Décrypthon : decrypthon@afm.genethon.fr
Les protéines, qu’est-ce-que c’est ?
Les protéines sont les constituants, les ” réacteurs chimiques ” et les récepteurs de signaux de nos cellules. Elles sont indispensables à leur fonctionnement. Elles sont synthétisées grâce à des instructions données par nos gènes. Les gènes supportent notre hérédité et sont des morceaux de l’ADN situé dans le noyau de chacune de nos cellules. Une maladie génétique résulte de la perturbation de la transcription d’un gène ou d’une anomalie de sa séquence. La protéine codée par le gène est alors soit absente ou en quantité diminuée, soit présente et en quantité normale mais sa séquence et, de ce fait, sa fonction sont altérées. Il en résulte un défaut du fonctionnement de telle ou telle cellule et la maladie peut apparaître.
A propos de l’AFM
Dans le cadre du Téléthon 2001, l’AFM a mobilisé la communauté Internaute pour relever le triple défi du Décrypthon. Déjà, grâce à la mobilisation de millions de donateurs depuis le premier Téléthon en 1987, l’AFM est devenu un acteur majeur de la recherche génétique en France. Cette association de malades et parents de malades, touchés par des maladies neuromusculaires pour la plupart d’origine génétique, a créé notamment le laboratoire Généthon qui a réalisé les premières cartes du génome. Elle a contribué, par le biais de ses financements ou des cartes de Généthon, à la découverte des gènes responsables de plus de 700 maladies. Au total, l’AFM a soutenu plus de 5 500 programmes de recherche depuis 1987.
Pour en savoir plus sur l’AFM visitez le site www.afm-france.org
A propos d’IBM
IBM, entreprise e-business, est le leader mondial des services et des technologies de l’information. IBM développe et commercialise des solutions e-business globales, matériels — serveurs, stockage et PC — , logiciels, services et financement. Au travers de son vaste réseau mondial de consultants et d’experts en services et solutions et de ses 45 000 partenaires commerciaux, IBM transforme ces technologies avancées en valeur ajoutée au bénéfice d’entreprises de toute taille, notamment de PME-PMI. L’innovation est au coeur de la stratégie d’IBM qui investit chaque année près de 6 milliards de dollars en recherche et développement, avec plus de 3000 chercheurs et ingénieurs et huit laboratoires répartis dans six pays. Pour la neuvième année consécutive, IBM est le numéro un aux Etats-Unis en matière de dépôt de brevets, avec près de 3411 brevets en 2001. Chaque année, plus de 30% de ces brevets se concrétisent par des offres commerciales IBM.
Pour en savoir plus sur IBM et l’e-business, visitez le site www.fr.ibm.com
A propos de Genomining
Genomining est une société française de bioinformatique, dont la mission est de produire et de fournir de l’information biologique. Elle propose aux industries des sciences de la vie une combinaison unique de conseils, de services bioinformatiques, de service de calculs et d’accès à des bases de données biologiques de grande taille. Son fondateur, William Saurin, ancien Directeur Informatique de Génoscope, le “Génome Centre” public français, a quitté cet organisme pour créer Genomining, avec l’appui de Génopôle. Genomining mène ses programmes de recherche “in silico”, c’est-à-dire sur des plateformes informatiques.
Pour en savoir plus sur Genomining, visitez le site www.genomining.com
Contacts presse
IBM :
Laurence Denis Tél. : 01 49 05 53 64 ldenis@fr.ibm.com
AFM :
Emmanuelle Guiraud / Julie Audren Tél. : 01 69 47 12 78 jaudren@afm.genethon.fr
One Blue pour IBM :
Laetitia Soulier Tél. : 01 41 34 00 92 lsoulier@ketchum-pr.fr
Genomining :
William Saurin / Laurent Voignac Tél. : 01 42 31 08 08 info@genomining.com