BIOINFORMATIQUE MOLECULAIRE DES PROTEINES : UN OUTIL STRATEGIQUE POUR LA BIOLOGIE.

Christophe Geourjon

Laboratoire de Conformation des Protéines, Institut de Biologie et Chimie des Protéines, IBCP - UPR 412, 7 Passage du vercors, 69 367 Lyon cedex 07

Tel : 04 72 72 26 47, E-mail : c.geourjon@ibcp.fr

Liste des abréviations

BLAST : Basic Local Alignment Search Tool ; EBI : European Bioinformatics Institute ; EMBL : European Molecular Biology Laboratory ; EST : Expressed Sequence Tags ; CDS : Coding DNA Sequence ; DBCAT : Databases Catalog ; FASTA : Fast Alignment ; GCRDb : G-protein coupled receptor database ; KEGG : Kyoto Encyclopedia of Genes and Genomes ; OMIM : Online Mendelian Inheritance in Man ; PDB : Protein Data Bank ; PIR : Protein Information Resource ; ProDom : Protein Domain ; PSI-BLAST : Position-Specific Iterated BLAST ; SRS : Sequence Retrieval System ; YPD : Yeast Protein Database

Mots-clès
Bioinformatique, analyse de séquence, modélisation moléculaire, relation structure-fonction, prédiction de structure secondaire, prédiction de topologie, banques de données.
 

Introduction

Dés 1961, le groupe d'Anfinsen [7] a montré par des expériences de dénaturation/renaturation sur la ribonucléase pancréatique que la séquence de cette protéine contenait l'information nécessaire à l'obtention d'une structure tridimensionnelle stable, structure qui confère à la protéine son activité biologique. Par ailleurs, depuis plus de vingt cinq ans, la quantité de données produites dans les domaines de la biologie moléculaire et de l'étude des génomes a augmentée de manière considérable. Ceci est vrai en quantité, mais aussi en diversité et en qualité. Cet accroissement des données a connu une accélération importante ces dernières années du fait des programmes de séquençage de génomes entiers. Ainsi, aujourd'hui ce sont plus de 20 génomes qui sont entièrement élucidés (Liste remise à jour régulièrement sur les serveurs : http://www.genome.ad.jp/kegg/java/org_list.html et http://www.mcs.anl.gov/home/gaasterl/genomes.html). Les premiers génomes disponibles concernent des organismes simples qui comportent entre 470 (Mycoplasma genitalium) et 6 064 gènes (Saccharomyces cerevisiae). La levure S. cerevisiae est le seul génome eucaryote connu, cependant les progrès importants réalisés par les techniques de séquençage laissent espérer qu'à échéance de 3 à 5 ans les 100 000 à 150 000 gènes humains seront connus [28].

Dans ce contexte, on comprend mieux tout l'intérêt des méthodes d'analyse théorique des séquences regroupées sous le terme générique de bioinformatique. Cette discipline relativement récente, à l'interface de la biologie et de l'informatique, tente d'extraire "in silico" l'information fonctionnelle ou structurale contenue dans la séquence (acide nucléique ou protéine) en vue de mieux comprendre le rôle biologique et le mode de fonctionnement de cette protéine. La bioinformatique moléculaire comporte de nombreuses facettes :

Les banques de données
 

L'information la plus complète et pertinente sur les protéines peut être trouvée dans les banques de séquences qui sont apparues dès le début des années 80. On peut distinguer les banques dites généralistes (Swiss-Prot, EMBL, GenBank, etc.) des banques spécialisées (YPD, PROSITE, OMIM, etc.). Les premières ont pour vocation d'être les plus exhaustives possibles, de rassembler la totalité des séquences ou informations connues pour toutes les protéines de l'ensemble des espèces et ce sans expertise particulière. A l'inverse, les secondes se sont constituées autour de thématiques biologiques en vue de réunir les séquences d'une même espèce ou les séquences d'une famille protéique pour toutes les espèces avec la plupart du temps intervention d'experts.

Depuis quelques années la quasi totalité des banques est disponible sur le réseau Internet, notamment via une interface WWW (Table 1). Ceci présente le double avantage de permettre une réactualisation quotidienne des données et une intégration forte des différentes banques de données entre elles grâce à l'utilisation de liens hypertextes. Ainsi aujourd'hui, ce sont plus de 400 bases de données qui sont disponibles sur le réseau Internet (La banque DBCAT qui les référence est elle-même disponible sur le serveur national InfoBiogen : http://www.infobiogen.fr/services/dbcat/). Le but de cette revue n'est pas de dresser une liste exhaustive des bases de données disponibles, mais plutôt de décrire l'usage et le contenu de certaines d'entre elles.
 
Banques Description Adresses Internet
SWISS-PROT Séquences protéiques annotées http://www.expasy.ch/sprot/ 
PIR Séquences protéiques http://www-nbrf.georgetown.edu/pir/searchdb.html
GenBank Séquences nucléiques http://www.ncbi.nlm.nih.gov/Web/Search/index.html 
EMBL Séquences nucléiques http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/topembl.html 
TrEMBL Traduction automatique de l'EMBL http://www.ebi.ac.uk/ebi_docs/swissprot_db/retreival.html 
PDB Structures tridimensionnelles http://www.pdb.bnl.gov
EST Banque d'étiquettes http://www.ncbi.nlm.nih.gov/dbEST/index.html 
Table 1. Adresse Internet des principales banques généralistes

La banque SWISS-PROT

La banque SWISS-PROT [8] présente l'avantage d'être très peu redondante, d'être très bien documentée (description de la fonction d'une protéine, organisation en domaine, modifications post-traductionnelles, variants, …) et de posséder de nombreux liens vers d'autres bases de données (bibliographiques, sites et signatures, acides nucléiques, structures 3D, pathologies, etc.). Elle a été créée en 1986 par Amos Bairoch au sein de l'Université de Genève, et depuis 1988 elle est maintenue en collaboration avec l'EMBL puis l'EBI. Dans sa dernière version (version 36 de juillet 1998) elle possède 74 019 entrées protéiques annotées (soit 26 840 295 acides aminés) provenant de plus de 6 000 espèces différentes, même si les 10 espèces les plus représentées totalisent à elles seules 37,9% des entrées (Table 2).
 

Rang
Effectif
Organisme
1
4980
Human
2
4787
Baker's yeast (Saccharomyces cerevisiae)
3
4416
Escherichia coli
4
3253
Mouse
5
2491
Rat
6
1970
Bacillus subtilis
7
1887
Caenorhabditis elegans
8
1693
Haemophilus influenzae
9
1315
Fission yeast (Schizosaccharomyces pombe)
10
1283
Methanococcus jannaschii
Table 2. Effectifs comparés des espèces les plus représentées dans la banque SWISS-PROT

La banque TrEMBL

A partir de la banque nucléique maintenue par l'EMBL il est possible d'obtenir un grand nombre de séquences protéiques correspondant à des phases ouvertes de lecture. Cependant il n'est pas possible dans certains cas d'avoir des informations sur ces protéines potentielles. Aussi afin d'éviter de diminuer la qualité de l'information disponible dans SWISS-PROT, il a été décidé en 1996 de créer une nouvelle base généraliste de séquences protéiques, la base TrEMBL qui contient la traduction de toutes les séquences codantes de l'EMBL (CDS). Elle reprend le format de la banque SWISS-PROT mais de manière moins complète. TrEMBL peut être considérée comme une section préliminaire à SWISS-PROT, dans laquelle les séquences seront introduites après annotation. La version 6 de TrEMBL a été créée à partir de la version 54 de la banque nucléique de l'EMBL et contient 177 757 séquences (48 796 878 acides aminés).

Pour de nombreuses applications, en particulier la recherche de protéines similaires, il est important de disposer d'une base de donnée la plus exhaustive possible tout en étant la moins redondante. Pour répondre à ce besoin, l'équipe de l'EMBL maintient (en collaboration avec Amos Bairoch) une nouvelle base de donnée : SPTrEMBL. Elle correspond à la banque TrEMBL épurée des redondances internes et des entrées déjà répertoriées dans la banque SWISS-PROT.

La banque PDB

La connaissance de la structure tridimensionnelle d'une protéine est cruciale pour une meilleure compréhension de son activité et pour pouvoir envisager des applications de "drug design". Cependant, aujourd'hui encore cette information est très difficile à obtenir et nécessite un investissement très important, ceci aussi bien pour une étude structurale par cristallographie que par Résonance Magnétique Nucléaire (RMN). Ceci explique le décalage important entre le nombre de structures élucidées et le nombre de séquences déterminées.

L'ensemble des données 3D de macromolécules biologiques est rassemblé dans la banque PDB [1]. Dans la version 84 d'avril 1998 elle contient 7 578 entrées (6 723 protéines ou peptides, 298 complexes protéines/acides nucléiques, 545 acides nucléiques et 12 carbohydrates). Ce chiffre ne signifie pas que l'on connaisse la structure 3D de plus de 7 500 protéines. En effet, une même protéine peut posséder dans la banque PDB plusieurs entrées, voire même dans certains cas plusieurs dizaines d'entrées, du fait de conditions expérimentales différentes (mutagenèse dirigée, présence d'effecteur, amélioration de la résolution de la structure, utilisation de techniques d'études structurales différentes). En fait si l'on ne s'intéresse qu'aux chaînes protéiques présentant moins de 95% d'identité entre elles le nombre de structures disponibles est seulement de 2 476 [46], à 25% d'identité seules 901 structures sont disponibles. Les logiciels de visualisation de structure 3D de macromolécules biologiques sont disponibles sur le réseau Internet, tels que les logiciels Rasmol [67], Swiss-Pdb Viewer [43] et AnTheProt [36] (Table 3).
 

Logiciels Adresses Internet
Rasmol http://www.glaxowellcome.co.uk/software/
Swiss-Pdb Viewer http://www.expasy.ch/spdbv/mainpage.html 
AnTheProt http://www.ibcp.fr/ANTHEPROT/
Table 3. Logiciels de visualisation de structures 3D (PC ou Macintosh)

Les banques spécialisées

Du fait de l'augmentation exponentielle du flux de données, la nécessité de développer des banques spécialisées est rapidement apparue. Ainsi aujourd'hui, il existe de nombreuses banques spécialisées, les informations disponibles et leur mise à jour sont très variables.

Un grand nombre de ces bases de données est dédié à une famille de protéine donnée. On peut par exemple citer :

Une liste aussi exhaustive que possible est maintenue par Amos Bairoch à l'Université de Genève : http://WWW.expasy.ch/amos_www_links.html#Gene_prot.

D'autres banques sont plus spécialisées sur un type d'information biologique donné. Par exemple :

Outils d'interrogation des bases de données

Il existe plusieurs logiciels dédiés à l'interrogation fine de ces bases de données. Certains sont disponibles sur des serveurs WWW et autorisent des interrogations multi-critères et multi-bases. Les deux logiciels les plus utilisés sont ACNUC [38] (http://pbil.univ-lyon1.fr/search/query.html) et SRS [26] (http://www.infobiogen.fr/srs5/). Tous deux permettent l'utilisation simultanée de plusieurs critères de sélection (mots-clefs, date, auteurs, espèces, code d'accès dans la banque, nom du gène, etc.) en utilisant les opérateurs logiques ET, OU et NON. Il est ainsi facilement possible d'extraire, par exemple, la totalité des séquences protéiques des kinases humaines dont on connaît le gène et ayant été séquencées en 1998. Il est maintenant possible de soumettre de manière interactive les différentes séquences sélectionnées à des méthodes informatiques d'analyse (recherche de similitudes dans les banques, alignement multiple, création de sous-bases, etc.)
 

Identification et classification fonctionnelle des protéines

 
Avec la croissance des banques de données de séquences, la comparaison d'un fragment nouvellement séquencé a des chances d'avoir des similitudes avec des séquences déjà publiées et présentes dans les banques de données. Il est ainsi possible de proposer à partir d'une similitude de séquences une fonction potentielle pour une protéine ou un gène. La mise en évidence de telles ressemblances peut être le point de départ d'analyses complémentaires.

Recherche de similitude de séquences

Cette recherche peut être réalisée relativement rapidement à l'aide des programmes FASTA [61], BLAST [5] PSI-BLAST [6], SSEARCH [61], ou MPsrch [69]. Les deux premiers présentent l'avantage d'une grande rapidité mais sont moins sensibles que les 3 derniers qui permettent en principe d'obtenir des résultats plus exhaustifs. En effet, les programmes FASTA et BLAST utilisent des méthodes heuristiques afin d'éliminer rapidement les situations sans intérêt et de repérer les séquences de la banque susceptibles d'avoir une relation avec la séquence échantillon.

Le logiciel FASTA est basé sur l'identification rapide des zones d'identité entre la séquence échantillon et celles de la banque. Cette identification permet de considérer uniquement les séquences présentant une région de forte similitude avec la séquence échantillon. Par la suite, la meilleure région similaire est alignée en utilisant un algorithme d'alignement local optimal. Le conception du programme BLAST est basée sur un modèle statistique. Par ailleurs, dès les premières étapes il utilise la notion de similarité grâce notamment à l'usage d'une matrice de scores. Dans sa dernière version il est capable, comme FASTA, d'introduire des insertions/délétions entre la séquence échantillon et celles de la banque. La version PSI-BLAST permet d'effectuer une recherche de similarité itérative. Plus précisément, les séquences similaires détectées à l'étape i sont utilisées pour construire une matrice de scores par position qui sera utilisée lors de l'étape i+1 selon un principe proche de celui utilisé dans les méthodes dites de "profils" (avec cependant une sensibilité moindre, mais une meilleure rapidité et facilité d'utilisation).

Il est important de souligner qu'une recherche effectuée au niveau protéique est souvent plus pertinente et plus spécifique qu'au niveau nucléique. Ceci s'explique par la différence des alphabets utilisés, on passe d'un alphabet à 4 lettres à un alphabet à 20 lettres. Il est donc souhaitable, la plupart du temps, d'effectuer les recherches en premier lieu sur les banques protéiques (rapidité et spécificité), puis sur les banques nucléiques en traduisant chaque séquence nucléique selon les 3 phases de lecture (voire même lorsque c'est possible selon les 6 phases). Ces logiciels existent sous différentes versions permettant d'effectuer de telles recherches (Table 4). Par ailleurs, toujours pour des raisons d'efficacité et de coût en calcul, il est préférable, dans un premier temps, de rechercher des similitudes en utilisant les programmes FASTA, BLAST ou PSI-BLAST.
 
Programmes Séquence échantillon Banque
FASTA, BLASTN
FASTX, BLASTX
Nucléique
Nucléique (traduite selon les 6 phases de lecture)
Nucléique
Protéique
TFASTX, TBLASTX

 

Nucléique (traduite selon les 6 phases de lecture) Nucléique (traduite selon les 6 phases de lecture)
FASTA, BLASTP
TFASTA, TBLASTN

 

Protéique
Protéique
Protéique
Nucléique (traduite selon les 6 phases de lecture)
Table 4. Différentes versions des logiciels de recherche de similarité.

L'exploitation de ces similitudes sera plus pertinente si elles sont re-situées dans un contexte plus global, celui d'un ensemble de protéines similaires. Ainsi l'utilisation de logiciels d'alignements multiples (tels que les programmes Clustal W [72], MultAlin [16], PileUp [45 [59]) peut permettre la mise en évidence des résidus conservés au niveau de l'ensemble de la famille et pouvant être des éléments clés dans la fonction catalytique ou la stabilité d'une structure 3D. L'analyse sera d'autant plus fine que les séquences seront plus divergentes entre elles. En effet, plus la divergence est forte plus les résidus conservés ont des chances de jouer un rôle capital pour cette famille de protéines.

Utilisation des banques de motifs

Dans certains cas la séquence de la protéine inconnue est trop éloignée de toutes celles déjà identifiées pour qu'il soit possible de détecter une ressemblance à l'aide des outils de recherche de similarité. Cependant une relation peut être mise en évidence par l'existence d'un même groupe d'acides aminés dans la séquence, on parle alors de la mise en évidence d'une signature ou d'un "pattern". Ces signatures protéiques pertinentes sont limitées à quelques résidus mais possède néanmoins une probabilité d'occurrence au hasard très faible, d'où leur spécificité. L'existence de tels motifs peut s'expliquer par le fait que les régions importantes de la protéine sont les mieux conservées (au niveau structural et/ou séquentiel). Ces régions peuvent souvent, être associées aux sites actifs de la protéine. Ces exigences structurales ou fonctionnelles imposent une bonne conservation de ces petites, mais importantes régions de la protéine.

Ainsi depuis maintenant une dizaine d'année plusieurs banques de données spécialisées ont été développées. La plus connue est PROSITE [9], elle décrit actuellement plus de 1 000 familles ou domaines protéiques. Certains d'entre eux sont caractérisés par l'existence de plusieurs motifs ou signatures. A partir des entrées de PROSITE, Henikoff et collaborateurs [44] ont développé une base de données (BLOCKS) rassemblant les alignements multiples correspondant aux régions les mieux conservées des protéines considérées. Même si cette recherche de site est très performante, certaines familles, du faite d'une très forte divergence de séquences, possèdent des domaines structuraux ou fonctionnels qui ne peuvent être détectés en utilisant les motifs. Dans ces cas, une solution peut être apportée par l'utilisation des techniques dites de "profils".
 

Prédiction de la structure des protéines

 
L'objectif final des travaux menés sur la prédiction de la structure des protéines est bien évidemment la prédiction de la structure 3D d'une protéine à partir de la seule séquence en acides aminés de cette protéine. La structure 3D d'une protéine est l'information la plus pertinente permettant de comprendre le mode d'action d'une protéine : activité enzymatique, interaction avec d'autres protéines (ligands, substrats, récepteur, épitope, etc.). Malheureusement, aujourd'hui cette information n'est accessible que par des méthodes expérimentales lourdes à mettre en œuvre (rayons X ou RMN) ou dans des cas très favorables par des méthodes de modélisation moléculaire par homologie ou par analogie. Dans ces deux dernières approches il est nécessaire d'identifier une ou plusieurs protéines de structure 3D connue présentant respectivement une similarité de séquence significative (supérieure à 25%) ou une organisation structurale comparable. En absence de telles empreintes il reste cependant possible de prédire la structure secondaire des protéines, et ce, avec une bonne fiabilité (pour revue [25, [31]).

Prédiction de structure secondaire

Les plus anciennes recherches relatives à la prédiction de la structure secondaire des protéines datent des années 60. Elles concernaient alors essentiellement l'identification de résidus permettant la localisation d'hélices (les "helix formers" et "helix breakers"). Cependant, les premiers résultats significatifs ont été obtenus dans les années 70, avec en particulier les travaux de Chou et Fasman [14, [15, [27]. Depuis lors, de nombreux systèmes de prédiction ont été développés. Historiquement ces méthodes peuvent être classées en 4 grandes catégories : les méthodes statistiques, les méthodes basées sur des similarités de séquences, les méthodes d'apprentissage (réseaux de neurone par exemple) et enfin les méthodes empiriques. Cependant l'incorporation récente dans les méthodes de prédiction de l'information contenue dans un alignement de protéines homologues à la protéine en cours d'étude rend cette classification obsolète. Aujourd'hui il convient plutôt de parler des méthodes basées sur la prédiction d'une séquence isolée et celles utilisant un alignement multiple.

Prédiction individuelle d'une protéine

Les premières méthodes développées ont été des méthodes statistiques, et ce même si à l'époque, la taille de l'échantillon des protéines de structure connue était très faible. Les pionniers ont été Chou et Fasman [14, [15, [27]. Ils ont calculé la fréquence de rencontrer chaque acide aminé dans un état structural donné (hélice, brin b, coude et région apériodique). Plusieurs améliorations de la méthode ont été par la suite proposées : distinguer les brins b internes et externes [33], utiliser la prédiction de la classe structurale [20] et enfin utiliser un profil dans le cas particulier des protéines b-a-b [71]. D'autres auteurs ont mis en œuvre la théorie de l'information [30]. Dans les dernières versions de cette méthode l'information contenue dans les paires d'acides aminés a été incorporée [32], et les paramètres ont été réactualisés (GOR IV [32]). A la même époque, les méthodes basées sur la similarité de séquence sont apparues [53, [70]. Brièvement chaque polypeptide de la séquence échantillon est comparé avec tous les peptides de même longueur de la base de référence. Si deux peptides sont dits similaires (en utilisant une matrice de substitution de structures secondaires) la structure secondaire expérimentale est attribuée au peptide considéré avec le score de similarité. Le processus est poursuivi jusqu'à ce que tous les peptides aient été comparés, les scores étant alors additionnés. L'état structural final prédit est celui présentant le score conformationel le plus élevé. Cette stratégie a été utilisée dans de nombreuses méthodes [53, [54] et combinée avec une procédure d'auto-optimisation [34]. Plus récemment, plusieurs groupes ont utilisé une approche basée sur les réseaux de neurones [62, [65, [74].

Incorporation de l'information contenue dans un alignement multiple de séquences

Récemment, plusieurs auteurs ont pris en compte l'information contenue dans un alignement multiple de protéines homologues afin d'augmenter de manière significative la qualité de la prédiction. Cette approche a été mise en œuvre en utilisant les différentes méthodes déjà développées. En particulier, les méthodes statistiques [22], les méthodes basées sur la similarité (SIMPA [55]), [24], les méthodes dites d'auto-optimisation (SOPMA [35]) et enfin les méthodes basées sur les réseaux de neurones (PHD [65]), [29].

Comparaison des qualités de prédiction

La comparaison objective de la qualité des méthodes de prédiction nécessite l'utilisation d'une même base de test constituée selon des critères identiques. Un des critères important est le taux d'identité maximal entre chacune des séquences constitutives. Il aujourd'hui admis que ce seuil doit être de 25% d'identité [64] (une valeur en dessous de laquelle il est risqué de faire de la modélisation moléculaire par homologie). Dans ces conditions la méthode PHD [64, [65] a une qualité de prédiction selon 3 états conformationnels de 71.4%, les méthodes GOR IV [32], SIMPA [55] et SOPMA [35] ont respectivement une qualité de prédiction de 66.5%, 69.4% et 69.7% (après lissage). Ces dernières qualités sont obtenues sur une base de test comportant 609 protéines, alors que la qualité obtenue par PHD a été obtenue sur une base plus ancienne ne contenant que 126 chaînes protéiques. Il convient de souligner que si les méthodes GOR IV, SIMPA et SOPMA sont combinées, la qualité de prédiction obtenue est alors de 71.3% (sur la base de protéines). Cette combinaison est réalisée par la méthode MLR [42] (Multivariate Linear Regression). Ceci confirme bien tout l'intérêt de combiner différentes méthodes de prédiction [10, [21, [64].

Il semble cependant clair aujourd'hui, que les prédictions de structure secondaire de protéines arrivent à un palier et qu'il ne pourra y avoir de gains significatifs de la qualité de prédiction sans tenir compte des effets de la structure tridimensionnelle sur le repliement local. A l'inverse les prédictions de structures secondaires constituent un point de départ pour tenter de prédire la structure tridimensionnelle des protéines. 

Prédiction de structure 3D

Trois voies différentes sont actuellement suivies pour prédire la structure tridimensionnelle d'une protéine :

Modélisation moléculaire par homologie ou analogie

La première tentative de modélisation moléculaire par homologie concernait la modélisation de l' a-lactalbumine à partir de la structure cristallographique du lysozyme de poulet [12]. Depuis l'approche et les outils ont été standardisés et validés par de nombreuses applications (pour une revue [48]). Une telle modélisation moléculaire ne pose pas de problèmes si les deux protéines sont homologues. Elle est automatique si le taux d'identité entre les deux protéines est supérieur à 70% et manuelle pour des taux compris entre 30 et 70%. On peut distinguer 5 étapes :

 Le point crucial dans une telle modélisation est l'alignement entre la séquence à modéliser et la ou les structures expérimentales qui servent d'empreinte. Aussi, dans les cas ou le taux d'identité entre les deux protéines est très faible, il est nécessaire d'avoir des arguments expérimentaux (mutagenèse dirigée, dichroïsme circulaire, fluorescence, etc.) permettant de valider l'alignement avant d'entreprendre une modélisation moléculaire non plus par homologie mais par analogie. Une telle démarche a été mise en œuvre au sein de notre laboratoire afin de modéliser la structure 3D du domaine résistant aux protéases de la glycoprotéine gp41 du VIH-1 (http://www.ibcp.fr/~combet/RAPPHTML/sujetdea.html).

 Reconnaissance de repliement

Ces méthodes sont basées sur la notion qu'il existe un nombre relativement limité de repliements possibles (entre 1000 [13] et 6700 [3] selon les auteurs). Aussi, à partir d'une séquence il peut être possible d'estimer l'adéquation de celle-ci avec un repliement donné. Plusieurs méthodes sont disponibles, elles ont participés aux compétitions CASP1 [18] et CASP2 [19]. C'est en particulier le cas des méthodes TOPITS ([66], http://www.embl-heidelberg.de/predictprotein/ppHelp.html#P2TOPITS), 123D ([4], http://www-lmmb.ncifcrf.gov/~nicka/123D.html), THREADER ([49], http://globin.bio.warwick.ac.uk/~jones/threader.html) et ProFIT [68].

 
Applications de la bioinformatique dans le domaine de la biologie

 
Le développement de méthodes bioinformatiques n'a d'intérêt que si elles sont appliquées et validées sur des exemples biologiques. Dans cette dernière partie, trois exemples d'application seront évoqués : le premier concerne plus spécialement l'utilisation des banques de données et d'outils de recherche de sites et signatures afin d'identifier "in silico" la séquence potentielle codant pour une protéine, le deuxième utilise les prédictions de structures secondaires afin d'identifier une région biologiquement importante et enfin le troisième exemple utilise les différents aspects de la bioinformatique pour délimiter un domaine structural fonctionnel.

Identification de protéine : de l'ordinateur à la biologie

Grâce à l'augmentation rapide et importante de la taille des banques de données (séquences de gènes entiers ou fragments) il paraît maintenant raisonnable de rechercher "in silico" des séquences nucléiques pouvant coder pour une protéine dont on aurait dressé un "portrait robot" de la séquence.

Une telle approche a été mise en œuvre [73] afin d'identifier la séquence nucléique codant pour les protéines KARAP (KAR-associated protein). Ces protéines sont notamment impliquées dans l'activation des lymphocytes NK et T [58]. Ce sont des dimères transmembranaires phosporylés au niveau des résidus tyrosine et présentant un pont disulfure interchaîne. Plus précisément, ces protéines d'environs 12 kDa contiennent un motif ITAM (Immunoreceptor Tyrosine based Activation Motif) qui est bien caractérisé : Y-x-x-[IL]-x(6,8)-Y-x-x-[IL], enfin leur région transmembranaire contient un acide aminé chargé (D, E, R ou K).

La démarche mis en œuvre sur la banque des étiquettes (banque EST [11]) comporte 5 étapes :

Cette stratégie a permis de sélectionner (Table 5), parmi les entrées de la banque EST, 5 candidats pouvant coder pour les protéines KARAP (ces 5 séquences présentent entre elles un très fort taux d'identité, supérieur à 96%). A partir de l'EST de souris référencée AA734769, il a été possible de générer des "primers" de PCR afin d'obtenir la séquence codante complète. Le produit de PCR comporte une phase ouverte de lecture de 342 paires de bases. L'analyse de la séquence peptidique codée par cette ORF montre l'existence d'un peptide signal (27 acides aminés), d'un domaine extracytoplasmique (16 acides aminés) comportant une cystéine, d'une région transmembranaire (24 acides aminés) comportant un acide aminé chargé (D), et d'une région intracytoplasmique de 47 acides aminés comportant un motif ITAM. La fonction biologique de cette séquence a été confirmée notamment par des expériences de mutagenèse et de transfections. La stratégie de clonage utilisée a montré que ce gène est l'orthologue du gène humain DAP-12 [52].
 
 
Nombre d'entrées
Banque EST 1 389 619
Etape 1 : Traduction  2 855 509
Etape 2 : ITAM 9 333
Etape 3 : Région transmembranaire 3 608
Etape 4 : Acide aminé chargé 

Cystéine

467
Fonction inconnue 336
Etape 5 : Similarité à CD3z et FceRIg 5
 Table 5 : Efficacité des différentes étapes de l'identification

Proposition de localisation de régions fonctionnelles

La structure secondaire est parfois mieux conservée alors que la séquence peut diverger, on passe d'un code à 20 lettres (les acides aminés) à un code à 3 ou 4 lettres (les différents états structuraux). C'est pourquoi certaines informations qui peuvent être masquées dans la séquence peuvent devenir visibles après une prédiction de structure secondaire.

Ainsi, dans le domaine du SIDA, les prédictions de structures secondaires couplées aux alignements multiples ont notamment été utilisées pour prédire la séquence consensus décrivant la famille des protéines gp120 du VIH [57] ainsi que pour proposer une explication structurale à la différence de vitesse de dimérisation de la transcriptase inverse (TR) entre les souches VIH-1 et VIH-2 [23].

Si l'on compare les structures secondaires prédites pour la transcriptase inverse du VIH-1 et du VIH-2 une région apparaît clairement comme étant organisée de manière différente selon les souches, il s'agit de la région située entre les résidus 312 et 340 (Figure 1). Cette région est prédite comme étant organisée sous la forme de 2 brins b pour la souche VIH-1 et d'une hélice a pour la souche VIH-2. Aussi avons-nous formulé l'hypothèse que cette région puisse expliquer la différence de vitesse de dimérisation des sous-unités de la transcriptase inverse [23]. Par la suite, les peptides correspondant à cette région ont été synthétisés et étudiés par dichroïsme circulaire (Divita G., communication personnelle). Le peptide issu de la souche VIH-2 présente un spectre typique d'une organisation sous forme d'hélice a (données non présentées), alors que celui issue de la souche VIH-1 présente un spectre d'un peptide non structuré. Enfin, il est intéressant de noter que des peptides issus de cette région, testés sur des cultures de cellules infectées, possèdent une forte activité antivirale (IC50 : 5nM).

Identification d'un domaine structural fonctionnel

Du fait de l'organisation modulaire des protéines, il est intéressant de prédire les limites de domaines biologiquement actifs. Ce concept récent peut être particulièrement intéressant dans le cadre de la détermination de la structure 3D de protéines par RMN, afin de diminuer la taille de la molécule étudiée.

Dans notre laboratoire, cette approche a été utilisée avec succès pour étudier le domaine d'interaction avec l'ADN du répresseur de l'opéron fructose. Ce domaine a pu être dessiné grâce à des données biochimiques (protéolyse ménagée notamment) mais aussi grâce aux informations extraites par analyse bioinformatique (alignement multiple, prédiction de structure secondaire, paramètre physico-chimique, etc.). Le domaine isolé conserve sa capacité à reconnaître spécifiquement l'ADN. Sa structure 3D (Figure 2) a pu être déterminée à haute résolution par RMN [60]

 
Conclusion

 
Ces outils et méthodes bioinformatiques sont maintenant facilement disponibles pour la communauté des biologistes. En effet, il existe maintenant des logiciels intégrés et interactifs d'analyse de séquences : MPSA (http://www.ibcp.fr/mpsa), AnTheProt (http://www.ibcp.fr/ANTHEPROT/Documentation_antheprot.html), etc.). Par ailleurs ces méthodes sont pour la plupart disponibles sur le réseau Internet via une interface WWW (Table 6). Au sein du Pôle BioInformatique Lyonnais (PBIL) l'équipe de M. Gouy a mis en place un serveur Web plus spécialisé sur l'interrogation des bases de données et sur les acides nucléiques (http://pbil.univ-lyon1.fr), notre équipe a développé le serveur Web NPSA (Network Protein Sequence Analysis : http://pbil.ibcp.fr/NPSA/) qui permet de réaliser la plupart de ces études de manière interactive, et avec un traitement graphique des résultats.

La bioinformatique moléculaire des protéines doit être envisagée dans un contexte plus global qui est celui de l'étude des relations structures-fonction (Figure 3). Dans ce cadre là, ces méthodes peuvent aider à interpréter des données biologiques ou à l'inverse suggérer de nouvelles expériences. Mais, dans tous les cas, seul l'expérience biologique permet de valider les hypothèses que l'on peut faire à partir d'une analyse bioinformatique.

 
Remerciements

 
Je tiens à remercier le Pr. Gilbert Deléage ainsi que Christophe Blanchet et Christophe Combet pour leur lecture critique du manuscrit.
 

Références

 
[1] Abola EE, Manning NO, Prilusky J, Stampf DR, Sussman JL (1996), The Protein Data Bank : current status and future challenges. J. Res Natl Inst Stand technol, 101, 231-241

[2] Agarwal P, States DJ (1998) Comparative accuracy of methods for protein sequence similarity search. Bioinformatics, 14, 40-47

[3] Alexandrov NN, Go N (1994) Biological meaning, statistical significance, and classification of local spatial similaities in non-homolgous proteins. Prot. Sci. 3, 866-875

[4] Alexandrov NN Nussinov R, Zmmer RM (1995), Pacific Symposium on Biocomputing 1996 (Hunter and Klein eds), 53-72

[5] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool. J. Mol. Biol. 215, 403-410

[6] Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman D (1997) Gapped BLAST and PSI-BLAST : a new generation of protein database search programs. Nucelic Acids Res., 25, 3389-3402

[7] Anfinsen CB (1973) Principles that govern the folding of protein chains. Science, 181, 223-230

[8] Bairoch A, Apweiler R (1997) The SWISS-PROT data bank and its supplement TrEMBL. Nucleic Acids Res. 25, 31-36

[9] Bairoch A, Bucher P, Hofmann K (1997), The PROSITE database, its status in 1997. Nucleic. Acids Res. 25, 217-221

[10] Biou V, Gibrat JF, Levin JM, Robson B, Garnier J (1988) Secondary structure prediction : combination of three different methods. Prot. Eng. 2, 185-191

[11] Boguski MS, Lowe TM, Tolstoshev CM (1993) dbEST database for "expressed sequence tags". Nat. Genet. 4, 332-333

[12] Brown WJ, North ACT, Phillips DC, Bew K, Vanaman TC, Hill RL (1969) A possible three-dimensional structure of bovine a-lactalbumine based on that of hen's egg-white lysozyme. J. Mol. Biol. 42, 65-86

[13] ChotiaC (1992) A thousand families for the molecular biologist. Nature, 357, 543-544

[14] Chou PY, Fasman GD (1974), Conformational parameters for amino acids in helical, b-sheet and random coil regions calculated from proteins. Biochemistry, 13, 211-222

[15] Chou PY, Fasman GD (1974), Prediction of protein conformation. Biochemitry, 13, 222-245

[16] Corpet F (1988) Multiple sequence alignment with hierarchical clustering. Nucl. Acids Res., 16, 10881-10890

[17] Corpet F, Grouzy J, Kahn D (1998) The ProDom database of protein families. Nucl. Acids Res. 26, 323-326

[18] Critical assessment of method of protein structure prediction - round I (1995) Proteins : Struct. Funct. Genet. 23, 295-462

[19] Critical assessment of method of protein structure prediction - round II (1997) Proteins : Struct. Funct. Genet. supplement, 1, 1-230

[20] Deléage G, Roux B (1987) An algorithm for protein secondary structure prediction based on class prediction. Prot. Eng. 1, 289-294

[21] Deléage G, Roux B (1989) Use of class prediction to improve protein secondary structure prediction : Joint prediction with methods based on sequence homology. In : Prediction of protein structure and the principles of protein conformation (Fasman G, ed.) Plenum, New York and London, page 587

[22] Di Francesco V, Munson PJ, Garnier J (1995) Use of multiple alignments in protein secondary structure prediction. Processing of the 28th Annual Hawaï International Conference on System Sciences, 5, 285-291

[23] Divita G, Rittinger K, Geourjon C, Deléage G and Goody, RS (1995) Dimerization kinetics of HIV-1 and HIV-2 reverse transcriptase: A two step process. J.Mol. Biol. 245, 508-521

[24] Donnelly D, Overington JP, Blundell TL (1994) The prediction and orientation of a helices from sequence alignments: then comined use of environment-dependent substituion tables, Fourier transform methods and helix capping rules. Prot. Eng. 7, 645-653

[25] Eisenhaber F, Persson B, Argos P (1995) Protein structure prediction : recognition of primary, secondary, and tertiary structural features from amino acid sequence. Crit. Rev. Biochem. Mol. Biol. 30, 1-94

[26] Etzold T, Argos P (1993), SRS an indexing and retrieval tool for flat file data libraries. Comput Appl. Biosci. 9, 49-57

[27] Fasman GD (1989) Development of the prediction of protein structure. In: Prediction of protein structure and the principles of protein conformation (Fasman G ed) Plenum, New York and London 193p

[28] Friedrich GA (1996), Moving beyong the genome projects. Nat Biotechnol, 14, 1234-1237

[29] Frishman D, Argos P (1996) Incorporation of non-local interactions in protein secondary structure prediction from the amino acid sequence. Protein Eng. 2, 133-142

[30] Garnier J, Osguthorpe, DJ, Robson B (1978) Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J. Mol. Biol.120, 97-120

[31] Garnier J (1990) Protein structure prediction. Biochimie, 72, 513-524

[32] Garnier J, Gibrat J-F, Robson B (1996) GOR secondary structure prediction method version IV. in Methods in Enzymology R.F. Doolittle Ed., 266, 540-553

[33] Garratt RC, Taylor WR, Thornton, JM (1985) The influence of tertiary structure on secondary structure prediction. Accessibility versus predictability for beta structure. FEBS Lett. 188, 59-62

[34] Geourjon C, Deléage G (1994) SOPM: a self -optimised prediction method for protein secondary structure prediction. Prot. Eng. 7, 154-164

[35] Geourjon C and Deléage G (1995) SOPMA: significant improvements in protein secondary structure prediction by consensus prediction from multiple alignments. Comput. Appl. Biosci. 11, 681-684

[36] Geourjon C, Deléage G (1995) ANTHEPROT 2.0 : A 3D module coupled to protein sequence analysis methods. J. Mol. Graph. 13, 209-212

[37] Gibrat JF, Garnier J, Robson B (1987) Further developments of protein secondary structure prediction using information theory. New parameters and consideration of residue pairs. J. Mol. Biol. 198, 425- 443

[38] Gouy M, Gautier C, Milleret F (1985), System analysis and nucleic acid sequence banks, Biochimie, 67, 433-436

[39] Gracy J, Argos P (1998) Automated protein database classification. I. Integration of compositional similarity search, local similarity search and multiple sequence alignment. Bioinformatics, 14, 164-173

[40] Gracy J, Argos P (1998) Automated protein database classification. II. Delineation of domain boudaries from sequence similarities. Bioinformatics, 14, 174-187

[41] Guermeur Y (1997) Combinaison de classifieurs statistiques. Application à la prédiction de la structure secondaire des protéines. Thèse de doctorat de l'Université Paris 6.

[42] Guermeur Y, Geourjon C, Galinari P, Deléage G (1998) Improved performance in protein secondary structure prediction by inhomogeneous score combination. Soumis

[43] Guex N & Peitsch MC (1996), Swiss-Pdb Viewer : a fast and easy-to-use PDB viewer for Macintosh and PC. PDB Quat Newslett, 77, 7

[44] Henikoff JG, Pietrokovski S, Henikoff S (1997), Recent enhancements to the Blocks databases servers. Nucleic. Acids Res. 25, 222-225

[45] Higgins D G, Sharp P M (1989), Fast and sensitive multiple alignments on a microcomputer. Comput. Appl. Biosci., 5, 151-153.

[46] Hobohm, U. & Sander, C.(1994), Enlarged representative set of protein structures, Protein Science, 3, 522-524

[47] Hodges PE, Payne WE & Garrels JI (1998), The Yeast protein database (YPD) : a curated proteome database for Saccharomyces cerevisiae, Nucleic Acids Res., 25, 57-62

[48] Johnson MS, Srinivasan N, Sowdhamini R, Blundell TL (1994) Knowledge-based protein modeling. Crit. Rev. Biochem. Mol. Biol. 29, 1-68

[49] Jones DT, Taylor WR, Thornton JM (1992) A new approach to protein fold recognition. Nature,358, 86-89

[50] Kabsch W, Sander C (1983) How good are prediction of protein seconday structure? FEBS Lett. 155, 179-182

[51] Kolakowski LF Jr. (1994), A G-protein-coupled receptor database. Recept Channels, 2, 1-7

[52] Lanier LL, Corliss BC, Wu J, Leong C, Phillips H (1998) Immunoreceptor DAP-12 bearing a tyrosine- based activation motif is involved in activating NK cells. Nature, 391, 703-707

[53] Levin JM, Robson B, Garnier J. (1986) An algorithm for secondary structure prediction based on sequence similarity. FEBS Lett. 205, 303-308

[54] Levin JM, Pascarella S, Argos P, Garnier J (1993) Quantification of secondary structure prediction improvement using multiple alignment. Prot. Eng. 6, 849-854

[55] Levin, JM (1997) Exploring the limits of nearest neighbour secondary structure prediction. Prot. Eng., 7, 771-776

[56] McKusick VA (1994) Mendelian Inheritance in Man. Catalogs of Human Genes and Genetic Disorders. Baltimore: Johns Hopkins University Press (11th edition).

[57] Myers, G. & Farmer, A. (1997) HIV alignments, databases searches and structure prediction In : The Human Retroviruses and AIDS Compendium" Los Alamos National Laboratory Compendium.

[58] Olcese L, Cambiaggi A, Semenzato G, Bottino C, Moretta A, Vivier E (1997) Human killer cell activatory receptors for MHC class I molecules are included in a multimeric complex expressed by natural killer cells. J. Immunol. 158, 5083-5086

[59] Package GCG, Genetics Computer Group, Inc.

[60] Penin F, Geourjon C, Montserret R, Böckmann A, Lesage A, Yang YS, Bonod-Bidaud, Cortay JC, Nègre D, Cozzone AJ and Deléage G (1997) Three-dimensional structure of the DNA binding domain of the Fructose Repressor from Escherichia Coli by 1H and 15N NMR. J. Mol. Biol. 270, 496-510

[61] Pearson W, Lipman D (1988) Improved tools for biological sequence comparison. Proc. Natl. Acad. Sci. USA, 85, 2444-2448

[62] Qian N Sejnowski TJ (1988) Predicting the secondary structure of globular proteins using neural networks models. J. Mol. Biol. 196, 697-709

[63] Rao JK, Argos P (1986), A conformational preference parameter to predict helices in integral mambrane proteins. Biochem. Biophys. Acta. 869, 197-214

[64] Rost B, Sander C (1993) Prediction of protein secondary structure at better than 70% accuracy. J. Mol. Biol. 232, 584-599

[65] Rost B, Sander C (1994) Combining evolutionary information and neural networks to predict protein secondary structure. Proteins, 19, 55-72

[66] Rost B (1995) TOPITS: Threading One-dimensional Predictions Into Three-dimensional Structures, The third international conference on Intelligent Systems for Molecular Biology (ISMB), 314-321

[67] Sayle, RA Milner-White, EJ (1995), RASMOL : biomolecular graphics for all. Trends Biochem Sci, 19, 258-260

[68] Sippl MJ, Calculation of conformational ensembles from potentials of mean force. An approach to the knowledge-based prediction of local structures in globular proteins. J. Mol. Biol., 213, 859-883

[69] Sturrock SS, Collins JF (1994) MPsrch version 1.4. Biocomputing Research Unit, University of Edinburgh, UK.

[70] Sweet, R (1986) Evolutionnary similarity among peptide segment is a basis for prediction of protein folding. Biopolymers, 25, 1565-1577

[71] Taylor WR, Thornton JM (1983) Prediction of super-secondary structure in proteins. Nature, 301, 540-542

[72] Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 11, 4673-4680

[73] Tomasello E, Olcese L, Vely F, Geourjon C, Blery M, Moqrich A, Gautheret D, Djabali M, Mattei MG, Vivier E (1998) Gene structure, expression pattern and biological activity of mouse KAR-associated protein (KARAP)/DAP-12. Soumis

[74] Zhang X, Mesirov JP, waltz DL (1992) Hybrid system for protein secondary structure prediction. J. Mol. Biol. 225, 1049-1063