III. MATERIEL ET METHODES
L'analyse de séquence débute par une recherche d'homologie de séquences avec des protéines connues. Les algorithmes FASTA 3.06 (Fast Alignment), qui recherche les homologies en alignant les séquences, et BLASTP 1.4.9MP (Basic Local Alignment Search Tool), qui recherche des similarités locales entre paires de segments et qui propage ensuite l'alignement sur l'ensemble de la séquence protéique, sont utilisés. La banque utilisée est la banque protéique non redondante (nr). La séquence choisie pour la requête est celle de la glycoprotéine gp41 de l'isolat BRU (sw: ENV_HV1BR).
Une base des 29 séquences de glycoprotéines gp41, présentes dans la banque SWISSPROT 34.0, est construite avec SRS (Sequence Retrieval System), avec comme clef de recherche "ENV_HV1*". Ces séquences sont alignées avec CLUSTALW 1.6 avec l'ensemble des options par défaut.
3. Recherche de sites fonctionnels
L'identification de sites fonctionnels potentiels est réalisée avec la base PROSITE 13.0
4. Prédiction de structure secondaire
La structure secondaire de chacune des 29 séquences est prédite selon quatre méthodes: Levin, GOR, DPM et SOPMA. La méthode GOR est basée sur la théorie de l'information directionnelle et utilise une fenêtre de 17 résidus pour les calculs. Les méthodes Levin et SOPMA tiennent compte de l'homologie entre séquence et supposent que deux peptides de séquences similaires auront tendance à présenter une structure secondaire similaire. La méthode DPM prédit la structure secondaire des protéines en utilisant la composition en acides aminés et la classe structurale des protéines. Le consensus de prédiction de structure secondaire obtenu à partir des quatre méthodes pour chaque séquence, ainsi que le consensus global obtenu à partir de ces consensus, sont exploités. Deux études complémentaires sont menées pour confirmer les prédictions de structures secondaires au niveau des deux résidus cystéine. La première étude est une recherche dhomologie entre le domaine externe de la glycoprotéine gp41 avec BLASTP 1.4.8 et les protéines de la banque SCOP (Structural Classification Of Proteins). Pour la seconde étude, nous utilisons le logiciel IDITIS 3.1 d'interrogation de la banque de structures PDB (Protein Data Bank 78.0) pour rechercher, parmi les structures connues, les motifs structuraux contenant deux résidus cystéine, dont les groupes thiol oxydés forment un pont disulfure et qui sont séparés de cinq résidus. Ces prédictions ainsi que l'alignement sont exploités avec le logiciel MPSA.
5. Analyse des heptades de résidus
Le dernier point de lanalyse des séquences est lanalyse des heptades des peptides N51 et C43. En plus de l'utilisation des algorithmes de prédiction des motifs "coiled coils" de Lupas ou Berger, nous avons élaboré un algorithme (Figure 4) pour calculer lhydrophobie moyenne par position sur les 29 séquences. Cet algorithme sinscrit dans le cadre des méthodes des profils en utilisant linformation contenu dans un alignement de séquences. Le programme attend comme paramètres dentrée un z-score seuil pour sélectionner les séquences significatives, et une taille de fenêtre pour le calcul des paramètres physico-chimiques.
B. Génération des modèles tridimensionnels
Une démarche de type modélisation moléculaire sous contraintes de distances et d'angles dièdres, analogue à celle employée pour la modélisation moléculaire sous contraintes RMN (Résonance Magnétique Nucléaire), est utilisée pour générer les modèles tridimensionnels des complexes constitués des peptides N51 et C43. Pour générer un jeu de contraintes, nous utilisons comme empreinte moléculaire le mutant pII du domaine leucine zipper de la protéine GCN4 (code PDB: 1gcm) cristallisé sous forme dun trimère "coiled coil". Le choix de cette empreinte étant justifié par le fait quau début de ces travaux, on ne connaissait pas le degré doligomérisation de la glycoprotéine gp41. Or, il existe un mutant pLI de GCN4 (code PDB: 1gcl), cristallisé sous forme tétramérique, qui nous aurait permis de construire un modèle tétramérique de la glycoprotéine gp41. Nous procédons par étapes en générant dix structures du monomère N51, puis dix du trimère (N51)3 et, enfin, dix du trimère d'hétérodimères (N51-C43)3 (Figure 5). Les angles dièdres (j et y) et les distances, mesurés sur les résidus 2 à 29 de l'empreinte, sont convertis en contraintes dangles dièdres et de distances pour le logiciel XPLOR 3.1.
Les modèles sont générés selon le protocole indiqué figure 6. A partir d'une matrice moléculaire, une famille de structures est générée par géométrie des distances sur une partie des atomes. Ces structures sont ensuite régularisées par recuit simulé sur l'ensemble des atomes. Cette régularisation est assurée par un chauffage à 2000 K pendant 12 picosecondes (ps) (4000 pas) suivi dun refroidissement à 250 K en 9,8 ps (2000 pas) par pas de 25 K. Les structures sont ensuite affinées par recuit simulé. Dans cette étape, les structures sont portées à 1500 K puis refroidies en 75 ps (15000 pas) à 250 K par pas de 25 K. Une minimisation finale est ensuite réalisée. Les fichiers de topologie (topallhdg.pro) et de paramètres (parallhdg.pro) du champs de force CHARMM sont utilisés dans les différentes étapes.
Lénergie des structures est calculée par le programme selon la formule:

Le premier terme de la somme correspond au terme énergétique empirique qui décrit la molécule. Les deux dernières composantes représentent un terme effectif dû aux contraintes de distances et d'angles dièdres utilisées pour générer les structures. Les constantes wp et k permettent de pondérer le terme énergétique auquel elles sont associées. Pour la minimisation finale, les valeurs des constantes kcdist et kcdih sont de 10 et 100 respectivement.
Les structures sont comparées entre elles sur le critère de l'écart quadratique moyen (root mean square deviation) entre atomes équivalents des structures. Cet écart est calculé par la formule :

Le programme PROCHECK est utilisé pour vérifier la qualité des structures.
Les calculs ont été réalisés sur une station Silicon Graphics Indy dotée de 64Mo de mémoire vive et d'un processeur R5000 cadencé à 180 MHz.