Analyse stochastique des données génétiques.

En Biologie moléculaire, la neutralité est une hypothèse de base sur laquelle se sont construits la majorité des outilss statistiques utilisés par les Biologistes. La vérification de cette neutralité est réalisée grâce à des tests de neutralité sélective se basant sur l'estimation du paramètre mutationnel q. Notre travail s’intéresse aux tests construits pour le modèle usuellement appelé "modèle à nombre infini de sites". Il s'agit des tests de référence de Tajima [Taj89] et de Fu [Fu 97].L'évaluation de la signifiance de ces derniers repose sur une analyse comparative de la statistique  résultant des populations testées, avec la distribution des statistiques obtenues à partir de populations neutres simulées, lesquelles sont générées  par des algorithmes reproduisant des modèles de populations neutres. Les allèles, supposés dériver d'un ancêtre commun, sont représentés par une généalogie de gènes (arborescence). Ainsi, à partir d'un nombre limité d'allèles correspondant au nombre de séquences d'ADN de l'échantillon, il est possible de générer un nombre important d'arbres aléatoires, chacun étant une réalisation du modèle mathématique représentant une population neutre simulée. A chaque nœud de cet arbre, des mutations sont générées selon deux lois statistiques : une distribution géométrique pour le nombre total de mutations et une distribution multinomiale pour la répartition des mutations entre les différents allèles.

Tout s’appuie donc sur l’exploitation d’un simulateur générateur d’arbres aléatoires représentant des populations neutres et sur l’évaluation, par le biais de ce simulateur, de deux principales hypothèses de test de neutralité proposées par Tajima et Fu.

Une première partie de ce mémoire est consacrée précisément à l’étude et la réalisation d’un tel simulateur dans l’objectif de dégager les principes de construction d’un outil futur ouvert à la mise en œuvre d’une diversité d’autres hypothèses de test. Les comparaisons des résultats primitifs obtenus par ce simulateur avec ceux fournis par le logiciel Arlequin disponible en free sur le net se sont avérés concluants.

La deuxième partie porte sur l'analyse du polymorphisme neutre observé chez des populations berbères de Tunisie. Il s’agit là de la question de fond qui a été à l’origine du sujet proposé pour ce mémoire. En effet, plusieurs tests de neutralité sélective, effectués par le laboratoire de Génétique moléculaire de la FST pour des populations berbères de Tunisie, ont abouti à des résultats non significatifs, tandis que ces mêmes tests, appliqués par ailleurs à d’autres populations berbères d’Afrique du Nord (pouvant être qualifiées d ‘ "analogues"), ont pourtant détecté des écarts sensibles. Cette divergence de résultats, perçue comme contradictoire, devait être élucidée.

L’analyse que nous avons menée, soutenue par un certain nombre d’expérimentations effectuées par le biais du logiciel Arlequin, nous a permis de révéler l’impact très important des hypothèses d’échantillonnage et d’argumenter une explication cohérente à la divergence constatée.

Capturé par MemoWeb à partir de http://www.regim.org/Membres/~ghorbel-troudi_molka/abstract/resume_mastere.htm  le 20/01/2010