Mendelian Randomization - Qu'est-ce que la randomisation mendélienne ?

Translation: English

Qu'est-ce que la randomisation mendélienne ? - un bref guide :

Ce guide est destiné à ceux désirant s’initier à la randomisation mendélienne. Il est rédigé de manière à être accessible aux universitaires, aux journalistes et à quiconque désireux d’en apprendre d’avantage sur la randomisation mendélienne. Nous avons donc tenté de le simplifier autant que possible sans introduire d'inexactitudes. Si vous n'êtes pas sûr du sens d'un mot, survolez-le avec votre souris : vous trouverez peut-être une définition ou un exemple !

La randomisation mendélienne utilise des variants génétiques pour juger de la nature causale de la relation entre un facteur de risque et un « outcome » à partir de données observationnelles. Cet outcome est souvent une maladie, mais peut aussi être un trait continue comme l’intelligence ou la taille. Une étape à la fois...

L'objectif : comprendre les relations de cause à effet : Nous voulons évaluer la plausibilité d’une relation causale entre un facteur de risque proposé et le risque d’une maladie, afin de pouvoir répondre à des questions d’importances telles que : « La consommation d'alcool est-elle un facteur de risque causal pour le cancer du foie »? Pour ce faire, l'idéal est de procéder à un essai randomisé, dans lequel certaines personnes sont assignées au hasard à une intervention sur le facteur de risque (le groupe de traitement) et d'autres à aucune intervention (le groupe de contrôle). Ces deux groupes sont ensuite comparés pour leur taux d’une maladie tel que le cancer du foie.

Le défi : obtenir des données randomisées : Les études cliniques randomisées se heurtent toutefois à de nombreux obstacles dans la pratique. Les essais randomisés sont longs et coûteux et, dans de nombreux cas, peu pratiques ou contraires à l'éthique. Pourrions-nous mettre en place un essai randomisé pour tester l'effet de la consommation d'alcool sur le risque de cancer du foie ? Seriez-vous prêt à vous porter volontaire pour participer à une étude où il suffirait de tirer à pile ou face pour savoir si vous allez boire de l'alcool ou non pendant les 30 prochaines années ? C'est pourquoi il est parfois préférable d’évaluer les relations de cause à effet à partir d'études observationnelles en l'absence d'intervention randomisée.

Le problème - la corrélation sans causalité : Les études observationnelles sont influencées par la causalité inverse et les facteurs de confusion. Les personnes en mauvaise santé peuvent choisir de réduire leur consommation d'alcool (exemple de causalité inverse). Dans ce cas, la causalité inverse conduit à une association entre le facteur de risque et la maladie, mais ce serait la maladie qui provoquerait des changements dans le facteur de risque, et non l'inverse.

Les buveurs d'alcool et les non-buveurs diffèrent à bien d'autres égards que la consommation d'alcool - par exemple, les buveurs d'alcool ont tendance à fumer davantage, ce qui peut affecter le risque de cancer du foie (un exemple de facteur de confusion). Bien que nous puissions ajuster ces facteurs dans une analyse statistique, nous ne pouvons jamais savoir si nous les avons tous pris en compte. La causalité inverse et les facteurs de confusion peuvent tous les deux entraîner une association statistique entre les facteurs de risque et l’outcome étudié, mais sans qu'il y ait de relation de cause à effet - d'où l'expression : "la corrélation n'est pas la causalité"

En raison de ces biais, de nombreuses associations identifiées dans les études d'observation n'ont pas de fondement causal. Il en résulte des messages de santé confus et souvent contradictoires, et les gens se demandent ce qui est vraiment bon pour eux.

La solution ? - La randomisation mendélienne : La randomisation mendélienne est une approche statistique qui permet d'éviter ces biais de causalité inverse et de facteurs de confusions. Cette technique permet d'évaluer si les niveaux génétiquement prédits d'un facteur de risque et le risque d’une maladie sont associés ou non. Autrement dit, elle permet d’évaluer si les variants génétiques qui prédisent les niveaux du facteur de risque sont associées à l’outcome ou non. Comme la loi de Mendel sur l'assortiment indépendant stipule que nos caractéristiques sont héritées indépendamment les unes des autres, les associations génétiques sont moins susceptibles d'être dûes à des facteurs de confusions. En outre, comme notre code génétique est établi avant la naissance, il y a moins de risque de causalité inverse. En effet, l’attribution des variants génétiques se fait à la conception avant de développer une quelconque maladie. Par conséquent, les associations d'une étude de randomisation mendélienne sont plus susceptibles d'avoir une interprétation causale que celles des analyses épidémiologiques conventionnelles.

En bref, si des variants génétiques spécifiquement choisis parcequ’ils influencent les niveaux du facteur de risque sont aussi associées à l’outcome, cela prouve que le facteur de risque a un effet causal sur le résultat.

Ressources :

Vidéo de deux minutes présentant la randomisation mendélienne : https://www.youtube.com/watch?v=LoTgfGotaQ4

Une introduction plus longue destinée à un public averti mais profane : https://phw.nhs.wales/publications/publications1/making-sense-of-mendelian-randomisation-and-its-use-in-health-research/

Conférence d'introduction de George Davey Smith (~40 minutes) : https://www.youtube.com/watch?v=Whut4Yo-x-A

Explication plus approfondie - exemple pratique de la protéine C-réactive (C-reactive protein CRP) et du risque de maladie coronarienne :

cet exemple vous permettra de mieux comprendre le fonctionnement pratique de la randomisation mendélienne. La "protéine C-réactive" est un marqueur de l'inflammation qui a été proposé comme facteur de risque causal potentiel pour plusieurs maladies. On observe qu'elle est associée au risque de maladie cardiaque. Toutefois, cette association reflète-t-elle une relation de cause à effet ? Autrement dit, la protéine C-réactive est-elle réellement un facteur de risque causal pour les maladies cardiaques ?

Les variants génétiques dans la région du gène de la CRP affectent les niveaux de protéine C-réactive - c'est d'ailleurs pour cette raison que la région du gène est appelée région du gène de la CRP. Il est biologiquement plausible que ces variants génétiques affectent les taux de protéine C-réactive d'une manière spécifique. En d'autres termes, ils modifient les niveaux de protéine C-réactive, mais n'affectent pas les autres facteurs de risque. En effet, nous pouvons constater empiriquement que ces variants ne sont pas associées aux facteurs de confusion potentiels : indice de masse corporelle, pression artérielle, cholestérol, etc. (voir figure 1).

Simplifions et supposons que les variants génétiques divisent la population en deux groupes, que nous appelons génotype A et génotype B. Les personnes ayant le génotype A ont des niveaux moyens de protéine C-réactive plus élevés et les personnes ayant le génotype B ont des niveaux moyens de protéine C-réactive plus faibles. En raison de la nature de l'héritage génétique, les deux groupes n'ont pas des niveaux moyens différents d'indice de masse corporelle, de pression artérielle, de cholestérol, etc. Selon nos hypothèses, toute association entre les groupes de génotypes et le risque de maladie cardiaque ne peut se produire que si la protéine C-réactive est un facteur de risque causal.

Ici, la présence ou l'absence de variants génétiques est similaire à l'assignation aléatoire dans un essai randomisé (voir figure 2). Dans un essai randomisé, nous évaluons l'impact d'une intervention sur les niveaux de protéine C-réactive. Par exemple, en introduisant une pilule qui réduit le taux de protéine C-réactive et en assignant au hasard des individus soit à prendre cette pilule, soit à prendre un placebo. Nous comparerions ensuite les résultats entre les personnes qui ont pris la pilule et celles qui ont pris le placebo.

Dans la randomisation mendélienne, nous comparons les personnes ayant le génotype A à celles ayant le génotype B. Si le risque de maladie cardiaque diffère entre ces groupes génétiquement définis, nous interpréterons cela comme une preuve que si nous modifions les niveaux de protéine C-réactive, cela affectera le risque de maladie cardiaque - en d'autres termes, cela prouverait que la protéine C-réactive est un facteur de risque causal.

Lorsque notre groupe de recherche a effectué cette analyse (https://www.bmj.com/content/342/bmj.d548), nous n'avons observé aucune association entre le génotype A/B et le risque de maladie cardiaque. Autrement dit, nous n’avons observé aucune association entre les niveaux génétiquement prédits de protéine C-réactive et le risque de maladie cardiaque, et ce pour quatre variants génétiques de la protéine C-réactive. Par conséquent, en utilisant la randomisation mendélienne, nous n'avons trouvé aucune preuve que la protéine C-réactive est un facteur de risque causal de maladie coronarienne.

Quelques questions :

La randomisation mendélienne peut-elle prouver qu'un facteur de risque est une cause de risque de maladie ?

En bref, non. Toutes les approches qui émettent des jugements causaux sur la base de données d'observation reposent sur des hypothèses non vérifiables. Dans le cas de la randomisation mendélienne, les hypothèses non vérifiables sont que le ou les variants génétiques sont distribuées indépendamment des facteurs de confusion potentiels et que le ou les variants génétiques ne peuvent affecter l’outcome que par le changement du facteur de risque. Dans notre jargon, ces hypothèses signifient que nous traitons la (les) variante(s) génétique(s) comme des **variables instrumentales**.

La randomisation mendélienne peut fournir des preuves à l'appui d'une relation causale à partir de données d'observation, mais elle ne peut pas prouver définitivement un effet causal -seul un essai clinique randomisée apporte une preuve définitive de relation de causaliaté. Notre groupe de recherche a publié des recommandations pour que les chercheurs utilisent un langage approprié en ce qui concerne les allégations de causalité (voir https://jamanetwork.com/journals/jamacardiology/article-abstract/2770709) - parfois ils le font, parfois ils ne sont pas aussi prudents qu'ils devraient l'être !

Quelle est la fiabilité des affirmations relatives à la randomisation mendélienne ?

Certaines études sont plus fiables que d’autres. Dans l'exemple ci-dessus, les variants génétiques considérées se trouvaient dans la région du gène de la CRP - la partie du code génétique qui indique à l'organisme comment fabriquer la protéine C-réactive. Il est donc plausible d'affirmer que ces variants génétiques influencent la protéine C-réactive d'une manière spécifique et que, par conséquent, la seule voie de causalité potentielle entre ces variants génétiques et le risque de maladie cardiaque passe par les niveaux de protéine C-réactive.

De même, il existe des variants génétiques dans la région du gène HMGCR qui influencent le cholestérol LDL (appelé "mauvais cholestérol") d'une manière spécifique - et ce faisant, elles imitent l'action des statines, une classe de médicaments visant à baisser ce mauvais cholestérol. Les statines réduisent le risque de maladie coronarienne et d'accident vasculaire cérébral ischémique, et de la même manière, les variants génétiques dans la région du gène HMGCR réduisent le risquede ses maladies. Toutefois, si les statines augmentent globalement la longévité, elles augmentent légèrement le risque de diabète de type 2. De même, les variants génétiques dans la région du gène HMGCR sont associées à l’augmentation du risque de diabète de type 2.

Il existe plusieurs exemples où les résultats de la randomisation mendélienne et les résultats de l'essai randomisé racontent la même histoire, et de plus en plus d'exemples où l'analyse de la randomisation mendélienne a prédit le résultat de l'essai randomisé (un récent exemple inclut l'utilisation du tocilizumab et du baricitinib en tant que traitements pour le COVID-19).

Cependant, d'autres cas de figures sont moins évidents. Par exemple, si le facteur de risque est la durée du sommeil, est-il vraiment plausible que les variants génétiques affectent la durée du sommeil d'une manière spécifique ? Aucune section du code génétique n'indique directement à l'organisme la durée du sommeil. Par conséquent, il n’est pas clair si une analyse de randomisation mendélienne montrant une association entre la durée du sommeil prédite par les gènes et un risque de cancer plus faible prouve que le sommeil est un facteur de risque causal pour le cancer. Ainsi, il serait imprudent de prétendre que l'étude est définitive. L'analyse peut fournir des éléments de preuve sur une question de recherche importante, mais les données de la randomisation mendélienne ne sont pas concluantes à elles seules!

Comment faire la différence entre une étude de randomisation mendélienne fiable et une autre qui l'est moins ?

Il s'agit d'une question de jugement qui peut être difficile, et des chercheurs expérimentés peuvent parvenir à des conclusions différentes quant à la fiabilité d'une étude particulière. De nombreux facteurs doivent être pris en compte, mais les questions essentielles sont les suivantes :

- Dans quelle mesure les variants génétiques imitent-elles une intervention sur le facteur de risque ?

En ce qui concerne la première question, les variants génétiques sont plus susceptibles de refléter une intervention sur un facteur de risque moléculaire, tel que la protéine C-réactive ou le taux de cholestérol, en particulier lorsque l'on sait que la fonction du gène est liée au facteur de risque. Les variants génétiques sont moins susceptibles de refléter une intervention sur un facteur de risque social ou comportemental, tel que le nombre d'années passées à l'école ou la durée du sommeil. En effet, de nombreux facteurs influencent ces facteurs de risque, de sorte qu'il existe de nombreuses voies de causalité possibles entre les variants génétiques et l'issue de la maladie, certaines d'entre elles ne passant pas nécessairement par le facteur de risque.

- Quelle est la cohérence des preuves que les prédicteurs génétiques du facteur de risque dans différentes régions génétiques soient associés à l’outcome.

Pour cette question, les chercheurs doivent fournir suffisamment d'informations pour évaluer ce point. Si les chercheurs montrent que 10 prédicteurs génétiques du facteur de risque dans 10 régions génétiques différentes sont tous associés à l’outcome, et si toutes les associations vont dans le même sens (c'est-à-dire qu'elles suggèrent toutes que le facteur de risque est nuisible, ou qu'elles suggèrent toutes qu'il est protecteur), il est plausible que le facteur de risque ait un effet causal surl’outcome. Toutefois, si un seul des dix prédicteurs génétiques du facteur de risque est associé à l’outcome, il se peut qu'il existe un lien de causalité entre cette variante et l’outcome sans passer par le facteur de risque - c'est ce qu'on appelle la pléiotropie.

Les variants génétiques sont-elles vraiment aléatoires ?

Les variants génétiques ne sont pas strictement aléatoires pour tous les individus d'une population (il n'est possible d'hériter d'un variant génétique que si l'un de vos parents l'a eue). Cependant, il existe une certaine randomisation en termes de rencontre entre le spermatozoïde et l'ovule, ainsi que de rencontre entre les parents, ce qui signifie que les variants génétiques les plus courants peuvent être considérées comme étant distribuées de manière aléatoire dans la population. En d'autres termes, nous pouvons raisonnablement supposer qu'elles sont distribuées indépendamment des variables de confusions - c'est le cœur de ce que nous entendons par "aléatoire". En outre, les variantes génétiques qui ne sont pas physiquement proches les unes des autres sur le chromosome ont tendance à être héritées indépendamment ; c'est la loi de Mendel sur l'assortiment indépendant. Techniquement parlant, il s'agit d'une quasi-randomisation et non d'une véritable randomisation.

Cette affirmation doit être comprises avec de nombreuses mises en garde. Par exemple, certains variants génétiques sont plus fréquentes dans certains groupes ethniques. Si un variant génétique est plus fréquente dans un groupe ethnique particulier, il sera associé à des facteurs plus fréquents dans ce groupe. Néanmoins, de nombreuses preuves empiriques suggèrent que cette hypothèse est un point de départ raisonnable dans les groupes de population dont le bagage génétique est bien mélangé (voir https://pubmed.ncbi.nlm.nih.gov/18076282/ et https://www.biorxiv.org/content/10.1101/124362v1).

Comment en savoir plus ?

Voici quelques liens vers des documents clés qui expliquent de façon plus détaillée la randomisation mendélienne.

Aperçu de la randomisation mendélienne : https://www.annualreviews.org/doi/abs/10.1146/annurev-genom-083117-021731

Lignes directrices pour la réalisation d'études de randomisation mendélienne : https://wellcomeopenresearch.org/articles/4-186/v3

Lignes directrices pour l'établissement de rapports sur les enquêtes de randomisation mendélienne : https://www.bmj.com/content/375/bmj.n2233

TL;DR (version en 100 mots) : Les études épidémiologiques observationnelles sont influencées par la causalité inverse et les facteurs de confusion. La randomisation mendélienne est une approche épidémiologique qui permet d'éviter ces biais. Cette technique permet d'évaluer si les niveaux génétiquement prédits d'un facteur de risque (comme la consommation de café) et d'une maladie (comme le cancer) sont associés. Selon les lois de Mendel, les caractéristiques sont héritées indépendamment les unes des autres, ce qui signifie que les associations génétiques sont moins susceptibles d'être confondues. En outre, comme les variants génétiques sont établies dès la naissance, le risque de causalité inverse est réduit. Par conséquent, les associations dans une étude de randomisation mendélienne sont plus susceptibles d'avoir une interprétation causale que celles des analyses épidémiologiques conventionnelles.

Si vous désirez en apprendre plus, nous vous encourageons à vous procurez le livre sur la randomisation mendélienne (en anglais) ou à participer à l'un de nos cours. Notre groupe de recherche organise deux fois par an un cours en ligne sur la randomisation mendélienne - nous serions ravis que vous y participiez!

Traduit par Éloi Gagnon, vérifié par Genevieve Leyden