De la controverse à la rupture : comment l’IHU a quitté les règles communes de la preuve

Si le premier article s’arrêtait à l’endroit exact où l’histoire cessait d’être celle d’une étude simplement fragile. La faiblesse du protocole marseillais n’était pas une découverte tardive. Elle était déjà inscrite dans les documents eux-mêmes, dans les mots employés, dans le design retenu, dans les exclusions opérées, dans le glissement presque immédiat entre un signal exploratoire et une conclusion thérapeutique.

Portrait de Didier Raoult avec une expression mêlant appréhension et légère inquiétude — **Didier Raoult, invité du 1er Cercle franco-chinois, dans une image issue d’une vidéo publiée en juillet 2021.**

À partir de là, la suite n’a rien d’un malentendu. Elle commence au moment précis où cette première publication rencontre enfin ce qu’elle n’avait pas encore vraiment affronté : la lecture critique, méthodique, publique, des pairs.

À peine publié, déjà disséqué

L’un des récits les plus commodes de l’affaire Raoult consiste à dire que les critiques seraient venues plus tard, quand la machine médiatique s’était déjà emballée, ou pire, qu’elles auraient été fabriquées après coup par un establishment vexé. C’est faux. L’étude de Gautret et al. a été autopsiée presque en temps réel. Elle ne s’est pas installée d’abord comme une découverte solide ensuite contestée. Elle a été contestée tout de suite, ligne par ligne, presque au moment même où elle entrait dans l’espace public scientifique. Elisabeth Bik rappelle que le préprint est mis en ligne le 16 mars 2020, puis que l’article est accepté le 17 et publié le 20, avant d’être déjà discuté activement sur PubPeer quelques jours plus tard. Le CNRS soulignait lui aussi, dès avril 2020, que la controverse hydroxychloroquine se jouait déjà dans ce nouvel espace de relecture collective post-publication.

C’est un point décisif. Le Post-Publication Peer Review, ou relecture par les pairs après publication, n’est pas une sorte de tribunal sauvage qui viendrait remplacer la science normale. C’est, au contraire, l’un de ses prolongements les plus logiques. Un article publié n’est pas sanctifié. Il est exposé. Quand le filtre initial a été trop rapide, trop poreux ou simplement débordé par l’urgence, la critique se déplace après coup, au vu de tous. PubPeer n’est donc pas ici un décor annexe. C’est le lieu central de cette phase : l’endroit où le papier marseillais a été relu comme il aurait dû l’être plus tôt, avec davantage de temps, davantage de contradicteurs, et beaucoup moins d’enthousiasme pour l’effet d’annonce.

PubPeer, ou la seconde vie d’un article faible

Ce qui frappe dans les commentaires précoces, ce n’est pas leur violence. C’est leur précision. Les objections ne portent pas sur des détails de présentation. Elles visent le cœur de la démonstration. L’absence de randomisation. La fragilité du groupe contrôle. Le changement ou l’ambiguïté du critère principal. L’usage d’un critère virologique présenté comme s’il valait bénéfice clinique. L’exclusion de patients ayant mal évolué. Les conditions d’interprétation statistique. Les questions de tolérance. Autrement dit : exactement les points qui rendaient déjà la conclusion initiale beaucoup trop sûre d’elle-même.

La formule la plus sèche est probablement celle de Frits Rosendaal, dans sa revue critique ultérieure du papier : l’étude souffre de “major methodological shortcomings” au point d’être “nearly if not completely uninformative”. La phrase a le mérite de la netteté. Elle ne dit pas que le papier est simplement imparfait, comme tant d’études en situation d’urgence. Elle dit qu’il cumule des défauts assez lourds pour rendre sa portée probante presque nulle. Ce n’est pas une querelle de puristes. C’est une objection au statut même du résultat.

Mondher Toumi, dans son commentaire publié la même année, éclaire un autre point central, plus technique mais redoutable pour la crédibilité du texte. Il relève que le calcul de puissance présenté correspond à une étude comparative à deux bras, alors que le résumé parle d’une étude à un seul bras et que le protocole enregistré au registre européen renvoie, à l’origine, à une étude non contrôlée. Sa conclusion tient en une ligne : “the control arm was a later amendment of the study.” Dit autrement, le groupe contrôle, censé porter une bonne part de la conclusion, semble avoir été ajouté après coup. Pour le grand public, il faut le dire simplement : lorsqu’un essai bouge en cours de route, et que sa structure finale ne correspond plus exactement à celle qui avait été annoncée, la confiance ne monte pas. Elle baisse.

Le même commentaire appuie là où cela fait encore plus mal : le critère d’évaluation. Le protocole et le calcul d’effectif renvoient à une évaluation à J7. L’article, lui, conclut à J6. Toumi note que ces contradictions, à l’intérieur même du texte et entre le texte et le protocole, “raise questions about the credibility of the article.” Là encore, ce n’est pas un raffinement de méthodologiste. C’est un principe simple. Une étude ne doit pas donner le sentiment que la ligne d’arrivée a été rapprochée au moment où le résultat devenait favorable.

Le signal virologique n’est pas encore le malade

Il faut ici revenir à une distinction de base, que le débat public a souvent écrasée. Le critère principal de l’étude Gautret n’est pas l’amélioration clinique des patients. Ce n’est ni la survie, ni le besoin d’oxygène, ni le passage en réanimation. C’est un marqueur virologique intermédiaire : la négativation de prélèvements nasopharyngés à court terme. Toumi le dit explicitement : il s’agit d’un surrogate endpoint, un critère de substitution. Or un critère de substitution n’est pas absurde en phase exploratoire. Il devient problématique lorsqu’on le fait glisser presque sans précaution vers une promesse thérapeutique globale. Effacer plus vite une positivité PCR n’équivaut pas, en soi, à démontrer qu’on soigne mieux les malades.

La question des exclusions produit le même effet de torsion. Dans une réponse publiée en 2021, les auteurs reconnaissent eux-mêmes que l’exclusion de six patients “may have biased” leurs résultats et qu’ils ont, pour cette raison, réanalysé les données. Cet aveu tardif compte beaucoup. Il confirme que l’objection n’était pas un luxe rétrospectif. Elle était déjà au centre du problème au printemps 2020. Dans une étude aussi petite, retirer du calcul plusieurs patients dont certains ont été transférés en soins intensifs ou sont morts, ce n’est pas un détail comptable. C’est une opération qui peut modifier l’apparence même du résultat.

Il faut ajouter que le débat n’a jamais porté seulement sur l’efficacité. Les commentaires précoces et les lettres critiques insistent aussi sur la sécurité, sur les posologies, sur l’association avec l’azithromycine et sur le risque d’auto-administration dans un contexte de médiatisation extrême. Rosendaal juge d’ailleurs le ton général du papier “fully irresponsible” au regard de la demande désespérée de traitements et des effets indésirables potentiellement graves. Là encore, la communauté scientifique n’arrive pas après la bataille. Elle est déjà là, au moment même où l’enthousiasme public commence.

Elisabeth Bik, ou la lecture la plus juste

Dans cette séquence, Elisabeth Bik tient une place particulière parce qu’elle incarne exactement ce qu’une lecture scientifique sérieuse devait être. Elle ne nie ni l’urgence, ni l’espoir, ni l’intérêt de publier vite pendant une pandémie. Elle écrit même : “This is great news” dans un contexte où aucun traitement validé n’existe encore. Mais elle ajoute aussitôt qu’il existe “many potential problems” dans la gestion des données et du peer review. C’est probablement la formule la plus honnête de tout le moment. Oui, une piste thérapeutique peut justifier une publication rapide. Non, l’urgence n’autorise pas à relâcher les standards élémentaires de cohérence, de transparence et de vérifiabilité.

Cette position est importante pour une raison simple. Elle empêche le récit de se replier sur une opposition caricaturale entre, d’un côté, des soignants courageux qui agiraient dans l’urgence, et de l’autre, des gardiens froids de la méthode qui empêcheraient de sauver des vies. La lecture de Bik montre autre chose : on peut comprendre l’urgence et rester méthodologiquement intraitable. On peut vouloir aller vite sans appeler “preuve” ce qui n’est encore qu’un signal. Et l’on peut, surtout, considérer que la vitesse impose plus de rigueur, non moins.

Dans la science ordinaire, on répond sur le fond

À ce stade, la séquence devrait être assez classique. Un article est critiqué. Les auteurs répondent point par point. Ils clarifient le protocole, justifient les écarts, documentent les données, ouvrent la possibilité de réanalyse, corrigent ce qui doit l’être et, si nécessaire, révisent leurs conclusions à la baisse. La science n’exige pas des chercheurs qu’ils soient infaillibles. Elle exige qu’ils rendent leurs erreurs visibles et leurs résultats auditables. L’idée même d’une étude bien contrôlée, rappelée par le droit réglementaire américain, est précisément de distinguer l’effet du médicament d’autres influences possibles : évolution spontanée, observation biaisée, attentes des soignants, différences préexistantes entre groupes.

C’est aussi à cela que sert la randomisation. Cochrane le formule sans détour : les essais randomisés répartissent les participants par le jeu du hasard afin de prévenir le selection bias, le biais de sélection. Le hasard n’est pas un cérémonial. C’est un outil. Il sert à empêcher que des groupes dissemblables au départ soient comparés ensuite comme s’ils étaient équivalents. Il sert à éviter qu’une conviction clinique préalable se transforme mécaniquement en effet apparent du traitement. Il sert, en somme, à protéger les chercheurs contre leurs propres intuitions.

Le point de rupture : la critique n’est plus reçue comme une correction

C’est ici que l’affaire change de nature. Le problème n’est plus seulement qu’une étude faible ait été publiée trop vite. La littérature Covid de 2020 en compte beaucoup. Le problème est que la critique méthodologique n’est pas intégrée comme un mécanisme ordinaire d’autocorrection. Elle est traitée comme une agression, puis comme la preuve d’un ordre scientifique devenu illégitime. En clair : au lieu de défendre un résultat dans le cadre normal du contradictoire, Didier Raoult commence à contester la légitimité même du cadre dans lequel le résultat est critiqué.

Sa tribune publiée le 2 avril 2020 dans Le Quotidien du Médecin est, de ce point de vue, centrale. Il y explique que les études randomisées ont bénéficié d’un engouement poussé par l’industrie pharmaceutique et par un nouveau groupe de chercheurs, les “méthodologistes”. Il ajoute que cette approche ne serait qu’“une mode scientifique parmi d’autres” et reproche à ses partisans d’avoir fini par imposer l’essai randomisé comme “preuve unique” de l’efficacité d’un traitement. Quelques semaines plus tard, La Revue du Praticien résume la même ligne : ce modèle aurait nourri une quantité de méthodologistes et serait devenu une “dictature morale”. Là, le déplacement est complet. On ne répond plus à l’objection. On délégitime l’outil qui permettait de formuler l’objection.

Il faut mesurer ce que cela change. Une controverse scientifique ordinaire porte sur les résultats, sur leur interprétation, sur la qualité d’un protocole, sur la robustesse d’un effet. Ici, la dispute glisse vers autre chose. Elle porte désormais sur la définition même de ce qui compte comme preuve recevable. L’IHU ne défend plus seulement l’idée que l’hydroxychloroquine marche. Il défend, de plus en plus nettement, l’idée qu’on pourrait le savoir sans passer par les filtres que la médecine contemporaine a précisément mis en place pour se protéger des illusions thérapeutiques.

Pourquoi l’essai randomisé n’est pas un fétiche bureaucratique

C’est l’un des points qu’il faut démonter le plus clairement, parce qu’il a beaucoup séduit. Présenter les essais randomisés en double aveugle comme une manie administrative, c’est leur prêter une fonction qu’ils n’ont pas. Ils ne sont pas là pour humilier le clinicien ni pour compliquer inutilement la décision médicale. Ils existent pour une raison très simple : quand on cherche à mesurer l’effet propre d’un traitement, il faut essayer de neutraliser tout ce qui peut mimer cet effet. Le hasard répartit les patients. L’aveugle réduit l’influence des attentes. Le contrôle permet de distinguer ce qui vient du médicament de ce qui vient du reste.

Autrement dit, l’exigence méthodologique n’est pas l’ennemie du soin. Elle est la condition qui empêche une impression forte, une amélioration partielle ou une série sélectionnée de cas favorables de se transformer en certitude prématurée. On peut parfaitement soutenir qu’en situation d’urgence il faut traiter, observer, tenter. Mais cela ne dispense pas de reconnaître qu’une observation non contrôlée ne vaut pas, à elle seule, démonstration d’efficacité. Faire passer cette exigence pour une lubie de statisticiens, c’était déjà changer le débat de terrain.

De l’hypothèse fragile à la contre-méthodologie

C’est probablement ici que se joue la rupture profonde. Une institution scientifique peut survivre à un papier faible. Elle survit beaucoup moins bien à une remise en cause continue des règles communes de sa propre communauté savante. Or c’est ce qui se dessine à partir de 2020. Au lieu d’une réponse méthodologique, on voit se mettre en place une contre-méthodologie. L’intuition clinique est valorisée contre l’essai contrôlé. Les contraintes de la preuve sont décrites comme une dérive. Les contradicteurs deviennent des représentants d’une caste. La rapidité est opposée à la rigueur comme si les deux étaient incompatibles. Et surtout, la faiblesse initiale du dossier n’est pas corrigée : elle est théorisée.

À partir de ce moment-là, le vrai scandale n’est plus seulement celui d’un article mal construit. Il tient au refus d’entrer dans la séquence ordinaire du débat scientifique : objection, documentation, réanalyse, éventuelle correction. Le cœur de la réponse n’est plus “voici pourquoi vous vous trompez”, mais de plus en plus “vous n’avez pas la légitimité pour me demander ce que vous me demandez”. Ce n’est pas un simple durcissement du ton. C’est un basculement intellectuel.

Surgisphere : un scandale réel, mais pas une preuve pour l’IHU

L’affaire Surgisphere va offrir à cette logique un appui rhétorique idéal. En mai 2020, The Lancet publie une vaste analyse multinationale concluant à des risques accrus avec l’hydroxychloroquine. Quelques jours plus tard, l’étude s’effondre. La revue la rétracte officiellement après qu’il est apparu que plusieurs auteurs n’avaient pas eu accès aux données sous-jacentes et n’avaient pas pu en vérifier la fiabilité. Le scandale est réel. Il est même majeur.

Mais un papier frauduleux ou invérifiable tombé du côté anti-hydroxychloroquine ne transforme pas magiquement des papiers fragiles en papiers robustes du côté marseillais. C’est pourtant là que l’épisode devient utile à l’IHU : non comme validation scientifique de ses propres travaux, mais comme ressource polémique. Puisqu’un grand journal s’est trompé, on pourra suggérer que tout le champ adverse est corrompu, et qu’en face, les séries marseillaises resteraient seules au contact du réel. Le problème est évident. En science, la chute d’un mauvais article n’authentifie pas le voisin. Elle rappelle seulement qu’aucun camp n’est dispensé de la preuve.

Quand la réponse devient industrielle

La suite logique est alors presque mécanique. Puisque le contradictoire méthodologique est contesté, puisque l’essai randomisé est présenté comme une exigence dévoyée, puisque la critique externe est traitée comme une entrave, un autre mode de légitimation va prendre le relais : publier beaucoup, vite, sur des effectifs de plus en plus massifs. L’IHU ne répond pas seulement aux objections. Il change d’échelle. Après les 80 patients de la première étude observationnelle, viennent les 1 061 cas, puis les 3 737 patients, puis encore 2 111 hospitalisés dans une cohorte monocentrique ultérieure. Les nombres grossissent. L’impression de solidité aussi.

C’est ici qu’il faut rappeler une chose simple et contre-intuitive pour beaucoup de lecteurs. Une cohorte observationnelle décrit ce qui se passe dans la vraie vie clinique. Elle peut être utile, parfois très utile. Mais elle ne remplace pas automatiquement un essai comparatif bien contrôlé. Augmenter la taille de l’échantillon améliore la précision d’une estimation ; cela ne corrige pas un biais de sélection fondamental. Si les patients traités et non traités ne sont pas comparables au départ, alors 500, 5 000 ou 30 000 dossiers peuvent produire une impression de puissance sans lever le doute causal central. La masse ne corrige pas le mauvais point de départ. Elle l’amplifie.

On le voit d’ailleurs dans les synthèses plus rigoureuses qui commencent à apparaître au fil du temps. La méta-analyse de Fiolet et al. conclut que l’hydroxychloroquine seule n’est pas associée à une réduction de la mortalité chez les patients hospitalisés, tandis que l’association hydroxychloroquine-azithromycine est, elle, associée à une hausse significative de mortalité. Autrement dit, l’empilement de cohortes n’a pas clos le débat dans le sens espéré à Marseille. Il a coexisté avec une littérature de plus en plus structurée qui allait, progressivement, tirer dans l’autre sens. C’est cette réponse scientifique plus organisée qui formera le cœur du troisième article.

NMNI, ou le repli vers un environnement éditorial favorable

Il faut enfin regarder où cette production s’installe. New Microbes and New Infections n’est pas, en soi, une revue fantôme. C’est une publication officielle de l’ESCMID, lancée avec Michel Drancourt, d’Aix-Marseille, comme editor-in-chief, et pensée pour une diffusion rapide. Mais c’est précisément cette rapidité, jointe aux proximités institutionnelles, qui finit par poser problème lorsqu’une part importante de la production émane d’un même écosystème. Des travaux ultérieurs sur les biais éditoriaux dans les revues biomédicales ont montré qu’un sous-ensemble de journaux présentait une concentration anormale d’articles signés par des auteurs très prolifiques, souvent liés aux équipes éditoriales, avec des délais de publication très courts. Des analyses consacrées à la période Covid ont, en outre, pris le cas de NMNI et des liens entre auteurs et éditeurs comme exemple particulièrement parlant.

Il ne s’agit pas ici de dire que tout article publié dans cet environnement serait faux par nature. Ce serait une paresse symétrique. Le point est ailleurs. Lorsqu’une équipe contestée sur la robustesse de ses preuves continue de produire à rythme élevé dans un circuit éditorial où les proximités deviennent elles-mêmes un sujet, le volume n’éteint pas les doutes. Il les déplace. On ne demande plus seulement si les résultats sont justes. On demande aussi si le système de validation reste assez indépendant pour arbitrer correctement la controverse.

La rupture est alors déjà consommée

Au fond, la controverse ne s’est pas durcie parce que Didier Raoult “dérangeait”. Elle s’est durcie parce qu’une étude fragile, critiquée immédiatement et très précisément, n’a pas donné lieu à la réponse qu’appelle normalement la science ordinaire.

Il n’y a pas eu, au centre de la séquence, un moment clair de réajustement méthodologique capable de solder la discussion. Il y a eu autre chose : un déplacement du débat hors du terrain initial de la preuve, puis une production de masse destinée à opposer le nombre à la vulnérabilité du premier papier.

À un telle stade, on ne se dispute plus seulement sur un traitement. On se sépare sur la manière même de décider ce qu’est une preuve recevable. Et quand une controverse en arrive là, la fracture avec le reste du champ scientifique n’est plus à venir. Elle est déjà là.