Chronique Covid N°31 – « Très mal renseignée, mal conçue, la base SI-DEP de Santé Publique France est inexploitable, fausse et d’utilité questionnable »

Auteur(s)
François Pesty pour FranceSoir
Publié le 12 octobre 2020 - 13:12
Image
Chronique Covid 31
Crédits
Pexels
Chronique Covid 31
Pexels

Tribune : La transparence de Santé Publique France en matière de dépistage du Covid est un leurre !

 

J’aurais dû davantage me méfier après ma première déconvenue d’utilisation de la base de données « système informatique de dépistage », à l’acronyme « SI-DEP », en soi-disant « open data » sur data.gouv.fr (ici) ou sur Géodes (ici) en suivant le chemin « Indicateurs/C/COVID-19/Données de laboratoires (SI-DEP - à partir du 13/05) (18)/Nombre de personnes positives – quotidien ».

 

Je m’étais confié sur cette première déconvenue en introduction de ma chronique N°19 (ici).

 

En effet, si vous télécharger l’un des 12 fichiers mis en accès libre sur data.gouv.fr :

 

- Ni le fichier de description des métadonnées « metadonnees-positivite.xlsx » (ici), situé plus bas dans la page,


 

- Ni le fichier lui-même, ici celui téléchargé le 9 octobre « sp-pos-quot-dep-2020-10-09-19h15.csv »,

- Ni la note méthodologique « analyse-de-la-base-sidep-note-methodologique.docx » (ici), également plus bas dans la page,

 

 

Ne définissent explicitement chacune des 11 classe d’âges !

 

Il aurait fallu remarquer pour un département donné et un jour donné, que la classe d’âge dénommée « 0 », totalisait les nombres de cas positifs et les nombres de tests de toutes les autres classes d’âges…

 

Ou alors, il aurait fallu aller sur Géodes en suivant le chemin indiqué plus haut (avouez que cela nous éloigne fortement du site data.gouv.fr…), pour enfin commencer à comprendre :

 

Nulle-part vous ne trouverez le tableau simple et explicite ci-dessous, qui aurait permis à tout utilisateur de comprendre, de ne pas perdre inutilement son temps en restant sur de simples conjectures, ou pour certains probablement de renoncer à travailler sur ces données (Peut-être est-ce ce que Santé Publique France (ou un prestataire gestionnaire de cette base de données) cherchait, ou bien alors, peut-être de la pure incompétence)

 

En général, lorsque l’on a l’habitude de travailler comme c’est le cas pour moi sur bases de données relationnelles, on sait comment totaliser les valeurs d’un champ tel qu’une classe d’âges. On ne s’attend pas à ce que l’un des champs de détail de la base totalise toutes les valeurs des autres…
 

Erratum #2

 

Alors, deuxième déconvenue, et je bats à nouveau ma coulpe, j’ai très mal interprété à l’insu de mon plein gré, les courbes que j’ai présentées dans ma dernière Chronique (ici) et, qui de bonne foi je le pensais, attestaient d’une amorce bien entamée de baisse de l’incidence des nouveaux cas positifs au Sars-cov-2 dans de nombreux départements. Une bonne nouvelle.

 

Par ailleurs, les modifications opérées par Santé Publique France que je pensais avoir mis en évidence dans les fichiers successivement téléchargés, m’avaient amené à suspecter une manipulation de la part de l’agence dans le but de faire croire à l’aggravation de la situation sanitaire.

 

Je me suis trompé et j’en suis profondément désolé. Mais, j’ai surtout été trompé et un peu trop naïf…

 

Persuadé que j’étais que les nombres de nouveaux cas positifs quotidiens, et par de-là, les nombres de cas positifs cumulés sur 7 jours glissants, ainsi que les taux d’incidence qui en découlaient, étaient colligés sur la date de validation de leurs analyses respectives, c’est-à-dire sur la date de remontée des résultats dans SI-DEP.

 

C’est sur Twitter que j’ai été alerté (ici) par un certain Germain Forestier @gforestier, le 2 octobre, et qui après avoir lu ma chronique, s’évertuait à m’expliquer que la date retenue pour les données SI-DEP n’était pas celle de la remontée du résultat, mais celle du prélèvement.

 

J’avais quand même pas mal d’arguments à lui opposer :

 

Tout d’abord, la description de cette base de données est très confuse et d’une rare imprécision. J’ai relu le décret abscons du 12 mai (ici) et sur le site de téléchargement, comme nous l’avons vu plus haut, le fichier de description des métadonnées ne peut pas être plus imprécis.

 

Plutôt que de mettre « Jour », pourquoi n’ont-ils pas mis dans la colonne « C » de description : « Date de prélèvement » ou « date de remontée du résultat de l’analyse » ?

 

Quant à la note méthodologique, celle-ci est purement « imbitable ».

 

Néanmoins, s’agissant de cette note méthodologique, elle renferme un tableau dont voici un extrait :

 

 

Alors, Germain Forestier me rétorquait que dans le texte de la même « note méthodologique », il était stipulé :

 

 

Là, Germain marquait un point. Et pour enfoncer le clou, il me faisait remarquer que sur le portail data.gouv.fr il était bien dit que « Le délai de remontée des résultats pouvait excéder 9 jours dans certains cas »

 

Pour en avoir le cœur net, je me décidais alors à comparer en les traçant, les courbes d’incidence des nouveaux cas positifs sur 7 jours sur le département de Paris, avec les 9 fichiers en ma possession. En voici le résultat :

 

En regardant ces courbes pour le département de Paris, mais il n’y a aucune raison que ce soit bien différent dans les autres départements, il s’avère que pour chaque nouveau fichier, le taux d’incidence monte plus haut que pour le fichier précédent, mais les 6 à 15 derniers jours l’incidence baisse jusqu’à toucher zéro.

 

Si effectivement les données de cas positifs sont agrégées sur la date de prélèvement, et que les résultats ne remontent pas avant ‘x’ jours (et en réalité on ne sait pas quel est le délai maximal entre le prélèvement et la remontée du résultat dans SI-DEP), alors les fichiers successifs seront mis à jour ‘x’ jours après le prélèvement. Pour fixer les idées, nous aurions « 3 jours d’embargo des données » de cas positifs et de nombres de tests réalisés, selon Germain Forestier. Ce qui se traduit par le fait que pour le fichier télécharger le 9 octobre (après 19h15), le dernier jour de données est le 6 octobre. S’il s’agit de la date de prélèvement, il y a peu de chance que nous ayons le résultat de la RT PCR le jour même. Si, nous avons 9 jours de délai entre prélèvement et résultats, cela signifie que pour être assuré d’avoir le résultat, il faudrait donc remonter à un prélèvement effectué 9 jours en arrière, soit au 27 septembre. C’est-à-dire que l’on a téléchargé le fichier le 9 octobre et qu’il faut remonter 12 jours en arrière pour avoir les dernières données fiables et définitives…

 

Ainsi, les données des derniers jours sont de plus en plus incomplètes. Ce qui explique les baisses d’incidence calculée sur des données incomplètes. Et donc il ne s’agit pas d’une baisse d’incidence, mais d’une baisse de la complétude des données.

 

Cela veut dire qu’en l’état actuel, nous devrions supprimer les 10, 15, 20, on ne sait pas en réalité, derniers jours de données de la série téléchargée pour tracer une courbe « juste »

 

Quelle bêtise d’avoir choisi cette date de prélèvement alors que l’on savait qu’il pouvait y avoir des retards dans la remonté des résultats d’analyse

 

Pour avoir des données fiables il aurait suffi de prendre la date de remontée des résultats. Il n’y aurait pas eu de mises à jour intempestives

 

Puisque pour un même test, les dates de prélèvement et les dates de remonté des résultats figurent dans la base SI-DEP (avec bien d’autres dates d’ailleurs), il serait donc possible d’extraire de la base des fichiers avec le nombre de cas positifs et le nombre de résultats remontés dans la base un jour donné ! (Données indexées sur la date de validation du résultat ou de remonté du résultat dans SI-DEP).

 

Actuellement ce n’est pas possible.

 

Il est urgent de changer les données prises en compte dans les fichiers à télécharger ou alors d’offrir en open data une extraction possible « à la carte » des champs à exporter

 

Sans cela, les fichiers actuels sont sans intérêt !

 

De surcroit, c’est un secret pour personne, de nombreux cas positifs sont en réalités des « faux positifs » dans la mesure où la sensibilité des tests, exacerbée par un nombre de cycles d’amplification trop important (au-dessus de 33), aboutirait à diagnostiquer des cas positifs qui ne seraient pas contagieux (Voir l’article du New York Times ici ; celui du journal Le Monde ici)

 

En fait, les arbres ne montent jamais jusqu’au ciel, et les taux d’incidence redescendront. Et il se pourrait que ce soit dans peu de temps.

 

Selon les dernières données Santé Publique France, le taux de positivité SARS-Cov-2 RT-PCR serait monté à 11%, le nombres de nouveaux cas en 24h à 27.000 (Source France Info, 11/10/2020 à 12h00 : ici) et 19.000 (Source France 24, 12/10/2020 journal 7h30)

 

Ces chiffres restent corrélés à l’incidence et aux nombres de tests pratiqués qui ne cessent d’augmenter

 

En fait, plutôt que d’interpréter l’évolution de l’incidence comme une dégradation de la situation sanitaire, il faudrait que ceux qui nous gouvernent se réveillent et comprennent enfin que la contamination des bien-portants est le plus sûr moyens d’atteindre l’immunité collective qui seules éteindra cette pandémie

 

Les restrictions préfectorales prises dans les départements classés en « alerte maximale », fermetures des bars, des restaurants, des salles de sport, baisse de jauge de 5000 à 1000, qualifiées de mesurettes par la brillante épidémiologiste Catherine Hill, sont totalement contre-productives, et ne font que retarder la fin de l’épidémie.

 

(Revoir l’introduction de ma chronique précédente : ici).

 

 

À LIRE AUSSI

Image
chronique covid 30
Chronique Covid N°30 – « Ils veulent livrer une nouvelle guerre de cent ans contre le coronavirus ! »
Nous sommes bien mal embarqués par notre exécutif (Macron, Castex, Véran, Darmanin, Le Maire, Blanquer, Vidal…), et son bras armé, les préfets et les DARS (Directeurs ...
05 octobre 2020 - 12:24
Opinions
Image
france drapeau
Bilan de la politique sanitaire française : erreur réelle et catastrophe annoncée sans modification rapide
Tribune : Une politique se juge à ses résultats. La politique sanitaire française a été particulièrement contreproductive puisqu’elle nous a amené dans le top 6 europé...
12 octobre 2020 - 13:34
Opinions

L'article vous a plu ? Il a mobilisé notre rédaction qui ne vit que de vos dons.
L'information a un coût, d'autant plus que la concurrence des rédactions subventionnées impose un surcroît de rigueur et de professionnalisme.

Avec votre soutien, France-Soir continuera à proposer ses articles gratuitement  car nous pensons que tout le monde doit avoir accès à une information libre et indépendante pour se forger sa propre opinion.

Vous êtes la condition sine qua non à notre existence, soutenez-nous pour que France-Soir demeure le média français qui fait s’exprimer les plus légitimes.

Si vous le pouvez, soutenez-nous mensuellement, à partir de seulement 1€. Votre impact en faveur d’une presse libre n’en sera que plus fort. Merci.

Je fais un don à France-Soir

Les dessins d'ARA

Soutenez l'indépendance de FS

Faites un don

Nous n'avons pas pu confirmer votre inscription.
Votre inscription à la Newsletter hebdomadaire de France-Soir est confirmée.

La newsletter France-Soir

En vous inscrivant, vous autorisez France-Soir à vous contacter par e-mail.