lundi 13 août 2018

EU DisinfoLab: quand la lutte contre les fausses informations tournent au fichage politique et à la désinformation


Après avoir montré des lacunes méthodologiques dans leur étude, puis leur inconscience dans le traitement de données personnelles sensibles et la création d’un fichage politique, puis leur irresponsabilité dans la diffusion publiques de ces données, voilà maintenant que le DisinfoLab donne dans… la Désinformation et les Fake News.

I. Rappel des faits sur le fichage de EU DisinfoLab

Rappelons que l’association belge EU DisinfoLab (créée le 27 décembre 2017) a acheté un accès à Visibrain, applicatif qui lui donne accès à TOUTE la base Twitter. Avec, ils ont récupéré les 247 701 comptes qui ont fait au moins un tweet ou un retweet sur l’affaire Benalla, et ont aspiré un certain nombre d’informations sur les dilatateurs figurant dans la base.
Ils ont alors créé un autre fichier comprenant les 55 000 comptes qui ont produit plus de 7 (re)tweets, et comprenant de nombreuses informations personnelles sensibles auxquelles ce fichier permet d’accéder instantanément. La plupart figurent dans la Biographie du profil (rédigée par l’utilisateur) ; il est à noter que ces informations permettent de faire une recherche ciblée sur un indicateur de religion, d’orientation sexuelle, d’opinion politique, etc., et de faire des regroupements très facilement. Bien que les données soient indiquées publiquement par le titulaire du compte, il faut savoir qu’il n’est pas possible de les retrouver avec une utilisation “classique” du moteur de recherche Twitter (essayez donc de trouver 200 personnes ayant indiqué être bouddhistes dans leur biographie… C’est impossible pour 99 % des utilisateurs). Il faut payer Twitter pour cela.
EU DisinfoLab a ensuite extrait plus de 3 000 profils qui ont produit plus de 200 (re)tweets, avec les informations précédentes auxquelles s’ajoute une classification réalisée par un algorithme qu’ils ont créé qui donne une couleur politique à ces comptes d’opposants (« Souverainiste », « Extrême Droite » ou « France Insoumise »).
Le 5 août, Nicolas Vanderbiest, fondateur d’EU DisinfoLab, a alors diffusé sur Twitter les 2 fichiers (“Data brutes.csv” pour les 55 000 et “ActeursClassés.xlsx” pour le fichage politique), qui ont alors circulé sur Twitter – ne tenant pas compte des demandes pressantes de suppression du fichier (exemples iciiciici ou ici). Il a fini par supprimer les fichiers 4 jours après, suite à une masse de plaintes à la CNIL, qui s’est saisie du dossier. EU DisinfoLab a alors diffusé, via dl.free.fr, un fichier zip comprenant 2 fichiers « allégés », lien donné sur Twitter (26 fois…) et dans leur étude Benalla, sans données personnelles ni politiques (“Data brutes 1 – 47.xlsx” et “Rumeurs & items.xlsx”), mais comprenant le nombre de rumeurs supposément diffusées par les plus de 3 000 acomptes très actifs, avant de supprimer également ces fichiers sur dl.free.fr le 9 aout à 18h38 (source : étude Benalla DisinfoLab).
eu-disinfo-lab
eu-disinfo-lab

II. Nos tweets du 10 août 2018

Afin que chacun comprenne la problématique de ces fichiers 1/ comprenant des masses de données sensibles, certes fournies publiquement (mais de façon discrète, à sa communauté de followers, généralement limitée) et 2/ du fichage politique réalisé par algorithme EU Disinfolab, nous avons réalisé des tweets avec une extraction (que nous avons anonymisée) de certains profils présentant des informations très sensibles :
À ceux qui minimisent le de DisinfoLab, voici un extrait anonymisé des 2 fichiers qu'ils ont créés et diffusés.
Quelles que soient nos convictions politiques, nous devrions tous nous réunir pour lutter contre ça. C'est ce qui avait permis la création de la @CNIL

Afin que tout soit bien clair, nous avons réalisé un rappel des faits en thread :
Puis nous avons alerté les partis politiques et associations concernées :
N’hésitez d’ailleurs pas à les retweeter.

III. Le Communiqué EU DisinfoLab du 11 août 2018

Nous avons alors eu la surprise de lire ce communiqué de EU Disinfo Lab :

11/08/2018 : Communiqué de presse – Fausses captures d’écran

Nous remarquons qu’une capture d’écran circule actuellement sur Twitter, Facebook et des sites d’information mettant en cause un des fichiers que nous avons transmis. Sur cette capture d’écran apparaissent des mots surlignés qui feraient penser qu’il y aurait des personnes « gay », « lesbienne », « juifs ». Aucune de ces biographies n’est issue du fichier. Tout un chacun pourra le vérifier simplement en faisant une recherche dans les fichiers. Il pourra constater que :
  • Le nombre de tweets affichés sur la capture d’écran est impossible. Seules les personnes avec + de 200 tweets étaient rassemblées.
  • Les localisations ne faisaient pas partie des fichiers que nous avons transmis. Par ailleurs, nous nous étonnons d’une localisation « marié gay en prc »
Par ailleurs, nous rappelons que le premier fichier de 55 000 pseudonymes ne comprenait que les pseudonymes des personnes ayant tweeté sur le sujet et le nombre de tweets. Rien d’autre.
Nous regrettons vivement le climat de désinformation qui règne autour de cette affaire et rappelons que, conformément au RGPD, les personnes concernées peuvent faire valoir leur droits d’effacement légitimes en nous contactant par e-mail à droitdacces@disinfo.eu
Source : Disinfo.eu (archive)
Puis celle de lire ces 7 tweets de cette association nous diffamant de façon stupéfiante (sources : 12 et 2 bis34567 – toutes) :
eu-disinfo-lab
eu-disinfo-lab
Ce mensonge fait évidemment réagir :
eu-disinfo-lab
Si, si, la cuisine est nécessaire…
eu-disinfo-lab
Puis vient alors l’instant complotisme délirant :
Ils indiquent donc que nous aurions NOUS-MÊMES créé le fichier, en recopiant à la main via l’API Twitter, 100 par 100, 55 000 profils Twitter (ce qu’elle ne permet pas), et d’ailleurs pour classer correctement et arriver au même fichier qu’eux, ce sont les 4 300 000 (re) tweets qu’il aurait fallu récupérer (et dommage, on ne peut récupérer plus de quelques retweets sans l’API)
Nous plaignons Pierre, ce twittos qui, encouragé par eux, aura passé son samedi après-midi à essayer de voir si ce délire est crédible… Quel manque de respect envers les citoyens vigilants !
Et ils insistent :
eu-disinfo-lab
Comme ils ont fait une erreur sur “mot de passe” (sic.), ils corrigent :
eu-disinfo-lab
Maintenant, pour eux, Visibrain ne permet pas d’extraire autre chose que “l’username et le mot de passe”; oups, “l’username et le nombre de tweets”. Par chance, nous avons exposé le fonctionnement de ce logiciel Big Brother ici dans ce billet (source) :
eu-disinfolab
(voir ici un exemple des données des fichiers produits par Visibrain)
Et on peut aussi exporter tous les followers, en les croisant (source) :
eu-disinfolab
eu-disinfolab
Un autre exemple des données Visibrain…
C’est d’ailleurs ce qu’ils expliquent… dans leur propre étude :
Rappelons que EU DisinfoLab est censé lutter contre la désinformation… Fact-checkons donc ses déclarations !

IV. Fact-checking du scandaleux démenti de Disinfo : “Pourquoi c’est faux”

Vous vous imaginez ce que doit ressentir face à ceci un citoyen lambda qui aurait réalisé le même genre de travaux que nous… Ou tout simplement les twittos fichés qui ont téléchargé le fichier et ont vu de leurs propre yeux ce que DisinfoLab cherche insidieusement à démentir ?
Précisons également que, selon leur site, l’équipe du DisinfoLab est très limitée, que Nicolas Vanderbiest est le cofondateur de l’association, et la seule “caution scientifique” (bien qu’il soit encore étudiant doctorant, diplômé en information et communication). Il a été pratiquement la seule personne à communiquer des informations techniques sur Twitter sur l’étude en cours :

Comme il l’avait annoncé, le chercheur a donc diffusé sur Twitter les données détaillées de l’étude DisinfoLab le 5 août (source) (Preuve ici) : (TWEET SUPPRIMÉ par Nicolas Vanderbiest) :
Note : Nicolas Vanderbiest a supprimé de très nombreux tweets “pour cacher ses erreurs” – espérons que la CNIL et la Justice demanderont bien à Twitter l’historique complète de toutes ses suppressions des derniers jours.
Il a d’abord partagé publiquement via Dropbox “Data brutes.csv”, le fichier des 55 000 plus gros diffuseurs de Tweets et Retweets (ayant diffusé plus de 7 (re)tweets sur l’affaire Benalla), avec toutes leurs informations personnelles :
eu-disinfolab
Cliquez pour agrandir. On a le nom de l’auteur et on voit les informations sensibles “que EU DisinfoLab n’a jamais eu”
Ce fichier qui n’a jamais existé contient ces 14 données en colonne :
  1. l’username / libellé du compte (le @),
  2. le nom public,
  3. “listed”l’id,
  4. la biographie du profil,
  5. la localisation,
  6. le nombre de followers,
  7. le statut vérifié,
  8. le nombre de comptes suivis,
  9. “listed” (?),
  10. le nombre de tweets du compte,
  11. la langue,
  12. la date de création du compte,
  13. le site internet,
  14. le nombre de Tweets et Retweets sur Benalla
De plus, au vu la gravité la chose, nous avons organisé un réseau de témoins tiers de confiance pour prouver la véracité de ce fichier, en vue de notre plainte à la CNIL, nous doutant bien que les auteurs finiraient par le supprimer, et étaient probablement capables de nier son existence… #PasDeBol
Et nous avons bien fait, vu qu’il est désormais possible au vu de leurs tweets que DisinfoLab ait détruit détruit les preuves de leurs agissements pour faire échec à l’enquête judiciaire et de la CNIL – nous le verrons. Nous tenons si besoin le fichier à la disposition de la CNIL (avant de bien entendu le détruire).

Ensuite, Nicolas Vanderbiest a récidivé : il a diffusé publiquement le fichier “ActeursClassés.xlsx” (source – archive) :
à savoir un fichier avec les 3 392 plus gros twitteurs sur Benalla (qui sont donc surtout des retwitteurs), auxquels il a attribué une couleur politique via un algorithme qu’il a créé : 1 pour souverainistes (sic. – c’est la droite Républicaine), 2 pour Extrême-droite et 3 pour la France insoumise !
Et son tweet a été “liké” par EU DisinfoLab
Voici le contenu du fichier :
eu-disinfolab
Et ici plus de très gros comptes classés par DisinfoLab comme “France Insoumise” (qui nous excuseront, nous l’espérons, de cette indication) :
eu-disinfolab
Ce fichier qui n’a jamais existé contient ces 13 données en colonne :
  1. l’username / libellé du compte (le @),
  2. le nom public,
  3. le nombre de comptes suivis,
  4. le nombre de followers,
  5. le nombre de tweets du compte,
  6. la biographie du profil,
  7. la “classe” politique attribuée par Disinfo
  8. “Présent russe” (russophile ?)
  9. Présent dans la diffusion “Macronleaks”
  10. Nombre de “Désinfo russe”
  11. nombre de “Rumeurs présidentielle”
  12. “Nombre de rumeurs Benalla propagées”
  13. le nombre de Tweets et Retweets sur Benalla
Ce sont ces deux fichiers que Nicolas Vanderbiest (fondateur du EU DisinfoLab) a supprimés.
Ce n’est qu’ensuite que le compte EU DisinfoLab a publié les 2 autres fichiers – les mêmes mais sans les données personnelles de la biographie ni le classement politiques (fichiers “Data brutes 1 – 47.xlsx” et “Rumeurs & items.xlsx”). Avant de le supprimer rapidement – vu qu’ils comprennent les identifiants des comptes (source) :
Ainsi, il y a bien eu 4 fichiers diffusés par cette officine, pas 3. Plus aucun n’est accessible (il faudrait donc qu’ils arrêtent de dire qu’on peut vérifier facilement dans leurs tweets, jouant de la confusion)
Nous avons déjà expliqué tout ceci dans ce billet de jeudi dernier.
Et Disinfo a publiquement reconnu ce problème de fichiers (source – d’autres exemples icisur les fichiers “officiels”) :
Ah, il y a des fichiers “non officiels” – qui sortent d’où… ?
Ils avaient même répondu à Aude Lancelin (source) :
eu-disinfolab
Oui un petit “souci de colonne”… Mais c’est à cause de nous peut-être ?
Et ceci ? (source)
Ah, ce fichier Dropbox donc ?
Mais qui donc a bien pu le diffuser ???
Ainsi, en résumé : Nicolas Vanderbiest, le cofondateur et chercheur du DisinfoLab a diffusé 2 fichiers :
  • “Data brutes.csv” : contenant de nombreuses informations personnelles sensibles récupérées des profils publics de Twitter, dont la biographie, pour 55000comptes ;
  • “ActeursClassés.xlsx” : contenant les mêmes informations personnelles sensibles, complétées d’une classification politique qu’il a lui même réalisée (en indiquant un chiffre 1, 2 ou 3), pour plus de 3000 comptes.
Il les a supprimés au bout de plusieurs jours. Le compte DisinfoLab a ensuite diffusé 2 autres fichiers (“Data brutes 1-47.xlsx” et “Rumeurs & items.xlsx“), avec bien moins de données personnelles, avant, également, de les supprimer.
Afin que tout le monde comprenne la gravité de ce genre de fichiers, nous avons donc réalisé notre tweet avec un extrait des deux premiers fichiers, diffusés par Nicolas Vanderbiest.

V. Fact-checking collaboratif du tableau de notre tweet


Le mieux est de laisser les twittos qui disposent du fichier original “Data brutes.csv” (à ne pas confondre avec le fichier épuré “Data brutes 1 – 47.xlsx”) de vérifier notre travail – que nous republions, en rajoutant les numéros de ligne du fichier original pour une vérification aisée – les voici :
...
Source et suite: Les Crises

0 Commentaires:

Enregistrer un commentaire



Charte des commentaires:

La possibilité de commenter de façon anonyme a été désactivée suite à de trop nombreux abus (insultes, menaces de mort). Il faut désormais obligatoirement utiliser un compte Gmail pour commenter.

Pas de spams, d'insultes, de provocations stériles, de prosélytisme religieux à outrance, d'appels à la haine, à la violence ou d'apologie du terrorisme. Les commentaires ne sont pas un défouloir et ce blog n'est ni un tchat ni un forum. Les commentaires sont là pour apporter quelque chose au débat. Les trolls ne sont pas les bienvenus. Restez courtois dans vos échanges et, dans un souci de compréhension, écrivez uniquement en français, merci.

Les liens externes sont acceptés s'ils sont en rapport avec le sujet de départ. Les HS sont exceptionnellement tolérés s'ils relèvent d'un sujet connexe ou pertinent vis à vis du thème de l'article. Merci de vérifier vos sources avant de publier un lien vers un article tiers (pas de sites parodiques et de fausses nouvelles s'il vous plait).

La modération est parfois activée, parfois non selon les disponibilités de l'administrateur. Dans tous les cas, inutile de reposter vos commentaires, ils seront validés en temps voulu.

A chacun d'y mettre du sien afin de permettre d'échanger et de débattre dans le respect de chacun.

Mal traités

Coronavirus

MK-Ultra

Affaire Epstein

Lubrizol

Réseau Pédophile de l'Elite

Conseils pour économiser

Contre la désinformation

Rechercher sur le blog

Inscription à la newsletter

Archives du blog