Cycle « Sciences et réseaux sociaux » – Session #2 : Les réseaux sociaux, véritables objets de recherches scientifiques

Ce que l’on retient de ces échanges :

  • La social data ouvre de nouvelles pistes de recherche et contribue à accélérer le temps scientifique ;
  • prévention des risques de santé : les médias sociaux permettent de mieux entendre la voix des patients ;
  • éthique et consentement des internautes : la data science pose la question de la protection des données et de la transparence dans la finalité de leur usage.

 

Bases de données à ciel (presque) ouvert, les réseaux sociaux sont devenus de véritables sujets de recherche scientifique, offrant une matière inégalée pour les travaux de nombreux chercheurs. Sociologues, épidémiologistes, les scientifiques se servent des interactions sociales (leur contenu et leur forme) pour nourrir leurs recherches… et pour les partager. Pour en discuter, nous avons invité Stéphane Schück, CEO de Kap Code, Guy Fagherazzi, chercheur spécialiste en e-épidémiologie au CESP (INSERM) et Célya Gruson-Daniel, chercheuse en étude des sciences et des technologies et CEO de DRISS. Cette session du Social Media Club était animée par David Reguer, directeur général de RCA Factory et Guilhem Boyer, Social Media Manager chez Safran.

 

Si l’usage de la social data dans le domaine des sciences humaines, sociales et politiques est reconnu depuis longtemps, son application dans le champ de la recherche médicale est de plus en plus scruté. « On voit émerger ces dernières années de plus en plus d’applications de la donnée sociale dans le domaine de la santé », confirme en introduction David Réguer (RDC Factory). Les médias sociaux représentent une richesse inédite pour les acteurs de la santé, tant du côté académique qu’institutionnel et économique. Dans le cadre de ses recherches scientifiques en épidémiologie, Guy Fagherazzi s’est spécialisé dans l’identification de facteurs de risque et de complications du diabète. Il a fait de la donnée sociale sa matière première pour identifier des facteurs qui n’étaient pas pris en compte ni détectés par les méthodes traditionnelles de recherche scientifique. Depuis deux ans, il conduit une étude mondiale sur la détresse liée au diabète chez les patients diabétiques, et plus précisément sur les facteurs psychologiques. « Historiquement, les épidémiologistes travaillent beaucoup sur les déterminants liés au mode de vie. Jusqu’à présent, le chaînon manquant était les émotions et le psychologique, qui sont très peu étudiés dans les cohortes. Grâce aux réseaux sociaux, on peut maintenant aborder ces sujets-là et comprendre comment la maladie est vécue », développe le chercheur de l’Inserm.

Digitosome

 

Deux types de données issues des médias sociaux intéressent les chercheurs en santé : la donnée textuelle et les métadonnées. « La géolocalisation est très intéressante pour l’épidémiologie, par exemple. C’est un apport majeur pour cette science », souligne Stéphane Schück, médecin et CEO de Kap Code. Cette start-up est spécialisée dans l’extraction de social data et ses applications en matière de santé : « les réseaux sociaux nous apportent un regard neuf, qui nous intéresse énormément : les données en ‘vie réelle’ », en opposition aux données récoltées dans le cadre des études cliniques. En ce qui concerne la donnée textuelle, « ce qui nous intéresse, c’est la manière dont les patients s’expriment au quotidien, de manière naturelle, sur l’actualité de leur maladie et ce qu’ils ressentent », explique Guy Fagherazzi, qui travaille principalement sur Twitter et sur les communautés en ligne de patients dites Diabetes Online Community (DOC). Il est important de noter que lorsqu’il s’agit de santé, les grandes plate-formes (Facebook, Twitter, Instagram, Youtube) ne sont pas le seul terrain de recherche : les forums spécialisés sont aussi un lieu privilégié de collecte de data.

 

L’arrivée de la social data a totalement bouleversé les méthodes traditionnelles de recherche scientifique par validation d’une hypothèse. Les intervenants parlent de digitosome ou « numérisome » pour désigner ce nouveau pan de la recherche. Stéphane Schück (Kap Code) oppose ainsi « le vieux monde de la pensée médicale : je formule une hypothèse, j’expérimente et je vérifie » à la logique « data driven » du numérique, où la formulation des hypothèses arrive a posteriori. « Le numérique a apporté une transversalité dans la manière d’approcher la data, explique de son côté Célya Gruson-Daniel, CEO de DRISS. Les pratiques  en matière d’itérations changent de par la nature même du flux de données sociales, moins structuré que les autres. » Pour la chercheuse, l’analyse des social data avec l’apparition de ce que l’on appelle les data sciences aujourd’hui se distingue surtout par une accélération des itérations. Un constat partagé par Guy Fagherazzi : « il peut se passer dix ans entre la formulation d’une hypothèse par un scientifique et la publication. Aujourd’hui, dans beaucoup de domaine, ce temps long n’est plus acceptable. On se tourne donc de plus en plus vers des domaines où les données sont déjà présentes. »

 

Améliorer le système de surveillance institutionnel

 

Certains exemples précis de recherche scientifique en matière de santé sur les réseaux sociaux permettent d’éclairer les possibilités offertes par les plateformes. « Actuellement, il existe une échelle construite autour d’une vingtaine de questions pour donner une vue d’ensemble sur la détresse des patients. Or, on se rend compte que de nombreux pans de cette détresse manquent dans les échelles et ne sont donc pas évalués par les médecins. Par exemple, l’une des problématiques actuelles aux États-Unis est que de nombreux patients diabétiques ne peuvent pas se payer leur insuline pour se soigner. Si on arrive à valider cette hypothèse et publier nos recherches, les médecins pourront intégrer cette question financière dans leurs échelles et mieux entendre les patients », précise Guy Fagherazzi.

 

La donnée sociale peut également permettre d’accélérer la détection de certains phénomènes de santé et ainsi améliorer le système de surveillance institutionnel. C’est le cas en pharmacovigilance. Le système de détection des effets indésirables des médicaments est traditionnellement basé sur la notification spontanée des médecins. Or, seuls environ 5% de ces effets seraient réellement notifiés par les professionnels de santé. Monitorer les propos des patients sur les réseaux sociaux permettrait de détecter des signaux d’alerte jusqu’à trente mois plus tôt que le système institutionnel, selon Stéphane Schück (Kap Code), qui a testé cette méthode a posteriori sur le Lévothyrox par exemple.

 

Le premier cas médiatisé d’usage de la social data en épidémiologie, remonte à 2008 : Google Flu Trends prétendait alors pouvoir prédire l’émergence d’une épidémie de grippe simplement par l’observation de certains mots-clés dans les recherches Google. Ce modèle primaire de « health crowdsourcing » a rapidement trouvé ses limites et son échec a été largement documenté : https://www.wired.com/2015/10/can-learn-epic-failure-google-flu-trends/. Depuis, les méthodologies se sont affinées : « ces trois ou quatre dernières années, j’ai constaté une maturité dans l’usage des méthodologies et dans la formation des jeunes chercheurs à la data science, qui devient une discipline en tant que telle », observe Célya Gruson-Daniel. Les chercheurs espèrent tendre vers une  hybridation des méthodes quantitatives et qualitatives : « le data driven et la recherche ‘traditionnelle’ sont deux approches, deux cultures différentes. L’enjeu est de les faire communiquer pour arriver à une intrication intelligente des deux », analyse la jeune docteure,  CEO de DRISS, qui travaille aux médiations et traductions nécessaires à la rencontre de ces deux mondes.

 

Coût caché des outils social media et RGPD

 

Si l’usage de la social data dans la recherche scientifique porte ses fruits, il comprend plusieurs limites et problématiques au cœur des débats dans le monde de la santé. D’une part, la question de la représentativité de ces données, indispensable à la validation des travaux. Selon les intervenants, les biais des données issues des médias sociaux sont à mettre en perspective avec le volume disponible : « on passe de quelques centaines de patients suivis en cohorte à des centaines de milliers de patients accessibles en ligne » (Stéphane Schück, Kap Code). Par ailleurs, les réseaux sociaux permettent de développer des outils de suivi pour compléter les méthodes traditionnelles : « en matière de santé mentale, de plus en plus de laboratoires créent des applications qui permettent aux patients de renseigner des données, comme leurs émotions, tout au long de la journée », explique Célya Gruson-Daniel qui cite l’exemple de MindLogger.

 

Autre limite, le coût des outils de social data. Les scientifiques doivent souvent s’accommoder du manque de moyens financiers alloués à la recherche. « Nous travaillons avec les API gratuits de Twitter pour collecter toutes les données liées à certains mots-clés en rapport avec le diabète en anglais, français et espagnol, explique Guy Fagherazzi (CESP) La limite est que nous ne pouvons pas avoir l’historique, trop coûteux. Mais il y a un tel volume de data que la prospective nous suffit! » Si le coût caché se trouve dans le traitement de la data, qui nécessite d’importantes ressources humaines, cette méthode reste bien moins onéreuse qu’un travail de cohorte. Les partenariats public-privé avec le monde de la tech se développent également comme moyen de financement de recherches académiques. Cela rejoint les enjeux de neutralité du net, de l’impact des plate-formes privées dans la détention et la protection des données personnelles, comme le rappelle à juste titre Célya Gruson-Daniel.

 

Par ailleurs, l’extraction de données sociales en matière de santé se retrouve confrontée aux récentes évolutions du cadre juridique, notamment avec le RGPD. Stéphane Schück explique que sa start-up Kap Code,  RGPD-compliant, « extrait des données considérées comme publiques. On s’intéresse aux messages des forums de discussion, plus que des plateformes traditionnelles comme Facebook ou Twitter car ils permettent d’analyser plus en profondeur le parcours de soin d’un malade. » Le CEO évoque la « zone grise » dans laquelle naviguent de nombreux acteurs de la data, face aux évolutions récentes du cadre juridique. Par ailleurs, les récentes restrictions d’accès aux API, à la suite notamment du scandale Cambridge Analytica, n’épargnent pas les recherches en santé.

 

La difficile interprétation des données textuelles

 

Dans l’interprétation des données textuelles, les scientifiques se retrouvent face à une limite importante : comment détecter et comprendre le second degré et l’ironie ? « C’est très compliqué à faire de manière automatisée, reconnaît Guy Fagherazzi. Comme nous travaillons uniquement sur des patients, il nous a déjà fallu filtrer l’institutionnel, la communication et les spams. On a entrainé nos algorithmes en labellisant des centaines de messages à la main. Cela nous permet de travailler sur des sous-ensembles de données plus ‘pures’. Ensuite, on travaille en priorité sur la langue anglaise parce qu’elle est plus simple à traiter. On ne s’est pas encore attaqué à l’ironie à la française ! » Chez Kap Code, des processus ont été mis en place pour transcrire le langage vernaculaire des patients en un langage médical de référence, de manière à standardiser les messages et mieux les exploiter. La start-up avait également essayé de développer un algorithme capable de reconnaître l’ironie, mais son taux de réussite avoisinait les 20%.

 

Enfin, l’usage de social data en recherche pose la question du consentement des internautes, qui ne sont a priori pas informés de cette collecte. Les patients se montrent en général enclins à partager leurs données lorsqu’il s’agit de recherche scientifique. Mais sur les plateformes se pose la problématique du partage de leurs données de santé -particulièrement sensibles- à des fins commerciales (banques, assurances…). Kap Code a mis en place une politique de transparence sur son site internet. « Dans nos projets de recherche, on s’inspire du suivi de cohorte. Le but est d’instaurer une confiance avec le patient. On s’impose une éthique dans le traitement donc même si on ne peut pas s’adresser individuellement à tous les internautes, on communique beaucoup sur nos résultats sur les médias sociaux. On décrit nos processus, on rappelle que ce sont des données agrégées, on n’affiche jamais un tweet avec l’identité du postant dans une présentation pour respecter l’anonymat… Ces pratiques éthiques issues de la recherche clinique et médicale traditionnelle sont appliquées et garantissent une certaine transparence », pointe Guy Fagherazzi.

 

De nouvelles compétences à conquérir

 

Si la communauté de la « science 2.0 » était marginale il y a seulement une dizaine d’années, le numérique est désormais pleinement intégré dans la pratique scientifique. En témoigne l’arrivée de community managers dans les équipes scientifiques. Illustration supplémentaire, les chercheurs eux-même ne sont plus exempts de la pratique du « marketing de soi » sur les réseaux sociaux : le capital numérique – la présence en ligne, la publication d’articles etc – fait partie des attendus de la recherche. De manière générale, le numérique contribue à élargir les compétences nécessaires aux scientifiques, remodelant par là le domaine de la recherche.

 

À l’avenir, Guy Fagherazzi anticipe un approfondissement de la pluridisciplinarité sur les projets scientifiques et émet le souhait d’une formation plus diversifiée pour accompagner les chercheurs dans cette ouverture. « La data science nécessite des compétences en gestion de projet, en méthodologie… Elle a ses codes qui bouleverse les modes organisationnels traditionnels de la recherche », abonde Célya Gruson-Daniel, qui plaide par ailleurs pour une féminisation de ce domaine de recherche. Pour Stéphane Schück, le futur idéal serait celui d’une interopérabilité des bases de données : pouvoir croiser données quantitatives et qualitatives, issues à la fois des réseaux sociaux et des méthodologies de recherche traditionnelles. Célya Gruson-Daniel insiste enfin sur l’importance d’une démarche de réflexivité portant sur le contexte social, politique et économique dans lequel s’inscrit la production des savoirs.

 

Par Elise Koutnouyan