Quels usages de la social data dans la recherche ?

Par Élise Koutnouyan

Ce que nous retenons des échanges :

  • Usages : la social data est de plus en plus présente en sciences sociales, dans des domaines d’études aussi variés que les migrations, la politique ou le travail
  • Collecte : Malgré les promesses d’ouverture au monde de la recherche, les plateformes ont tendance à fermer l’accès à leurs données.
  • Éthique : la collecte de données sociales pose de nouveaux défis pour respecter les principes éthiques de la recherche

Pour cette discussion organisée chez Facelift, nous avons invité David Chavalarias, directeur de recherche au CNRS et fondateur du Politoscope, Paola Tubaro, chargée de recherche au CNRS et spécialiste de la sociologie des réseaux sociaux et Dana Diminescu, professeur des universités à Telecom ParisTech, coordinatrice de DiasporasLab.

Depuis plusieurs années, la social data est devenue un terrain de recherche pour les sciences sociales. De la sociologie aux sciences politiques, en passant par les théories de l’influence en communication, les chercheurs présents lors de notre discussion illustrent, par leurs projets respectifs, la diversité avec laquelle les données sociales peuvent être utilisées dans la recherche.

Divers usages de la social data dans la recherche universitaire

Issu d’un cursus normalien en maths-info et docteur de l’Ecole Polytechnique, David Chavalarias (CNRS) a décidé d’utiliser les données numérisées pour tester les modèles de théories économiques classiques. « Quand on vient de la recherche, on est toujours un peu réticent à travailler sur les données personnelles », rappelle-t-il. Après avoir travaillé sur les aspects théoriques de l’influence de l’opinion, comme les techniques d’astroturfing, David Chavalarias a développé le Politoscope à l’occasion de l’élection présidentielle de 2017. « L’idée du projet était d’analyser la dynamique des communautés politiques en ligne et de fabriquer un observatoire public de ces communautés, pour les analyser sur le temps long et sur le temps court. Par exemple, nous voulions pouvoir visualiser les tentatives d’actions coordonnées de ces groupes », explique-t-il. Lancé en 2016, ce projet atypique dans le milieu de la recherche s’est appuyé sur les données de Twitter : 6 000 comptes d’hommes, femmes politiques et militants ont été suivis, ainsi que plusieurs mots-clés spécifiques à la campagne électorale. Chaque jour, entre 500 000 et 1 million de tweets politiques étaient récoltés puis analysés grâce à un site interactif, mis à jour quotidiennement. « On a pu reconstruire en ligne des communautés présentes hors ligne. Le but du projet était de sensibiliser les citoyens aux tentatives d’astroturfing, mais aussi de pouvoir retracer des échanges dans une narration, savoir d’où viennent de telles actions. »

La sociologue Paola Tubaro (CNRS), spécialiste de l’analyse des réseaux sociaux, rappelle quant à elle que la définition originelle de ce terme est « un ensemble de relations entre des personnes », comme par exemple les amitiés entre élèves d’une classe. Paola Tubaro s’est longtemps intéressée aux réseaux dans les organisations et entreprises : la façon dont se nouent des relations informelles et leurs effets sur la performance, la qualité de travail, la prise de décision… Dès le début des années 2010, Paola Tubaro a appliqué ses méthodes de recherche aux champs des réseaux sociaux numériques, d’abord sur les sites et blogs pro-ana. « les réseaux sociaux mettent en visibilité des relations avec des gens qui, pour partie, existent déjà », précise-t-elle. Dès l’arrivée des sites, blogs et réseaux sociaux numériques : « il est devenu indispensable de regarder les réseaux hors ligne et en ligne, de les comparer ». Paola Tubaro a mis en oeuvre deux méthodes de collecte des données : d’une part, les entretiens et questionnaires classiques et d’autre part, la récolte des données sociales issues des sites et blogs.

« Je me suis rendue compte qu’il y avait des superpositions très fortes entre le online et le offline. On le sait bien aujourd’hui, mais à l’époque c’était une surprise », Paola Tubaro

Elle exploite désormais cette méthode dans le cadre de ses recherches sur le micro-travail, à travers la plateforme Foule Factory : « Là encore, il est indispensable de prendre ce qu’on tire de la plateforme elle-même et aussi ce qu’on sait de ses utilisateurs par ailleurs ». Pour ces travaux, une collaboration a été mise en place avec Foule Factory : en échange de la diffusion de ses questionnaires sur la plateforme, Paola Tubaro s’est engagée à aider l’entreprise à mieux connaître sa communauté.

Dana Diminescu (Telecom ParisTech), sociologue spécialiste de l’émigration, a observé dans son domaine de recherche un basculement lié à l’émergence du web social. « Vers la fin des années 1990 et le début des années 2000, la figure du “migrant déraciné” a disparu, au profit de la figure du “migrant connecté”. » Les données sociales sont désormais au centre de ses travaux, parce qu’elles définissent les différentes formes de présence : « pour étudier la figure du migrant connecté, je commence par demander à mon sujet ce qu’il a dans sa poche et dans son sac, ce qu’il a utilisé comme outils avant, pendant le voyage et une fois arrivé dans le pays, détaille Dana Diminescu. La richesse des données numériques ne peut se comprendre qu’en sachant quelles en sont les infrastructures. » Pour Dana Diminescu, si la social data est centrale, elle ne peut s’étudier sans prendre en compte la façon dont sont produites ces données, par le sujet lui-même. Ses travaux ont ainsi portés des thématiques aussi diverses que le transfert d’argent, l’usage de Skype, le mariage en ligne, la migration d’une plateforme à une autre… Le cœur de ses travaux se concentre sur l’étude de la diaspora en ligne. L’Atlas Diasporas [http://e-diasporas.fr/], auquel elle a contribué, cartographie une trentaine de diasporas. Pour ce faire, des ingénieurs ont travaillé sur des outils de collecte, de visualisation et d’archivage des données sociales. Le plus connu d’entre eux est Gephi, un logiciel d’analyse et de visualisations des réseaux. Mais si ses travaux portent en grande partie sur les données sociales et la présence en ligne des diasporas, Dana Diminescu souligne l’importance de conserver des archives « papier » de ces travaux. Ainsi, l’Atlas Diasporas se décline sous forme de site, d’application et d’atlas imprimé. De même, si une grande partie de la collecte de la social data est informatisée, « l’expert reste au centre de validation de tous ses corpus, insiste-t-elle. La validation humaine sur le travail des machines est très importante. »

Plateformes : l’accès aux données de plus en plus restreint

Si l’usage de la donnée sociale dans la recherche est courant, les plateformes, mines d’information pour les chercheurs, se montrent de plus en plus réticentes à partager de leurs données. Facebook, Twitter, Instagram, Youtube… L’intérêt porté par ces plateformes à la recherche est ambivalent. Certaines, à l’instar de Facebook, développent leur propre centre de recherche en interne et ont tendance à les privilégier au détriment de la recherche public. « Un des papiers sur le graphe social de Facebook montre que le réseau est un ‘tout connecté’ et que la distance moyenne entre deux membres quelconques du réseau est très faible : 3,5 ! C’est bien en dessous de la fameuse théorie des 6 degrés de séparation. Mais si un chercheur indépendant veut vérifier ces chiffres, ce n’est pas simple ! », relate Paola Tubaro (CNRS). Cette restriction d’accès aux données sociales est aussi liée à la généralisation du protocole sécurisé « https », comme a pu le constater Dana Diminescu dans une enquête sur l’internet de première nécessité, mené sur les ordinateurs de la Bibliothèque publique d’information (BPI) au Centre Pompidou. Sur des sites comme Youtube et Facebook, le détail des navigations du public étudié n’est plus accessible aux chercheurs à cause de ce protocole sécurisé. Même constat pour David Chavalarias, qui a pu observer au fil du temps les restrictions croissantes sur les APIs de Twitter.

« C’est un problème pour la recherche parce qu’on perd une très bonne opportunité de collecte de données. Mais c’est aussi un problème pour ces plateformes elles-même, parce que ces données leur en apprennent beaucoup sur les usages et leur propre fonctionnement. » David Chavalarias

La réticence des plateformes peut vraisemblablement s’expliquer par les enjeux de concurrence et leur modèle économique, qui repose sur l’exploitation de ces données. Mais cela pose la question de l’intérêt général : « à partir du moment où un réseau social utilise des données personnelles, il y a une dimension bien public. On espère que les plateformes vont prendre conscience de la valeur de leurs données pour la société en général », souligne David Chavalarias qui pointe le paradoxe avec les données scientifiques, qui ont, à l’inverse, tendance à être de plus en plus accessibles.

Du côté des chercheurs, ce nouveau paradigme d’accès aux données fait apparaître un dilemme éthique : pour avoir accès à des données originaires des plateformes, il faut bien souvent passer un accord avec ces dernières. Avec quelles conséquences et à quel prix ? En outre, les données transmises directement par les plateformes peuvent être hétérogènes ou parcellaires, ce qui n’est pas sans poser question sur la représentativité du corpus. Pour contourner ces restrictions croissantes, les chercheurs se tournent donc vers des méthodes plus manuelles de collecte, « à l’ancienne ».

« Je demande directement aux migrants de me donner leurs diary Facebook. Ils m’expliquent en même temps leurs usages, et ça me permet de construire la ‘traçabilité migratoire », Dana Diminescu

Ces restrictions s’appliquent à tout type de données issues de plateformes, même non personnelles. Ainsi, Paola Tubaro raconte un projet mené sur un site de réservation et de notation de restaurants : « avant, je faisais du webscraping pour récolter les données comme les notes des restaurants, les avis, les commentaires… Maintenant, c’est interdit sur le site. Or, toutes mes tentatives de discussion avec l’équipe n’ont pas abouties, quand bien même ce sont des données publiques non sensibles. » Ce blocage met en péril tout son projet de recherche.

Ethique de la recherche et social data

Au-delà de ses impacts sur les méthodes de travail, l’arrivée de la social data dans les sciences sociales pose de nouveaux défis en terme d’éthique de la recherche. « On travaille sur les données en rapport avec des relations humaines. Quand vous regardez un cas, et vous arrivez à en savoir beaucoup sur son entourage », rappelle Paola Tubaro. La recherche repose sur deux principes éthiques : l’anonymat et la confidentialité, et la question du consentement. L’accès aux activités en ligne d’un sujet signifie accéder aux données d’un grand nombre de personnes de l’entourage, qui, elles, ne sont pas au courant de la démarche et n’ont pas donné leur consentement. L’accès à ces données de l’entourage est bien plus large online qu’offline, ce qui nécessite une vigilance accrue au respect de la vie privée. S’il existe des outils pour anonymiser les données, ceux-ci sont davantage calibrés pour des petites enquêtes. La grande masse des données issue des réseaux sociaux reste plus difficile à contrôler pour les chercheurs. Cette question de l’anonymisation des données sociales est l’un des chantiers en cours du CNRS, notamment.

« Au sujet de la confidentialité, je vois les chercheurs comme les médecins, qui sont tenus au secret médical » David Chavalarias

Pour le Politoscope, il précise que seuls les résultats agrégés ont été étudiés et non les données individuelles. De plus, seules trois personnes ont eu accès au détail complet des données. Cela représente des contraintes supplémentaires et inhabituelles pour les chercheurs : « dans le milieu de la recherche, on n’a pas l’habitude de ne pas pouvoir donner des données à d’autres chercheurs pour qu’ils s’en servent à leur tour ». La polémique qui a entouré, cet été, l’ONG belge EU DisinfoLab, accusée d’avoir « fiché » quelque 55 000 comptes Twitter en fonction de leurs orientations politiques, invite les chercheurs à redoubler de précautions quant au respect de la confidentialité de ces données, même lors qu’il s’agit de données publiques, comme sur Twitter. Mais pour David Chavalarias, cette polémique est aussi intéressante dans la façon dont elle est arrivée, par le biais d’un blog (« Les Crises ») déjà impliqué dans des campagnes contre ce qui est qualifié de « censure d’internet ».

Malgré les difficultés liées à l’exploitation de la social data dans la recherche en sciences sociales, les intervenants s’accordent à dire que celle-ci paraît désormais indispensable à l’étude de nombreux phénomènes sociaux. Et si la représentativité de la social data peut être questionnée, cela fait partie du travail du chercheur d’assurer la validation de ces données sur le plan scientifique. « Les données, c’est le pétrole d’aujourd’hui », glisse Dana Diminescu en conclusion.

Pour en savoir plus :

Le jeudi 6 décembre de 18h à 20h, Paola Tubaro organise une table-ronde à SciencesPo « Le moment big data des sciences sociales : quel accès aux données du web et des réseaux sociaux ? ». Pour plus d’informations et vous inscrire.

Logo-smc-1

Retrouvez également nos articles sur le blog du SMC sur Zdnet :

ZDNet-partenriat-SMC