Social Data et politique : données disponibles et usages

Ce que l’on retient des échanges :

  • L’utilisation de technologies de data électorales est encore balbutiante en France, et avant tout un élément de communication
  • La réglementation française valide l’écoute et le recoupage de données anonymisées, mais oblige à une gestion précise et à finalité explicite, de tout ce qui relève de la collecte de données personnelles
  • L’utilisation de la social data peut être une aide efficace pour l’ajustement ou la validation des politiques proposées, mais s’éloigne du « temps politique » dans le cadre de la co-construction d’un programme

En matière d’analyse à des fins politiques, la social data possède des caractéristiques très spécifiques, comme l’explique en introduction Clément Brygier, fondateur et CEO du cabinet de conseil Digital Insighters, « Dans le contexte de nos travaux d’analyse, nous observons que les gens qui produisent de la donnée, s’expriment 90 % du temps, plutôt comme des citoyens, ils ne créent pas de la data pour les entreprises, ils la créent, pour exprimer une opinion, pour partager des sujets qui leur tiennent à cœur, l’angle purement commercial est moins existant, c’est plutôt un angle citoyen, parfois activiste ». Lorsque l’on évoque les réseaux sociaux, on parle souvent de cet activisme politique ou idéologique, qui s’est développé très tôt, notamment sur Myspace et Facebook. L’utilisation par les politiques des réseaux sociaux pour interagir quotidiennement avec les citoyens et  gagner les élections est plus récente. L’échéance municipale française tout comme les élections américaines de novembre, sont une bonne occasion de faire le point sur la façon dont cette social data est utilisée, avec quelles méthodes, quelles approches, et pour commencer quels outils.

 

Un historique assez récent

On parle beaucoup de nouveauté autour de la Big Data électorale, mais pour Anaïs Theviot, Maitresse de conférence au sein de l’UCO « c’est surtout une  démonstration de la modernité pour les partis politiques ». La  mise en place de bases de données d’électeurs a toujours existé, mais elle était faite de manière beaucoup plus artisanale. Lors des meetings, lors des réunions publiques, les équipes notaient les noms, les adresses mail, compilaient tout cela dans des fichiers Excel… Aujourd’hui, la collecte et le traitement se massifient. L’émergence de systèmes de traitement de données à des fins électorales est relativement récente. Pour l’anecdote, on peut citer la saillie du responsable de campagne de John Kerry en 2003 : « Il n’y a pas un foutu vote à gagner sur internet ». L’année suivante, l’équipe d’Howard Dean met en place une base de données nationale, fédérant des bases d’électeurs et d’adhérents qui auparavant étaient gérées au niveau des fédérations. La campagne de Barack Obama est souvent citée pour avoir beaucoup utilisé les réseaux sociaux et fait du porte-à-porte ciblé, s’appuyant sur des travaux de chercheurs en sciences politiques.  En France, ce concept apparaît avec la campagne de François Hollande en 2012. Les promoteurs de l’opération (Arthur Muller, Guillaume Liegey et Vincent Pons) ont depuis monté leur propre agence (LMP aujourd’hui eXplain) et proposent leur logiciel en big data électoral. Avant 2012, il n’y avait pas en France de volonté de s’intéresser au Big Data. Les partis politiques faisaient preuve de méfiance autour de l’usage des données personnelles. La modernité de la campagne était mise en avant notamment via l’utilisation de live Tweets. Aujourd’hui, le traitement politique de la data est une partie intégrante de la communication. Les partis politiques, les candidats mettent en avant le fait qu’ils utilisent des logiciels de Big Data électorale pour montrer qu’ils sont à la pointe de la technologie. La méfiance dans l’usage des données personnelles diminue peu à peu et d’autres prestataires tels que Digitalbox apparaissent. La solution américain NationBuilder sera également beaucoup utilisée et valorisée dans le cadre d’actions de communication durant la présidentielle de 2017.

 

Big Data et Social Data

Il y a en pratique trois familles de logiciels. Les outils de modélisation électorale comme 50 +1 ou Federavox, agrègent des données socio démographiques de l’INSEE, des données géographiques de résultats électoraux, à quoi peuvent s’ajouter les fichiers que possède le candidat ou le parti politique. Les logiciels tout-en-un comme NationBuilder, qui intègrent des outils de comm’ via une plateforme intégrée (site web, etc..), et sont moins versés dans le conseil politique. Enfin, des logiciels d’analyse sémantique, comme on l’a vu avec la Grande Marche d’Emmanuel Macron, qui visent à essayer, soit de co-construire le programme, soit d’extraire des verbatims qui peuvent faire écho aux électeurs. 

La social data se heurte cependant aux régulations. Si 2012 est le jalon du début de l’utilisation massive de la data à des fins électorales, 2017 et les primaires de la droite et du centre, marquent le coup d’arrêt d’une utilisation sauvage de la social data. NationBuilder a été massivement utilisé pour cette élection, jusqu’à ce que la Cnil émette une recommandation à la suite de laquelle la fonctionnalité de collecte de données personnelles a été désactivée.

 

Travailler avec les Social Data dans un cadre légal

La question de la compliance est centrale dans l’utilisation électorale de la Social Data. En France cette question est gérée par la Cnil. « Pour nous, ces sujets ne datent pas de NationBuilder, ce sont des enjeux assez anciens. La Cnil a lancé dès 2010 un Observatoire de la vie Politique et citoyenne notamment car à chaque élection il y a des gens assez mécontents de recevoir des sollicitations de politiques » explique Régis Chatellier, chargé d’études prospectives pour la Cnil. En 2017, la Cnil a auditionné la plupart des acteurs du marché. A la suite d’une analyse des fonctionnalités disponibles, elle s’est rendu compte qu’il était possible de ratisser les données des réseaux sociaux pour les réimporter, les croiser, sans que les individus n’en aient connaissance. « C’est la différence entre la protection des données en Europe et aux États-Unis. On peut faire beaucoup de choses avec les données, mais à condition de le faire dans le respect des droits des individus. Écouter les réseaux sociaux c’est une chose, capter et collecter des données dans un cadre convenu pour les utiliser, c’en est une autre, les deux sont possibles. En revanche, tout capter pour aller cibler tout le monde de façon incontrôlée, ça n’est pas possible, c’est pour ça que la Cnil avait demandé de désactiver la fonctionnalité de NationBuilder pour la campagne », détaille Régis Chatellier (Cnil). C’est la notion du droit fondamental à la protection des données personnelles qui garantit les limites en France. L’usage de données agrégées et anonymisées est autorisé. La limite se porte sur les “données personnelles” dont la collecte et le traitement sont soumis au RGPD, et notamment les données concernant les opinions politiques, qui sont des données sensibles. 

L’élu est également contraint par les conditions d’utilisations des plateformes, sur lesquelles il n’a pas la main. Dès lors qu’il les utilise, cela pose la question de sa responsabilité face au RGPD, et par rapport au citoyen. 

 

Un cas à part, les Civic Tech 

Depuis 2006, s’est développée la tentation d’organiser la participation en dehors de l’élection. En tant que plateformes de participation citoyenne, les Civic Tech peuvent parfois faire l’objet de pression de la part des politiques, pour récupérer la masse des données collectées. Elles ont d’ailleurs des cultures différentes selon les pays. Historiquement basées sur le Gov Tech et le Community Organizing, toute organisation en pair à pair, telles qu’AirbnB ou Couchsurfing, est une Civic Tech aux Etats-Unis. « Traduit dans le champ français, l’état et les élus sont plus au centre. La Civic tech  incarne la participation citoyenne de la collectivité avec les élus. Elle est finalement assez limitée et beaucoup plus proche des gouvernements qu’aux USA, où le terme “civic” s’interprète comme “citoyens entre eux », explique Régis Chatellier (Cnil).

 

Distorsion sémantique des données recueillies.

Même collectée dans un cadre strictement légal, l’interprétation et la validation de la social data peut être problématique. Les réseaux sociaux sont dans une hyperpolarisation, la parole mesurée n’y existe plus. Pour Jean Laloux, directeur associé du cabinet Inférences, c’est un point critique : “le but est de capter la donnée pertinente de façon à dégager des tendances robustes. Si vous utilisez NationBuilder, vous allez avoir des chaînes de caractères qui vont ressortir avec des mots sans réelle signification car sans contexte énonciatif. L’analyse supervisée permet de retirer du bruit, de créer des thématiques à exclure, puis thématiser à partir de l’analyse lexicale pour retenir les mots dans leur contexte d’énonciation. Si on ne le fait pas, on arrive à une fiabilité très faible.” Ce que confirme Régis Chatellier (Cnil) : “il est normal et assez naturel de faire de l’écoute, d’aller là où les gens discutent, d’essayer de comprendre ce qu’ils disent, il y a en revanche un risque pour l’acteur public, dès lors qu’il veut commencer à faire de ces solutions et de ces réseaux sociaux le seul outil de participation citoyenne et éventuellement de publicité politique. Dans ce cas, il se soumet à des règles qu’il ne maîtrise pas, à savoir que sur la participation il y a des effets de recommandation, des effets de bulle.” Autre caractéristique qui doit être adressée, et qui est une vraie question pour les politiques, comme l’explique Jean Laloux (Inférences) : “il y a des entre-soi discursifs et sémantiques dans les médias sociaux, qu’on ne retrouve pas ailleurs. Un sondage révèle, par exemple, l’importance de la santé et du logement. En parallèle, l’analyse sémantique supervisée des discussions sur Twitter, y compris au niveau national, évoquera les enjeux de transport/mobilité et écologie/environnement.”

 

Utilisation des outils pour l’exercice du pouvoir

Sur un plan théorique, cet arsenal technologique a deux finalités : la conquête puis l’exercice du pouvoir. La réalité est plus complexe, explique Théo Recoules, co-fondateur de l’agence conseil Sabir, et ancien chef de cabinet à la mairie de Paris : “Une fois en exercice, il y a certes un certain nombre d’outils disponibles, mais en cabinet on est dans le temps très court, on a un programme, une feuille de route qu’il faut implémenter, on a des déplacements, carrés, structurés. On évite à tout prix les mauvaises séquences.” Selon son expérience, dans un contexte d’analyse de la perception de telle ou telle politique, l’étude même de la data, n’est pas réalisée du côté du cabinet. Le politique est dans une lecture où la donnée l’intéresse peu, à partir du moment ou il y a un positionnement affirmé. L’omniprésence de la crise est également un frein au traitement et à  l’analyse de ces données. Il s’agit d’une réalité dans le temps politique qui provoque une incapacité à analyser et à interpréter la data de manière fine et efficace.

Le politique se concentre sur un duo : l’électeur (avant l’élection) et l’usager (après l’élection), dans ce contexte, demande Charlotte Clemens, Managing Director France de la solution Talkwalker, “Comment sépare-t-on le bruit de l’expression de l’électeur ? Comment sépare-t-on ceux qui créent du bruit et qui vont avoir peut-être de l’influence sur l’électeur et l’expression de l’électeur/usager ?” Pour Anaïs Théviot, Maitresse de conférence au sein de l’UCO “il est très difficile sur les réseaux sociaux de distinguer ceux qui  font du bruit, de ceux qui n’en font pas. Il est cependant intéressant de réaliser une veille globale pour voir si les mesures, les programmes sont bien compris, pour ensuite les reformuler”. Théo Recoules (Sabir) note qu’en dépit des difficultés de son traitement et de son analyse dans le temps politique, la social data a été prise en compte pour répondre à certaines attentes fortes (verdissement, remboursement etc.).

 

Sur les civic tech et gov tech

[https://www.lemonde.fr/o21/article/2017/03/14/les-civic-tech-ou-la-democratie-a-l-epreuve-du-numerique_5094226_5014018.html]
[https://www.franceculture.fr/emissions/la-methode-scientifique/la-methode-scientifique-du-mercredi-09-janvier-2019]

Rapport de la Knight Foundation aux USA
[https://knightfoundation.org/features/civictech/]

Le cahier de la CNIL sur les civic tech
[https://www.cnil.fr/fr/civic-tech-donnees-et-demos-une-exploration-des-interactions-entre-democratie-et-technologies]

Observatoire de la vie Politique et Citoyenne de la CNIL
[https://www.cnil.fr/fr/vie-politique-et-citoyenne]

Données personnelles sensibles
[https://www.cnil.fr/fr/definition/donnee-sensible]

Exemple d’analyse sémantique d’Inférences (Jean Laloux)
[https://medium.com/@epiceum/municipales-2020-les-maires-ces-%C3%A9lus-de-la-proximit%C3%A9-fed286756335]

Historique de la Data en politique
[https://www.cairn.info/revue-politique-etrangere-2013-2-page-127.htm]
[https://www.cairn.info/revue-les-enjeux-de-l-information-et-de-la-communication-2018-2-page-45.htm]

LMP l’agence née de la campagne de François Hollande
[https://www.capital.fr/votre-carriere/lmp-la-start-up-qui-a-aide-macron-a-gagner-1223507]
[https://www.enderi.fr/50-1-logiciel-de-chasse-aux-voix_a435.html]

Big data électoral, éditions du bord de l’eau, 2019. Par Anaïs Théviot [https://livre.fnac.com/a13160558/Anais-Theviot-Big-Data-electoral]