Les nouvelles frontières de la social data

Par Arnaud Paillard

En 2010, Sitaram Asur et Bernardo A. Huberman, deux chercheurs du Social Computing Lab d’HP, écrivent un article de recherche au titre volontairement provocateur : prévoir le futur avec les réseaux sociaux. En analysant l’empreinte de 24 sorties de films sur Twitter, ils parviennent à montrer que les données issues des réseaux sociaux sont plus efficaces que les données de bases du marketing pour prévoir le succès commercial d’un film. En clair, ils parviennent à corréler mathématiquement l’attention que reçoit un film sur Twitter avec son succès en salle. Leur conclusion est sans appel : « même si nous avons concentré notre analyse sur la prédiction des revenus du cinéma pour cet article, la méthode que nous avons mise au point peut être utilisée pour tout autre produit de consommation. »

L’impact de cet article est colossal. En mettant en évidence, pour les entreprises ou les institutions publiques, l’importance du social monitoring, il a ouvert la voie au développement du marché de la social data. Surveiller les réseaux sociaux n’était plus seulement une question d’e-réputation, mais permettrait également de prévoir l’avenir. Six ans plus tard, est-ce que la social data est à la hauteur des espérances qu’elle soulevées ? Quelles sont ses limites ? Est-elle encore une donnée à part ?

Prévoir l’avenir ?

« On a en effet des données issues des médias sociaux qui permettent de prévoir l’avenir, mais c’est un avenir très proche », explique Camille Roth. Pour ce professeur en sciences sociales computationnelles à Sciences Po, passé par l’EHESS et le CNRS, « on ne sait pas, en fait, si on arrive à prévoir l’avenir, ou si c’est simplement le présent qui s’est accéléré. Ce qui est nouveau, ce n’est pas de faire des modèles prédictifs, mais c’est le type de données sur lesquelles on se base, qui sont de plus en plus issues des réseaux sociaux. »

Mais quant à remplacer les sondages d’opinion par des analyses des réseaux sociaux, le chercheur n’y croit pas : « on peut avoir des données plus rapidement, mais il vaut toujours mieux, dans le cas d’une élection par exemple, sonder 1 000 personnes en gardant les données socio démographiques de la population, que capter les données de millions d’utilisateurs Twitter. » Les réseaux sociaux sont en effet un fidèle reflet… d’eux-mêmes.

Quel est alors leur domaine de pertinence ? « Quand la prévision est facile, quand il y a de gros écarts, Twitter va moins s’en écarter, assure Camille Roth (Sciences Po). Dans les cas où la victoire est plus tendue, les instituts de sondages s’en sortent mieux ».

« On a vu que la social data servait à quelque chose »

C’est peut-être du côté des sciences humaines qu’il faut se tourner pour regarder vers les futures application de la social data. Camille Roth (Sciences Po) s’est intéressé aux données d’Instagram pour réaliser un travail de sciences sociales portant sur les zones de vie des utilisateurs. « Pour une zone donnée, on peut collecter l’intégralité des photos, ce qui fournit une enveloppe de données qu’on peut agréger. » Un réseau comme Instagram permet au chercheur d’identifier les espaces vécus par les utilisateurs, le territoire de leur quotidienneté : « en Belgique, on a fait ressortir deux états : la plupart des Wallons prennent des photos en Wallonie, et la plupart des Flamands prennent des photos en Flandres. À partir de là, on a vu que la social data servait à quelque chose : on a conceptualisé des zones de vie mises en évidence par les données agrégées des utilisateurs Instagram » conclut le chercheur. Instagram n’est pas qu’un paradis du foodporn, l’application peut aussi faire avancer la science.

« L’avenir est peut-être à chercher dans la sémantique, dans l’analyse des émotions », affirme, quant à lui, Simon Duhil, responsable expérience client digitale chez BVA. « On ne s’exprime pas de la même façon que l’on soit sur Facebook Twitter, que l’on soit dans la vie virtuelle ou dans la vie réelle. Nous nommes le même acteur, mais qui peut incarner un personnage différent selon la scène que nous jouons. L’analyse sémantique doit permettre de chercher cette subjectivité. » Du côté des sciences du langage, on s’intéresse depuis longtemps à l’analyse automatique des corpus de données en ligne. Pour des résultats… étonnants.

Pierre Halté, chercheur à l’Université Paris-Est Créteil, a analysé plus de 3 000 pétitions en ligne accompagnées de leurs commentaires. L’enjeu était, pour ce linguiste, de voir comment les individus expriment leurs émotions en ligne. Pour cela, il a dû analyser l’information textuelle, mais également tout ce qui gravite autour du texte : émojis, interjections, exclamations. « L’enjeu, derrière les émoticônes, contrairement aux mots, c’est qu’elles ne peuvent pas être détachées de leur locuteur : elles fournissent un indice très fiable de leur subjectivité ». Il a donc construit un programme capable de reconnaître la charge positive ou négative des émojis, mais aussi des abréviations, comme Lol ou MDR.

« J’essaie de modéliser le sarcasme »

Une limite demeure : comment capter l’ironie sur les réseaux sociaux ? Les programmes ont souvent du mal à y voir clair dans une phrase sarcastique. Un robot va par exemple trouver positif un énoncé comme « Bravo la SNCF, encore une journée qui commence bien ! #Transilien », alors que sa valeur ironique laisse peu de place au doute.

De même, une émoticône souriante placée après une insulte aura une portée négative, sans que cela soit perçu comme tel par les programmes d’analyse du web social. Pierre Halté le reconnaît : « j’essaie de modéliser le sarcasme, mais c’est très compliqué. » Des indices peuvent cependant aider à déceler l’ironie : « l’emploi d’un terme intensifieur par exemple, est souvent un marqueur de l’ironie, comme dans l’énoncé ‘vous êtes vraiment très sympa’ » poursuit Pierre Halté. Une piste pour résoudre un problème ancien de l’analyse de la social data.

Même Watson, le programme d’intelligence artificielle conçu par IBM, peine sur la détection de l’ironie. Olivier Wallyn, consultant analytics chez IBM Watson, botte en touche lorsqu’on lui demande si Watson peut déceler le sarcasme : « notre technologie est fondée sur la contextualisation de l’énoncé, sur son environnement. Il peut repérer un terme positif dans un contexte négatif, ce qui peut l’amener à identifier de l’ironie. Après, c’est à l’humain qu’il revient de choisir si cela relève de l’ironie ou non. »

Une donnée comme une autre ?

Watson ne fait par contre pas de différence entre les données internes et externes de ses utilisateurs. « La data sociale n’est pas un produit à part. C’est de la vraie data. On l’utilise pour permettre aux marques, par exemple, de corréler leurs ventes et les retours qu’elles ont sur les réseaux sociaux. Nous réconcilions les services digitalisation et les services marketing avec notre outil » soutient Olivier Wallyn (IBM Watson).

L’avenir de la social data serait de se dissoudre dans le reste du big data ? C’est aussi l’avis de Simon Duhil (BVA) : « pour moi, le social pour le social, ça n’a pas d’intérêt. L’intérêt est d’utiliser les réseaux sociaux pour capter les signaux faibles. Mais, si on ne les passe pas au filtre d’autres méthodologies, ces signaux faibles restent du bruit. »

Alors, la social data peut-elle prévoir l’avenir ? On y arrive. Des outils de prédictions sont désormais disponibles, qui permettent à tout un chacun de construire sa solution prédictive sur mesure. Ces outils fournissent des courbes de prédiction de la portée potentielle d’une information, en prenant en compte le circuit de l’information en ligne. Les modèles d’analyse de la social data modélisent la circulation d’une info. En étudiant la circulation d’une info, selon qui la relaie et selon son intérêt, les modèles d’analyse de la social data parviennent à capter certains signaux faibles et à gagner en prédiction. La bonne connaissance des cibles et du contexte permettent d’être moins démunis face au circuit d’une information, et de prévoir succès qu’elle aura ou non auprès de l’opinion.

C’est tout le travail de Nicolas Vanderbiest, chercheur à l’université catholique de Louvain. Au cours de ses recherches portant sur les perceptions des crises par les dirigeants, il s’est intéressés à la diffusion et à la cartographie des crises sur Twitter : « je considère chaque compte Twitter comme un point, et chaque échange constitue un lien. Je compte mathématiquement le nombre d’échanges que l’on a, et j’attache un poids à chaque point. Les comptes très suivis, par exemple, auront beaucoup de liens entrants, de retweets. Ensuite, j’utilise un algorithme de modularité pour séparer les points en communauté, selon les interactions qu’ils entretiennent avec d’autres comptes. Les points les plus connectés, comme les médias sont au centre de ma cartographie. Les communautés, plus clivées, sont aux extrémités. » Ce qui est intéressant de retenir, c’est que cette méthode permet de faire remonter des signaux beaucoup plus fins que ce que donne des agrégateurs basiques. Et donc, de démonter certains mythes : « Derrière l’affaire du Burkini, on retrouve le concept de foule étroite : très peu de tweets, mais très bien relayés par une communauté. » Ce type de cartographie permet de prévoir mieux prévoir l’attention médiatique sur un sujet donné qui perce sur les réseaux sociaux.

Là encore, l’idée n’est pas d’utiliser les réseaux sociaux comme une boule de cristal, mais de capter les signaux faibles pour savoir s’il ne s’y cache pas un élément de vérité. « Je ne suis pas sûr qu’on puisse prévoir l’avenir, poursuit Simon Duhil (BVA), mais il existe dans la donnée sociale, quelque part, une hypothèse, un signal qui va se vérifier. » Le tout est de savoir comment le capter.

 

Une session organisée par le

Logo-smc-1

Retrouvez également nos articles sur le blog du SMC sur Zdnet :

ZDNet-partenriat-SMC