15 mai 2017

La vérité grâce aux méga données (Big Data) ?

Image courtoisie de Pixabay/Geralt/Café -CC0 1.0

"Les gens mentent mais les données brutes disent la vérité". 

Voilà le titre d'un article de Peter Orszag  à propos du livre de Seth Stephens-Davidowitz : Everbody Lies. Big Data. New Data. And what the Internet can tell us about who we really are. (Ed. Harper-Collins)

Selon Seth Stephens-Davidowitz, un ancien assistant de recherche de Orszag et un ex-"data-scientist" chez Google, les gens mentent beaucoup plus souvent qu'on ne le pense lorsqu'il s'agit de répondre à des sondages, par exemple. 

Cette affirmation (ou cette lecture) vient de l'examen d'une quantité impressionnante de requêtes de recherche faites sur Google où là, précisément, on révèle davantage nos véritables comportements et attitudes.

Par exemple, Stephens-Davidowitz avance que les indécis ne le sont jamais vraiment. Dans une requête qui ressemblerait à cette chaîne de mots-clés: "Trump Clinton Taxes", le vote ira fort probablement en faveur du premier mot-clé...

Les sondeurs avaient aussi prédit que les Américains de race noire porteraient leur choix sur Hillary Clinton  mais les données ont révélé par la suite que bon nombre d'entre eux ne se sont tout simplement pas présentés aux urnes.

Tensions raciales

Au plan des relations raciales, les sondages indiquent généralement que les Américains Blancs ne sont pas particulièrement racistes bien que le racisme semble plus prédominant dans le Sud. 

Pourtant, la recherche numérique révélerait un nombre élevé de requêtes racistes par les Américains et elles ne sont pas davantage confinées au Sud. 

Au contraire, l'auteur révèle que les requêtes racistes les plus nombreuses se trouveraient dans l'État de New York (Upstate), en Ohio et en Pennsylvanie de l'Ouest. 

Le véritable racisme se retrouverait donc plutôt dans un axe est-ouest que nord-sud; les résultats des élections présidentielles américaines confirmeraient cette lecture car Barack Obama (2008 et 2012) n'a pas réussi aussi bien que Donald Trump (2016) dans l'axe est-ouest.

Données sur l'homosexualité

Certaines données statistiques (profils de médias sociaux compris) évoquent que la proportion d'hommes se disant ouvertement gais est deux fois plus importante dans l'État du Rhode-Island que dans l'État du Mississippi. 

Pourtant, Stephens-Davidowitz souligne que les requêtes de mots-clés associés à la pornographie gaie ne varient pas énormément d'un état à l'autre. Qui plus est, ce type de requête n'est que marginalement plus élevé au Rhode-Island qu'au Mississippi. 

Est-ce donc à dire que les données statistiques (et les profils de médias sociaux) retrouvés dans certains États ne reflètent pas la réalité ?

Plus étonnant encore, dans les États où la proportion d'hommes se disant ouvertement gais demeure plus faible, on retrouve apparemment davantage de requêtes posant la question: "mon mari est-il gai" ? 

Cette dernière requête serait la troisième en importance tout de suite après "mon mari est-il infidèle" ? et "mon mari est-il déprimé" ?

Bien entendu, si on peut faire dire bien des choses avec des statistiques et des sondages (voir #tousFactsCheckeurs), on pourrait en dire de même avec les requêtes de recherche dans Google. 

Quoi qu'il en soit, l'auteur américain avance que les recherches dans Google demeurent l'ensemble de données (dataset) le plus important jamais colligé du psyché humain.

Malgré certaines limites, les méga données (Big Data) seraient en mesure de résoudre certains problèmes ou approches méthodologiques de la recherche quantitative (et peut-être même qualitative) en sciences sociales.

Qu'en pensez-vous ?

Merci de votre lecture !

Patrice Leroux

4 commentaires:

Christian Aubry a dit…

La vérité? Certainement pas, mais un autre éclairage, c'est certain. Les sondages mesurent l'opinion exprimée, pas l‘opinion réelle. L'analyse Big Data mesure le comportement des humains en ligne, pas leur comportement général dont il n'est qu‘un sous-produit. Mais c‘est intéressant, merci pour les liens.

Patrice Leroux a dit…

De rien Christian ! Un éclairage plus proche d'une certaine réalité, bien entendu...
;-)

Dave David a dit…

Cela m'a laissé aphone. Oui, nous mentons tous, nos données disent davantage qui nous sommes, en les analysant sur une période assez large. Il m'est difficile de concevoir que faire une recherche avec les mots clés "gay+porn" plusieurs fois par semaine le long d'une année ne soit pas l'expression d'une attirance sexuelle, surtout si la personne tient généralement un discours homophobe, à l'instar de tous ces politiques ultraconservateurs.

Oui, l'on peut être curieux, oui on peut faire une recherche spontanée, ou dans le cadre d'un travail précis, mais à un certain point, il y a de quoi se questionner. Peut-être que la "vérité est ailleurs", que ceci n'explique pas forcement cela. Mais, tout de même...

Superbe billet. Patrice is back (?) ;)

Ludewic

Patrice Leroux a dit…

Merci Ludewic !

 
Creative Commons License
patriceleroux by patrice leroux is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 2.5 Canada License.
Based on a work at patriceleroux.blogspot.com.