15 mai 2017

La vérité grâce aux méga données (Big Data) ?

Image courtoisie de Pixabay/Geralt/Café -CC0 1.0

"Les gens mentent mais les données brutes disent la vérité". 

Voilà le titre d'un article de Peter Orszag  à propos du livre de Seth Stephens-Davidowitz : Everbody Lies. Big Data. New Data. And what the Internet can tell us about who we really are. (Ed. Harper-Collins)

Selon Seth Stephens-Davidowitz, un ancien assistant de recherche de Orszag et un ex-"data-scientist" chez Google, les gens mentent beaucoup plus souvent qu'on ne le pense lorsqu'il s'agit de répondre à des sondages, par exemple. 

Cette affirmation (ou cette lecture) vient de l'examen d'une quantité impressionnante de requêtes de recherche faites sur Google où là, précisément, on révèle davantage nos véritables comportements et attitudes.

Par exemple, Stephens-Davidowitz avance que les indécis ne le sont jamais vraiment. Dans une requête qui ressemblerait à cette chaîne de mots-clés: "Trump Clinton Taxes", le vote ira fort probablement en faveur du premier mot-clé...

Les sondeurs avaient aussi prédit que les Américains de race noire porteraient leur choix sur Hillary Clinton  mais les données ont révélé par la suite que bon nombre d'entre eux ne se sont tout simplement pas présentés aux urnes.

Tensions raciales

Au plan des relations raciales, les sondages indiquent généralement que les Américains Blancs ne sont pas particulièrement racistes bien que le racisme semble plus prédominant dans le Sud. 

Pourtant, la recherche numérique révélerait un nombre élevé de requêtes racistes par les Américains et elles ne sont pas davantage confinées au Sud. 

Au contraire, l'auteur révèle que les requêtes racistes les plus nombreuses se trouveraient dans l'État de New York (Upstate), en Ohio et en Pennsylvanie de l'Ouest. 

Le véritable racisme se retrouverait donc plutôt dans un axe est-ouest que nord-sud; les résultats des élections présidentielles américaines confirmeraient cette lecture car Barack Obama (2008 et 2012) n'a pas réussi aussi bien que Donald Trump (2016) dans l'axe est-ouest.

Données sur l'homosexualité

Certaines données statistiques (profils de médias sociaux compris) évoquent que la proportion d'hommes se disant ouvertement gais est deux fois plus importante dans l'État du Rhode-Island que dans l'État du Mississippi. 

Pourtant, Stephens-Davidowitz souligne que les requêtes de mots-clés associés à la pornographie gaie ne varient pas énormément d'un état à l'autre. Qui plus est, ce type de requête n'est que marginalement plus élevé au Rhode-Island qu'au Mississippi. 

Est-ce donc à dire que les données statistiques (et les profils de médias sociaux) retrouvés dans certains États ne reflètent pas la réalité ?

Plus étonnant encore, dans les États où la proportion d'hommes se disant ouvertement gais demeure plus faible, on retrouve apparemment davantage de requêtes posant la question: "mon mari est-il gai" ? 

Cette dernière requête serait la troisième en importance tout de suite après "mon mari est-il infidèle" ? et "mon mari est-il déprimé" ?

Bien entendu, si on peut faire dire bien des choses avec des statistiques et des sondages (voir #tousFactsCheckeurs), on pourrait en dire de même avec les requêtes de recherche dans Google. 

Quoi qu'il en soit, l'auteur américain avance que les recherches dans Google demeurent l'ensemble de données (dataset) le plus important jamais colligé du psyché humain.

Malgré certaines limites, les méga données (Big Data) seraient en mesure de résoudre certains problèmes ou approches méthodologiques de la recherche quantitative (et peut-être même qualitative) en sciences sociales.

Qu'en pensez-vous ?

Merci de votre lecture !

Patrice Leroux
 
Creative Commons License
patriceleroux by patrice leroux is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 2.5 Canada License.
Based on a work at patriceleroux.blogspot.com.