Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog
29 février 2012 3 29 /02 /février /2012 17:47

 

API-Big-Data.jpgSi vous faites de la veille, de la stratégie ou de la recherche sur et par le web dit social, difficile de passer à côté de trois phénomènes : les modifications constantes des algorithmes de certains grands acteurs du search, le recours systématique (et souvent implicite) aux API des plates-formes, ainsi que le phénomène des Big Data accompagné de cartographies et autres infographies. Si ces technologies/méthodologies sont nécessaires à diverses activités, leur utilisation et le discours parfois tenu à leur sujet pose certaines interrogations : comment prendre en compte la personnalisation des filtres des moteurs ? En quoi les API « subjectivent » les données récoltées ? Ou encore, comment donner du sens à l’analyse des grandes masses de données ? Voici quelques-uns de ces questionnements…


 

Disons le tout de suite, le terme « dictature » est volontairement fort, là où il aurait été plus exacte et tempéré de parler d'un risque d'enfermement. Cependant, le web avançant de plus en plus vers un univers fermé et propriétaire, l’idée de dictature (i.e.  « régime dans lequel le pouvoir est entre les mains d'un seul homme ou d'un groupe restreint ») peut prendre un certain sens : nos activités de veilles ou de recherches deviennent chaque jour plus dépendantes des modifications voulues par les quelques acteurs se partageant les technologies de collecte et d’analyse.


Au-delà de cet état de fait arrive alors une problématique centrale : comment prendre en compte d’une part les biais induits par cette centralisation de l’accès à la donnée et à l’information ; et d’autre part comment ne pas tomber dans une utilisation passive et non réfléchie de ces outils forts utiles au demeurant ?

 

Je vous propose une rapide réflexion (promis je vais essayer de synthétiser au maximum ) autour de trois aspects :


==> La personnalisation constante des moteurs de recherches (Google en tête) amenant à redéfinir et à repenser les activités de veille sur ces outils


==> Le recours nécessaires aux API et les biais à prendre en compte à partir du moment où l’on considère que l’on ne « maitrise » pas leur fonctionnement


==> L’utilisation des Big Data, fortement dépendante des deux aspects précédents, et les questions plus « conceptuelles » sur l’objectivation à outrance de celles-ci que l’on peut parfois constater.

 


 

De la recherche ouverte à la recherche en bulles


 

Cela n’a échappé à personne : Google personnalise constamment les résultats de recherche. Si cet aspect peut paraitre pertinent pour l’utilisateur quotidien (obtenir une réponse plutôt qu’un résultat, voire obtenir la réponse avant la question un jour prochain), il pose bien évidemment question au veilleur. Qui plus est si celui-ci veille sur l’e-réputation : ce résultat sera-t-il visible par mon public cible ? Comment agir pour gagner en visibilité sur tel ou tel sujet ?


Mais, surtout, ces modifications constantes nécessitent une redéfinition du discours du veilleur/analyste : les résultats obtenus ne sont plus seulement ceux recherchés par le veilleur, mais ceux mis à disposition par Google. Que ce soit la pondération, la hiérarchisation voire même la présence dans l’index de certains résultats, il devient de plus en plus difficile d’appréhender et d’intégrer les changements constants de l’algorithme.


Qui nous dit qu’un jour prochain, les résultats présents sur mon ordinateur ne seront pas différents totalement des résultats de mon voisin ? Si cela est le cas, et déjà à l’heure actuelle, il semble nécessaire dans une stratégie de recherche d’information basé sur ces moteurs dont Google de se questionner :


==> En quoi la personnalisation du moteur impact les résultats obtenus ? Ou non-obtenus d’ailleurs…


==> Sur quels critères sont basés la pondération et le filtre des résultats ?


==> Ces critères de pondérations sont-ils pertinents par rapport à mes objectifs de veille (c’est-à-dire par rapport à la décision qui va être prise à partir de ces résultats) ?


==> Comment mettre en avant le fait que ces résultats sont loin d’être « neutres », ou plutôt reposent en grande partie sur des actions dont je ne connais pas grand-chose ?


==> Comment introduire dans mon analyse ces filtres algorithmiques afin de définir un contexte plus juste, donc un sens, aux informations récoltées ?

 

 

Si ces questions, et d’autres surement, méritent d’être posées et surtout introduites dans les stratégies actuelles de veille, elles méritent aussi de réfléchir à un ou plusieurs outils appropriés. Car il est évident que trier manuellement un index de plusieurs milliards de documents est impossible…


API-Big-Data-3.jpgFace à cette « bulle » informationnelle (mes résultats personnalisés, selon mes attentes, donc ma vision du monde) dans laquelle les algorithmes nous enferment peu à peu, et qui questionne aussi la notion de privacy, certains outils apparaissent avec un discours allant à l’encontre des acteurs dominants du search.


C’est le cas de : http://duckduckgo.com.


Ce moteur propose de ne pas enregistrer les données personnelles de l’utilisateur, et ce afin de ne pas l’enfermer dans une bulle et lui proposer des résultats « bruts », sans pondération liée à son comportement. Un bon moteur à serendipité, l’occasion d’appliquer soi-même ses propres critères de pondération, et globalement de se dé-formater de Google.


Mais… Aucun filtre devient aussi dommageable pour une veille à grande échelle que trop de filtres… DuckduckGo propose des résultats ayant souvent peu d’intérêt : sites morts depuis des années, n’ayant aucun rapport avec le sujet recherchés, étant dans d’autres langues, etc.

Heureusement que Google ou d’autres proposent des outils de recherches appropriés me direz-vous ? Et c’est là que les choses se corsent… Comme le souligne Olivier Ertzscheid nous allons vers une sanctuarisation du search : les outils propose de moins en moins d’options de recherches, et mettent de plus en plus en avant leurs propres applications.


 

Une forme de dictature du filtre ? Sans aller jusque-là, gageons que les professionnels de la veille prennent en compte ces évolutions et sachent relativiser le résultat de leurs recherches et surtout les contextualiser/pondérer/filtrer en fonction des critères algorithmiques qui leurs sont imposés.


 

Les API comme porte d'entrée unique ?


 

Prenons Twitter comme exemple.


Que vous souhaitiez mettre un flux RSS sur une requête, aspirer des données pour les analyser ou même utiliser un outil tierce pour générer des statistiques ou autre : vous passez par des API de Twitter.


Maintenant, trois questions : connaissez-vous le fonctionnement de ces API ? Etes-vous au courant des modifications réalisées ? Pensez-vous que Twitter met à disposition l’ensemble de ces ressources par ce biais ?


Pour ma part, et dans l’absolu, je répondrai trois fois : non. Non car tout d’abord le fonctionnement de ces API reste obscure, tout du moins pour les non-spécialistes du développement. Pour avoir observé des résultats sur une période donnée, dans un cadre défini, et avec différents outils se reposant sur ces API (sur mon propre outil), il est difficile d’expliquer pourquoi tel résultat apparait ici et pas là (je schématise), pourquoi telle donnée plutôt qu’une autre disparait du jour au lendemain, etc.


Ensuite, Twitter a modifié (notamment) l’été dernier certaines API. Résultats ? Des variations dans les résultats observables quasiment d’un jour à l’autre. Enfin, pourquoi Twitter devrait mettre à disposition gratuitement ses API et proposer la même qualité de résultats à tous ? N’oublions pas que c’est une entreprise, qui par définition vise le profit et va donc privilégier les personnes qui payent de celles qui ne le font pas.


 

Ce qui amène encore une fois plusieurs interrogations à prendre en compte :


==> Qui me dit que l’étude réalisée aujourd’hui donnera les mêmes résultats demain ? Nécessité donc de bien circonscrire son champs de recherche.


==> Comment démontrer l’exactitude des résultats d’une étude ? Car si le chercheur ou l’entreprise a payé pour avoir un accès personnalisé à l’API et aux données, difficile de vérifier ensuite les résultats (comme pour cette étude interne Facebook par exemple).


==> Comment prendre en compte les classements à priori des données effectués par la plate-forme ?


==> Comment, de manière générale, accepter et faire accepter (à un commanditaire par exemple) que les résultats fournis ne sont que le reflet de ce que l’Api veut bien donner et non pas une forme de Réalité ou sont issus d’une action totalement volontaire ?


==> Enfin, et comme pour les filtres algorithmiques, quelles solutions alternatives pour ne pas être entièrement dépendant des API et du bon vouloir (légitime rappelons-le) des plates-formes ?

 

 

Si les API nous enferment dans un univers de données contrôlé par les plates-formes elles-mêmes, il est donc aussi temps de changer nos discours sur la veille. L’exhaustivité est un mythe qui a été rapidement démonté, apparaissent aujourd’hui de nouveaux mythes : celui de la représentativité (mon outil me donne accès à un ensemble cohérent de donné) et de l’exactitude des résultats (comment fiabiliser des résultats si je ne connais pas les biais et marges d’erreur m’ayant permis de les obtenir ?).

 

 

Les Big Data et la question du sens


 

En préambule, je ne peux que vous inviter à (re)consulter cette traduction d’un papier de danah boyd cristallisant très bien certaines des interrogations précédentes, et de celles qui viennent ci-dessous.


Si vous naviguez couramment sur le web, et qui plus est si vous êtes un professionnel dont le métier touche à ce support, vous ne pouvez pas être passé à côté du «phénomène » Big Data. Que ce soit les fameuses (ou fumeuses) infographies, ou encore les cartographies sémantiques ou hypertextuelles, difficile de ne pas observer cette focalisation sur l’analyse de grandes données présentes sur le web.

 

Bien évidemment, que ce soit par les programmes d’open data ou encore la recherche sur les réseaux par exemple, l’analyse des Big Data est un enjeu et un sujet passionnant. Et utile dans bien des domaines.

Seulement, avec la démocratisation de ces analyses et des outils associés de nombreux résultats produits peuvent laisser dubitatifs… Car si faire la cartographie d’une communauté web par exemple peut être un élément d’appui intéressant à une analyse, une cartographie (ou une infographie) n’a pas de sens en soi.


C’est par les questions que l’on se pose au préalable, la réflexion sur l’énoncé de ses résultats, la prise en compte de certains biais (comme les API et les algorithmes donc) ou encore la définition claire et précise de sa méthodologie que l’analyse et la représentation des Big Data prend son sens.


Sinon, tout d’abord, le résultat est critiquable et souvent critiqué. Ensuite, le résultat peut induire en erreur les personnes le prenant pour absolu et mettant en suite en place des actions à partir de ces analyses/représentations.

 


Bref : ce ne sont pas le traitement et la représentation des données qui leurs donnent du sens ! C’est tout d’abord la prise en compte du contexte mais aussi de la subjectivité du regard porté sur ces données qui permettent de mieux les interpréter. Une cartographie est par exemple un élément de preuve ; nécessitant de savoir entre autre : qui a fait cette cartographie ? Pour chercher quoi ? Avec quels objectifs derrière ? En se reposant sur quels outils/méthodologies ? Et pourquoi ces outils/méthodos et pas d’autres ? Etc.


M'intéressant aux épistémologies constructivistes en ce moment, certains discours autours des Big Data les présentant comme une « représentation du monde » (et non pas « d’un monde ») ont fait écho au discours tenu notamment par J-L Le Moigne sur le positivisme : « (…) chacun cite des exemples d’interprétations statistiques ou d’expérimentations onéreuses insensées (n’ayant pas de sens, et donc ne produisant pas de connaissances valables), développées non pas par perfidie, mais par inculture épistémologique : puisque l’Institution garantie la pertinence du discours scientifique, ne peut-on s’épargner une réflexion personnelle supplémentaire de pré- ou post-validation de l’énoncé que l’on produit ? »

Remplacez ici « institution » par « outil» mais aussi par l’acceptation que de nombreuses personnes font de ces analyses, et « discours scientifique » par « analyse des Big Data », et l’on comprend ici l'intérêt de se questionner sur le sens de l'analyse de ces données (sans être forcément un constructiviste radical :-)).


 

Enfin, dernière chose pouvant poser question dans l’analyse/représentation des Big Data : la représentativité. Ce n’est pas parce que mon échantillon prend en compte 70 millions de comptes qu’il sera pour autant représentatif de quoi que ce soit dans l’absolu. Seule une prise en compte forte du contexte, avec notamment le recours à ce qu’Antonio Casilli nomme en contre-point les « Small Data », et l’acceptation du fait que l’on ne pourra pas tout prendre en compte permet de redresser ce biais de représentativité.

 


En résumé : si l’on vous dit dans une infographie que 30% des utilisateurs de Facebook ayant une photo bleu sont gauchers, demandez-vous au préalable dans quel contexte, pourquoi, par qui et comment a été réalisée cette étude avant toute utilisation de ces chiffres. Chiffres qui, dans l’absolu, n’apporte aucune connaissance actionnable de manière fiable par la suite. Et recoupez les ensuite avec votre propre contexte, votre propre vision du sujet, etc.



 

Au final : peut-on contourner les filtres ?


 

Je m’arrête ici dans ces quelques réflexions... Cependant, il me semble que d’un point de vue de la gestion de l’information (dont l’e-réputation) ou encore de la recherche scientifique sur ces sujets, il reste beaucoup à faire dans l’appréhension de ces trois phénomènes : enfermement dans des bulles personnalisées, dépendance aux API et la question du sens dans les Big Data.

 

A la question : est-ce une forme de dictature, je répondrai tout d’abord : les commentaires vous sont ouverts


Ensuite, oui, je pense que Google est le seul maitre chez lui, tout comme Twitter ou autre, et qu’il faut donc s’accommoder au mieux à leurs choix, mais sans perdre de vue l’influence qu’ils ont chaque jour dans nos métiers ou nos observations. Pour les Big Data, espérons qu’elles ne deviennent pas une nouvelle hégémonie de « la réalité objective », surtout sur un web que l’on veut « social », et où les comportements et les données ne sont qu’une infime partie de ce que nous offre le web pour comprendre ses usages et usagers.


Enfin, pour reboucler sur l’e-réputation, ces trois phénomènes nous amènent encore une fois à une nouvelle forme d’industrie de la réputation : si vous pensiez encore pouvoir « maitriser » votre présence ou votre discours, prenez en compte qu’il ne s’agit que de données dont la circulation est fortement dépendante de quelques acteurs… Et malheureusement, de moins en moins d’acteurs…

 

Le tout est donc encore une fois de mon point de vue de prendre en compte ces phénomènes et de les accorder au mieux avec ses propres objectifs et attentes.


 

Et vous : comment appréhendez-vous les changements d’algorithmes, d’API ou encore l’analyse des Big Data ? Pensez-vous qu’il y a un risque d’enfermement à long terme ? Comment gérez-vous cela dans vos activités ?!

Partager cet article
Repost0

commentaires

C
Blog(fermaton.over-blog.com),No-8. - SCIENCE. - L'intelligence et Raison ?
I
Merci pour cet article.<br /> <br /> Il est important de communiquer sur cette notion de bulle, par exemple là : http://dontbubble.us/ (trouvé via duckduckgo, qui n'est pas si mauvais que ça et accepte des syntaxes de recherche un peu<br /> complexes).<br /> Je pense qu'il y a des outils et des pratiques qui permettent d'atténuer la fabrication de la bulle. Éviter de surfer en étant connecté à ses divers outils en ligne. Éviter de stocker de<br /> l'information chez des tiers (agrégateur de flux, gestion de bookmarks, etc.). Utiliser des extensions firefox pour limiter les traces laissées et les pisteurs (adbock+ en bloque un bon nombre,<br /> ghostery est intéressant aussi, voir aussi l'extension en beta : collusion qui permet de se faire une idée de comment ça marche).<br /> <br /> Ce qui ne résout pas la question de l'optimisation de référencement ou d'e-reputation : on ne peut maîtriser la navigation des autres... ;)<br /> <br /> Il y a des pistes pour garder un web ouvert, puisqu'il s'agit de cela. Mais elles ne sont ni très connues, ni populaires. Notamment parce qu'il s'agit d'accepter de perdre un certain confort. Je<br /> pense aux moteurs de recherche en P2P, à l'auto-hébergement (sur lequel vous pouvez vous faire un netvibes perso, un google reader perso, un delicious perso, etc.).<br /> <br /> Derrière, il y a un choix de société. Si tant est qu'il soit possible de faire des choix de société.
C
<br /> <br /> Oui, il existe une multiplicté de moyens techniques pour garder une navigation et une utilisation du web la plus ouverte possible.<br /> <br /> <br /> Reste que si celles-ci sont accessibles aux professionnels (i.e. qui ont le temps, les moyens techniques/méthodologiques voire financiers de le faire), et que beaucoup n'en usent pas de mon point<br /> de vue (d'où ce billet :-)), les utilisateurs lambdas sont à des milliers d'années lumières de ces interrogations : ils veulent des réponses, vites et personnalisées (cf récente étude)...<br /> <br /> <br />  <br /> <br /> <br /> Effectivement, un choix de société...<br /> <br /> <br />  <br /> <br /> <br /> Merci poru ce commentaire!<br /> <br /> <br /> <br />
S
merci pour cet excellent article! En construisant une intervention sur l'identité numérique, je me suis aussi rendu compte à quel point la recherche documentaire et les enjeux de la présence en<br /> ligne sont désormais imbriqués. Il y a clairement une montée en puissance. Je partage le point de vue évoqué ci-dessus, la bulle est vraiment une très bonne image et la question reste la même :<br /> comment maîtriser cette bulle, en sortir plutôt que lui être soumis ? Dans la maîtrise on soit l'affiner parce qu'elle n'est pas négative au fond, cette bulle (maîtrise de sa présence web), en<br /> sortir revient à créer une autre bulle ou alors ramifier la précédente, aucun outil à ce jour ne permet de faire ça facilement!<br /> <br /> Se pose aussi la question du modèle : comment se finance un modèle comme start page qui utilise le moteur de google anonymisé ? https://startpage.com/ hé bien en vendant de la PUB ! Etonnant non ?<br /> La question est donc aussi économique...
C
<br /> <br /> Merci Silvère (et désolé du retard dans ma réponse)!<br /> <br /> <br />  <br /> <br /> <br /> Effectivement, j'ai pour ma part pris pour option de créer (au niveau d'une organisation) "notre propre bulle". Come ça, je peux en partie "maitriser" (ou tout du moins comprendre) ce qu'il s''y<br /> passe.<br /> <br /> <br />  <br /> <br /> <br /> Et d'accord avec toi : il s'agit d'une question économique... Comme je le souligne, difficile d'en vouloir à une entreprise parce qu'elle veut gagner de l'argent! Reste qu'il est difficile de<br /> percevoir lorsque la recherche de bénéfices devient nuisible à l'utilisateur ?...<br /> <br /> <br /> <br />
H
Les Big Data conduisent pour moi à une prise de pouvoir du marketing et par voie de conséquence de la publicité dans le search. Idem pour la personnalisation. On est dans une logique de<br /> construction de panels. Je fais fonctionner « pour m’amuser » les API. Je les trouve souvent un peu décoratives.<br /> <br /> Les solutions que j’utilise ne sont pas franchement originales. Je multiplie les moteurs de recherche et je constitue des catalogues personnels de sources que j'ai qualifiées comme fiables.<br /> Quand j'ai une recherche à faire je vais d'abord chercher sur une grosse dizaine de sources identifiées et sur HAL. Cette première lecture va forcément me faire connaître d'autres sources par les<br /> liens ou les auteurs "sachants" suggérés. Je jette un oeil à ces sources et si à première vue, elles me paraissent intéressantes, je m'abonne au flux RSS (dans un répertoire un peu couveuse) pour<br /> voir ce que cela donne sur la durée. Je ne suis pas uniquement sensible au ton. Je regarde aussi si l'info est datée, sourcée, le profil de l'auteur, la qualité des liens suggérés...<br /> Si le contenu correspond dans le temps à mes critères de qualité, je conserve le flux RSS que j'affecte à un dossier thématique et je sauvegarde la source dans Diigo avec des tags spécifiques. Je<br /> fais aussi des listes de "sachants" par rapport à des thématiques. Diigo me sert un peu d'entrepôt et j'accède en fait à mes sources qualifiées via une carte heuristique sur laquelle je représente<br /> mon environnement de connaissance. La boucle est bouclée.<br /> <br /> Si j'ai envie de compléter (parce oui, les questions que je me pose ne requièrent pas toutes une exploration d'une semaine sur le web mais parfois quand même), je confronte les résultats de<br /> plusieurs moteurs de recherches. Et si la thématique m'intéresse vraiment, je me mets en veille sur mes sources identifiées et sur le web avec des systèmes d'alertes et flux sur différentes<br /> plateformes.<br /> <br /> Les phénomènes que tu décris me posent donc problème, je ne vais pas le nier. Ils me font perdre du temps plus particulièrement lors d'une recherche sur une thématique que je maîtrise mal puisque<br /> je dois davantage partir des moteurs de recherche.
C
<br /> <br /> Merci pour ton retour d'expérience Isabelle!<br /> <br /> <br />  <br /> <br /> <br /> D'accord avec toi, on est plus face à un dispositif marketing qui profite aux "outils" (bien qu'en même temps il faut qu'ils vivent) qu'à l'utilisateur, qui plus est si celui-ci y voit une<br /> pratique professionnelle.<br /> <br /> <br /> En tout cas, tes pratiques montrent bien qu'il faut réfléchir à ce que l'on fait, et pourquoi on le fait!<br /> <br /> <br /> <br />
D
Très bon article Camille !<br /> <br /> Je partage la plupart de tes arguments à la fois sur la difficulté d'obtenir des résultats de recherche "génériques" (que je préfère à "neutres"), les limites de l'algorithmisation ~ véritable<br /> mouvement qui tue la sérendipité, et la difficulté de l'appréhension du Big Data. Sur ce dernier point et avant même les intentions de ceux qui produisent une visualisation / infographie je crois<br /> qu'il faut s'interroger sur l'origine des données: recueillir telle donnée plutôt que telle autre, construire tel indicateur, n'est pas neutre non plus pour le coup !Il y a toujours une volonté<br /> politique, sociale derrière.<br /> Le seul avantage que je perçois en revanche du Web personnalisé est la difficulté pour des tiers de le manipuler (tout les débats sur le changement d’algorithme de Google reposait finalement<br /> là-dessus)...ce qui suppose aussi que les acteurs dominants restent bienveillants...
C
<br /> <br /> Merci Olivier <br /> <br /> <br /> D'accord avec toi sur l'interrogation nécessaire de l'origine des données, qui plus est si celles-ci sont éparses et (par définition) peu structurées.<br /> <br /> <br />  <br /> <br /> <br /> Bonne remarque sur le fait que les acteurs du search limitent ainsi certaines manipulations, faisaint ainsi crier au drame les entreprises qui en vivent. Seulement, il me semble qu'au final<br /> Google fait de même mais pour lui : mise en avant de ses propres produits, hierarchisation obscure des résultats, etc. bref, si le web est "libre" l'accès à celui-ci devient de plus en plus<br /> propriétaire...<br /> <br /> <br />  <br /> <br /> <br /> Merci pour ces réflexions!<br /> <br /> <br />  <br /> <br /> <br />  <br /> <br /> <br /> <br />

Le nouveau blog!

Le nouveau blog : cadderep.hypotheses.org

 

Rechercher

Gazouillis