Les ténors de l'analyse des tweets

Les ténors de l'analyse des tweets Topsy, récemment racheté par Apple, n'est pas le seul capable d'analyser massivement les tweets. Une poignée d'acteurs ont aussi négocié avec Twitter l'accès à son historique.

Chaque jour plus de 500 millions de tweets sont émis. L'utilisateur ou le développeur lambda n'aura accès qu'à 1% de toute la masse de données cumulées. Twitter protège le reste, qu'on appelle le "Firehose" : seuls quelques partenaires y ont accès. L'un d'eux, Topsy, vient d'être racheté par Apple. Mais il reste des indépendants... Tour d'horizon de ces acteurs du Social Analytics qui savent puiser dans Twitter comme aucun autre.

1 -Topsy : analyser en temps réel tout l'historique de Twitter

Le Californien Topsy, fondé en 2007, vient d'être racheté par Apple pour 200 millions de dollars, mais les raisons de cette acquisition sont encore sujettes à débat.

Topsy indexe tous les tweets issus du Firehose, et permet l'analyse rapide de termes ou de hashtag. Des mots clés, des profils ou des liens peuvent aussi être recherchés précisément. L'acteur met en avant sa rapidité de traitement. Il affirme pouvoir faire remonter le nombre exact de tweets répondant à la requête, dans la minute, et en puisant dans tout l'historique des tweets publics. En effet, en octobre dernier Topsy annonçait avoir tout indexé, jusqu'au premier tweet de Jack Dorsey, le 1er mars 2006. Les tweets peuvent aussi être filtrés par géolocalisation, sentiments, influence et d'autres critères.

L'outil Topsy Pro Analytics est utilisé par des acteurs du marketing, de l'information, des finances, des médias et du divertissement. Il y a quelques mois, un responsable des ventes de Topsy avait indiqué sur un forum facturer 12 000 dollars par utilisateur et par an pour un accès illimité à la solution et un support e-mail standard. Topsy indexe aussi les contenus publics postés sur Google+.

analyse des sentiments sentiment nascar athletes
Pour chaque requête, Topsy peut analyser les sentiments des tweets, mais aussi leur géolocalisation ou leur impact.   © Topsy

2 - DataSift : une quinzaine de sources de données

Egalement partenaire certifié comme "revendeur de données" agréé par Twitter, DataSift bénéficie aussi d'un accès au Firehose de Twitter. Fondé en 2010 au Royaume-Uni, DataSift ne s'est cependant pas arrêté à Twitter. En tout, DataSift liste une quinzaine de sources de données : Facebook, TumblR, Flickr, Youtube, Reddit ou Instragram, entre autres.

Son abonnement Pro, présenté comme le plus populaire (mais pas comme le plus cher) propose à la fois de l'analyse en temps réel comme des données historiques. Il est vendu à partir de 3000 dollars par mois selon le site, mais d'autres packs sont aussi vendus pour environ trois fois moins. Il est aussi possible d'acheter des crédits pour ne payer qu'à l'usage.

DataSift affirme avoir quelque 1000 entreprises clientes réparties sur 40 pays. Ses références les plus connues sont Bloomberg, Dow Jones ou CBS Interactive. Des spécialistes des réseaux sociaux, comme HootSuite ou Simply Measured, utilisent aussi sa technologie.

Dans son outil, des recherches avancées, par expressions régulières par exemple, peuvent affiner les résultats remontés. La solution s'intéresse aussi aux métadonnées des tweets, qu'il peut enrichir en les associant à des sentiments, des influences ou de la geolocalisation. L'acteur vient également d'annoncer un partenariat avec Tableau, dont les solutions permettent de réaliser des data visualisations.

Quelques jours après l'acquisition de Topsy par Apple, début décembre 2013, DataSift annonçait une levée de fonds de pas moins de 42 millions de dollars. Le Britannique aura donc levé, en tout, 72 millions de dollars depuis le début de son histoire.
 

datasift et tableau (datavisualisation) et google (big data avec bigquery)
Lors de l'événement LeWeb London 13, DataSift s'est associé à Tableau (data visualisation) et Google (Big Data avec BigQuery) pour présenter sous forme esthétique des indicateurs issus du Firehose de Twitter. © DataSift

3- Gnip : un accès exclusif à certaines données sociales

Entreprise américaine fondée en 2010, Gnip propose également à ses partenaires un accès à l'historique complet et à tout le Firehose en temps réel. Gnip figure aussi dans la liste ultra fermée des "Certified Data Reseller Products" agréés par Twitter. 

L'acteur ne se limite cependant pas à Twitter. L'année dernière, Gnip a ainsi ajouté de nouvelles sources de données à son offre d'analyse des réseaux sociaux : Instagram, Reddit, Bitly, ou Stack Overflow ont ainsi rejoint une liste déjà longue, mais l'accès à leurs données se fait via des API publiques. Gnip possède cependant aussi des accès exclusifs, par exemple aux données de Disqus, le célèbre système de gestion de commentaires de blog.

En 2013, Gnip aura aussi mis le paquet sur la géolocalisation. L'acteur a ainsi travaillé sur l'enrichissement des informations de géolocalisation associées aux tweets du Firehose. Cette année-là, Gnip annonçait également désormais bénéficier d'un accès exclusif à certaines données issues de FourSquare. En matière de data visualisation, Gnip, associé à Mapbox, a aussi pu réaliser des cartes du monde interactives et très précises distinguant les touristes des locaux (voir ci-dessous), mais aussi les smartphones ou les langues utilisés pour tweeter dans le monde entier.

Sur son blog, l'acteur explique qu'analyser la géolocalisation des utilisateurs des réseaux sociaux permet par exemple de détecter les dégâts causés par les restaurants mal notés par les autorités sanitaires. Gnip est aussi connu pour avoir permis à la Librairie du Congrès aux Etats-Unis d'archiver chaque tweet posté.
 

gnip local or tourists
Gnip s'est associé à Mapbox pour différencier sur une carte interactive les touristes des locaux (ces derniers ayant tweeté dans cette ville depuis un mois ou plus) © Gnip

Ces trois acteurs sont les seuls à bénéficier du logo "partenaires certifiés" dans la catégorie "revendeurs de données Twitter" sur le site web du réseau social (Topsy ayant récemment disparu de la liste, sans doute à cause du rachat par Apple). Il faut cependant y ajouter NTT Data qui bénéficie de la même certification officielle, mais s'est spécialisé dans l'analyse des tweets en japonais.

D'autres acteurs qui n'apparaissent pas dans cette liste prétendent cependant avoir accès à ce Firehose. Certains peuvent par exemple être clients de l'un de ces trois fournisseurs officiels de données Twitter. Gnip affiche ainsi plusieurs "partenaires" auxquels il est relié, parmi lesquels figurent par exemple Adobe, IBM ou Salesforce (pour Radian 6 ?).

Bing, le moteur de recherche de Microsoft, a aussi récemment annoncé avoir renouvelé son accord avec Twitter pour bénéficier d'un accès privilégié à son Firehose, mais cet accord n'est pas visible, ni dans la déclinaison française de Bing, ni dans sa version américaine. Google, il y a quelques années, proposait de son côté un onglet "Temps réel", lui bien visible, qui faisait remonter les tweets grâce à un accès privilégié au contenu de Twitter, mais les deux géants n'ont pas reconduit leur accord.

Enfin, jusqu'au 31 décembre dernier, il y avait aussi PeopleBrowsr, qui s'est fait connaître l'année dernière en attaquant Twitter, qui avait décidé de lui couper brutalement l'accès à son Firehose. Il n'a réussi qu'à reporter la coupure de son accès à fin 2013. Dans sa communication officielle lors du procès, Twitter ne listait que trois partenaires officiels par lesquels il fallait passer pour accéder à son Firehose : Gnip, Datasift, et Topsy.