Analyse des données GAFAM: Twitter

Publié le 5 novembre 2020, par Richard Carlier
Série: Datas from GAFAM
#data #gafam #twitter

J’avais déjà exploré ces données par curiosité il y a longtemps…

Les choses ont changé dans les données fournies par Twitter.

On récupère quoi ?

Un fichier zip. Que je dézippe.

En ce qui me concerne, 18 dossiers6262 fichiers, pour un poids total de 23,1 Megaoctets

En terme de types de fichiers:

Hum? #WTF?

Je demande des données twitter, qui dans mon esprit sont des petits morceaux de texte, courts, avec des liens et des # dans 99% des cas, exceptionnellement des images, et je reçois… 3078 .png et .svg?

Considérant mon rythme de publication, je pensais avoir un fichier .json d’un ou 2 Mo à tout casser. Je n’ai jamais tweetté de .svg, et très peu d’images…

Hum again.

Un fichier html, du javascript… ça sent le site web ça…

Les surprises…

Bon, un fichier Your archive.html à la racine…

Il s’agit d’un mini site web, incluant de façon claire des liens vers à peu prêt tout.

Le plus intéressant (dans la vision exploratoire qui m’anime) ce sont sans surprise les tweets.

On peut naviguer dedans, il y a même un moteur de recherche

Pour les quelques données non inclues dans l’interface, c’est livré en brut dans un dossier data, un fichier README.txt expliquant les infos, formats, etc.

Propre, clair, efficace pour le grand public.

Bravo Twitter.

Mais si c’est bien pour le grand public, le datalover va être bien embêté. Si l’on enlève ce qui concerne l’interface, on se retrouve avec uniquement des fichiers javascript en pagaille…

Vu le poids cependant, cela fait penser à des données… Jetons un oeil:

Donc oui. Ce sont des fichiers .js mais qui se contentent de créer une variable au format json.

Quelques minutes de python permettra sans doute de le convertir en .json pur, ou .csv ou ce-que-je-veux.

Que pourrions nous étudier ?

Du javascript, mais en fait du json donc:

Si seule l’analyse de vos tweets vous intéresse, passer par l’API est préférable.

On récupère alors du json pur, de ses tweets, ses contacts, les tweets des autres si besoin…

Mais c’est moins grand public.

Top