Analyse des données GAFAM: Facebook

Publié le 2 novembre 2020, par Richard Carlier
Série: Datas from GAFAM
#data #facebook #gafam

Deuxième épisode de la série, étudions les données Facebook…

On récupère quoi ?

Un seul fichier zip, qui une fois dézippé nous donne 32 dossiers bien nommés.

En ce qui me concerne, 404 dossiers, 815 fichiers, pour un poids total de 85,7 Mégaoctets… dont 53,4 Mo dans le dossier Photos et Vidéos.

En terme de types de fichiers, pas de piège:

Principalement des médias (.jpg, .png, .gif ou .mp4) que j’ai du diffuser à mes amis facebook (principalement élèves ou anciens élèves) ou des documents partagés (.pdf).

Les fichiers 379 .json et 9 petits .txt sont ceux qui me paraissent intéressants, car non produits par moi directement.

Pour les fichiers textes, l’analyse va assez vite. Ils sont vides, seuls fichiers dans certains dossiers, et se nomment no-data.txt. Signifiant sans doute qu’il n’y a pas de données (on me surnomme le Sherlock Holmes de la data)…

A l’intérieur des dossiers, les fichiers .json portent des noms très explicites. Quelques exemples:

Propre, clair.

Les surprises…

A part la quantité de fichiers, qui n’est pas réellement une surprise, il n’y a pas de surprise…

Le format retenu, .json, est auto documenté par des attributs assez clairs. Exemple

Le seul truc, du moins pour une analyse à l’oeil nu, c’est que toutes les dates sont stockées au format timestamp. Du coup, 1603272112 me parle moins que son équivalent mysql 2020-10-21 11:21:52.

Mais en même temps, ce n’est pas destiné à être traité à l’oeil nu…

Que pourrions nous étudier ?

Comme souvent dans cette série je pense, la réponse est claire: les fichiers les plus lourds, qui contiennent plus de données.

Facebook est un réseau social. Si. Donc étudier les messages, les amis, les commentaires me parait logique.

Le fichier your_off-facebook_activity.json m’interpelle aussi beaucoup, puisque représente mon activité Facebook… quand je ne suis pas sur le site Facebook… Qui parle de tracking?

Le dossier messages/inbox représente toutes les discutions en direct avec mes amis, et leurs participants. Un dossier pour chaque, de nombreux fichiers images qui trainent (échangés lors de ces discutions directes). Un petit script permettant de reconstituer le fil de mes causettes, voir qui de mes amis est le plus bavards, constituer une timeline…

Top