Données GAFAM: un peu de méthodologie

Publié le 30 octobre 2020, par Richard Carlier
Série: Datas from GAFAM
#gafam #mysql #python

Pour analyser les données récupérées chez les GAFAM dans l’épisode précédent, j’ai mis au point quelques petites procédures…

Description.

Le pourquoi de la méthode…

Ce qui frappe en première analyse sur nos éléments, c’est le nombre de dossiers et fichiers présents.

Ce qui parait logique, ils collectent beaucoup de données différentes (pour certains GAFAM), et il est donc normal que ces fichiers soient organisés chez eux.

Enfin, à priori beaucoup d’entre eux sont sans doutes stockés dans des bases de données différentes, dans des tables différentes, et exportés sous forme de fichiers.Encore

Bref.

S’y retrouvé nécessite donc de l’ordre et de la méthode, ne me voyant pas ouvrir tous ces fichiers un par un…

L’art du Zip

La plupart des fichiers que l’on reçoit sont zippés, c’est à dire compressé et regroupé dans un seul fichier. Histoire de gagner de la place.

Ma première étape a donc été, pour chaque Gafam, de dézipper les éléments.

Ensuite, de faire un tour rapide « pour voir ». Car si la curiosité est un vilain défaut, l’impatience aussi…

Un script python (j’y reviens un peu plus bas) me permet de détecter la présence de fichiers zip dans les fichiers zip précédents, donc je dézippe aussi ceux là (avant destruction).

Histoire de ne plus avoir de zip, et donc uniquement des fichiers exploitables.

Python mon ami…

Le script python va donc servir principalement à faire des statistiques de volumétrie.

En gros:

parcourir tous les dossiers / sous dossiers
pour chacun d’entre eux, récupérer la liste des fichiers, leur poids, leur extension
faire des totaux par dossiers
insérer le tout dans deux tables mysql (dossiers / fichiers)

Du coup, il devient facile de faire des regroupements et statistiques pour chaque Gafam, et pour le tout…

On va pouvoir se lancer…

A suivre.