Analyse des données GAFAM: Apple

Publié le 30 octobre 2020, par Richard Carlier
Série: Datas from GAFAM
#apple #data #gafam

Commençons notre phase d’analyse par les données reçues d’Apple.

Go!

On récupère quoi ?

Plusieurs fichiers zips, organisés par thématiques:

Une fois décompressés, en ce qui me concerne, j’ai récupéré 117 dossiers, 173 fichiers, pour un poids total de 134 Mégaoctets

Les formats de fichiers sont assez classiques:

Rappelons si nécessaire le rôle de quelques fichiers (mais se référer à la page Fichiers, que signifient leur extension):

Les .vcf sont des fichiers vCard File, et sont assez nombreux car il y en a un pour chaque contact que vous créez. Dans mon cas, j’ai d’autres carnet d’adresses… Les .ics correspondent eux aux évènements du calendrier. Les récupérer est donc assez intéressant à titre de sauvegarde.

Les .plist Mac OS X Property List File sont des fichiers de paramétrages.

Le format .cdt m’est totalement inconnu. En l’ouvrant avec un éditeur hexadécimal (à gauche de l’image ci-dessous), on constate la présence de PK au début qui laisse supposer un format zip. Une fois dezippé, on y trouve un mélange de textes et valeurs binaires (à droite)…

Placé dans iCloud Drive/System Data/TextInput/Dictionaries/ on peut supposer que le D signifie dictionnaire…

Les .pdf sont des fichiers de mon appli Livres. Du moins ceux qui sont sur le cloud (je ne synchronise finalement pas grand chose).

Puis on trouve une série de fichiers de données assez classiques: .csv, .json, .xml… qui me feront sans doute faire quelques analyses sur mesure pour certains…

A quelques exceptions donc, ce sont des formats ouverts, facilement exploitables (pas forcément pour le grand public par contre).

Globalement, les fichiers sont bien organisés par dossiers, et les noms souvent explicites. Petit extrait:

Les surprises…

Quelques fichiers de petite taille (un ou 2 octets) donc vides.

Plus étonnant, présence d’un dossier dont le nom commence par un . donc invisible par défaut dans le finder…

Quelques noms de fichiers assez étranges (du genre A9DA7B34-469A-42A1-8965-9853171635CB.1.cdt) dont il est difficile avec certitude de savoir à quoi il peut servir… Tient, on retrouve notre .cdt

Assez étrangement aussi, certaines informations sont anonymisées. Dans le fichier Apple ID Account Information.csv par exemple, mon mail est plein d’étoiles… l’adresse postale non (mais je ne la mets pas sur la capture écran ci-dessous).

 

On étudie quoi ?

Bien sûr, si j’avais du temps, je prendrais chaque fichier un par un pour voir ce qu’il a dans le ventre.

Bon, je suis joueur, mais quand même…

Un rapide coup d’oeil sur quelques uns qui m’interpellent, mais on tombe souvent sur des fichiers techniques, de réglages, ou autre, dont je ne vois guère l’intérêt.

Quelques éléments m’intéressent un peu plus à titre personnel, de datalover.

Sur les starting-blocks:

  • Les données de Santé, application de l’iPhone qui compte le nombre de kilomètre que l’on marche, d’escalier que l’on monte, etc (qu’il faut exporter directement depuis l’appli).
  • Plusieurs fichiers Activity.csv qui l’historique de mon activité sur l’App Store (les applis que j’ai consulté, les articles mis en avant que j’ai pu y lire…)

Bon, faisons simple : les fichiers qui m’intéressent sont surtout les plus gros, ceux où il y a de la donnée

SELECT * FROM gafam_files WHERE gafam = "Apple" order by size desc ;

Ceux là feront sans doute l’objet d’articles spécifiques…

Top