Étude Anaconda 2021 sur l’état des lieux de la DataScience
Publié le 1 octobre 2021, par Richard Carlier
Études, chiffres...
#2021 #anaconda #datascience #étude #métier
Dans une étude parue début août 2021, Anaconda nous livre quelques informations sur le monde de la datascience.
Quelques informations que j’ai trouvé intéressantes à relever, choix porté par des motivations personnelles (et en qualité de formateur data, bien entendu…), avec ma petite analyse personnelle…
Cadre de l’étude
Anaconda est une distribution libre et open source des langages de programmation Python et R appliqué au développement d’applications dédiées à la science des données et à l’apprentissage automatique (traitement de données à grande échelle, analyse prédictive, calcul scientifique), qui vise à simplifier la gestion des paquets et de déploiement.
En gros, un ensemble d’outils bien connus et utilisés dans l’univers de la data science (et qui possède des solutions payantes également).
Vous pouvez facilement vous procurer l’étude 2021 complète (pdf, 46 pages) en échange d’un mail… Pour les passionnés, l’étude 2020 est également encore disponible.
Quelques chiffres sur le profil des répondants:
- L’étude porte 4299 professionnels ou étudiants de la data, répartis sur 140 pays.
- L’age des individus: 24% de 18-24, 50% de 25-40 ans, 18% de 41-56.
- Dont 72% d’hommes et 23% de femmes…
- Coté éducation, 34% ont un bachelor, 24% master, 10% doctorat…
Les métiers de la data…
Différents métiers sont présents, montrant bien la diversité des métiers existants qui tournent autour de la data…
Le public français se tournera à se sujet plutôt sur l’étude de l’APEC d’octobre 2020…
Que fait un data scientist ?
Cela fait partie de la légende urbaine du métier, où l’on lit régulièrement que les Data scientists spend 80% of their time cleaning data rather than creating insights, ou en bon français que les spécialistes passent 80% de leur temps à nettoyer/préparer les données qu’à réellement les exploiter… D’où sort ce chiffre? C’est loin d’être simple, et varie sérieusement selon les études.
Je présume que cela dépend surtout de qui répond, et de quelles données sont traitées par le répondant. On peut sérieusement présumer que les outils s’améliorent, et que l’organisation des données aussi.
Bref, l’étude Anaconda nous explique ce que fait un datascientist :
On peut le voir, dans ce cas, 39% de nettoyage et préparation.
Anaconda ne livre pas les données brutes de l’étude (encore que je n’ai pas encore cherché), ce qui aurait permit de détailler un peu par profession…
Langages informatiques
Ce point m’intéresse évidement d’un point de vue enseignant en langages de programmation pour data science.
Sans trop de surprise, python arrive en tête. D’une part car c’est python (!) qui est considéré quasiment par toutes les études comme le langage par excellence associé aux datasciences. D’autre part car c’est une étude Anaconda, qui diffuse des outils en python…
SQL arrive assez vite fort logiquement, puisque langage de la base de données par excellence. On en fait sans doute moins en volume horaire, ce qui me parait cohérent. Une fois les requêtes d’interrogation au point, elles sont souvent intégrées dans les scripts d’autres langages, python ou R sans doute…
J’aurais pensé que R serait plus représenté. Python est plus universel, R plus statistique… mais on peut faire les stats avec Python, donc changer de langage ne se justifie pas forcément… Mais là encore cela doit dépendre du contexte d’utilisation, métier du répondant, etc…
Javascript, HTML et CSS… se placent surement du côté du reporting, puisque langages du Web.
Pour les autres… Il y a quelques DevOps et Developpers dans l’étude, cela justifie sans doute la présence de quelques langages.
Je me posais la question d’intégrer Julia dans mes cours… Je pense qu’on va attendre un peu…
Compétences demandées, formations proposées…
Alors là, je suis à fond dans mon contexte…
Ce que demandent les entreprises, ce qu’apprennent les étudiants, ce qu’enseigne les universités (les écoles, en général je présume…)
Dommage là aussi qu’il n’y ait pas le détail par profession…
Les chiffres sur les langages m’interpellent forcément. Python ne semble pas demandé, mais est largement enseigné (décalage tout aussi marqué sur R et SQL). Et pourtant, les gens font du Python et du SQL au quotidien pour la plupart… En même temps, on retrouvera très certainement du Python dans le Machine Learning, le Deep Learning, la NLP, … qui sont également demandés…
La Data Viz est largement enseignée, et relativement peu demandée. Il y a une nécessité de la connaître en tant qu’apprenant, mais les entreprises doivent avoir déjà les outils.
On sent la tendance Big Data dans les demandes, moins dans les réponses des apprenants…
J’aurais pensé le NLP (Natural Language Processing) plus présent.
La faiblesse de l’éthique de la données… qui est sans doute présente (j’espère) sans pour autant être une compétence à part entière.
Bref, étude intéressante.