Informations Data janvier 2018

Les formations de « data scientist » se multiplient, aussi diverses que les métiers de « data scientists » !

Frédéric Lefebvre-Naré (Isée dataSTRATEGIES) & Mary Le Gardeur (Mix&Match)

La révolution des data, défi de ressources humaines

La révolution des « big data », celle de l’inflation, du stockage et de l’utilisation des données, pose aux entreprises des défis multiples :

comment rendre exploitables, simultanément, ces données hétérogènes ;
comment anticiper, dans le flux opérationnel qui génèrent des données, la façon dont celles-ci seront exploitables ;
comment gouverner ces données, en assurer à la fois l’intégrité, la mise à jour, la sécurité, l’accessibilité, la surveillance humaine ou robotisée, la protection légale et la non-nocivité, la pertinence lors de l’utilisation…
et, face à la difficulté de ces tâches, comment passer de l’ambition aux actes !

Des leaders, la plupart américains (les GAFA bien sûr, mais aussi Walmart ou Tesla), se sont échappés devant des organisations qui se demandent encore comment avancer. Ce retard s’étend à tous les domaines des entreprises — marketing, finance, RH, production — comme au secteur public.

Qu’est-ce qui freine ? Le manque des bonnes « data personnes » — ou « data scientists », le mot qui s’est imposé depuis 2016 [lien vers indeed] — aux bonnes places.

La demande de salariés dans la data dépassera 2,3 millions d’ici 3 ans aux États-Unis⁽¹⁾, selon une étude initiée par IBM ; le taux de croissance mondial était de l’ordre de + 30%/an ces 5 dernières années⁽²⁾; la data représenterait 8% du PIB en 2020⁽³⁾. On s’arrache les « data scientists » au point que 60% des emplois potentiels resteraient non pourvus⁽⁴⁾.

Mais le défi pour les entreprises sera surtout de recruter les bons profils de compétences, parmi la diversité de métiers et de formations de « data scientists ».

Les formations supérieures à la data abondent enfin

Car en France, les formations supérieures à la « data » se sont enfin multipliées, surtout depuis 2016. Écoles d’ingénieurs ou d’informatique, écoles de management, universités, toutes les grandes filières de notre enseignement supérieur ont enfin pris en considération la « data ».

Mais à quoi forment-elles ?

Nous avons passé en revue 34 cursus Bac+5 sur le territoire français : quels contenus de formation, pour quels débouchés annoncés ?

Ces débouchés couvrent plus de 30 métiers différents : au-delà du terme « data scientist », des postes de « data » ou « big data engineer » ou « architect », de « data analyst » ou « data analytics consultant », et des métiers existants de l’IT et des SI, bouleversés par le flux des data.

Même diversité dans les contenus de formation : ces 34 cursus enseignent plus de 80 disciplines différentes ; 72 de ces disciplines sont présentes dans au moins 2 cursus.

Un noyau commun : statistiques, noSQL, gestion de projet

Un petit nombre de disciplines est commun aux cursus des différentes catégories :

les statistiques, la visualisation des données, l’exploration de données multidimensionnelles, notamment le clustering ;
les technologies big data, en particulier les bases de données noSQL ;
la gestion de projet — selon l’approche classique de l’ingénierie ou, dans les formations « Big data », selon l’approche « agile » ;
la loi et l’éthique des données, présentes dans toutes les catégories, sauf « Sciences of Data » (plus fondamental) ;
l’apprentissage automatique (machine learning), dans toutes les catégories sauf « Data Analytics ».

Pour le reste, les contenus sont très contrastés.

Nous les avons regroupés, par analyse des données (ACP) et clustering, en 4 dominantes que nous avons baptisées « Sciences of Data », « Big Data », « Data Crunching » et « Data Analytics ». Nous tenons l’analyse complète et le positionnement des 34 cursus à disposition, sur simple demande.

1 • Data crunching : synthétiser les données pour un usage métier

Certains cursus sont explicitement dédiés à des applications, par exemple à l’assurance ou aux données biologiques. Leur axe de formation pourrait être nommé « Data Crunching » ou « Data Craft » : il s’agit de produire une connaissance compacte, utilisable par les professionnels d’un métier, à partir de données souvent hétérogènes ou difficiles d’emploi. L’impact des data sur l’humain y est traité à travers l’économie, la « dataviz » ou l’étude des outils de « recommandation ».

Les contenus enseignés : le langage R, les outils big data (bases noSQL, MapReduce, Hadoop, Spark…), les analyses exploratoires dont le clustering, la visualisation des données, le droit et l’éthique des données, et des enseignements spécifiques au secteur, par exemple actuariat ou biostatistiques.

2 • « Sciences of data », le socle des sciences dures

D’autres cursus consistent presque exclusivement en sciences dures : ils pourraient être intitulés « Science of Data ». Le mathématicien Stéphane Mallat vient d’inaugurer au Collège de France un cours de « Sciences des données », Sciences au pluriel. Car plusieurs disciplines concourent à représenter la donnée de façon pertinente et informatiquement efficiente. Ces cursus disent préparer au métier de « data scientist » mais aussi à la recherche, ou au moins à une thèse de doctorat.

Ils associent étroitement des disciplines récentes comme l’apprentissage profond (deep learning), la modélisation des systèmes et la simulation, à des sciences enseignées depuis plusieurs décennies : statistique et probabilités, chaînes de Markov et modèles stochastiques, optimisation et théorie des jeux.

3 • « Data engineers », du côté du moteur informatique

L’empreinte des « big data » sur les systèmes d’information marque un autre type de cursus. Des écoles d’ingénieurs, dont des écoles de Télécoms, le proposent, mais pas seulement elles. Ces cursus forment des « data engineers » ou « data architects », souvent avec le vocabulaire de l’informatique, ses réseaux et ses bases de données. Leurs diplômés sauront gérer la donnée, avec sa granularité individuelle, en temps réel.

Les technologies informatiques sollicitées par les « big data » suffisent en effet à remplir un programme d’enseignement supérieur : cloud computing, informatique distribuée et calcul à haute performance, réseaux et sécurité informatique, capteurs et middleware de l’internet des objets, représentation des connaissances et bases de données, relationnelles comme noSQL, text mining et web sémantique, gestion et traitement de données complexes comme l’image et la vidéo,… Et bien sûr les langages de programmation et outils, le deep learning, plus largement l’intelligence artificielle.

4 • Data analysts, les opérationnels de la data dans le business

Enfin, un quatrième groupe de cursus forme des « Data Analysts ». C’est l’offre de formation la plus standardisée, car elle s’appuie sur des technologies mûres, déclinées jusqu’à des outils « presse-boutons », dont même le vocabulaire et les conventions se sont imposés sur le marché, comme Google analytics. Ces cursus, proposés essentiellement par des business schools, sont à la fois transversaux et appliqués, car ils portent sur un tronc commun d’applications web, business intelligence, marketing digital… partagé par de nombreux secteurs.

Dans ce tronc commun : les médias sociaux, la culture digitale, les business models et l’économie de la donnée, le marketing basé sur les données. Plus près de l’informatique, le SQL et les bases de données relationnelles, les logiciels SAS ou SPSS, la visualisation des données et les outils de business analytics / business intelligence. S’y ajoutent des formations comportementales caractéristiques des business schools : leadership, communication…

Malgré cette abondance, des déficits partagés !

Certains sujets restent peu représentés dans ces cursus, alors que les professionnels les citent fréquemment comme majeurs :

L’accès aux données représente, selon un lieu commun des professionnels des « data », « 80% du temps de travail ». Or, moins de 2% des modules de formation que nous avons recensés, y sont consacrés ! Les jeunes diplômés vont souffrir.
La mobilité, le téléphone et ses systèmes d’exploitation, sont très peu traités ; beaucoup moins que le web. Un seul des 34 cursus propose un module de modélisation de la mobilité ; 2 sur 34 comportent un cours de géostatistiques.

Il y a bien d’autres déficits dans les cursus, puisque beaucoup de sujets aujourd’hui traités par une ou deux des 4 catégories, seraient en fait utiles à tous les professionnels. La data science est souvent définir comme la réunion de trois familles de compétences, « informatiques, statistiques, métier ». Mais dans la réalité, les détenteurs d’une telle palette de compétence sont des aigles à trois pattes !

Chaque personne, chaque formation, chaque poste s’appuient sur des dominantes de compétences qui ne sont qu’une petite partie de l’univers « data ». Les recruteurs, comme les candidats à des emplois dans la data doivent en être conscients pour éviter les désillusions et les mésalliances… ou pour rattraper des carrières mal engagées et frustrantes.

Il appartient bien sûr à chacun d’investir dans les compétences-clé qui rendront faisables ses projets. Il appartient aussi aux professionnels du recrutement de trouver les bonnes personnes pour les bonnes places ! C’est l’objectif que nous nous sommes fixés en créant « Data Mix & Match », le service de recrutement et de placement qui aidera entreprises et professionnels à tirer le meilleur parti de leurs compétences « data » !

“The Quant Crunch: How The Demand For Data Science Skills Is Disrupting The Job Market” (https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#37e0c01f7e3b)
d’après IDC mars 2013
AFDEL février 2013
selon Erwann Le Pennec (http://lesclesdedemain.lemonde.fr/point-de-vue-clesdedemain/data-scientist-un-profil-que-l-on-s-arrache_a-96-5811.html) citant des estimations Gartner / Quantmetry de 2015