La science des données, datascience, est une discipline relativement nouvelle. Nous vous proposons de décrire notre démarche de datascience par un jeu de questions-réponses:

  • La datascience c’est du « big data » ?

On peut faire de la datascience sans faire de big data ! Le big data décrit un phénomène technologique tandis que la datascience décrit une façon moderne d’utiliser les données. Le terme big data renvoie à des données volumineuses, variées et se mettant à jour en temps réel ou exigeant des accès nombreux et simultanées à ces données. Le datascientist maîtrise les outils du big data n’a pas peur du volume de données ou du fait qu’elles soient non structurées mais ce qui le caractérise c’est sa faculté à croiser les différents types de données et à les mobiliser pour des applications concrètes.

  • Quelle est la différence entre la datascience et la statistique ?

Selon notre interprétation, la statistique, et on pense à la statistique publique, produit du savoir, de l’information, elle se concentre à fournir une information fiable et certaine. La science des données est, elle, orientée pour produire une action. C’est un point important de notre démarche: nous ne voulons pas produire des résultats intéressants mais des résultats utiles, qui aident un agent public à prendre une décision, quelle que soit la nature de la décision.

Par exemple, avec des données de ressources humaines, nous n’essaierons pas d’étudier les inégalités géographiques ou hommes/femmes mais plutôt de prédire quels postes seront difficiles à pourvoir et resteront longtemps vacants, cette prédiction ayant pour but d’aider une décision : la décision d’ouvrir le poste à un public plus large ou la décision d’être pro-actif dans la recherche de candidats.

  • Quel est le rapport à l’erreur en science des données ?

La science des données ne se réduit pas à l’apprentissage automatique (machine learning) et la plupart du temps la gestion de l’erreur est fondée sur une mesure d’incertitude (portée par la variance le plus souvent). On donne un résultat avec un incertitude que l’on peut quantifier.

Les méthodes du machine learning ont un rapport à l’erreur légèrement différent. La maîtrise de l’incertitude se fait principalement à partir de tests : comme l’algorithme est apprenant, on accepte qu’il se trompe tant qu’il apprend de son erreur. A partir de test, on peut vérifier si l’algorithme est satisfaisant ou non selon les critères que l’on a définit.

  • Le datascientist est-il un magicien moderne ?

Assurément non ! D’une part, les données ne sont qu’une partie du savoir, on ne peut pas tirer des conclusions définitives uniquement avec des données et des algorithmes. L’expérience métier est précieuse pour comprendre les données, ce qu’elles veulent dire et comment elles sont produites. De plus, il existe très souvent des intuitions métier, elles peuvent être confirmées, affinées ou parfois infirmées par les données. Dans tous les cas, il faut pouvoir confronter les résultats issus des données aux experts du métier.

 

 

Laisser un commentaire

Haut de page