[Jour 2 comme Data Scientist] Identification de la solution

Hello !

Avant de commencer la collecte de données, il est important de cadrer la mission. Cadrer la mission c’est poser des tonnes de questions pour faire un état des lieux et définir ensemble un objectif.

On a le problème de départ : On aimerait connaître le salaire du prochaine Data Scientist qu’on va recruter. C’est informel pardi !

Le but est de définir la/les variables qu’on cherche à prédire. Le salaire d’un Data Scientist, en l’occurrence. Et ce, via d’autres variables corrélées comme l’ancienneté, l’expérience, compétences, etc.
Il s’agit de variables internes mais on peut également regarder ces données pour d’autres entreprises.

Pour cette mission, la définition de la variable se fait relativement facilement. Ce n’est pas toujours le cas. Pensez à Netflix qui doit chercher à prédire quand un utilisateur va arrêter son abonnement. Comment savoir si un utilisateur quitter définitivement l’application ou temporairement (même pour une longue durée) ? Il m’est déjà arrivé de ne plus utiliser le service pendant plusieurs mois puis reprendre un abonnement un mois sans trop de raison.
On va à ce moment faire des choix arbitraires et décider qu’après 3 mois, par exemple, l’utilisateur a quitté définitivement (j’en sais rien, je dis au hasard). C’est pourquoi il est primordial de bien connaître et comprendre le contexte dans lequel l’entreprise évolue ! Sans cette connaissance, il est difficile d’avoir une bonne intuition.

Pour ce faire, il est important de poser un maximum de questions … pourquoi accorder de l’importance à cette question maintenant ? Comment sont attribués les salaires dans l’entreprise ? Pourquoi ? Est-ce comme ça depuis toujours ? Y-a-t-il des salaires min et max ? Quelle serait la situation idéale ? …

Ton interlocuteur n’aura pas réponse à tout. Pour certaines questions ce sera à toi d’aller chercher des réponses.

L’objectif n’est PAS de remettre en question l’intérêt de la mission mais chercher à correctement comprendre le contexte et le besoin pour mieux le servir. Il n’y a pas de questions idiotes ou dans le pire des cas, il vaut mieux poser la question idiote maintenant 😀

C’est un véritable challenge que d’enregistrer les tenants et les aboutissants en si peu de temps. Mais c’est primordial sans quoi vous pourrez passer à côté d’un élément important. Pire, être hors sujet.

« Que l’on me donne six heures pour couper un arbre, j’en passerai quatre à préparer ma hache. »

A.Lincoln

Enfin, il faut penser aux tests qui seront effectués pour valider ou non le succès d’une prédiction.

En résumé, deux tâches principales sont importantes pour cette partie :

  1. Définir la/les variables pour répondre au problème
  2. Identifier les variables qui permettront de nous aider à répondre à ce problème

Jetons un oeil à la préparation de données à présent 😉