[Jour 4 comme Data Scientist] Exploration

Hello !
En avant la musique, après avoir préparé les données, c’est parti pour l’exploration de données.

Avant d’explorer visuellement, on peut commencer par faire quelques stats descriptives comme la moyenne/médiane, quantiles, quartile, variance, l’écart-type, etc. Il existe aussi d’autres méthodes comme le rééchantillonnage (jackknife, bootstrap …).

Fais un tableau avec ces résultats ou affichez-les (dans un box plot, histogramme, etc). La visualisation est puissante ! Cela permet de constituer une idée très vague, un aperçu, une opinion, une intuition pour la suite.

Dans ma mission j’ai un tableau avec le type de contrat, la personne, son salaire brut moyen, son salaire le plus bas, son salaire le plus haut. Tout simplement.

Teste d’autres graphiques pour chercher à identifier des anomalies, des choses inattendues ou potentiellement intéressantes. Avec une variable pour commencer puis plusieurs. À quelle période le salaire le plus bas est-il identifié ? Est-ce qu’il y a un moment dans l’année où le salaire négocié est plus bas ? Qu’es-ce qui va influencer la négociation du salaire ? Voilà le genre de questions que tu peux te poser à ce niveau.
Tu dois être en mesure d’identifier les distributions, les écarts et les extrêmes.

Les graphiques à barres sont plutôt étudiés pour les catégories. Ils sont faciles à lire, surtout avec des valeurs en ordre décroissant. Et on peut les grouper pour voir les associations entre les variables. Autrement dit, les différences entre les groupes.

Les boîtes à moustache sont parfaites pour les variables quantitatives, c’est-à-dire mesurées. Elles indiquent les valeurs de quartile, médiane, min/max et les valeurs déconnantes. C’est un de leurs intérêts majeurs. On peut aussi les grouper, et afficher plusieurs variables à la fois, tant qu’elles relèvent d’échelles similaires.

Les histogrammes sont, eux aussi, utilisés pour les variables quantitatives. Ils montrent la forme de la distribution. L’avantage est qu’il est possible de les superposer afin de la comparer aux autres formes possibles.

Lorsque tu passes en revue ces graphiques, pose-toi les questions suivantes : As-tu ce qu’il faut pour atteindre le but visé ? Y a-t-il une quelconque anomalie ? Existe-t-il des exceptions ? As-tu relevé des erreurs ?
Les graphiques exploratoires aident à répondre à ces questions et à poser le cadre d’une analyse encore plus pertinente. Quelles conclusions tirer de tout cela ?

L’exploration est la première phase essentielle de toute bonne analyse.

Très court pour une partie aussi importante mais je développe davantage sur mon blog. Sinon le taux d’ouverture des mails diminue drastiquement 😅

Je termine par une petite suggestion : Think Stats de Allen B.Downey vraiment vraiment très intéressant pour commencer. Bien qu’il ne soit pas très facile à lire non plus !

Maintenant parlons visualisation !