[Jour 5 comme Data Scientist] Visualisation

Hello !
Les graphes … voilà un extrait d’un article que j’avais écrit à ce sujet.

Quel graphe pour afficher des données ?

On tend vers un monde où les données deviennent le coeur névralgique de tout business -ou presque. En témoigne le monde qui nous entoure, tout est fait de façon à raisonner par des données. Sans leur stockage et leur exploitation il serait difficile pour Netflix ou Youtube de nous proposer quoi regarder, Linkedin notre futur job, Maps notre route, Google Traduction de traduire, etc.
Le problème étant que des données brutes sont difficilement interprétables et encore moins exploitables. C’est pourquoi, il existe pléthore de librairies de graphe pour afficher des données. Le plus rigolo est qu’il en existe tellement qu’on a tendance à négliger le choix de la librairie. Pire :

  • lorsqu’on cherche à représenter des données, on cherche souvent des graphes avec pléthores d’options inutiles
  • on a du mal à concevoir l’idée de représenter des données dans une autre représentation

À quoi sert un graphe ?

Un graphe représente des données numérique et de l’information afin d’analyser les relations entre des données. Autrement dit, communiquer de l’information, quelle que soit la finalité, en vue d’identifier l’idée principale/le message/la tendance. Le gain de temps grâce aux graphes est grandissimo, comme dirait l’autre.

Cela dit, un graphe ne se suffit pas à lui même. De par, le choix arbitraires des axes, seules quelques informations sont présentées. Ce manque d’exhaustivité peut contraindre à une mauvaise interprétation des données. Il doit de ce fait être complété par du texte explicatif. Il arrive bien souvent qu’on ait pas réellement besoin d’un graphe. Un texte peut se suffire. Une autre tendance est d’utiliser des graphes élégants et/ou complexes avec une multitude de fonctionnalités mais inadaptés au besoin. Ne jamais perdre de vue l’objectif d’un graphe, à savoir faire passer le message de manière simple et efficace. Encore fautdrait-il définir la simplicité et l’efficacité …

Soit, raisonnons plutôt en données.

Grosso modo, il peut être judicieux d’utiliser un Scatteplot si on cherche à montrer un lien entre plusieurs variables.
Si on cherche à montrer un rang, on préférera un Ordered Bar/Column, Bump (pratique pour montrer le rang lorsqu’il y a plusieurs dates), Ordered Proportional Symbol (lorsqu’il y a de grosses variation, quand le détail n’est pas important), Slope (parfait pour montrer comment le rang a évoluée dans le temps).
Si on cherche à montrer l’évolution : Line, Column, Column + Line Timeline, Slope, Area chart, Priestley Timeline (quand la date est un critère clé), Circle Timeline (pour montrer des variables discrète). En ce qui concerne un changement : Time Series Plot.
Si on cherche à montrer la place occupée d’un sous ensemble dans son ensemble : Pie (précision par importante), Treemap, Stacked column/bar, Donut (permet d’inclure plus d’informations). Si on cherche à montrer des divergences : Histogram, Dot Plot, Cumulative Curve.

D’une manière générale il est important d’avoir :

  • un titre du graphe clair, explicite et non ambigu.
  • des unités de mesure.
  • une légende brève (l’échelle, le type de ligne, la couleur, etc.).
  • un message à passer, uniquement un.
  • peu de connaissances nécessaire à sa compréhension.

En conclusion, bien que certaines manières de représenter les données sont plus pertinentes que d’autres, il n’existe pas une manière unique d’afficher celles-ci. Tester et voir si la personne comprend le message que vous essayez de faire passer est encore la meilleure manière de choisir. Bien cerner ce dont la personne a besoin de savoir en lisant le graphe est tout aussi important que de choisir la forme.

Par ici pour un petit bonus ! 🙂