[Jour 5 comme Data Scientist] Bonus

Hello, merci d’avoir suivi cette série d’articles ! 🙂 J’espère que tu auras appris des choses. N’hésite pas à me faire un retour sur Linkedin par exemple.

Pour rappel, voilà l’ensemble des articles :

  1. [Data Science Simulator 2/5] Identification de la solution
  2. [Data Science Simulator 3/5] Préparation des données
  3. [Data Science Simulator 4/5] Exploration
  4. [Data Science Simulator 5/5] Visualisation

En guise de bonus, voilà quelques enseignements que j’ai tiré de mes missions :

  • La Data Science, c’est pas de la science à proprement parler. Il n’y a pas de process qu’on applique. On essaie des choses, en vain souvent, on se trompe, on corrige, on ajuste, on recommence …
  • Il ne faut pas (toujours) beaucoup de données pour faire de la Data Science. C’est le cas pour du machine learning en revanche pour d’autres modèles statistiques ce n’est pas toujours utile
  • Il ne faut pas (toujours) croire les données. À cause de biais, on a tendance à mal interpréter les résultats. Par exemple, on se croit compétent, on ne remet pas en question notre compréhension d’un outil et on croit à tort qu’il nous dit quelque chose
  • Ne pas négliger la récupération et le nettoyage de données. Cela peut prendre la moitié du temps si ce n’est plus !
  • Penser à comment correctement communiquer les résultats. Sinon ça n’a pas d’importance d’avoir un truc fiable
  • Vouloir optimiser un grand nombre de variables à la fois ne fonctionne pas. Focus sur une seule variable et chercher des causalités et non des corrélations
  • Si vous analysez des données de mauvaise qualité, votre analyse sera de même. La qualité des données à l’entrée influence toujours la qualité des résultats
  • Pour la représentation graphique : choisissez la bonne couleur, faites des graphes interactifs uniquement si vraiment nécessaire, choisir le bon type de graphe, bien garder à l’esprit l’objectif et l’audience