C’est quoi la statistique en Data Science ?

On nous dit que mesurer c’est progresser.

Mesurer quoi ?

Trouver les bons indicateurs (KPI) à surveiller n’est pas une mince affaire. Pire on peut vite tomber dans le piège de surveiller beaucoup d’indicateurs. Beurk ! C’est un piège parce qu’à tous surveiller, on obtiendra à coup sûr des résultats intéressants. Or ils peuvent être l’arbre qui cache la forêt.

Pour ce faire, il est nécessaire de prioriser les indicateurs. Par exemple, mon poto qui a un e-commerce surveille la taux de conversion ou le panier moyen (je ne sais pas en réalité).

L’idée de ce post est de brièvement présenter les indicateurs et modèles statistiques à utiliser dans le cadre de l’analyse de données. Ainsi que les pièges à éviter dans l’interprétation des résultats.

Qu’est-ce que la statistique en data science ?

Grosso modo, la statistique, la collecte de données, leur analyse, leur traitement, leur interprétation et leur présentation. C’est-à-dire que ça va permettre concrètement d’analyser les décisions en entreprise, par exemple. Afin de prendre des décisions avec rigueur. Sans cela, des conflits basés sur des arguments infondés et subjectifs émergent.

La statistique permet d’apporter de vérifier et reproduire ce qui était du ressort de l’intuition. Or l’intuition humaine … c’est pas toujours la meilleure des choses sur quoi baser ses décisions. L’intérêt étant non pas de montrer que quelque chose est vraie parce auquel cas on arriverait à se convaincre que c’est vrai. En retournant la problème, en allant chercher d’autres données, etc. On cherche à rejeter l’hypothèse nulle, c’est-à-dire hypothèses selon salon il n’y a pas de corrélation entre les variables. Autrement dit qu’il n’y a pas de relation de cause à effet. De ce fait, dans la présentation des résultats on reste méfiant. D’après ces données et dans ce contexte, l’expérience a tend à montrer qu’il y a une relation entre … et …

Il s’agit d’être vigilant car il existe des biais qui risquerait de fausser le résultat, même sans en avoir conscience. Par exemple, le data dredging est une technique qui « consiste à ne publier que les compositions d’échantillon et les périodes d’observation favorables à l’hypothèse testée » (Wikipedia). On peut très bien imaginer recevoir des pressions inconscientes en entreprises qui nous pousseraient à vouloir obtenir tel résultat. Ou tout simplement mal interprété les résultats par manque d’expérience.

Il existe des dizaines de biais cognitifs : de disponibilité (on accorde plus d’importance à ce qu’on a ou sait), l’ancrage (il est difficile de se séparer d’une première impression. Plus elle est précise, plus elle est puissante), l’effet d’amorçage (notre cerveau fait parfois des associations inconsciente), les coûts irrécupérables (on a du mal à ignorer les dépenses passées. Alors que quoiqu’il arrive c’est dépensé et irrécupérable), de confirmation (tendance à ignorer ce qui va à l’encontre de nos idées), d’autorité, le paradoxe de Simpson, etc.

Quelles sont les types de variable ?

A été évoqué la relation entre des variables.

Une variable est une notion très importante. Il s’agit ni plus ni moins d’une information dont on mesure/observe la valeur. Comme une objet pour stocker la valeur. Il ne s’agit pas nécessairement d’un chiffre, la couleur des yeux peut être une variable. Puisque deux informations peuvent être de nature différentes mais d’apparence semblables (l’âge d’un individu et le nombre de voiture/français par exemple). Grosso modo il existe faire plusieurs types de variables :

  1. Quantitative
    En général il s’agit des variables qui serviront la mathématique. On distingue les variables discrètes et continues. Les variables continues n’ont pas d’intervalle borné, en d’autres termes il y a une infinité de possibilité de valeurs. Là où pour les variables discrètes nous avons un choix restreint de valeurs.
    Par exemple, la taille des écrans de pc est de nature discrète. Tandis que le nombre de cheveux est continue. Ce n’est pas standardisé, c’est différent pour chacun. Le salaire des joueurs de football est continue également parce que Messi peut être payé avec un chiffre à virgules.
  2. Qualitative
    Elles ne s’expriment non pas par un nombre mais une qualité. Par qualité je veux dire un mot. Par exemple, vert pour la couleurs des yeux. On ne s’en sert pas mathématiquement mais on peut dénombrer le nombre d’individus aux yeux verts. Il peut s’agir de variable nominales (on cherchera à les catégoriser), ordinales (on pourra les classer) ou binaires.

Pour résumer :

Récapitulatif des principaux types de variable

Quelles sont les types de statistiques ?

On retrouve dans les statistiques en Data Science une multitude de domaines : la statistique descriptive/exploratoire, l’inférence statistique, l’analyse de données, l’apprentissage statistique (le fameux machine learning), etc.

En statistique exploratoire, par exemple, on utilise des indicateurs comme la moyenne (arithmétique, géométrique..), le minimum, le maximum, la médiane (plus robuste que la moyenne), l’écart interquartile, les centiles, le ratio, etc.