Python n’est pas le seul langage utilisé en data science. Et Python n’est pas le meilleur langage. Ni R, ni Julia, d’ailleurs.

Je les vois davantage comme complémentaires. R est par exemple très intéressant pour de l’analyse de donnée et de la statistique pure tandis que Python est facile à être déployé et mis en production.

En général il est plus simple de faire des tâches non statistiques en Python. Par exemple, scraper des données avec des librairie comme beautifulSoup et request. Ou tout ce qui est interaction avec la base de données

En revanche R est meilleur pour les statistiques de façon générale. Son eco système est plus large.

Bref

Tout ça pour dire qu’il faut être prudent.

Python n’est pas le seul langage et certainement pas le meilleur. En revanche, il est plus facile à prendre en main donc probablement un bon choix comme premier langage.

Il existe 2, 3 langages à ce jours et à ma connaissance pour l’analyse de données et chacun a ses spécificités. Ne surtout pas se fermer sur une langage en revanche il est conseillé d’un maîtriser au moins un.

Oui.

Des notions comme join, group by, window functions, etc. doivent être familières car on les retrouve avec d'autres outils comme pandas.

En machine learning notamment, meilleur sera ton niveau, mieux ce sera. Cela permet d'avoir un meilleur compréhension des models, distribution, etc.

  • Divers : https://github.com/awesomedata/awesome-public-datasets
  • Forum : https://www.reddit.com/r/datasets/
  • Journal fivethirtyeight : https://data.fivethirtyeight.com/
  • De Buzz Feed : https://github.com/BuzzFeedNews/everything
  • De Google : https://cloud.google.com/bigquery/public-data/
  • De Wiki : https://en.wikipedia.org/wiki/Wikipedia:Database_download
  • https://data.world/
  • https://datasetsearch.research.google.com/