Le catalogue des données de l'Insee

Méthodes
Dernière mise à jour le : 18/06/2024

Présentation du catalogue

Le catalogue de données permet de mettre à disposition un ensemble de jeux de données statistiques. Un jeu de données statistiques est structuré sous forme d’un cube multidimensionnel dont les valeurs correspondent à une donnée agrégée selon le croisement de plusieurs axes d’analyse. Le jeu de données présente les données sous une forme brute de manière à pouvoir les exploiter par des logiciels de type tableur, des programmes ou des applications. Les jeux de données sont mis à disposition sous les termes de la licence « Ouvrir dans un nouvel ongletLicence Ouverte / Open License ».

Le catalogue de données présente ces jeux de données et offre des fonctions de recherche et de consultation variées. Vous pouvez rechercher un jeu de données en filtrant selon divers critères comme le thème, la source (par exemple l’enquête qui a produit la donnée), le niveau géographique (commune, département, région...) ou le millésime des données. Vous pouvez également trouver les jeux de données en saisissant des mots clé.

Le catalogue affiche un bref descriptif des jeux de données comprenant son titre, un sous-titre, la date de mise à jour des données, la période temporelle couverte, des mots-clés et un court texte descriptif.

En sélectionnant un jeu de données, vous avez accès à sa description complète qui comprend trois onglets :

  • le premier détaille les informations sur les données, en particulier la fréquence des données, la fréquence de publication et un lien vers la page d’insee.fr de présentation de la source,
  • un deuxième onglet affiche les variables avec une définition courte, ainsi que les modalités présentes dans les données avec la possibilité de télécharger la liste complète des modalités,
  • le troisième propose divers l’accès aux données :

     • directement par un explorateur de données,
     • dans un fichier csv qu’on peut télécharger, ou
     • via des tableaux prédéfinis et mis en forme, qui sont ceux disponibles dans les produits de données d’insee.fr.

L'explorateur de données

Il est intéressant d’explorer dynamiquement les données et de construire ses propres extractions de tableaux. L’explorateur de données associé au catalogue est un service de navigation dans les données qui permet de créer ce genre de tableaux personnalisés. On peut y faire ses propres sélections de modalités à partir du cube de données complet. Par exemple, on peut filtrer les données d’une source relative sur une commune particulière.

En cliquant sur le bouton d’accès à l’explorateur de données, on visualise quelques observations du jeu de données afin de découvrir son contenu, mais l’ensemble du jeu de données est consultable. Par cet aperçu, il est possible de déplacer les colonnes pour une lecture personnalisée. Les données sont présentées avec le libellé des variables et des modalités, mais il est possible d’afficher les codes ou les deux. Par ailleurs, on peut faire des sélections de modalités dans les colonnes, ce qui permet de filtrer les données et de réduire le jeu de données à celles qui répondent à vos besoins.

Le téléchargement de données

On peut ensuite télécharger uniquement les données de la sélection, avec plusieurs options :

  • le téléchargement au format csv (point virgule comme séparateur de champs) ou tsv (tabulation comme séparateur),
  • le téléchargement des codes des variables et modalités, de leur libellé ou des deux (sur deux champs séparément),
  • la possibilité d’avoir la virgule ou le point comme indicateur de décimale,
  • la possibilité de présenter dans le fichier téléchargé les périodes en colonne (dans ce cas seront transmises en plus des variables seules les informations sur la valeur, comme l’unité de mesure ou le statut de l’observation, qui sont communes à l’ensemble des mesures.

Quelques précisions sur le téléchargement des données dans l’explorateur :

  • Le résultat du filtre ne peut pas dépasser 10 000 lignes. Sinon, il vous faudra filtrer à nouveau pour réduire le résultat et pouvoir télécharger les données.
  • Si la valeur d'une ligne n’est pas renseignée, veuillez consulter les colonnes OBS_STATUS (statut de l'observation) et CONF_STATUS (statut de confidentialité) qui expliquent pourquoi la valeur est absente (par exemple parce qu'elle est couverte par le secret statistique, ou bien non collectée).
  • Si vous êtes sur un jeu de données communales volumineux (typiquement plus d'un million d'observations), il est conseillé de filtrer d'abord sur votre périmètre géographique et ensuite sur les autres critères pour réduire le temps de retour du résultat.