Les tâches d’un SIS-Datasteward

Article rédigé en collaboration avec Fabian Santi, section IUA

Les métadonnées permettent de mieux comprendre un résultat statistique afin de faciliter son interprétation ou sa réutilisation. Les métadonnées sont de multiples natures : définitions, nomenclatures, caractéristiques de la source utilisée pour produire le résultat, etc. Le SIS-Portal structure et centralise ces informations pour les rendre accessibles et assurer leur cohérence.

Rôle du datasteward

Dans le cadre de la gestion nationale des données (NaDB), un nouveau métier a vu le jour à l’OFS: celui de SIS-Datasteward. Actuellement deux personnes occupent cette nouvelle fonction au sein du service Innovation et architecture d’entreprise (IUA): Fabrice Gouzi et Fabian Santi.

Dans sa mission, le SIS-Datasteward doit favoriser la réutilisation des données existantes (variable, code liste, etc.). Il intervient sur l’harmonisation des variables afin de faciliter leur réutilisation et limiter les doublons. Il participe ainsi à la mise en œuvre du principe «once-only». Le principe «once-only» est au cœur de la stratégie numérique de la Confédération. Il vise à ne demander qu’une seule fois certaines indications aux individus et aux entreprises.

Dans le cadre de la gestion nationale des données (programme NaDB), de gros travaux d’harmonisation sont nécessaires afin de garantir l’interopérabilité des données, en d’autres termes leur capacité à fonctionner entre elles.

C’est là qu’intervient le rôle du SIS-Data steward. Il consiste à :
– définir le processus d’harmonisation des données à l’OFS,
– accompagner les sections métier dans le processus d’harmonisation des données,
– assurer la qualité des métadonnées mises à disposition,
– élargir le registre des métadonnées au niveau national.

Le SIS-Datasteward a une vue d’ensemble des métadonnées de l’OFS. Il coordonne les discussions qui mènent à l’établissement d’un propriétaire (d’une variable, code liste, etc.). Le propriétaire se situe au sein des sections métier qui sont les experts en la matière. Le SIS-Datasteward agit en tant que médiateur, il accompagne le processus d’harmonisation en travaillant étroitement avec le propriétaire de la donnée. Il favorise également la mise en place d’outils facilitant la réutilisation des métadonnées.

Prenons un exemple : La variable démographique «état civil» est largement utilisée dans différentes statistiques. Dans le cadre de l’harmonisation, il est souhaité de définir un propriétaire de cette variable. Le propriétaire sera responsable de gérer et de faire évoluer la variable dans le registre de métadonnées. Il sera la personne de référence en cas de question métier. Les discussions menées avec les différentes sections ont ainsi permis de définir un propriétaire au sein de la section DEM.

Les outils développés dans le cadre du projet NaDB visent à permettre la gestion des métadonnées, entre autres, en offrant une vue des activités statistiques utilisatrices des variables définies.

Exemple de la réutilisation de la variable définie «état civil» dans différentes activités statistiques.

Le SIS-Datasteward met en place un processus d’harmonisation des données. Les sections métiers figurent au centre des travaux.

Fabrice Gouzi, SIS-Datasteward

A terme, la mise en œuvre de ces travaux vise à renforcer la réutilisation des données et la collaboration. Elle augmente la transparence de la statistique en rendant visible les dépendances et les définitions communes.

Début des travaux et prochaines étapes

Au début des travaux, des activités statistiques pilotes ont été choisies pour être intégrées dans un prototype. Il est rapidement devenu évident que certaines variables sont fondamentales et doivent être priorisées car elles sont largement réutilisées dans différents statistiques. Il s’agit par exemple des variables sexe, âge, état civil, commune et nationalité, ainsi que les nomenclatures standard comme l’ISCO et la NOGA.

Les travaux réalisés au travers du prototype ont permis d’expérimenter le processus d’harmonisation avec les sections métiers et de poser les premières fondations du registre des métadonnées.

Le programme NaDB nécessite évidemment des contacts au-delà de l’OFS, en particulier avec d’autres offices fédéraux producteurs de statistiques. Les SIS-Datastewards ont adopté une démarche empirique et agile. Les défis sont de taille, mais ils sont motivés par les aspects innovants de leurs tâches et leurs implications tant à l’OFS qu’au niveau national.

Définitions

NaDB : Nationale Datenbewirtschaftung = Gestion nationale des données
Programme national qui vise à simplifier la gestion des données des pouvoirs publics en se basant sur le principe «once-only». L’OFS est responsable de son implémentation (par mandat du Conseil fédéral du 27 septembre 2019).

Interopérabilité
L’interopérabilité est la capacité de différents systèmes, techniques ou organisations à travailler ensemble. Cela nécessite généralement le respect de normes communes.

Registre de métadonnées
Un registre de métadonnées est une base de données de métadonnées. Il permet de décrire des données ce qui est fondamental pour leur conception, leur harmonisation, leur normalisation, leur utilisation, leur réutilisation ainsi que leur échange.

Métadonnée
Les métadonnées décrivent la sémantique (signification, contenu, qualité) et la syntaxe (forme, structure) de tous les attributs individuels (variables) des données utilisées. Afin de garantir une collecte et une utilisation des données normalisées et de qualité, des nomenclatures et des répertoires sont souvent utilisés, tels que le répertoire des communes ou la nomenclature des professions (CH-ISCO) ou des activités économiques (NOGA).

Variable définie
Afin d’assurer l’harmonisation des données, des «variables définies» sont créées. Une variable définie sert de référence pour la définition d’un champ ainsi que pour les valeurs acceptées dans ce champ. Elles ont un propriétaire qui est responsable de leur maintenance.

Variable utilisée
Une variable utilisée peut être considérée comme une instance d’une variable définie dans un ensemble de données. Une variable utilisée se base sur une variable définie et reprend beaucoup de ses propriétés (valeurs acceptées, définition) mais permet certaines modifications, par exemple le nom affiché.

Articles liés