La division Science des données et méthodes statistiques (DSSM) compte deux sections: Méthodes statistiques (METH) — dirigée par Jean-Pierre Renfer — et Science des données (DS) — dirigée depuis sa création au printemps 2021 par Christine Choirat.
Les deux sections occupent-elles des tâches très différentes? Comment se complètent-elles?
Lors d’un dialogue spontané, Jean-Pierre Renfer et Christine Choirat ont décrit les activités propres à leurs sections respectives, échangé des considérations, et mis en lumière leur complémentarité. Regards croisés.
Commençons par la section METH qui est plus ancienne: en quoi consistent vos activités?
(Jean-Pierre Renfer [JPR]) La mission de la section METH consiste à apporter appui et assistance en méthodes statistiques et plus généralement en science statistique des données dans le cadre de la statistique publique.
Concrètement, cette mission se déroule sous différents aspects dont le principal concerne les méthodes développées et implémentées dans la production statistique de l’OFS. Notamment dans les différentes étapes d’une enquête allant du plan d’échantillonnage au tirage des échantillons avant le traitement des données manquantes et/ou aberrantes pour aboutir à l’estimation des résultats et de leur précision!
Je citerai comme exemples récents l’enquête sur la population active (ESPA) ou encore l’enquête sur la structure des salaires (ESS): les innovations en termes d’utilisation de données auxiliaires en ont amélioré la qualité. Elles sont décrites dans les rapports de méthodes publiées par l’OFS.
Les autres activités se concentrent dans le domaine de la recherche et du développement avec les milieux académiques ainsi que les cours de formation aussi bien à l’interne qu’au niveau européen ou universitaire. METH apporte aussi son expertise à d’autres offices comme celui de l’énergie ou encore celui de la santé publique (dernièrement dans le contexte du COVID-19: avis d’experts sur l’échantillonnage du séquençage des variants).
La section METH est avant tout le garant scientifique de la qualité des résultats selon le Code de bonnes pratiques de la statistique européenne (CoP) et selon la Charte de la statistique publique de la Suisse, élaborée par le Conseil d’éthique dont j’ai l’honneur d’assurer la vice-présidence.
Enfin, METH accompagne depuis leur début les différents projets pilotes dans le cadre de la stratégie d’innovation sur les données de l’OFS.
En comparaison, en quoi consistent celles de la section DS?
(Christine Choirat [CHCH]) Si l’on définit génériquement la science des données (SD) comme «l’utilisation de l’information pour prendre des décisions», l’approche de la SD peut s’articuler en trois dimensions: longueur, largeur et hauteur.
En termes de longueur d’abord, les travaux de la section DS s’étalent davantage sur tout le cycle de vie de la donnée (sa création, son traitement, son analyse, sa conservation, sa mise à disposition, sa réutilisation et/ou sa suppression) que ceux de METH.
En termes de largueur — à savoir la partie analyse de données — les collaborateurs et collaboratrices chez DS sont plutôt des utilisateurs avancés de méthodes statistiques qui sont développées dans la littérature et par METH, justement.
En termes de hauteur, enfin, la section DS gère des volumes de données extrêmement importants ou des données en temps réel. C’est ici que la complémentarité avec METH atteint son paroxysme: quelle approche méthodologique permettra de traiter un tel volume de données ou d’aller plus vite dans leur analyse?
Quelle part occupent vos collaborations avec l’extérieur?
(JPR) Alors qu’environ 90% du travail de METH se fait à l’intérieur de l’office (avec les sections et divisions), il est prévu, à terme, que la section DS travaille pour toute la Confédération, c’est à dire majoritairement dans le cadre de partenariats avec l’extérieur.
Par exemple, en fournissant un soutien à l’Office fédéral des routes OFROU dans le traitement du volume effarant de ses capteurs routiers qui fonctionnent 24h/24, 7 j/7. Ou alors, pour revenir sur un cas récent, en déployant des techniques basées sur l’intelligence artificielle pour détecter des fraudes sur le certificat COVID développé par l’OFSP. Le soutien de DS apporté à ces offices ne concerne pas leur production de statistiques officielles (celle de l’OFROU est minime), mais l’apport d’une expertise en matière de science des données.
(CHCH) En effet, la section DS n’a pas pour objectif principal l’aide directe et systématique à la production statistique (contrairement à METH), mais l’amélioration des processus qui utilisent des données dans un terme assez générique.
Je citerai l’exemple du StatBot, un projet entre différents cantons et l’OFS, qui consiste à donner au grand public la possibilité d’interroger la richesse de l’open government data en utilisant des phrases en langage naturel. Ici, la donnée n’est plus au sens quantitatif habituel, mais elle devient du texte. Dans ce cas, les outils de data science sont appropriés.
Par contre, dès que surgissent des problèmes d’ordre méthodologique, nous nous tournons vers METH pour leurs compétences spécifiques. Nous ne sommes pas en confrontation, mais en complémentarité.
Quels sont vos liens avec le monde académique?
(JPR) Une convention nous lie depuis une vingtaine d’années à l’Université de Neuchâtel (UniNe), précisément l’Institut de statistique de la faculté des sciences dirigé par le professeur Yves Tillé. À ce jour, le professeur Tillé compte onze thèses de doctorat publiées, et la plupart ont trouvé leur place dans la production statistique de l’OFS. Cette collaboration avec l’UniNe s’élargit désormais à d’autres facultés.
L’équipe de METH donne également des cours en méthodes statistiques dans le cadre du master en statistique de l’Université de Genève UNIGE, et, sur le plan européen, des cours sur l’échantillonnage à des spécialistes au sein d’autres offices statistiques nationaux. La formation spécialisée à l’OFS s’adresse quant à elle aux collaboratrices et collaborateurs de l’office et de l’administration fédérale.
Il arrive aussi que METH accompagne des projets menés par le monde académique sur mandat des sections de production.
(CHCH) Les deux conventions qui lient la section DS au monde académique sont différentes. Le focus n’est pas sur la recherche, mais sur les applications de la science des données.
La première, avec le Swiss Data Science Center (entité commune de l’EPFL et de l’ETH, qui compte quelque 80 personnes), englobe du support sur des projets de science des données et une plateforme collaborative, Renku.
La seconde, avec l’Extension School de l’EPFL, fournit des cours et un programme d’études.
Ce partenariat avec les écoles polytechniques fédérales a pris forme au sein du Centre de compétences en science des données de l’OFS le 25 mars 2021 (article dans Infos 2/2021).
Peut-être qu’à l’avenir la section DS donnera des cours avancés en programmation Python ou en analyse en temps réel, des sujets «niches» qui lui sont propres.
Les profils des collaborateurs et collaboratrices sont-ils différents dans les deux sections?
(JPR) Les collègues de METH (13,9 équivalents plein temps) sont tous mathématiciens et mathématiciennes de formation avec une spécialisation dans la science statistique. Deux tiers portent le titre de docteur dans ce domaine.
(CHCH) Dans la section DS qui comptera neuf collaborateurs et collaboratrices dès janvier, on trouve deux profils: soit des statisticiens et statisticiennes qui ont acquis des expériences dans la science des données appliquée, soit des informaticiens et informaticiennes spécialisés dans la partie data engineering.
Les progrès de l’intelligence artificielle font la une des journaux; comment considérez-vous votre manière de travailler dans ce contexte d’innovation?
(JPR) Il faut raison garder. L’IA n’est de loin pas nouvelle. Chez METH, nous élaborons des algorithmes dans des projets d’innovation depuis des années. Imaginer que demain la machine fera tout, toute seule, est erroné: au final, ce sont toujours des algorithmes programmés par des humains.
Cela dit, l’IA a connu des succès fulgurants en matière de vitesse de calcul et elle nous apporte une aide précieuse, par exemple dans le domaine de la reconnaissance d’images aériennes (cf. le projet ADELE). Nous profitons des avancées technologiques avec l’AI, le machine learning, le deep learning, pour automatiser une partie de nos travaux. Et les ressources humaines qui sont libérées par cette automatisation peuvent être allouées à d’autres tâches que la machine ne peut pas exécuter, notamment l’amélioration de la qualité, la programmation, le contrôle et le monitoring de la machine ainsi que de la qualité de ses résultats!
(CHCH) Ce sont des réflexions de l’«augmented statistician». Les outils de machine learning et globalement de data science aident à une prise de décision, mais les fondamentaux ne changent pas. On va plus vite, on a plus de précision, des formats différents, de nouvelles sources de données, mais à la fin, la vraie question est celle de la décision dans le cadre de DS et de la qualité de la production dans le cadre de METH.
(JPR) Je pense qu’il est important que l’administration fédérale vive avec son temps, et que l’OFS doit jouer un rôle de pionnier. On a constaté lors de la journée Portes ouvertes du 28 août combien le public est friand d’explications pour comprendre comment la machine stocke un nombre de pixels lui permettant de reproduire ce que l’œil humain traduit par un chiffre.
(CHCH) Oui, à mon avis le public va s’approprier les techniques de l’IA et j’espère qu’on contribuera à son éducation — tant au sein de l’administration fédérale que du côté du grand public. Aujourd’hui, il est tout à fait normal de savoir utiliser un traitement de texte ou un tableur; ce n’était pas le cas il y a trente, quarante ans. J’imagine que demain, il sera naturel de savoir programmer.