Une petite histoire de l’ouverture des données à écouter

Ce blog reprend du service après un séjour cet hiver au labCMO (Communication Médiatisée par Ordinateur) à l’Université du Québec à Montréal où j’ai poursuivi mes recherches sur l’ouverture des données publiques.

(Si le lecteur disparait, cliquez ici pour écouter le son de l’intervention)

Alors que je m’apprête à présenter au séminaire d’Antonio Casilli à l’EHESS une histoire des données avec Simon Chignard, je vous partage le son et la présentation de la conférence-débat que j’ai donné à Montréal au LabCMO sur l’histoire des données (merci à eux d’avoir diffusé l’enregistrement). Ce retour sur l’histoire du mouvement open data vise à comprendre comment l’ouverture des données est parvenue à devenir une priorité pour les gouvernements locaux , nationaux et internationaux ainsi qu’une exigence fondamentale de transparence et d’innovation pour les citoyens.J’y présente les acteurs, les temps forts, les moyens d’action qui ont conduit à l’institutionnalisation de l’open data et le contexte sociotechnique de cette émergence progressive. Déconstruire, par l’histoire, une définition trop contemporaine et précise de l’open data nous permet de voir comment une certaine forme d’open data façonné par des écosystèmes d’acteurs est parvenue à s’imposer dans le débat public.

Ne souhaitant pas être exhaustif, j’ai choisi de ne pas avoir une approche chronologique pour garder une vue d’ensemble de l’émergence progressive de l’ouverture des données .Ce qui m’intéresse ici c’est de retracer comment les pratiques que j’observe ont été influencés par une pluralité d’acteurs (humains et non humains) et ont stabilisé l’objet que j’étudie. Aussi je souhaite ici replacer l’open data dans la pluralité des mondes sociaux qui m’avait frappé en assistant aux premiers événements (ePSI à Rennes, OKCon à Berlin) sur l’open data en 2010.

Ce séminaire se déroule en 4 parties :
1. Les racines
les évolutions intellectuelles et techniques qui ont amené l’émergence d’une demande sociale d’ouverture des données et plus largement de l’information produite par les administrations
2. Les injonctions
ces évolutions ont conduit à des injonctions, des acteurs qui à des moments précis ont exigé l’ouverture des données publiques.
3. Les Infrastructures et standards
L’ouverture n’était pas la seule exigence de ces injonctions,  il s’agissait de faciliter la réutilisation des données en orientant techniquement les données et les portails vers des standards qui facilitaient certains usages.
4. Régulation
Le régulateur a progressivement imposé l’ouverture des données dans le processus normal des administrations. Il s’agit aussi de montrer que dans l’injonction s’est aussi bien souvent située dans l’Etat et les administrations.

"Raw data is an Oxymoron" : les données brutes sont-elles une fiction ?

La recension qui suit sera publiée dans le prochain numéro de la revue Réseaux qui portera sur les bases de données.

Lisa GITELMAN (dir.), Raw Data is An Oxymoron, Cambridge, MIT Press, 2013, 182p. 

Màj : je publie moi-aussi mes "données brutes" (en tout cas primaires au sens de la Sunlight Foundation) avec mes notes sur l’ouvrage (format .mm lisible avec FreeMind)  

Capture d’écran 2013-04-30 à 11.21.29

Lors d’une conférence TED en 2008, le « père du web » Tim Berners-Lee demandait à la salle de s’exclamer « nous voulons des données brutes. » Depuis, cette revendication ne cesse de se propager sans qu’un accord ne se dessine sur la définition d’une donnée « brute ». Telle une photographie toujours cadrée et sélectionnée pour relayer un message, les données sont produites et « imaginées » selon des objectifs qui guident leur production et leur transformation, nous rappelle en introduction Lisa Gitelman, l’éditrice de cet ouvrage collectif d’étude des sciences.

Data in Lingua Britanica DictionaryL’ouvrage s’ouvre sur une réflexion sur les origines et la circulation du terme « donnée » (chapitre 1). Pour Daniel Rosenberg, « donnée » sert une fonction rhétorique : alors qu’un fait ou une preuve perdent leur qualité lorsqu’ils s’avèrent faux, une donnée reste une donnée même lorsqu’elle est contredite. En 1646, data entre dans l’Oxford English Dictionary dans sa forme plurielle après des apparitions en mathématiques et en théologie. A l’issue d’un codage manuel des occurrences du terme data dans une base de données sur les publications en anglais au 18e siècle, Rosenberg conclut que sa signification s’enrichit du sens « d’information disponible sous forme chiffrée ». Pour autant, les deux sens se mélangent encore aujourd’hui et font la force sémantique de ce terme.

Tout comme les données « brutes » sont souvent présumées objectives, la supposée universalité et intemporalité des mathématiques font l’objet du chapitre 2. Son auteur, Travis D.Williams, s’intéresse aux premiers problèmes mathématiques et à la lecture qui peut en être faite de nos jours. Il y questionne l’idée que les chiffres ne mentent jamais et que notre subjectivité n’affecte pas la lecture que nous pouvons avoir d’un problème mathématique qui date du 16e siècle : « ne redéfinissez pas nos mathématiques comme leurs mathématiques simplement parce que leurs détails ne sont pas pleinement lisibles selon nos conventions. » (p.48)

Les deux chapitres qui suivent s’attachent à reconstituer l’émergence de l’idée de données « brutes » au sein de divers environnements scientifiques. Dans « From Measuring Desire to Quantifying Expectations » (chapitre 3), Brine et Poovey reviennent sur les premiers travaux de l’économiste Irving Fisher. Pour eux, relire les débuts de l’analyse quantitative de l’économie doit nous rappeler que « les données économiques ne sont jamais brutes, au sens de non interprétées. » (p.61) Afin que Fisher parvienne à utiliser les données disponibles, il a dû avoir recours à une multitude d’opérations qu’on nomme de nos jours le nettoyage des données (data scrubbing). En fabriquant une donnée « nettoyée », l’économiste efface l’histoire de la donnée pour asseoir l’objectivité de son analyse.

Capture d’écran 2013-04-30 à 11.09.25Dans « Where Is That Moon, Anyway ? » (chapitre 4), Matthew Stanley déconstruit la présumée simplicité et objectivité de l’astronomie de positions. Alors qu’il semblerait que les paires d’angles seraient la forme la plus brute de données scientifiques,  l’article montre que les observations ne deviennent des données astronomiques qu’après une analyse littéraire, historique et psychologique de textes anciens. Pour disposer du coefficient de variation séculaire de la lune, les astronomes ont dû parcourir les chroniques antiques grecques, chinoises et assyriennes à la recherche de récits d’éclipses. Dans un bel exemple de data friction selon l’expression de Paul Edwards[1], des astronomes au 20e siècle ont réévalué le coefficient et les récits originaux des éclipses qui ont servi à son élaboration : « le texte n’a pu devenir une donnée qu’avec une connaissance précise de la grammaire latine. » (p.84)

Capture d’écran 2013-04-30 à 11.11.13La paire d’articles qui suit s’attèle à décrire une archéologie de la notion de bases de données. Dans « facts and FACTS": Abolitionists’s Database Innovations » (chapitre 5), Ellen Gruber Garvey revient sur l’histoire d’American Slavery As It Is: Testimony of a Thousand Witness, un ouvrage essentiel de la cause abolitionniste constitué en grande partie par les annonces de fuites d’esclaves publiées dans les journaux du sud des Etats-Unis. American Slavery As It Is publié en 1839 a recours à un index détaillé et à des catégories pour un accès rapide à l’information. Base de données, ses auteurs ont eux aussi nettoyé les annonces pour éviter qu’elles servent à capturer les fugitifs. L’article décrit le travail accompli pour enrichir les matériaux pour en constituer une base de données et non une « collection d’anecdotes. »

Le chapitre 6 s’intéresse à la matérialité de la production du savoir à travers les pratiques d’indexation du sociologue allemand des systèmes Niklas Luhmann. Ce dernier a passé sa vie à remplir des boites entières remplies de fiches synthétisant ses lectures et les idées. Par un jeu d’indexation et de mise en relation des cartes, Luhmann est parvenu à créer un « couplage génératif de l’homme et de la machine » (p.105). Dans ce système, chaque carte représente une unité d’information distincte, indexée et reliée, une datum au sens original du terme. Les cartes indexées formeraient une « réduction » nécessaire à la construction de la théorie de la complexité de Luhmann.

IMG_1094L’ouvrage se termine sur une perspective actuelle étudiant l’omniprésence de la collecte de données et la complexité de la maintenance des données scientifiques. Dans le chapitre 7, Rita Raley s’intéresse au concept de dataveillance conçu comme une pratique disciplinaire de contrôle, d’agrégation et de tri des données. La collecte systématisée et quasi invisible des traces rend possible des pratiques prédictives de conjecture et prescriptives d’incitation. Face à cette nouvelle ère de la surveillance, Raley affirme l’importance de la counterveillance, un ensemble de pratiques artistiques, politiques et technologiques qui répondent à la dataveillance. Ces dispositifs exploitent des vulnérabilités ou mettent en scène la capture de données pour mieux prendre conscience de son omniprésence.

Image : Baltimore Ecosystem Study

Le dernier chapitre « Data Bite Man: The Work of Sustaining a Long-Term Study » décrit les données comme des « créatures éphémères » (p .147) menacées par la disparition ou la dégradation sans intervention humaine. Ses auteurs suivent les pratiques scientifiques d’une équipe de biologistes à Baltimore qui réalise des relevés dans une rivière. Leur objectif est de constituer une base de données dite longitudinale qui permette la comparaison au fil des années. En décrivant étape par étape la chaine qui mène à la publication de la donnée, ils invitent à une lecture qui dépasse « la fiction de la commodité des données » (p.147) qui les résume à une matière première qu’on pourrait extraire sans les travailler. La « chorégraphie ontologique » (p.148) des chercheurs vise à préserver la capacité des données à décrire le même phénomène au fil des années dans une écologie changeante. Les métadonnées jouent un rôle essentiel dans la préservation de l’archive : sans elles, les flacons remplis d’eau de la rivière ne correspondent plus aux lignes des bases de données qui les quantifient. L’article se conclut sur une réflexion perplexe sur la notion ici étudiée : à aucun moment de son cycle de vie, une forme « brute » n’apparaît selon Ribes et Jackson.

La richesse des domaines étudiés fait assurément la valeur de cet ouvrage collectif et illustre la pertinence de l’étude des sciences pour comprendre les pratiques anciennes et maintenant répandues de production et de diffusion de données. Néanmoins, les chapitres 2 et 6 égarent quelque peu le lecteur en ne s’intéressant à la notion de données « brutes » qu’en marge de leur réflexion. L’étude des pratiques scientifiques nous rappelle aussi que la notion d’objectivité souvent associée aux données dites « brutes » doit être relativisée face à l’émergence d’un nouveau positivisme de la donnée prônant l’evidence-based decision making     .

Il ressort de Raw Data is An Oxymoron que la notion de données brutes reste empreinte d’un flou. Les auteurs peinent à distinguer une temporalité ou une forme qu’on pourrait qualifier de « brute » dans le cycle de vie des données. Pourtant, les acteurs qui produisent et diffusent des données ont recours à cette notion  et évoquent des pratiques de "rebrutification" ce qui témoigne de son utilité, un aspect négligé par l’idée même d’une fiction des données « brutes » en filigrane tout au long de l’ouvrage. La postface de Geoffrey Bowker se termine par une réflexion sur l’impact social de l’émergence des bases de données orientées objets à la structure évanescente à la place des structures figées dans un schéma qui caractérisent les bases de données relationnelles. Si comme Ribes et Jackson l’affirment, nous avons domestiqué les données autant qu’elles nous ont domestiquées, cette évolution technique ouvre des perspectives passionnantes pour l’étude des organisations.

[1] EDWARDS Paul, A Vast Machine : Computer Models, Climate Data, and the Politics of Global Warming, Cambridge, MIT Press, 2010

[Note de lecture] Fred Turner, Aux sources de l’Utopie Numérique

Dans Aux sources de l’Utopie Numérique, Fred Turner revisite l’histoire des origines intellectuelles et sociales d’Internet en suivant le parcours de Stewart Brand, un « entrepreneur réticulaire. » (p.41) L’ouvrage s’ouvre sur une interrogation : comment se fait-il que le mot révolution soit sur toutes les bouches à l’évocation des technologies numériques alors qu’elles étaient le symbole d’un système inhumain qui a mis le monde au bord de l’apocalypse nucléaire ? Pour y répondre, l’auteur s’attache à retracer les origines de l’utopie numérique dans la trajectoire de Stewart Brand, au croisement des mondes sociaux, des idéologies et des objets technologiques.

Vivre « sous la haute surveillance de machines pleines d’amour et de grâce »

Déclinant les « glissements politiques de la métaphore numérique », le premier chapitre souligne le rôle essentiel de la cybernétique de Norbert Wiener qui conçoit les objets techniques et les humains comme un même système socio-technique. Dessinant un monde où l’information modèle l’ordre social, la cybernétique a fondé la réflexion du jeune Stewart Brand sur la société et les médias. Avec la perspective terrifiante de l’apocalypse nucléaire et entourés d’appareils, la génération de Stewart Brand percevait la société comme une machine automatisée dont il faudra
« peser de tout [son] corps sur ses engrenages » (p.48) selon l’expression de Mario Savio.

Le poème de Richard Brautigan "Il me plaît à imaginer une écologie cybernétique où nous sommes tous libres de tout travail réunis à la nature, mêlés aux mammifères nos frères et soeurs et sous la haute surveillance de machines pleins d’amour et de grâce."

Face à la crainte de l’aliénation de la culture adulte, deux mouvements sociaux distincts ont émergé de cette période : la Nouvelle Gauche qui lutte pour les droits civiques et se mobilise autour de l’action politique, et les Nouveaux Communalistes, un mouvement introverti tourné vers la conscience et l’intimité. De manière surprenante, ces derniers vont adopter les pratiques sociales collaboratives et l’euphorie technologique des laboratoires de recherche militaire. La cybernétique permettait aux habitants des communautés alternatives de rêver d’un mode de vie « sous la haute surveillance de machines pleines d’amour et de grâce » (p.87).

Inspiré par la microbiologie et la cybernétique, le jeune Stewart Brand perçoit les bureaucraties comme des monocultures néfastes. Il fait de la libération de l’individu un objectif personnel impérieux. Après son service militaire, il se rapproche de l’USCO, une troupe qui invente l’art du happening, une célébration de la technologie et des communautés mystiques. En découvrant les écrits de Marshall McLuhan et Buckminster Fuller, Brand perçoit la technologie comme un outil de transformation collective et individuelle. L’idéal du  « designer compréhensif » proposé par Fuller façonne l’entrepreneur que deviendra Brand. Situé en dehors des laboratoires, le designer compréhensif observe les technologies qui y sont développées et les convertit en outils dédiés au bonheur humain. Par la suite, la trajectoire de Brand rencontre celle de Ken Kesey auteur de Vol au dessus d’un nid de coucou qui l’initie au LSD. En fréquentant la troupe des Merry Pranksters adeptes du trip, Brand prend conscience que les technologies militaires comme le LSD ou le stroboscope peuvent transformer l’individu et la société.

Les domes géodésiques faisaient partie du projet d’harmonie des énergies de Buckminister Fuller. Cette architecture fascinaient Stewart Brand qui organisa de nombreux événements dans des domes.

Devenir l'"égal des dieux" par l’accès aux outils

L’aventure Whole Earth démarre lors d’un trip sous LSD qui pousse Brand à imprimer des badges « pourquoi n’avons pas encore vu une photographie de la terre entière ? » Pour l’auteur, plus qu’une simple publication, le Whole Earth Catalog est une technologie intellectuelle. « Forum réseau », le catalogue propose un espace où les différentes communautés produisent à la fois de nouveaux cadres intellectuels et de nouveaux réseaux sociaux. « Objet frontière » au sens de Star et Griesemer, il circule dans plusieurs mondes sociaux et correspond au langage et aux attentes de chacun.

Avec son image de la Terre vue du ciel en couverture, le projet inspire le pouvoir divin de contempler et veut faire du lecteur l’ « égal des dieux » à l’échelle locale. Ses textes font l’éloge des leaders qui auront maitrisé les forces du système en modifiant leur esprit. L’élite cybernétique glorifiée dans le catalogue ne fait que reproduire les hiérarchies traditionnelles de la société américaine en proposant un mode de vie masculin, instruit et blanc. Ignorant les questions ethniques ou de genre, le catalogue porte aussi un regard distant sur le conflit au Vietnam.

Le quatrième chapitre évoque un changement de perception qui s’opère lorsque les ordinateurs de bureau deviennent individuels et intuitifs comme si « les appareils au travers desquels les leaders du gouvernement et de l’industrie cherchaient autrefois à contrôler le monde leur avait été arrachés des mains. » (p.176)  Brand prend conscience tardivement du potentiel de l’informatique. Dans un article de 1972 dans le magazine Rolling Stone, il met les hackers sur un pied d’égalité avec les rock stars. Selon lui, cette nouvelle élite va hâter l’avénement d’une informatique personnelle et émancipatrice : « qu’ils le veuillent ou non, les ordinateurs arrivent chez les gens…c’est une bonne nouvelle, la meilleure peut être depuis les drogues psychédéliques. » (p.194) Au moment où les communautés alternatives se disloquent, le Whole Earth Catalog héberge un débat sur le rêve de colonies spatiales. Les lecteurs-contributeurs s’opposent entre la dénonciation de nouvelles bureaucraties technocratiques et ces « cathédrales pour les hippies » qui pourraient donner une seconde chance aux Nouveaux Communalistes. Un débat qui témoigne de la tentation de transférer le désir de construire un foyer communautaire vers les technologies de grande échelle.

Communauté virtuelle, influence réelle

Après l’échec de Coevolution Quarterly inspiré des théories écologistes, Brand lance en 1983 le Whole Earth Software Catalog pour identifier les meilleurs outils informatiques. Mais les longs cycles d’impression lassent Brand qui se passionne pour le système de la téléconférence informatisée du fait de sa capacité à fournir un feedback immédiat. Il lance alors le WELL qui s’appuie sur un système de bulletins électroniques (BBS). Peu coûteux, le WELL proposait un système d’auto-gouvernance qui pourrait ressusciter le rêve néo-communaliste d’une communauté de conscience partagée. A l’heure des « organisations en réseau » (Manuel Castells), le WELL devient un tremplin professionnel pour ses personnalités comme Howard Rheingold qui exporte le terme de communauté virtuelle ou John Perry Barlow qui s’accapare le mot « cyberespace » et décrit l’Internet comme une « frontière électronique. » L’arrivée de hackers sur le WELL pousse Barlow à considérer le hacking comme une composante majeure de la liberté d’expression dans le cyberespace. En réaction à leur répression par le gouvernement, il crée l’Electronic Frontier Foundation qui joue encore aujourd’hui un rôle déterminant dans la défense des libertés numériques.

A la fin des années 80, la rhétorique de la « nouvelle économie » et de la dématérialisation prend de l’ampleur. Le président Reagan affirme en 1988 : « l’invention humaine rend de plus en plus obsolètes les ressources matérielles. » (p.277) Brand est alors fasciné par Nicholas Negroponte qui présente en 1984 le projet du futur Media Lab du MIT qu’il considère comme le foyer d’une nouvelle forme de performance artistique et technologique « [faisant] de l’individu le pilote des nouvelles technologies. » (p.183) Alors que les entreprises se passionnent pour les réseaux et les organisations alternatives, Brand anime une série de conférences pour de grandes entreprises organisée par le Global Business Network (GBN). Il utilise son expérience des happenings et propose aux chefs d’entreprise une intense expérience de communion interpersonnelle. En liaison avec le WELL, Brand tente de constituer avec les membres du GBN une élite collaborative et nomade capable de distinguer des lois invisibles au coeur des systèmes naturels et économiques.

Wired à la jonction entre contre-culture et ultra-libéralisme

Les années 1990 donnent un tournant plus politique au parcours de Brand et de ses acolytes. Un républicain anti-étatiste et individualiste membre du WELL, Louis Rossetto, recrute Kevin Kelly disciple de Brand et éditeur de Coevolution Review pour créer le magazine Wired. En utilisant la rhétorique universaliste et les réseaux du Whole Earth, Wired propose un forum permettant à la nouvelle droite au sein du parti républicain de répandre ses analyses libertariennes. Le réseau y est décrit comme une œuvre de la main invisible, « une forme exaltante de métaphore pour décrire un ordre spontané. » (p.344) En 1997, comble de l’euphorie technologique qui précéda l’éclatement de la bulle Internet, Wired annonce en couverture le long boom : « 25 ans de prospérité, de liberté et d’un meilleur environnement. »

Repenser les origines de l’utopie numérique

Au delà de mettre en lumière le rôle méconnu de Stewart Brand dans la formation de l’utopie numérique et des réseaux sociaux qui l’ont portée, Fred Turner apporte une importante contribution à la compréhension des objets-frontières tels que le Whole Earth Catalog ou le WELL dans la constitution des imaginaires des techniques. L’ouvrage nous pousse à reconsidérer les sources intellectuelles d’Internet au confluent des transformations technologiques et organisationnelles des laboratoires militaires et de la pensée cybernétique. Il pèche néanmoins par sa rhétorique universalisante qui limite l’histoire sociale de l’utopie numérique à l’environnement américain de Brand et ignore ainsi les expériences de l’équipe d’Alan Turing à Bletchley Park ou l’émergence du mouvement Free/Libre Open Source autour de Richard Stallman aux Etats-Unis ou de Linus Torvald en Finlande. Forest Gump de l’Internet, Aux Sources de l’utopie numérique nous fait parcourir l’histoire américaine en suivant un esprit audacieux imprégné des idéaux et des expériences de sa jeunesse qui parvient à former les réseaux et les imaginaires des objets de notre quotidien. 

Ouvrir la boîte noire de l’open data : quelques premières pistes issues des coulisses

Ce billet résume la communication que nous avons présentée avec mon directeur de thèse, Jérôme Denis, lors de la journée d’étude du projet SACRED «Penser l’écosystème des données : les enjeux scientifiques et politiques des données numériques»  le 14 février à l’ISCC. Elle pourrait faire l’objet d’une publication dans un numéro spécial de la revue Questions de Communication. C’est une version simplifiée de ce travail que nous vous présentons ici. 

Ouvrir la boîte noire de l’open data

Les discours sur l’open data ont pour point commun de s’accorder sur l’existence de données et même de données brutes dans les administrations et dans les entreprises, qui constitueraient un gisement, une mine d’or ou un nouveau pétrole. Une évidence qui est rarement discutée tout comme les modalités de la production des données publiques et les usages avant libération qui restent dans l’ombre des réflexions sur l’Open Data.

En parlant de « libération », de « transparence » ou plus encore de donnée « brute », le discours médiatique et politique sur l’open data présente l’universalité des données comme une évidence et efface leurs conditions de production. Il s’agit ici de remettre en cause cet effacement pour montrer l’intérêt qu’il y a à ouvrir la boîte noire des données ouvertes.

En documentant les coulisses de l’open data, il s’agit de lutter contre un risque de néo-positivisme qui peut avoir des conséquences politiques, économiques et organisationnelles importantes mais aussi parce que les acteurs de l’open data eux-mêmes ont tout à gagner à reconnaître et analyser les processus complexes qui se jouent en amont de la libération des données.

Les STS à la rescousse : quatre enseignements utiles pour comprendre l’open data

La question de l’effacement des conditions de production des données est en fait un grand classique en sciences sociales, puisqu’elle a été au cœur des premiers travaux en Science and Technology Studies (STS). Puis, la question de la fabrication des données et de leur rôle dans l’organisation de la science a ensuite été largement discutée, notamment avec l’avènement des grands projets scientifiques internationaux et interdisciplinaires qui ont précisément été les sites de l’invention en quelque sorte de l’Open Data : astronomie, sciences biomédicales, cristallographie, etc. [voir à ce sujet l'article sur ce blog sur l'ouverture de données en sciences du vivant] Les STS, qui se sont aussi penchées sur le rôle des données dans les pratiques comptables et gestionnaires, s’inscrivent dans le  Practice Turn (le tournant pratique) en sciences sociales qui consiste  à observer les activités qui assurent l’existence de certaines choses qui étaient jusque là considérées comme évidentes et non problématiques.

Si on confronte ces travaux à notre enquête sur les pratiques d’ouverture de données, les STS nous proposent quatre principaux apports :

  • [#1] les données travaillent l’organisation : la fabrique des données répond à un travail collectif dans lequel les tâches sont divisées répondant à une division morale du travail. On a ainsi pu voir l’importance des « petites mains » qui se chargeait du sale boulot de la recherche (Hugues) et, qui plus est, étaient invisibilisées au moment de la publication, c’est-à-dire de la vie officielle des résultats.
  • [#2] les données font l’objet d’un travail, elles ne tombent pas du ciel. Les STS décrivent le bricolage des scientifiques, à l’opposée même de la distinction de Lévi Strauss entre science et bricolage. qui n’hésitent pas à avoir recours à des chiffres intermédiaires, souvent incohérents avant leur fixation dans ce qu’on appelle une «donnée».
  • [#3] les données sont ancrées, elles sont prises dans des écologies pratiques spécifiques, c’est-à-dire qu’elles sont adressées à certaines personnes et orientées vers certains problèmes. Précisément, elles sont indexicales : leur sens, leur intelligibilité sont intrinsèquement liés au contexte local de leur usage.
  •  [#4] Les données sont politiques. Elles font exister des entités, créent des exclusions et peuvent masquer facilement la multiplicité du réel. Par exemple, la constitution de bases de données géographiques a nécessité de délimiter des frontières à des pays qui n’étaient pas stabilisés dans la diplomatie (les territoires palestiniens, les frontières entre la Chine et l’Inde).

Ces quatre principaux apports nous offrent des pistes pour explorer les coulisses de l’open data, mais aussi pour comprendre les spécificités des données publiques. Les premiers résultats qui suivent s’appuient sur une trentaine d’entretiens conduits notamment au sein de plusieurs entreprises françaises qui travaillent sur l’open data, Etalab la mission en charge de la mise à disposition de données de l’Etat, plusieurs collectivités territoriales ayant libéré des données et une organisation internationale réfléchissant à l’ouverture de ses données.  Les résultats sont anonymisés tant au niveau de l’organisation que des personnes interrogées pour des raisons de confidentialité du travail des agents et le fait que les projets sont en cours. Les entretiens ont eu lieu avec les personnes en charge du projet, les producteurs de données et les techniciens qui ont mis en place les outils de l’ouverture des données.

[#1] Des données qui travaillent l’organisation

L’ouverture de données a un cout pour l’organisation et implique des répercussions sur son fonctionnement à ne pas négliger.

L'annuaire du service public : un outil détourné de son objectif initial qui a servi à constituer un schéma de fonctionnement de l'Etat

L’annuaire du service public : un outil détourné de son objectif initial qui a servi à constituer un schéma de fonctionnement de l’Etat

Le déploiement de data.gouv.fr nécessitait d’identifier les producteurs de données et leurs relations afin de rattacher une donnée à la structure qui l’a produite. Cela implique de produire un organigramme de l’Etat alors que c’est une structure sans cesse mouvante. En témoigne la mission Etalab elle-même rattachée au Secrétariat Général du Gouvernement puis au Secrétariat Général de la Modernisation de l’Action Publique (SGMAP), qui lui-même fait suite à la Direction générale de la modernisation de l’Etat (DGME) et au rattachement d’autres structures. La constitution d’un portail qui relie les données à une entité productrice nécessite de figer la structure dans une ontologie. L’outil qui a permis de constituer ce référentiel est l’annuaire du service public http://lannuaire.service-public.fr/ qu’il faut en permanence consolider et maintenir car, servant initialement à contacter les agents du service public, il est détourné de son usage initial.

L’open data implique aussi une transformation des métiers. La DSI n’est plus uniquement une fonction support avec l’open data, un service pour l’interne, mais elle voit sa prérogative s’étendre aux métiers de la communication. C’est une transformation du travail des agents qui doivent découvrir de nouveaux métiers : animer la réutilisation des données, rencontrer associations/développeurs, organiser des hackathons.

A l’échelle de l’organisation, il s’agit de repenser sa place dans son environnement. Par exemple, on a pu observer une organisation internationale qui a conscience que ce projet transformera son métier et sa fonction : pour elle, l’open data n’est pas un programme mais une transformation.

[#2] Rebrutifier et mettre en qualité : la donnée se travaille

L’open data se trouve en tension entre le besoin de stabiliser les données pour limiter le travail de maintenance et accepter leur caractère dynamique. En ouvrant des données, on admet que la donnée est une denrée périssable qui nécessite une logistique et un travail de maintenance. Au delà de la question de la simple obsolescence des données, se pose le besoin de transformations nécessaires à l’ouverture de données ?

Au niveau des données elles-mêmes, l’opération qui consiste à «rebrutifier» joue un rôle

" Raw data is an oxymoron" paraitra en mars 2013. Une note de lecture de ce livre très attendu sera bien sur publiée sur ce blog.

prédominant. Ce néologisme dont m’a fait part une personne en charge de la maintenance d’un portail open data questionne directement l’idée même de donnée brute. Parmi les opérations qu’on peut regrouper dans le terme «rebrutifier», l’action d’harmoniser revient fréquemment. Il s’agit de s’accorder sur un identifiant unique pour permettre les croisements de données. Par exemple, dans une collectivité locale qui a publié des données sur le transport public, il a été nécessaire de s’accorder sur un seul nom aux arrêts de bus qui variaient entre la fiche horaire ou le plan pour une simple raison de place disponible. «Rebrutifier» implique aussi d’enlever les traces d’usage (les commentaires, les couleurs dans un document, les graphiques) qui laissent apparaitre le travail de l’agent. Toutes ces opérations témoignent du fait que le brut se fabrique.

Au niveau de l’organisation, les opérations qu’on recoupe sous l’appellation «mettre en qualité» impliquent la mise en place de processus d’automatisation ou de pratiques pour assurer la maintenance des données. Il s’agit d’intégrer l’open data dans le travail ; Henri Verdier, le directeur de la mission Etalab, parle dans une interview récente de «routiniser» l’ouverture des données publiques. Pour un agent en charge de la maintenance des bases de données dans un organisme de transport public, l’open data implique de ne plus produire les données «en vase clos». Auparavant une incohérence se réglait par des relations informelles entre producteurs de données, un simple coup de fil suffisait. Désormais, pour cet agent, une incohérence peut potentiellement toucher jusqu’à 300 000 personnes.

[#3] Rendre la donnée intelligible et universelle

Au niveau des données elle-même, l’ouverture de données implique de fabriquer une universalité qui permettra aux données d’être utilisées par d’autres.  Cette opération consiste à désindexicaliser les données, c’est-à-dire effacer des références qui n’ont pas de sens hors du contexte de production de la donnée. Dans le cas des données de transport évoquées précédemment, la base de données indique des bus qui passent à 26h30 afin de rester dans le cadre de la même journée de travail. Pour publier ces données, l’agent a développé des «moulinettes», des outils qui servent à transformer la donnée en quelque chose d’intelligible. Désindexicaliser consiste à alors à créer un contexte «universel» pour la réutilisation des données. Cela nécessite d’effacer les abérations qui n’en sont pas dans le contexte de production de ces données métiers qui servent au travail quotidien des agents.

Une autre opération consiste à «délocaliser» la donnée. L’application Handimap à

Réutiliser des données provenant de deux villes différentes nécessite souvent un retravail important pour s'adapter aux spécificités locales des données.

Réutiliser des données provenant de deux villes différentes nécessite souvent un retravail important pour s’adapter aux spécificités locales des données.

Rennes implantée à la suite à Montpellier qui permet de calculer des itinéraires pour personnes à mobilité réduite révèle que les données sont fortement liées à leur contexte de production. Pour implanter un tel service dans une nouvelle ville,  il serait nécessaire de s’accorder sur des formats communs de données entre les villes.  Sans une standardisation des données, des fonctionnalités de l’application sont à redévelopper pour un nouveau déploiement. L’aide d’Handimap indique même que les critères d’un itinéraire accessible diffèrent entre les deux villes.  On touche ici aux limites des données issues du travail des agents administratifs qui sont des données métiers qui ne sont pas conçues pour être publiées. Alain Desrosières expliquait dans "Décrire l’Etat ou explorer la société : les deux sources de la statistique publique" que les sources administratives sont territorialisées. Leur format et leur contenu diffèrent selon l’administration en charge de sa production ce qui rend difficile les comparaisons et les réutilisations à l’inverse des enquêtes statistiques.

Notre étude montre que les producteurs de données et les services en charge de l’open data se préfigurent les usages avant d’ouvrir les données ce qui a un rôle déterminant dans la sélection des données publiées. Le discours sur l’open data est porteur d’une utopie dans laquelle la donnée brute concerne tout le monde puisqu’on ne peut pas et ne doit pas prévoir les réutilisations. Pourtant, mes observations montrent que le producteur de donnée se pose très fréquemment la question de savoir qui est intéressé par le jeu de donnée. Par exemple, lors d’une réunion entre des militants de l’open data et une collectivité territoriale, un élu disposait d’une liste des données publiables. Chaque jeu de donnée à publier faisait l’objet d’un commentaire «c’est intéressant» pour les données à publier. L’élu se faisait alors une représentation mentale des usages possibles du jeu de données basée sur ses représentations des réutilisateurs. Mais qui représente alors les utilisateurs ?

[#4] Montrer un réel multiple et sensible

Enfin, les STS nous rappellent que les données et leur libération fixent des choses du réel et produisent des distinctions par les catégories.

L’opération de mise en place d’ontologies nécessite de définir des limites aux objets désignés par un jeu de donnée. Par exemple, il apparait dans plusieurs institutions étudiées que la définition d’un square ou d’une gare varie selon le périmètre d’action du producteur de la donnée. A travers les données, le réel est multiple dépendant en grande partie du contexte de production de données peuvent le réduire ou l’aplatir.

Les portails open data intègrent cette dimension en permettant une navigation par facettes, c’est-à-dire de critères uniques associés à chaque jeu de données comme le nom de l’entité qui a produit la donnée ou son périmètre. Cette fonctionnalité implique d’admettre qu’une réalité peut être décrite différemment selon le producteur de la donnée.

Si l’ouverture de données fixe les choses, elle donne à voir des entités jugées trop

Les réseaux d’eau potable : une infrastructure sensible dont on imagine les pires usages avant d’ouvrir les données.

sensibles. Le cas des données qui sont exclues de la publication pose la aussi la question des préfigurations des réutilisations. Dans le cas des réseaux d’infrastructures, peu de données sont publiées par crainte d’usagers très particuliers possiblement malveillants, comme un terroriste. Par exemple, beaucoup de municipalités disposent d’une cartographie précise du réseau d’eau mais aucune à ma connaissance ne publie ces données. La crainte d’une contamination du réseau d’eau dont la structure serait rendue visible avec l’open data explique que ces données ne sont pas exportées des systèmes d’information géographique des municipalités. Signe que la préfiguration des usages, même les plus radicaux et exceptionnels, guide l’ouverture de données.

La présentation s’est conclue par un questionnement sur un éventuel changement de paradigme dans l’open data, c’est à dire d’une théorie et d’exemples associés. Les communicants n’hésitent plus à expliquer la "cuisine interne" qui a conduit à l’ouverture des données tout en expliquant que ce projet sera un vecteur important de modernisation du service public. Nous postulions qu’il s’agit d’un abandon de la posture "utopique" adoptée dans les premiers temps de l’open data : les promoteurs de l’open data n’hésitaient pas à annoncer la grande ère de la transparence dans laquelle que les données ouvertes pourraient résoudre le changement climatique ou la crise financière. Henri Verdier, le directeur de la mission Etalab, présent ce jour, a pu apporter des précisions intéressantes sur ce point. Selon lui,  la promesse de changer le monde par l’ouverture des données n’est pas abandonnée. En se focalisant sur les implications du projet pour le fonctionnement de l’Etat, on adopte une posture pragmatique qui permet de débloquer certains verrous et ainsi de rendre possible le projet politique initial de l’open data. 

"Have computer, give me data" : une petite histoire de l’open data dans les sciences du vivant

Ce billet fait suite au séminaire du projet SACRED (Approche communicationnelle des recherches sur les données) du 20 décembre pendant lequel Bruno J. Strasser du département de biologie de l’université de Genève est venu présenté ses travaux sur l’histoire des données dans les sciences.

En étudiant l’histoire des bases de données dans la science (datadriven science), Bruno J.Strasser rappelle que les pratiques et les métiers de l’ouverture des données recoupent des usages anciens de collection et de classification qui avaient cours dès le XVIème siècle dans les sciences naturalistes. Retour sur la lente émergence de nouvelles manières de produire de la connaissance.

Tous aux abris : les météorologues de la donnée annonçent le déluge 

Que ce soit Wired, The Economist ou encore Science, tous s’accordent pour annoncer un déluge de données qui mettrait à défaut notre capacité d’analyse tout en offrant un potentiel formidable d’innovation pour la science. Les métaphores font florès comme celle de la tempête de données, du tsunami de données ou l’inondation de données avec l’idée sous-jacente que nous serions démunis comme face à une catastrophe naturelle.

Dans le domaine de la science, la croissance exponentielle du volume de donnée est parfois considérée comme la fin de la science telle que nous la connaissons. Un des principaux artisans de cette vision est le magazine Wired qui n’a pas hésité à titrer en 2008 sur la "fin de la science". Annonçant triomphalement l’arrivée d’un nouveau paradigme, Wired prétend que l’analyse de "pétabytes" de données" et la recherche de corrélations va remplacer la méthode hypothético-déductive. La recherche se réduit alors à collecter des données puis à analyser les corrélations qui sortent du traitement statistique. Cette vision rejoint les efforts insensés de Sergey Brin, co-fondateur de Google, dans la recherche en génétique d’un éventuel traitement à la maladie de Parkinson—Brin estimant avoir de très fortes probabilités d’être atteint de cette maladie à cause d’un test ADN.

De ces discours ambivalents, à la fois menaçants et porteurs d’espoir, deux prémisses semblent mettre tout le monde d’accord selon Bruno J. Strasser :

  • ce "déluge de données" est un phénomène nouveau : Strasser rappelle que ce sentiment de surcharge informationnelle (information overload) apparait dès la Renaissance et qu’à chaque fois, des techniques et des usages ont été crées pour y faire face ;  
  • ce sont les transformations technologiques qui vont permettre de donner naissance à une nouvelle ère de la science : l’histoire de la data-driven science montre bien que les facteurs humains jouent un rôle tout aussi déterminant dans l’émergence de nouvelles pratiques scientifiques.

Collectionner des données ou expérimenter : une querelle des Anciens et des Modernes ?

Cabinet de curiosité à ParisL’essor des sciences du vivant a été accompagné par l’apparition à la Rennaissance des cabinets de curiosité où étaient entreposées, classifiées et exposées des espèces hétéroclites. Amasser des plantes et des espèces naturelles était alors un divertissement commun pour la haute société de l’époque. Collectionner et montrer sa collection était un marqueur social d’érudition. Cette tradition de collection relevait principalement d’une science amateur et d’une tradition naturaliste qui aboutit au XIXe siècle aux muséums de sciences naturelles et leurs immenses collections d’espèces. Au début du XXème siècle, cette longue tradition déclina sous l’assaut de la science expérimentaliste qui consacre le laboratoire comme le seul lieu de la recherche scientifique.

Deux méthodes scientifiques et deux traditions épistémologiques divisent au milieu du XXème siècle les sciences du vivant :

  • les méthodes comparatives : collectionner, classifier, comparer, corréler ;
  • les méthodes expérimentales : observer, analyser, généraliser à partir du cas particulier.

Pour Bruno J. Strasser, la datadriven science trouve ses sources dans la tradition comparative dont les pratiques et les métiers sont similaires à celle de cette "nouvelle" manière de faire de la science.

Codifier le génome : une histoire de base de données  et d’individus

Dans une période où l’expérimentation triomphe comme la seule manière de faire de la "vraie" science, le projet de codifier et de numériser l’ADN dans les années 60 marque le retour à la tradition comparative. Enregistrer une base de données, classifier et comparer des séquences de protéines ne diffère pas des pratiques de collection et de comparaison des espèces dans la science comparative. Pour Strasser, le musée et le serveur sont deux objets standardisés qui servent à produire du savoir.

Le premier projet de constitution d’une base de données massive en génétique, l’Atlas of protein sequence, dirigé par Margaret Dayhoff fut un échec du fait de la difficulté à collecter les données venant de chaque laboratoire. Dayhoff ne parvenait pas à convaincre ses collèques de diffuser les données du génome dans sa base de données en raison d’un régime de propriété intellectuelle qui malgré un système d’accès par modem, ne permet pas la redistribution des données. Les données expérimentales sont alors un objet privé qui appartient à celui qui les a produit. Appliquant des techniques de cristallographie issues de la chimie, une discipline proche de l’industrie qui n’a pas pour habitude de diffuser ses données, le projet Protein DataBank lancé en 1969 ne parvient pas non plus à obtenir suffisamment de données et menace de fermer. Ce n’est finalement qu’à la fin des années 70 dans le Nouveau Mexique à l’Université de Los Alamos qu’un projet de base de données génétiques ne parvient à décoller. Il s’agit du projet GenBank conduit par Walter Goad, un scientifique au parcours tumultueux qui a participé sur la bombe H avant de concevoir ce projet qui comporte aujourd’hui les séquences de nucléotides de près de 300 000 espèces.  Quelles ont été les raisons du succès de ce projet ?

La recette de l’open science : échange de capitaux symboliques et apparence d’ouverture

Dès son lancement, GenBank est présenté comme un projet dans lequel l’usager est aussi contributeur. Dans les années 80, ce projet réussit le tour de force de l’open access à une époque où le partage des données des recherches n’a rien d’une évidence. Walter Goad met un place un système vertueux dans lequel il est indispensable de partager des données pour accéder aux publications. Selon Bruno J. Strasser, le succès de GenBank vient de son inspiration de la philosophie des économies morales, un système dans lequel les contributions s’équilibrent pour éviter le problème du passager clandestin (free rider)—en théorie économique, celui qui ne profite d’un système sans contribuer le mettant en péril.

Capture d’écran 2013-01-11 à 17.07.09

L’autre aspect du succès de GenBank sur lequel insiste Strasser, c’est l’apparence d’ouverture du système. "Une force importante de votre projet est son ouverture", écrit un ami de Goad dans une lettre. Pour obtenir le contrat qui a financé le lancement du projet en 1982, son concepteur ne cesse de donner des signes d’ouverture y compris en insistant sur la connexion du service au réseau Arpanet qui commence à relier les universités américaines.

Pour Strasser, le succès de GenBank réside finalement dans le registre symbolique et la communication plutôt que dans la technologie du service.

Nouvelles pratiques, nouveaux métiers

Capture d’écran 2013-01-11 à 17.13.26Avec la disponibilité de données génétiques de plus en plus importantes, de nouveaux métiers émergent, certains parlent même d’une "nouvelle espèce" de scientifiques" ("a new bride of scientists"). Les computational scientist font partie de cette nouvelle manière de faire de la science, ni vraiment expérimentale ni vraiment comparative, qui s’emploie à analyser les données que produisent d’autres. Ils revendiquent rapidement leur statut d’auteur scientifique en proposant des publications aux revues scientifiques, qui voient d’un mauvais oeil ces scientifiques qui abandonnent le microscope pour l’ordinateur en réutilisant les données mises à disposition. En 1987, le journal American Statistics réduit leur travail à cette expresion "Have computer, give me data", signe d’un malaise de la communauté scientifique devant ces chercheurs qui publient en leur nom avec les données des autres.

Autre métier déconsidéré : celui de "database curator", en charge d’enrichir les métadonnées et de nettoyer les données pour les rendre réutilisables. Strasser raconte le témoignage d’un database curator qui se plaignait que personne ne comprenait son travail à un cocktail lors d’une conférence et laissait entendre qu’il n’était pas perçu comme un collègue par ses pairs. On retrouve là une réaction commune devant le travail souvent déconsidéré des "petites mains de la société de l’information" souvent jugés comme des grattes papiers ainsi que l’expliquent Jérôme Denis et David Pontille dans leur article "Travailleurs de l’écrit, matières de l’information".

Le projet fold.it

Aujourd’hui, l’open access est la norme pour les publications scientifiques bien que les régimes de licence et les coûts de publication dans les principales revues forment un méli-mélo incompréhensible. Les pratiques de réutilisation de données scientifiques sont désormais courantes dans la recherche ; selon Strasser, un des prochains prix Nobel de médecine pourrait même ne "jamais avoir tenu une pipette de sa vie". Enfin, l’open science questionne le rôle du chercheur : son monopole remis en cause,  le modèle qui émerge rappelle celui des cabinets de curiosité à la Renaissance. En rompant avec l’emprise de la science expérimentale, il est possible d’envisager des formes de science ouvertes à tous. Par exemple, le projet Fold.it se présente sous la forme d’un jeu qui permet à chacun de contribuer à l’étude de la structure des protéines en résolvant des puzzle.

Open data : des termes aux multiples dimensions

Je reprends ici quelques idées contenues dans mon mémoire soutenu au Celsa "Open Data : qu’ouvre-t-on avec des données publiques ?" disponible en ligne en Creative Commons (CC By). 

"Open data" et "ouverture des données publiques" : deux termes apparemment anodins qui méritent qu’on s’arrête sur les représentations et les imaginaires qu’ils véhiculent. Dans le champ des médias informatisés, la nouveauté se cristallise avec l’apparition d’un nouveau terme qui désigne un ensemble de technologies souvent plus anciennes. Yves Jeanneret explique que le choix des termes et des représentations joue un rôle crucial dans l’appropriation d’un objet : « l’imaginaire contenu dans les mots et les images fait davantage qu’accompagner les objets, il les constitue. » 1 

Les multiples dimensions de l’open data

Dans "open data", le terme "open" désigne trois dimensions qui font la force de ce concept :

  •  en tant qu’adjectif, il désigne la caractéristique de données ouvertes. Pour distinguer les données dites ouvertes, l’Open Knowledge Foundation a mis en place l’Open Definition qui décline les 10 critères d’une donnée ou d’un contenu libre ;
  • en tant que nom composé, open data désigne un mouvement en faveur de l’ouverture de données et le processus qui mène à cet objectif ;
  • quand "open" se décline à l’impératif, open data prend la forme d’une injonction à l’ouverture adressée aux organisations publiques et privées.

Le terme "donnée" ou "data" délimite un champ sémantique tout aussi large composé de deux dimensions principales selon la définition du Trésor de la Langue Française:

  • la donnée comme fondement de la connaissance : " ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche" ;
  • la donnée comme processus informatisé de collecte et de traitement de l’information : "l’ensemble des indications enregistrées en machine pour permettre l’analyse et/ou la recherche automatique des informations."

Le site open data de la ville de Rennes présente une définition de la donnée qui intègre les deux dimensions du terme "données".
Source : http://www.data.rennes-metropole.fr/les-donnees/catalogue/

Deux dimensions qui font de la donnée un objet ambivalent : en tant que "source de toute connaissance", elle participe à la vision réductrice du savoir qui fait des données le fondement de toute information, une approche que répand la science de l’information dans les pays anglo-saxons avec le modèle Data-Information-Knowledge. Mais la définition du terme "donnée" intègre aussi l’idée que les données sont avant tout des objets informatisés et mathématisés. Si l’on s’en tient aux définitions des termes employés, l’open data promeut une vision chiffrée du monde à laquelle chacun aurait désormais accès. Qu’en est-il dans la version française du terme ?

Traduttore, traditore : libère-t-on les ou des données publiques ?

Le français traduit généralement le terme "open data" soit en "ouverture des données publiques" soit en "libération des données publiques". Ces deux termes perdent les multiples dimensions de l’expression "open data" : en parlant d’ "ouverture", on évoque uniquement un processus alors que le terme libération convoque un imaginaire de captivité, qui fait de la donnée le prisonnier relâché par la grâce étatique.

Parfois, une différence d’une lettre peut avoir des conséquences considérables sur la manière dont un objet est perçu par le public. En évoquant la libération des données publiques, la traduction d’ "open data" remplace le tout (l’intégralité des données publiques) par une partie (les données mises à disposition sur les portails open data).  Cette expression a recours à la figure rhétorique de la synecdoque qui procède par l’extension du champ sémantique d’un terme. L’expression prête à confusion : en ouvrant quelques jeux de données, une institution aura effectuée la libération de ses données publiques. Les ambitions des projets open data divergent mais tous se réunissent sous la bannière de la "libération des données publiques" ce qui explique qu’une association comme Libertic en vienne à critiquer les "tartuferies" de l’open data en France.

Sans jouer un rôle primordial dans l’évolution de l’open data en France, le choix des termes montre une certaine vision des acteurs qui les ont choisis ou les utilisent. L’expression "mise à disposition de données publiques" pourrait suffire à décrire le concept. Alors que je participe au lancement de l’Open Knowledge Foundation en France qui est le fer de lance de l’ouverture (rendez-vous le 12 décembre à la Cantine pour un premier meetup), j’attends vos réactions sur cette réflexion sur les termes en vigueur dans l’open data.


1. Yves Jeanneret, Penser la trivialité . Volume 1 : la vie triviale des êtres culturels, Paris, éditions Hermès-Lavoisier, 2008.

Le compteur d’Orléans

Paris, métro Porte d’Orléans, octobre 2012.

Le poinçonneur des Lilas a disparu, remplacé par des machines qui oblitèrent le ticket, valident le Navigo et par la même occasion, comptent les passagers (enfin je suppose). Le métro Porte d’Orléans se trouvant au terminus de la ligne 4, les concepteurs de la station de métro ont fait le choix de ne pas mettre de portes-palières qui, tout en bloquant les resquilleurs, facilitent le comptage des passagers.

En cette heure de pointe, la station est cernée à chaque sortie par des personnes arborant des gilets rouges, rappelant les périodes de pointe des gares. Leur veste indique au passant "enquête" au dos et "comptage" en face. Ambivalence du rôle de ces enquêteurs qui se partagent la tâche du comptage des voyageurs et du sondage qualitatif qui informera la RATP de la satisfaction des usagers.

La feuille de papier de l’enquête a été remplacée par un iPad qui affiche les questions et recueille les réponses. Plus surprenant, une des personnes à la sortie utilise ses doigts pour compter les voyageurs. Probablement une solution provisoire en attente du compteur manuel du type de ceux qu’on trouve dans les avions.

Le compteur d’Orléans nous rappelle que les données ne tombent pas du ciel. Des "petites mains" comptent, évaluent et estiment le nombre de voyageurs qui passent chaque année dans les stations du métro de Paris avant que ce chiffre soit compilé avec les données récoltées de manière automatique, harmonisé et publié dans un fichier sur data.gouv.fr.

Pour vous expliquer simplement, ma thèse consiste à comprendre ce qui passe entre les deux images qui illustrent cet article.

data.gouv : fichier de la RATP trafic de voyageurs

Data.gouv.fr met à disposition un fichier qui comporte le trafic annuel de chaque station