"Raw data is an Oxymoron" : les données brutes sont-elles une fiction ?

La recension qui suit sera publiée dans le prochain numéro de la revue Réseaux qui portera sur les bases de données.

Lisa GITELMAN (dir.), Raw Data is An Oxymoron, Cambridge, MIT Press, 2013, 182p. 

Màj : je publie moi-aussi mes "données brutes" (en tout cas primaires au sens de la Sunlight Foundation) avec mes notes sur l’ouvrage (format .mm lisible avec FreeMind)  

Capture d’écran 2013-04-30 à 11.21.29

Lors d’une conférence TED en 2008, le « père du web » Tim Berners-Lee demandait à la salle de s’exclamer « nous voulons des données brutes. » Depuis, cette revendication ne cesse de se propager sans qu’un accord ne se dessine sur la définition d’une donnée « brute ». Telle une photographie toujours cadrée et sélectionnée pour relayer un message, les données sont produites et « imaginées » selon des objectifs qui guident leur production et leur transformation, nous rappelle en introduction Lisa Gitelman, l’éditrice de cet ouvrage collectif d’étude des sciences.

Data in Lingua Britanica DictionaryL’ouvrage s’ouvre sur une réflexion sur les origines et la circulation du terme « donnée » (chapitre 1). Pour Daniel Rosenberg, « donnée » sert une fonction rhétorique : alors qu’un fait ou une preuve perdent leur qualité lorsqu’ils s’avèrent faux, une donnée reste une donnée même lorsqu’elle est contredite. En 1646, data entre dans l’Oxford English Dictionary dans sa forme plurielle après des apparitions en mathématiques et en théologie. A l’issue d’un codage manuel des occurrences du terme data dans une base de données sur les publications en anglais au 18e siècle, Rosenberg conclut que sa signification s’enrichit du sens « d’information disponible sous forme chiffrée ». Pour autant, les deux sens se mélangent encore aujourd’hui et font la force sémantique de ce terme.

Tout comme les données « brutes » sont souvent présumées objectives, la supposée universalité et intemporalité des mathématiques font l’objet du chapitre 2. Son auteur, Travis D.Williams, s’intéresse aux premiers problèmes mathématiques et à la lecture qui peut en être faite de nos jours. Il y questionne l’idée que les chiffres ne mentent jamais et que notre subjectivité n’affecte pas la lecture que nous pouvons avoir d’un problème mathématique qui date du 16e siècle : « ne redéfinissez pas nos mathématiques comme leurs mathématiques simplement parce que leurs détails ne sont pas pleinement lisibles selon nos conventions. » (p.48)

Les deux chapitres qui suivent s’attachent à reconstituer l’émergence de l’idée de données « brutes » au sein de divers environnements scientifiques. Dans « From Measuring Desire to Quantifying Expectations » (chapitre 3), Brine et Poovey reviennent sur les premiers travaux de l’économiste Irving Fisher. Pour eux, relire les débuts de l’analyse quantitative de l’économie doit nous rappeler que « les données économiques ne sont jamais brutes, au sens de non interprétées. » (p.61) Afin que Fisher parvienne à utiliser les données disponibles, il a dû avoir recours à une multitude d’opérations qu’on nomme de nos jours le nettoyage des données (data scrubbing). En fabriquant une donnée « nettoyée », l’économiste efface l’histoire de la donnée pour asseoir l’objectivité de son analyse.

Capture d’écran 2013-04-30 à 11.09.25Dans « Where Is That Moon, Anyway ? » (chapitre 4), Matthew Stanley déconstruit la présumée simplicité et objectivité de l’astronomie de positions. Alors qu’il semblerait que les paires d’angles seraient la forme la plus brute de données scientifiques,  l’article montre que les observations ne deviennent des données astronomiques qu’après une analyse littéraire, historique et psychologique de textes anciens. Pour disposer du coefficient de variation séculaire de la lune, les astronomes ont dû parcourir les chroniques antiques grecques, chinoises et assyriennes à la recherche de récits d’éclipses. Dans un bel exemple de data friction selon l’expression de Paul Edwards[1], des astronomes au 20e siècle ont réévalué le coefficient et les récits originaux des éclipses qui ont servi à son élaboration : « le texte n’a pu devenir une donnée qu’avec une connaissance précise de la grammaire latine. » (p.84)

Capture d’écran 2013-04-30 à 11.11.13La paire d’articles qui suit s’attèle à décrire une archéologie de la notion de bases de données. Dans « facts and FACTS": Abolitionists’s Database Innovations » (chapitre 5), Ellen Gruber Garvey revient sur l’histoire d’American Slavery As It Is: Testimony of a Thousand Witness, un ouvrage essentiel de la cause abolitionniste constitué en grande partie par les annonces de fuites d’esclaves publiées dans les journaux du sud des Etats-Unis. American Slavery As It Is publié en 1839 a recours à un index détaillé et à des catégories pour un accès rapide à l’information. Base de données, ses auteurs ont eux aussi nettoyé les annonces pour éviter qu’elles servent à capturer les fugitifs. L’article décrit le travail accompli pour enrichir les matériaux pour en constituer une base de données et non une « collection d’anecdotes. »

Le chapitre 6 s’intéresse à la matérialité de la production du savoir à travers les pratiques d’indexation du sociologue allemand des systèmes Niklas Luhmann. Ce dernier a passé sa vie à remplir des boites entières remplies de fiches synthétisant ses lectures et les idées. Par un jeu d’indexation et de mise en relation des cartes, Luhmann est parvenu à créer un « couplage génératif de l’homme et de la machine » (p.105). Dans ce système, chaque carte représente une unité d’information distincte, indexée et reliée, une datum au sens original du terme. Les cartes indexées formeraient une « réduction » nécessaire à la construction de la théorie de la complexité de Luhmann.

IMG_1094L’ouvrage se termine sur une perspective actuelle étudiant l’omniprésence de la collecte de données et la complexité de la maintenance des données scientifiques. Dans le chapitre 7, Rita Raley s’intéresse au concept de dataveillance conçu comme une pratique disciplinaire de contrôle, d’agrégation et de tri des données. La collecte systématisée et quasi invisible des traces rend possible des pratiques prédictives de conjecture et prescriptives d’incitation. Face à cette nouvelle ère de la surveillance, Raley affirme l’importance de la counterveillance, un ensemble de pratiques artistiques, politiques et technologiques qui répondent à la dataveillance. Ces dispositifs exploitent des vulnérabilités ou mettent en scène la capture de données pour mieux prendre conscience de son omniprésence.

Image : Baltimore Ecosystem Study

Le dernier chapitre « Data Bite Man: The Work of Sustaining a Long-Term Study » décrit les données comme des « créatures éphémères » (p .147) menacées par la disparition ou la dégradation sans intervention humaine. Ses auteurs suivent les pratiques scientifiques d’une équipe de biologistes à Baltimore qui réalise des relevés dans une rivière. Leur objectif est de constituer une base de données dite longitudinale qui permette la comparaison au fil des années. En décrivant étape par étape la chaine qui mène à la publication de la donnée, ils invitent à une lecture qui dépasse « la fiction de la commodité des données » (p.147) qui les résume à une matière première qu’on pourrait extraire sans les travailler. La « chorégraphie ontologique » (p.148) des chercheurs vise à préserver la capacité des données à décrire le même phénomène au fil des années dans une écologie changeante. Les métadonnées jouent un rôle essentiel dans la préservation de l’archive : sans elles, les flacons remplis d’eau de la rivière ne correspondent plus aux lignes des bases de données qui les quantifient. L’article se conclut sur une réflexion perplexe sur la notion ici étudiée : à aucun moment de son cycle de vie, une forme « brute » n’apparaît selon Ribes et Jackson.

La richesse des domaines étudiés fait assurément la valeur de cet ouvrage collectif et illustre la pertinence de l’étude des sciences pour comprendre les pratiques anciennes et maintenant répandues de production et de diffusion de données. Néanmoins, les chapitres 2 et 6 égarent quelque peu le lecteur en ne s’intéressant à la notion de données « brutes » qu’en marge de leur réflexion. L’étude des pratiques scientifiques nous rappelle aussi que la notion d’objectivité souvent associée aux données dites « brutes » doit être relativisée face à l’émergence d’un nouveau positivisme de la donnée prônant l’evidence-based decision making     .

Il ressort de Raw Data is An Oxymoron que la notion de données brutes reste empreinte d’un flou. Les auteurs peinent à distinguer une temporalité ou une forme qu’on pourrait qualifier de « brute » dans le cycle de vie des données. Pourtant, les acteurs qui produisent et diffusent des données ont recours à cette notion  et évoquent des pratiques de "rebrutification" ce qui témoigne de son utilité, un aspect négligé par l’idée même d’une fiction des données « brutes » en filigrane tout au long de l’ouvrage. La postface de Geoffrey Bowker se termine par une réflexion sur l’impact social de l’émergence des bases de données orientées objets à la structure évanescente à la place des structures figées dans un schéma qui caractérisent les bases de données relationnelles. Si comme Ribes et Jackson l’affirment, nous avons domestiqué les données autant qu’elles nous ont domestiquées, cette évolution technique ouvre des perspectives passionnantes pour l’étude des organisations.

[1] EDWARDS Paul, A Vast Machine : Computer Models, Climate Data, and the Politics of Global Warming, Cambridge, MIT Press, 2010

[Note de lecture] Fred Turner, Aux sources de l’Utopie Numérique

Dans Aux sources de l’Utopie Numérique, Fred Turner revisite l’histoire des origines intellectuelles et sociales d’Internet en suivant le parcours de Stewart Brand, un « entrepreneur réticulaire. » (p.41) L’ouvrage s’ouvre sur une interrogation : comment se fait-il que le mot révolution soit sur toutes les bouches à l’évocation des technologies numériques alors qu’elles étaient le symbole d’un système inhumain qui a mis le monde au bord de l’apocalypse nucléaire ? Pour y répondre, l’auteur s’attache à retracer les origines de l’utopie numérique dans la trajectoire de Stewart Brand, au croisement des mondes sociaux, des idéologies et des objets technologiques.

Vivre « sous la haute surveillance de machines pleines d’amour et de grâce »

Déclinant les « glissements politiques de la métaphore numérique », le premier chapitre souligne le rôle essentiel de la cybernétique de Norbert Wiener qui conçoit les objets techniques et les humains comme un même système socio-technique. Dessinant un monde où l’information modèle l’ordre social, la cybernétique a fondé la réflexion du jeune Stewart Brand sur la société et les médias. Avec la perspective terrifiante de l’apocalypse nucléaire et entourés d’appareils, la génération de Stewart Brand percevait la société comme une machine automatisée dont il faudra
« peser de tout [son] corps sur ses engrenages » (p.48) selon l’expression de Mario Savio.

Le poème de Richard Brautigan "Il me plaît à imaginer une écologie cybernétique où nous sommes tous libres de tout travail réunis à la nature, mêlés aux mammifères nos frères et soeurs et sous la haute surveillance de machines pleins d’amour et de grâce."

Face à la crainte de l’aliénation de la culture adulte, deux mouvements sociaux distincts ont émergé de cette période : la Nouvelle Gauche qui lutte pour les droits civiques et se mobilise autour de l’action politique, et les Nouveaux Communalistes, un mouvement introverti tourné vers la conscience et l’intimité. De manière surprenante, ces derniers vont adopter les pratiques sociales collaboratives et l’euphorie technologique des laboratoires de recherche militaire. La cybernétique permettait aux habitants des communautés alternatives de rêver d’un mode de vie « sous la haute surveillance de machines pleines d’amour et de grâce » (p.87).

Inspiré par la microbiologie et la cybernétique, le jeune Stewart Brand perçoit les bureaucraties comme des monocultures néfastes. Il fait de la libération de l’individu un objectif personnel impérieux. Après son service militaire, il se rapproche de l’USCO, une troupe qui invente l’art du happening, une célébration de la technologie et des communautés mystiques. En découvrant les écrits de Marshall McLuhan et Buckminster Fuller, Brand perçoit la technologie comme un outil de transformation collective et individuelle. L’idéal du  « designer compréhensif » proposé par Fuller façonne l’entrepreneur que deviendra Brand. Situé en dehors des laboratoires, le designer compréhensif observe les technologies qui y sont développées et les convertit en outils dédiés au bonheur humain. Par la suite, la trajectoire de Brand rencontre celle de Ken Kesey auteur de Vol au dessus d’un nid de coucou qui l’initie au LSD. En fréquentant la troupe des Merry Pranksters adeptes du trip, Brand prend conscience que les technologies militaires comme le LSD ou le stroboscope peuvent transformer l’individu et la société.

Les domes géodésiques faisaient partie du projet d’harmonie des énergies de Buckminister Fuller. Cette architecture fascinaient Stewart Brand qui organisa de nombreux événements dans des domes.

Devenir l’"égal des dieux" par l’accès aux outils

L’aventure Whole Earth démarre lors d’un trip sous LSD qui pousse Brand à imprimer des badges « pourquoi n’avons pas encore vu une photographie de la terre entière ? » Pour l’auteur, plus qu’une simple publication, le Whole Earth Catalog est une technologie intellectuelle. « Forum réseau », le catalogue propose un espace où les différentes communautés produisent à la fois de nouveaux cadres intellectuels et de nouveaux réseaux sociaux. « Objet frontière » au sens de Star et Griesemer, il circule dans plusieurs mondes sociaux et correspond au langage et aux attentes de chacun.

Avec son image de la Terre vue du ciel en couverture, le projet inspire le pouvoir divin de contempler et veut faire du lecteur l’ « égal des dieux » à l’échelle locale. Ses textes font l’éloge des leaders qui auront maitrisé les forces du système en modifiant leur esprit. L’élite cybernétique glorifiée dans le catalogue ne fait que reproduire les hiérarchies traditionnelles de la société américaine en proposant un mode de vie masculin, instruit et blanc. Ignorant les questions ethniques ou de genre, le catalogue porte aussi un regard distant sur le conflit au Vietnam.

Le quatrième chapitre évoque un changement de perception qui s’opère lorsque les ordinateurs de bureau deviennent individuels et intuitifs comme si « les appareils au travers desquels les leaders du gouvernement et de l’industrie cherchaient autrefois à contrôler le monde leur avait été arrachés des mains. » (p.176)  Brand prend conscience tardivement du potentiel de l’informatique. Dans un article de 1972 dans le magazine Rolling Stone, il met les hackers sur un pied d’égalité avec les rock stars. Selon lui, cette nouvelle élite va hâter l’avénement d’une informatique personnelle et émancipatrice : « qu’ils le veuillent ou non, les ordinateurs arrivent chez les gens…c’est une bonne nouvelle, la meilleure peut être depuis les drogues psychédéliques. » (p.194) Au moment où les communautés alternatives se disloquent, le Whole Earth Catalog héberge un débat sur le rêve de colonies spatiales. Les lecteurs-contributeurs s’opposent entre la dénonciation de nouvelles bureaucraties technocratiques et ces « cathédrales pour les hippies » qui pourraient donner une seconde chance aux Nouveaux Communalistes. Un débat qui témoigne de la tentation de transférer le désir de construire un foyer communautaire vers les technologies de grande échelle.

Communauté virtuelle, influence réelle

Après l’échec de Coevolution Quarterly inspiré des théories écologistes, Brand lance en 1983 le Whole Earth Software Catalog pour identifier les meilleurs outils informatiques. Mais les longs cycles d’impression lassent Brand qui se passionne pour le système de la téléconférence informatisée du fait de sa capacité à fournir un feedback immédiat. Il lance alors le WELL qui s’appuie sur un système de bulletins électroniques (BBS). Peu coûteux, le WELL proposait un système d’auto-gouvernance qui pourrait ressusciter le rêve néo-communaliste d’une communauté de conscience partagée. A l’heure des « organisations en réseau » (Manuel Castells), le WELL devient un tremplin professionnel pour ses personnalités comme Howard Rheingold qui exporte le terme de communauté virtuelle ou John Perry Barlow qui s’accapare le mot « cyberespace » et décrit l’Internet comme une « frontière électronique. » L’arrivée de hackers sur le WELL pousse Barlow à considérer le hacking comme une composante majeure de la liberté d’expression dans le cyberespace. En réaction à leur répression par le gouvernement, il crée l’Electronic Frontier Foundation qui joue encore aujourd’hui un rôle déterminant dans la défense des libertés numériques.

A la fin des années 80, la rhétorique de la « nouvelle économie » et de la dématérialisation prend de l’ampleur. Le président Reagan affirme en 1988 : « l’invention humaine rend de plus en plus obsolètes les ressources matérielles. » (p.277) Brand est alors fasciné par Nicholas Negroponte qui présente en 1984 le projet du futur Media Lab du MIT qu’il considère comme le foyer d’une nouvelle forme de performance artistique et technologique « [faisant] de l’individu le pilote des nouvelles technologies. » (p.183) Alors que les entreprises se passionnent pour les réseaux et les organisations alternatives, Brand anime une série de conférences pour de grandes entreprises organisée par le Global Business Network (GBN). Il utilise son expérience des happenings et propose aux chefs d’entreprise une intense expérience de communion interpersonnelle. En liaison avec le WELL, Brand tente de constituer avec les membres du GBN une élite collaborative et nomade capable de distinguer des lois invisibles au coeur des systèmes naturels et économiques.

Wired à la jonction entre contre-culture et ultra-libéralisme

Les années 1990 donnent un tournant plus politique au parcours de Brand et de ses acolytes. Un républicain anti-étatiste et individualiste membre du WELL, Louis Rossetto, recrute Kevin Kelly disciple de Brand et éditeur de Coevolution Review pour créer le magazine Wired. En utilisant la rhétorique universaliste et les réseaux du Whole Earth, Wired propose un forum permettant à la nouvelle droite au sein du parti républicain de répandre ses analyses libertariennes. Le réseau y est décrit comme une œuvre de la main invisible, « une forme exaltante de métaphore pour décrire un ordre spontané. » (p.344) En 1997, comble de l’euphorie technologique qui précéda l’éclatement de la bulle Internet, Wired annonce en couverture le long boom : « 25 ans de prospérité, de liberté et d’un meilleur environnement. »

Repenser les origines de l’utopie numérique

Au delà de mettre en lumière le rôle méconnu de Stewart Brand dans la formation de l’utopie numérique et des réseaux sociaux qui l’ont portée, Fred Turner apporte une importante contribution à la compréhension des objets-frontières tels que le Whole Earth Catalog ou le WELL dans la constitution des imaginaires des techniques. L’ouvrage nous pousse à reconsidérer les sources intellectuelles d’Internet au confluent des transformations technologiques et organisationnelles des laboratoires militaires et de la pensée cybernétique. Il pèche néanmoins par sa rhétorique universalisante qui limite l’histoire sociale de l’utopie numérique à l’environnement américain de Brand et ignore ainsi les expériences de l’équipe d’Alan Turing à Bletchley Park ou l’émergence du mouvement Free/Libre Open Source autour de Richard Stallman aux Etats-Unis ou de Linus Torvald en Finlande. Forest Gump de l’Internet, Aux Sources de l’utopie numérique nous fait parcourir l’histoire américaine en suivant un esprit audacieux imprégné des idéaux et des expériences de sa jeunesse qui parvient à former les réseaux et les imaginaires des objets de notre quotidien. 

Ouvrir la boîte noire de l’open data : quelques premières pistes issues des coulisses

Ce billet résume la communication que nous avons présentée avec mon directeur de thèse, Jérôme Denis, lors de la journée d’étude du projet SACRED «Penser l’écosystème des données : les enjeux scientifiques et politiques des données numériques»  le 14 février à l’ISCC. Elle pourrait faire l’objet d’une publication dans un numéro spécial de la revue Questions de Communication. C’est une version simplifiée de ce travail que nous vous présentons ici. 

Ouvrir la boîte noire de l’open data

Les discours sur l’open data ont pour point commun de s’accorder sur l’existence de données et même de données brutes dans les administrations et dans les entreprises, qui constitueraient un gisement, une mine d’or ou un nouveau pétrole. Une évidence qui est rarement discutée tout comme les modalités de la production des données publiques et les usages avant libération qui restent dans l’ombre des réflexions sur l’Open Data.

En parlant de « libération », de « transparence » ou plus encore de donnée « brute », le discours médiatique et politique sur l’open data présente l’universalité des données comme une évidence et efface leurs conditions de production. Il s’agit ici de remettre en cause cet effacement pour montrer l’intérêt qu’il y a à ouvrir la boîte noire des données ouvertes.

En documentant les coulisses de l’open data, il s’agit de lutter contre un risque de néo-positivisme qui peut avoir des conséquences politiques, économiques et organisationnelles importantes mais aussi parce que les acteurs de l’open data eux-mêmes ont tout à gagner à reconnaître et analyser les processus complexes qui se jouent en amont de la libération des données.

Les STS à la rescousse : quatre enseignements utiles pour comprendre l’open data

La question de l’effacement des conditions de production des données est en fait un grand classique en sciences sociales, puisqu’elle a été au cœur des premiers travaux en Science and Technology Studies (STS). Puis, la question de la fabrication des données et de leur rôle dans l’organisation de la science a ensuite été largement discutée, notamment avec l’avènement des grands projets scientifiques internationaux et interdisciplinaires qui ont précisément été les sites de l’invention en quelque sorte de l’Open Data : astronomie, sciences biomédicales, cristallographie, etc. [voir à ce sujet l'article sur ce blog sur l'ouverture de données en sciences du vivant] Les STS, qui se sont aussi penchées sur le rôle des données dans les pratiques comptables et gestionnaires, s’inscrivent dans le  Practice Turn (le tournant pratique) en sciences sociales qui consiste  à observer les activités qui assurent l’existence de certaines choses qui étaient jusque là considérées comme évidentes et non problématiques.

Si on confronte ces travaux à notre enquête sur les pratiques d’ouverture de données, les STS nous proposent quatre principaux apports :

  • [#1] les données travaillent l’organisation : la fabrique des données répond à un travail collectif dans lequel les tâches sont divisées répondant à une division morale du travail. On a ainsi pu voir l’importance des « petites mains » qui se chargeait du sale boulot de la recherche (Hugues) et, qui plus est, étaient invisibilisées au moment de la publication, c’est-à-dire de la vie officielle des résultats.
  • [#2] les données font l’objet d’un travail, elles ne tombent pas du ciel. Les STS décrivent le bricolage des scientifiques, à l’opposée même de la distinction de Lévi Strauss entre science et bricolage. qui n’hésitent pas à avoir recours à des chiffres intermédiaires, souvent incohérents avant leur fixation dans ce qu’on appelle une «donnée».
  • [#3] les données sont ancrées, elles sont prises dans des écologies pratiques spécifiques, c’est-à-dire qu’elles sont adressées à certaines personnes et orientées vers certains problèmes. Précisément, elles sont indexicales : leur sens, leur intelligibilité sont intrinsèquement liés au contexte local de leur usage.
  •  [#4] Les données sont politiques. Elles font exister des entités, créent des exclusions et peuvent masquer facilement la multiplicité du réel. Par exemple, la constitution de bases de données géographiques a nécessité de délimiter des frontières à des pays qui n’étaient pas stabilisés dans la diplomatie (les territoires palestiniens, les frontières entre la Chine et l’Inde).

Ces quatre principaux apports nous offrent des pistes pour explorer les coulisses de l’open data, mais aussi pour comprendre les spécificités des données publiques. Les premiers résultats qui suivent s’appuient sur une trentaine d’entretiens conduits notamment au sein de plusieurs entreprises françaises qui travaillent sur l’open data, Etalab la mission en charge de la mise à disposition de données de l’Etat, plusieurs collectivités territoriales ayant libéré des données et une organisation internationale réfléchissant à l’ouverture de ses données.  Les résultats sont anonymisés tant au niveau de l’organisation que des personnes interrogées pour des raisons de confidentialité du travail des agents et le fait que les projets sont en cours. Les entretiens ont eu lieu avec les personnes en charge du projet, les producteurs de données et les techniciens qui ont mis en place les outils de l’ouverture des données.

[#1] Des données qui travaillent l’organisation

L’ouverture de données a un cout pour l’organisation et implique des répercussions sur son fonctionnement à ne pas négliger.

L'annuaire du service public : un outil détourné de son objectif initial qui a servi à constituer un schéma de fonctionnement de l'Etat

L’annuaire du service public : un outil détourné de son objectif initial qui a servi à constituer un schéma de fonctionnement de l’Etat

Le déploiement de data.gouv.fr nécessitait d’identifier les producteurs de données et leurs relations afin de rattacher une donnée à la structure qui l’a produite. Cela implique de produire un organigramme de l’Etat alors que c’est une structure sans cesse mouvante. En témoigne la mission Etalab elle-même rattachée au Secrétariat Général du Gouvernement puis au Secrétariat Général de la Modernisation de l’Action Publique (SGMAP), qui lui-même fait suite à la Direction générale de la modernisation de l’Etat (DGME) et au rattachement d’autres structures. La constitution d’un portail qui relie les données à une entité productrice nécessite de figer la structure dans une ontologie. L’outil qui a permis de constituer ce référentiel est l’annuaire du service public http://lannuaire.service-public.fr/ qu’il faut en permanence consolider et maintenir car, servant initialement à contacter les agents du service public, il est détourné de son usage initial.

L’open data implique aussi une transformation des métiers. La DSI n’est plus uniquement une fonction support avec l’open data, un service pour l’interne, mais elle voit sa prérogative s’étendre aux métiers de la communication. C’est une transformation du travail des agents qui doivent découvrir de nouveaux métiers : animer la réutilisation des données, rencontrer associations/développeurs, organiser des hackathons.

A l’échelle de l’organisation, il s’agit de repenser sa place dans son environnement. Par exemple, on a pu observer une organisation internationale qui a conscience que ce projet transformera son métier et sa fonction : pour elle, l’open data n’est pas un programme mais une transformation.

[#2] Rebrutifier et mettre en qualité : la donnée se travaille

L’open data se trouve en tension entre le besoin de stabiliser les données pour limiter le travail de maintenance et accepter leur caractère dynamique. En ouvrant des données, on admet que la donnée est une denrée périssable qui nécessite une logistique et un travail de maintenance. Au delà de la question de la simple obsolescence des données, se pose le besoin de transformations nécessaires à l’ouverture de données ?

Au niveau des données elles-mêmes, l’opération qui consiste à «rebrutifier» joue un rôle

" Raw data is an oxymoron" paraitra en mars 2013. Une note de lecture de ce livre très attendu sera bien sur publiée sur ce blog.

prédominant. Ce néologisme dont m’a fait part une personne en charge de la maintenance d’un portail open data questionne directement l’idée même de donnée brute. Parmi les opérations qu’on peut regrouper dans le terme «rebrutifier», l’action d’harmoniser revient fréquemment. Il s’agit de s’accorder sur un identifiant unique pour permettre les croisements de données. Par exemple, dans une collectivité locale qui a publié des données sur le transport public, il a été nécessaire de s’accorder sur un seul nom aux arrêts de bus qui variaient entre la fiche horaire ou le plan pour une simple raison de place disponible. «Rebrutifier» implique aussi d’enlever les traces d’usage (les commentaires, les couleurs dans un document, les graphiques) qui laissent apparaitre le travail de l’agent. Toutes ces opérations témoignent du fait que le brut se fabrique.

Au niveau de l’organisation, les opérations qu’on recoupe sous l’appellation «mettre en qualité» impliquent la mise en place de processus d’automatisation ou de pratiques pour assurer la maintenance des données. Il s’agit d’intégrer l’open data dans le travail ; Henri Verdier, le directeur de la mission Etalab, parle dans une interview récente de «routiniser» l’ouverture des données publiques. Pour un agent en charge de la maintenance des bases de données dans un organisme de transport public, l’open data implique de ne plus produire les données «en vase clos». Auparavant une incohérence se réglait par des relations informelles entre producteurs de données, un simple coup de fil suffisait. Désormais, pour cet agent, une incohérence peut potentiellement toucher jusqu’à 300 000 personnes.

[#3] Rendre la donnée intelligible et universelle

Au niveau des données elle-même, l’ouverture de données implique de fabriquer une universalité qui permettra aux données d’être utilisées par d’autres.  Cette opération consiste à désindexicaliser les données, c’est-à-dire effacer des références qui n’ont pas de sens hors du contexte de production de la donnée. Dans le cas des données de transport évoquées précédemment, la base de données indique des bus qui passent à 26h30 afin de rester dans le cadre de la même journée de travail. Pour publier ces données, l’agent a développé des «moulinettes», des outils qui servent à transformer la donnée en quelque chose d’intelligible. Désindexicaliser consiste à alors à créer un contexte «universel» pour la réutilisation des données. Cela nécessite d’effacer les abérations qui n’en sont pas dans le contexte de production de ces données métiers qui servent au travail quotidien des agents.

Une autre opération consiste à «délocaliser» la donnée. L’application Handimap à

Réutiliser des données provenant de deux villes différentes nécessite souvent un retravail important pour s'adapter aux spécificités locales des données.

Réutiliser des données provenant de deux villes différentes nécessite souvent un retravail important pour s’adapter aux spécificités locales des données.

Rennes implantée à la suite à Montpellier qui permet de calculer des itinéraires pour personnes à mobilité réduite révèle que les données sont fortement liées à leur contexte de production. Pour implanter un tel service dans une nouvelle ville,  il serait nécessaire de s’accorder sur des formats communs de données entre les villes.  Sans une standardisation des données, des fonctionnalités de l’application sont à redévelopper pour un nouveau déploiement. L’aide d’Handimap indique même que les critères d’un itinéraire accessible diffèrent entre les deux villes.  On touche ici aux limites des données issues du travail des agents administratifs qui sont des données métiers qui ne sont pas conçues pour être publiées. Alain Desrosières expliquait dans "Décrire l’Etat ou explorer la société : les deux sources de la statistique publique" que les sources administratives sont territorialisées. Leur format et leur contenu diffèrent selon l’administration en charge de sa production ce qui rend difficile les comparaisons et les réutilisations à l’inverse des enquêtes statistiques.

Notre étude montre que les producteurs de données et les services en charge de l’open data se préfigurent les usages avant d’ouvrir les données ce qui a un rôle déterminant dans la sélection des données publiées. Le discours sur l’open data est porteur d’une utopie dans laquelle la donnée brute concerne tout le monde puisqu’on ne peut pas et ne doit pas prévoir les réutilisations. Pourtant, mes observations montrent que le producteur de donnée se pose très fréquemment la question de savoir qui est intéressé par le jeu de donnée. Par exemple, lors d’une réunion entre des militants de l’open data et une collectivité territoriale, un élu disposait d’une liste des données publiables. Chaque jeu de donnée à publier faisait l’objet d’un commentaire «c’est intéressant» pour les données à publier. L’élu se faisait alors une représentation mentale des usages possibles du jeu de données basée sur ses représentations des réutilisateurs. Mais qui représente alors les utilisateurs ?

[#4] Montrer un réel multiple et sensible

Enfin, les STS nous rappellent que les données et leur libération fixent des choses du réel et produisent des distinctions par les catégories.

L’opération de mise en place d’ontologies nécessite de définir des limites aux objets désignés par un jeu de donnée. Par exemple, il apparait dans plusieurs institutions étudiées que la définition d’un square ou d’une gare varie selon le périmètre d’action du producteur de la donnée. A travers les données, le réel est multiple dépendant en grande partie du contexte de production de données peuvent le réduire ou l’aplatir.

Les portails open data intègrent cette dimension en permettant une navigation par facettes, c’est-à-dire de critères uniques associés à chaque jeu de données comme le nom de l’entité qui a produit la donnée ou son périmètre. Cette fonctionnalité implique d’admettre qu’une réalité peut être décrite différemment selon le producteur de la donnée.

Si l’ouverture de données fixe les choses, elle donne à voir des entités jugées trop

Les réseaux d’eau potable : une infrastructure sensible dont on imagine les pires usages avant d’ouvrir les données.

sensibles. Le cas des données qui sont exclues de la publication pose la aussi la question des préfigurations des réutilisations. Dans le cas des réseaux d’infrastructures, peu de données sont publiées par crainte d’usagers très particuliers possiblement malveillants, comme un terroriste. Par exemple, beaucoup de municipalités disposent d’une cartographie précise du réseau d’eau mais aucune à ma connaissance ne publie ces données. La crainte d’une contamination du réseau d’eau dont la structure serait rendue visible avec l’open data explique que ces données ne sont pas exportées des systèmes d’information géographique des municipalités. Signe que la préfiguration des usages, même les plus radicaux et exceptionnels, guide l’ouverture de données.

La présentation s’est conclue par un questionnement sur un éventuel changement de paradigme dans l’open data, c’est à dire d’une théorie et d’exemples associés. Les communicants n’hésitent plus à expliquer la "cuisine interne" qui a conduit à l’ouverture des données tout en expliquant que ce projet sera un vecteur important de modernisation du service public. Nous postulions qu’il s’agit d’un abandon de la posture "utopique" adoptée dans les premiers temps de l’open data : les promoteurs de l’open data n’hésitaient pas à annoncer la grande ère de la transparence dans laquelle que les données ouvertes pourraient résoudre le changement climatique ou la crise financière. Henri Verdier, le directeur de la mission Etalab, présent ce jour, a pu apporter des précisions intéressantes sur ce point. Selon lui,  la promesse de changer le monde par l’ouverture des données n’est pas abandonnée. En se focalisant sur les implications du projet pour le fonctionnement de l’Etat, on adopte une posture pragmatique qui permet de débloquer certains verrous et ainsi de rendre possible le projet politique initial de l’open data. 

"Have computer, give me data" : une petite histoire de l’open data dans les sciences du vivant

Ce billet fait suite au séminaire du projet SACRED (Approche communicationnelle des recherches sur les données) du 20 décembre pendant lequel Bruno J. Strasser du département de biologie de l’université de Genève est venu présenté ses travaux sur l’histoire des données dans les sciences.

En étudiant l’histoire des bases de données dans la science (datadriven science), Bruno J.Strasser rappelle que les pratiques et les métiers de l’ouverture des données recoupent des usages anciens de collection et de classification qui avaient cours dès le XVIème siècle dans les sciences naturalistes. Retour sur la lente émergence de nouvelles manières de produire de la connaissance.

Tous aux abris : les météorologues de la donnée annonçent le déluge 

Que ce soit Wired, The Economist ou encore Science, tous s’accordent pour annoncer un déluge de données qui mettrait à défaut notre capacité d’analyse tout en offrant un potentiel formidable d’innovation pour la science. Les métaphores font florès comme celle de la tempête de données, du tsunami de données ou l’inondation de données avec l’idée sous-jacente que nous serions démunis comme face à une catastrophe naturelle.

Dans le domaine de la science, la croissance exponentielle du volume de donnée est parfois considérée comme la fin de la science telle que nous la connaissons. Un des principaux artisans de cette vision est le magazine Wired qui n’a pas hésité à titrer en 2008 sur la "fin de la science". Annonçant triomphalement l’arrivée d’un nouveau paradigme, Wired prétend que l’analyse de "pétabytes" de données" et la recherche de corrélations va remplacer la méthode hypothético-déductive. La recherche se réduit alors à collecter des données puis à analyser les corrélations qui sortent du traitement statistique. Cette vision rejoint les efforts insensés de Sergey Brin, co-fondateur de Google, dans la recherche en génétique d’un éventuel traitement à la maladie de Parkinson—Brin estimant avoir de très fortes probabilités d’être atteint de cette maladie à cause d’un test ADN.

De ces discours ambivalents, à la fois menaçants et porteurs d’espoir, deux prémisses semblent mettre tout le monde d’accord selon Bruno J. Strasser :

  • ce "déluge de données" est un phénomène nouveau : Strasser rappelle que ce sentiment de surcharge informationnelle (information overload) apparait dès la Renaissance et qu’à chaque fois, des techniques et des usages ont été crées pour y faire face ;  
  • ce sont les transformations technologiques qui vont permettre de donner naissance à une nouvelle ère de la science : l’histoire de la data-driven science montre bien que les facteurs humains jouent un rôle tout aussi déterminant dans l’émergence de nouvelles pratiques scientifiques.

Collectionner des données ou expérimenter : une querelle des Anciens et des Modernes ?

Cabinet de curiosité à ParisL’essor des sciences du vivant a été accompagné par l’apparition à la Rennaissance des cabinets de curiosité où étaient entreposées, classifiées et exposées des espèces hétéroclites. Amasser des plantes et des espèces naturelles était alors un divertissement commun pour la haute société de l’époque. Collectionner et montrer sa collection était un marqueur social d’érudition. Cette tradition de collection relevait principalement d’une science amateur et d’une tradition naturaliste qui aboutit au XIXe siècle aux muséums de sciences naturelles et leurs immenses collections d’espèces. Au début du XXème siècle, cette longue tradition déclina sous l’assaut de la science expérimentaliste qui consacre le laboratoire comme le seul lieu de la recherche scientifique.

Deux méthodes scientifiques et deux traditions épistémologiques divisent au milieu du XXème siècle les sciences du vivant :

  • les méthodes comparatives : collectionner, classifier, comparer, corréler ;
  • les méthodes expérimentales : observer, analyser, généraliser à partir du cas particulier.

Pour Bruno J. Strasser, la datadriven science trouve ses sources dans la tradition comparative dont les pratiques et les métiers sont similaires à celle de cette "nouvelle" manière de faire de la science.

Codifier le génome : une histoire de base de données  et d’individus

Dans une période où l’expérimentation triomphe comme la seule manière de faire de la "vraie" science, le projet de codifier et de numériser l’ADN dans les années 60 marque le retour à la tradition comparative. Enregistrer une base de données, classifier et comparer des séquences de protéines ne diffère pas des pratiques de collection et de comparaison des espèces dans la science comparative. Pour Strasser, le musée et le serveur sont deux objets standardisés qui servent à produire du savoir.

Le premier projet de constitution d’une base de données massive en génétique, l’Atlas of protein sequence, dirigé par Margaret Dayhoff fut un échec du fait de la difficulté à collecter les données venant de chaque laboratoire. Dayhoff ne parvenait pas à convaincre ses collèques de diffuser les données du génome dans sa base de données en raison d’un régime de propriété intellectuelle qui malgré un système d’accès par modem, ne permet pas la redistribution des données. Les données expérimentales sont alors un objet privé qui appartient à celui qui les a produit. Appliquant des techniques de cristallographie issues de la chimie, une discipline proche de l’industrie qui n’a pas pour habitude de diffuser ses données, le projet Protein DataBank lancé en 1969 ne parvient pas non plus à obtenir suffisamment de données et menace de fermer. Ce n’est finalement qu’à la fin des années 70 dans le Nouveau Mexique à l’Université de Los Alamos qu’un projet de base de données génétiques ne parvient à décoller. Il s’agit du projet GenBank conduit par Walter Goad, un scientifique au parcours tumultueux qui a participé sur la bombe H avant de concevoir ce projet qui comporte aujourd’hui les séquences de nucléotides de près de 300 000 espèces.  Quelles ont été les raisons du succès de ce projet ?

La recette de l’open science : échange de capitaux symboliques et apparence d’ouverture

Dès son lancement, GenBank est présenté comme un projet dans lequel l’usager est aussi contributeur. Dans les années 80, ce projet réussit le tour de force de l’open access à une époque où le partage des données des recherches n’a rien d’une évidence. Walter Goad met un place un système vertueux dans lequel il est indispensable de partager des données pour accéder aux publications. Selon Bruno J. Strasser, le succès de GenBank vient de son inspiration de la philosophie des économies morales, un système dans lequel les contributions s’équilibrent pour éviter le problème du passager clandestin (free rider)—en théorie économique, celui qui ne profite d’un système sans contribuer le mettant en péril.

Capture d’écran 2013-01-11 à 17.07.09

L’autre aspect du succès de GenBank sur lequel insiste Strasser, c’est l’apparence d’ouverture du système. "Une force importante de votre projet est son ouverture", écrit un ami de Goad dans une lettre. Pour obtenir le contrat qui a financé le lancement du projet en 1982, son concepteur ne cesse de donner des signes d’ouverture y compris en insistant sur la connexion du service au réseau Arpanet qui commence à relier les universités américaines.

Pour Strasser, le succès de GenBank réside finalement dans le registre symbolique et la communication plutôt que dans la technologie du service.

Nouvelles pratiques, nouveaux métiers

Capture d’écran 2013-01-11 à 17.13.26Avec la disponibilité de données génétiques de plus en plus importantes, de nouveaux métiers émergent, certains parlent même d’une "nouvelle espèce" de scientifiques" ("a new bride of scientists"). Les computational scientist font partie de cette nouvelle manière de faire de la science, ni vraiment expérimentale ni vraiment comparative, qui s’emploie à analyser les données que produisent d’autres. Ils revendiquent rapidement leur statut d’auteur scientifique en proposant des publications aux revues scientifiques, qui voient d’un mauvais oeil ces scientifiques qui abandonnent le microscope pour l’ordinateur en réutilisant les données mises à disposition. En 1987, le journal American Statistics réduit leur travail à cette expresion "Have computer, give me data", signe d’un malaise de la communauté scientifique devant ces chercheurs qui publient en leur nom avec les données des autres.

Autre métier déconsidéré : celui de "database curator", en charge d’enrichir les métadonnées et de nettoyer les données pour les rendre réutilisables. Strasser raconte le témoignage d’un database curator qui se plaignait que personne ne comprenait son travail à un cocktail lors d’une conférence et laissait entendre qu’il n’était pas perçu comme un collègue par ses pairs. On retrouve là une réaction commune devant le travail souvent déconsidéré des "petites mains de la société de l’information" souvent jugés comme des grattes papiers ainsi que l’expliquent Jérôme Denis et David Pontille dans leur article "Travailleurs de l’écrit, matières de l’information".

Le projet fold.it

Aujourd’hui, l’open access est la norme pour les publications scientifiques bien que les régimes de licence et les coûts de publication dans les principales revues forment un méli-mélo incompréhensible. Les pratiques de réutilisation de données scientifiques sont désormais courantes dans la recherche ; selon Strasser, un des prochains prix Nobel de médecine pourrait même ne "jamais avoir tenu une pipette de sa vie". Enfin, l’open science questionne le rôle du chercheur : son monopole remis en cause,  le modèle qui émerge rappelle celui des cabinets de curiosité à la Renaissance. En rompant avec l’emprise de la science expérimentale, il est possible d’envisager des formes de science ouvertes à tous. Par exemple, le projet Fold.it se présente sous la forme d’un jeu qui permet à chacun de contribuer à l’étude de la structure des protéines en résolvant des puzzle.

Open data : des termes aux multiples dimensions

Je reprends ici quelques idées contenues dans mon mémoire soutenu au Celsa "Open Data : qu’ouvre-t-on avec des données publiques ?" disponible en ligne en Creative Commons (CC By). 

"Open data" et "ouverture des données publiques" : deux termes apparemment anodins qui méritent qu’on s’arrête sur les représentations et les imaginaires qu’ils véhiculent. Dans le champ des médias informatisés, la nouveauté se cristallise avec l’apparition d’un nouveau terme qui désigne un ensemble de technologies souvent plus anciennes. Yves Jeanneret explique que le choix des termes et des représentations joue un rôle crucial dans l’appropriation d’un objet : « l’imaginaire contenu dans les mots et les images fait davantage qu’accompagner les objets, il les constitue. » 1 

Les multiples dimensions de l’open data

Dans "open data", le terme "open" désigne trois dimensions qui font la force de ce concept :

  •  en tant qu’adjectif, il désigne la caractéristique de données ouvertes. Pour distinguer les données dites ouvertes, l’Open Knowledge Foundation a mis en place l’Open Definition qui décline les 10 critères d’une donnée ou d’un contenu libre ;
  • en tant que nom composé, open data désigne un mouvement en faveur de l’ouverture de données et le processus qui mène à cet objectif ;
  • quand "open" se décline à l’impératif, open data prend la forme d’une injonction à l’ouverture adressée aux organisations publiques et privées.

Le terme "donnée" ou "data" délimite un champ sémantique tout aussi large composé de deux dimensions principales selon la définition du Trésor de la Langue Française:

  • la donnée comme fondement de la connaissance : " ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche" ;
  • la donnée comme processus informatisé de collecte et de traitement de l’information : "l’ensemble des indications enregistrées en machine pour permettre l’analyse et/ou la recherche automatique des informations."

Le site open data de la ville de Rennes présente une définition de la donnée qui intègre les deux dimensions du terme "données".
Source : http://www.data.rennes-metropole.fr/les-donnees/catalogue/

Deux dimensions qui font de la donnée un objet ambivalent : en tant que "source de toute connaissance", elle participe à la vision réductrice du savoir qui fait des données le fondement de toute information, une approche que répand la science de l’information dans les pays anglo-saxons avec le modèle Data-Information-Knowledge. Mais la définition du terme "donnée" intègre aussi l’idée que les données sont avant tout des objets informatisés et mathématisés. Si l’on s’en tient aux définitions des termes employés, l’open data promeut une vision chiffrée du monde à laquelle chacun aurait désormais accès. Qu’en est-il dans la version française du terme ?

Traduttore, traditore : libère-t-on les ou des données publiques ?

Le français traduit généralement le terme "open data" soit en "ouverture des données publiques" soit en "libération des données publiques". Ces deux termes perdent les multiples dimensions de l’expression "open data" : en parlant d’ "ouverture", on évoque uniquement un processus alors que le terme libération convoque un imaginaire de captivité, qui fait de la donnée le prisonnier relâché par la grâce étatique.

Parfois, une différence d’une lettre peut avoir des conséquences considérables sur la manière dont un objet est perçu par le public. En évoquant la libération des données publiques, la traduction d’ "open data" remplace le tout (l’intégralité des données publiques) par une partie (les données mises à disposition sur les portails open data).  Cette expression a recours à la figure rhétorique de la synecdoque qui procède par l’extension du champ sémantique d’un terme. L’expression prête à confusion : en ouvrant quelques jeux de données, une institution aura effectuée la libération de ses données publiques. Les ambitions des projets open data divergent mais tous se réunissent sous la bannière de la "libération des données publiques" ce qui explique qu’une association comme Libertic en vienne à critiquer les "tartuferies" de l’open data en France.

Sans jouer un rôle primordial dans l’évolution de l’open data en France, le choix des termes montre une certaine vision des acteurs qui les ont choisis ou les utilisent. L’expression "mise à disposition de données publiques" pourrait suffire à décrire le concept. Alors que je participe au lancement de l’Open Knowledge Foundation en France qui est le fer de lance de l’ouverture (rendez-vous le 12 décembre à la Cantine pour un premier meetup), j’attends vos réactions sur cette réflexion sur les termes en vigueur dans l’open data.


1. Yves Jeanneret, Penser la trivialité . Volume 1 : la vie triviale des êtres culturels, Paris, éditions Hermès-Lavoisier, 2008.

Le compteur d’Orléans

Paris, métro Porte d’Orléans, octobre 2012.

Le poinçonneur des Lilas a disparu, remplacé par des machines qui oblitèrent le ticket, valident le Navigo et par la même occasion, comptent les passagers (enfin je suppose). Le métro Porte d’Orléans se trouvant au terminus de la ligne 4, les concepteurs de la station de métro ont fait le choix de ne pas mettre de portes-palières qui, tout en bloquant les resquilleurs, facilitent le comptage des passagers.

En cette heure de pointe, la station est cernée à chaque sortie par des personnes arborant des gilets rouges, rappelant les périodes de pointe des gares. Leur veste indique au passant "enquête" au dos et "comptage" en face. Ambivalence du rôle de ces enquêteurs qui se partagent la tâche du comptage des voyageurs et du sondage qualitatif qui informera la RATP de la satisfaction des usagers.

La feuille de papier de l’enquête a été remplacée par un iPad qui affiche les questions et recueille les réponses. Plus surprenant, une des personnes à la sortie utilise ses doigts pour compter les voyageurs. Probablement une solution provisoire en attente du compteur manuel du type de ceux qu’on trouve dans les avions.

Le compteur d’Orléans nous rappelle que les données ne tombent pas du ciel. Des "petites mains" comptent, évaluent et estiment le nombre de voyageurs qui passent chaque année dans les stations du métro de Paris avant que ce chiffre soit compilé avec les données récoltées de manière automatique, harmonisé et publié dans un fichier sur data.gouv.fr.

Pour vous expliquer simplement, ma thèse consiste à comprendre ce qui passe entre les deux images qui illustrent cet article.

data.gouv : fichier de la RATP trafic de voyageurs

Data.gouv.fr met à disposition un fichier qui comporte le trafic annuel de chaque station

Open Knowledge Festival 2012 : l’ouverture à toutes les sauces

Pour inaugurer ce blog qui sera mon carnet de recherche tout au long des trois ans de ma thèse, je reviens sur l’Open Knowledge Festival (OKFest) qui se tenait du 17 au 22 septembre à Helsinki. Le choix de la Finlande par l’Open Knowledge Foundation n’est pas anodin : comme beaucoup de pays nordiques (les Finlandais ne sont pas scandinaves), la Finlande se distingue par une culture de l’ouverture qui fait qu’un tel événement coïncide bien avec la culture du pays.

Les organisateurs ont pu bloquer pendant une semaine l’impressionnante école du design de l’université Aalto qui s’est avérée être le lieu idéal pour un tel événement : immenses studios de cinéma pour le hackspace, un Fab Lab dans l’université et des dizaines de salles de conférence. Avec cette logistique, l’Open Knowledge Foundation a pu voir grand : le programme s’étale sur pas moins de 13 sujets qui se sont déclinés toute la semaine.

Inspire, hack, make+meet at Open Knowledge Festival L’Open Knowledge Foundation a inscrit tous les événements sous la bannière d’un thème : "open knowledge in action". Pour dépasser les éternelles discussions sur les vertus de l’ouverture, des verbes d’action rythmaient chacune des séquences du programme : INSPIRE, HACK, MAKE, MEET. Tour d’horizon de quelques moments forts de l’Open Knowledge Festival.

Les "makers" à l’honneur

Badge Open knowledge Festival gravé en 3D

Pour nous en mettre plein les yeux, les organisateurs ont eu l’idée de graver au laser 700 badges nominatifs sur des planches de bois. L’ "open hardware" et les "makers" ont ainsi rythmé la semaine : fabrication d’un graveur laser en quelques heures, découvertes de toutes les variétés possibles d’imprimantes 3D, visite d’un makerspace (Made in Kallio) où l’on conçoit des vêtements, on imprime des objets en 3D et on fabrique des appareils qui automatisent les cultures hydroponiques.

Pour l’instant, l’impression 3D relève du gadget mais on peut voir émerger des applications concrètes. Par exemple, cette figure de Yoda préfigure une des premières victimes des imprimantes 3D qui pourraient être l’industrie du merchandising. Bien que l’impression 3D ne produisent pas encore d’objets lisses, jusqu’à quand les détenteurs de droits d’auteurs vont-ils pouvoir vendre à prix d’or qui peuvent être facilement reproduits avec ce genre d’appareils ?

Les sciences humaines se penchent sur l’open data et son impact

La session sur la recherche sur l’open data a permis de mettre en avant des projets en sciences humaines portant sur les données publiques.

Antti Halonen, chercheur au Finnish Institute of London, nous a présenté son pasionnant papier "Being open about open data" pour lequel il a interrogé une centaine de représentants de communes britanniques ayant entrepris une démarche d’open data. Un article à remettre un perspective avec le contexte britannique où les données financières des communes sont publiques et réutilisables par défaut (voir l’excellent site OpenlyLocal).

Ses conclusions soulèvent d’intéressantes pistes à creuser pour les recherches à venir :

- l’open data a été jugé comme remplissant un objectif politique ;

- l’autorité nationale en charge de l’ouverture des données a été jugée avec défiance car les communes ont perçu cette initiative comme une manière de restreindre leurs dépenses ;

- l’intérêt général autour des données libérées était plus faible qu’attendu ;

- le terme "open" a été perçu différemment entre la communauté open data et les personnes en charge de la mise à disposition des données.

Plus largement, son papier invite à ne pas négliger la dimension politique de l’open data et l’incompréhension que peuvent susciter une démarche d’open data imposée par le haut sans concertation.

Allotment data on the Guardian

Farida Vis, chercheuse à l’Université de Leicester, présentait son travail sur les données liées aux allotments, des terrains publics qui, en Grande Bretagne, sont réservés aux citoyens pour y faire pousser des légumes. Elle a constaté que l’allocation de ces terrains faisait l’objet d’une "loterie" aux critères obscurs. Les données concernant l’allocation de ces terrains sont fragmentées, propriété à la fois des associations en charge de la gestion des terrains, des communes. Elle est alors partie à la chasse aux données, en revendiquant leur disponibilité du fait du Freedom of Information Act qui en Grande-Bretagne permet de demander l’accès et la réutilisation des données. Le site Allotment Data  regroupe des données concernant la liste d’attente, les coûts de location et d’entretien du terrain et surtout leurs conditions d’attribution. Pour Farida, ce sont des données "vraiment utiles" qui servent la population de manière très concrète. Après avoir rendu publiques les données en 2006, les tabloids se sont saisis de l’affaire et ont dénoncé les conditions opaques d’attribution des terrains. Dans ces médias grand public, Farida explique que la question de l’open data a été complètement éludée car seul comptait le scandale de l’attribution des terrains. "Drop a bit of open data", clame-t-elle, il s’agit avant tout de parler des conditions sociales de l’accès à l’alimentation.

Simon Rogers (Guardian) : une visualisation ne suffit pas à faire du datajournalisme

L’intervention de Simon Rogers, en charge du Datablog du Guardian, a marqué le départ de la session sur le datajournalisme. Selon lui, la disponibilité des données dans des portails open data n’est pas suffisante : "Bahrein et l’Arabie Saoudite ont des portails open data, cela n’en fait pas des sociétés transparentes". Il estime que les visualisations ne suffisent pas à donner du sens à un phénomène. Il faut raconter une histoire avec des données en s’appuyant  sur les méthodes du récit journalistique ou en utilisant les données pour raccrocher à l’histoire personnelle du lecteur. Il donne l’exemple de cet outil  qui permet à chacun d’identifier où ses revenus se situent par rapport au reste de la population britannique.

Cartes des émeutes de Londres en fonction de la pauvreté des émeutiersLes données peuvent aussi servir à questionner les préjugés qui sont communiqués dans les médias. Lors des émeutes à Londres, le Datablog a utilisé les données disponibles sur les personnes condamnées pour remettre en cause l’affirmation de David Cameron pour qui "les émeutes n’ont rien à voir avec la pauvreté". Les datajournalistes ont choisi de se baser sur l’adresse du condamné, plutôt que sur le lieu du délit, pour montrer une corrélation entre la pauvreté et la participation aux émeutes.

Etendre l’open data à l’économie

Le hackspace de l'open knowledge festival à Helsinki

Le hackspace de l’open knowledge festival

L’OKFest a aussi permis de révéler les projets d’entreprises qui se lancent dans l’open data. Simon Redfern, qui a créé Tesobe, a présenté Open Bank qui développe une API faisant l’interface entre le système d’information d’une banque et des applications pouvant réutiliser les données des clients qui ont choisi de les libérer. Open Bank vise en premier lieu les organisations caritatives qui, du fait des dons qu’elles reçoivent, pourraient se voir exiger de donner accès aux transactions qui s’effectuent sur leurs comptes. Les particuliers pourraient aussi avoir recours à un tel service pour utiliser des applications tierces comme Fairnopoly ou MoneyGarden pour gérer leurs finances. Un projet qui s’inscrit dans la lignée de l’API du Crédit Agricole (qui a consulté Tesobe) ou de l’ambitieux projet Midata soutenu par le gouvernement britannique (dont la FING travaille sur une adaptation en France).

En guise de démo, Simon a tenu à nous présenter son application qui émet un bruit différent selon si l’argent entre ou sort du compte de sa société, et selon le montant. C’est inaudible mais ça explique le titre de sa présentation "pourquoi votre banque devrait chanter".

Plus concrètement, Open Bank est un projet open source qui vise à créer un standard dans la diffusion des données bancaires. Il serait intéressant d’assister aux discussions musclées entre les DSI des banques qui ont la sécurité des données pour priorité et cet acteur de l’ouverture.

Dans la même veine, le barcelonais Javi Creus a résumé les avantages de l’ouverture pour des entreprises. Il revient sur quelques exemples bien connus d’entreprises ayant eu recours à l’open data ou à l’open source pour développer leurs activités : IBM qui a failli disparaitre s’il n’avait pas soutenu Linux, Google qui a envahi le marché des téléphones en quelques années avec Android… Plus surprenant, le restaurant El Bulli, réputé comme le "meilleur restaurant du monde", qui fait l’objet d’un long article dans Wired ce mois-ci,  entreprend la constitution de la Bullipedia. La elBulli Foundation, qui a remplacé le restaurant fermé en 2010, chapeautera la Bullipedia qui contiendra les recettes du restaurant, ses techniques et même les plans de certains moules utilisés dans le restaurant spécialiste de la cuisine moléculaire. Javi cite aussi l’exemple d’Arduino, le circuit imprimé qui sert à bon nombre de projets Do It Yourself actuels, dont toutes les spécifications sont ouvertes et réutilisables. Seule la marque Arduino fait l’objet d’une licence qui oblige de les entreprises à reverser 10% des revenus des ventes du circuit imprimé.

Le débat sur l’open science continue

Le mouvement open data trouve ses sources dans l’open science qui postule que les publications scientifiques et les données de recherche sous financement public doivent être publiées sous licence ouverte (Creative Commons) et réutilisables. Cette revendication a mené à la création de nombreuses revues scientifiques dites "open access". Mais derrière cette bannière, les licences et les coûts de publication varient énormément comme le montre ce graphique de Ross Mounce qui positionne les revues selon ces deux facteurs :

Open science revues graph

L’hétérogénéité des régimes s’explique par le cout qui peut provenir de la publication et du travail de relecture par les pairs (les relecteurs sont toutefois rarement payés). Se pose alors la question du coût du gratuit : qui doit soutenir l’existence et la pérennité des revues en open access ?

Au delà de la question de l’accès ouvert aux publications, les scientifiques présents à l’OKFest sont revenus sur l’accès libre aux données de la recherche. Venu spécialement de Sidney, Mat Todd présentait un cas intéressant d’application de l’open source à la recherche pharmaceutique. Il dépeint un tableau noir de l’avenir de la recherche pharma : découvrir un médicament prend beaucoup de temps, les maladies deviennent de plus en plus difficiles à traiter et les laboratoires ne découvrent pas assez de nouveaux traitements pour rester rentables.

S’appuyant sur la métaphore bien connue de la cathédrale et du bazar, Mat Todd prône l’application des principes de l’open source à la recherche pharmaceutique. Dans le cadre du traitement de la schistosomiasis qui affecte 400 millions de personnes dans le monde contaminées par l’eau qu’elles consomment, il a expérimenté une méthode où chaque étape de sa recherche était publique, discutable et revue par des pairs sur le site The synaptic leap. Il y publie régulièrement les données de son laboratoire et l’avancée de ses recherches. Cette démarche a attiré rapidement des spécialistes qui ont déposé des micro-contributions qui ont fait avancer rapidement le projet. Les discussions avaient lieu sur le site mais aussi sur la page Google+ informelle du projet. Au terme du projet, ils sont arrivés à obtenir une manière de synthétiser le traitement de la schistomastis bien moins couteuse que les médicaments existants. Mat Tood plaide pour une science dans laquelle la publication de chacune des étapes du cycle de la recherche permettrait de disposer continument de l’avis et des remarques des spécialistes d’un champ particulier. Il appelle cela continually peer-reviewed research.

La statistique : vedette de l’OK Fest

Le rapport des Ponts sur l’open data "Pour une politique ambitieuse des données" commence par cette citation de Hal Varian, économiste en Chef chez Google "Je répète sans cesse que la profession sexy dans les dix prochaines années, ce sera statisticien. Et ce n’est pas de l’humour". Quelques projets présentés par les grands organismes statistiques donnent, dans une certaine mesure, raison à cette prédiction.

Lors de la session sur les données du développement, l’institut national Statistics Finland a présenté son projet Findicator qui vise à faciliter l’usage des données statistiques publiques par les politiciens, leurs assistants, les journalistes et les journalistes. Le site est le fruit d’une enquête de plusieurs mois/années sur les usages de la statistique par leurs acteurs du débat public. Il permet de présenter de manière simple les données disponibles sur la Finlande, de les visualiser et renvoie vers les équivalents internationaux. L’Insee devrait s’en inspirer tant le site est simple et facilite l’accès à la statistique.

L’OCDE est venue présenter son projet Better Life Index  dans lequel chacun peut définir son indicateur de bien-être en fonction de ses critères : sécurité, éducation, économie… Ils ont recours aux services d’un data-journaliste, Moritz Stefaner, qui a eu l’idée d’une visualisation en pétale de chaque critère.

Dans la même veine, le projet Yourtopia permet à chacun de créer son propre indicateur de développement à l’échelle internationale et à l’échelle d’un pays.

Hans Rosling Open Knowledge Festival

Hans Rosling expliquait l’évolution de la population dans le monde avec des rouleaux de papier de toilettes (image : cc OKFN)

Pour conclure cet aperçu de l’Open Knowledge Festival, je voulais revenir sur l’intervention du charismatique scientifique suédois Hans Rosling qui dirige la fondation Gapminder. Le médecin suédois adepte de la data-visualisation est revenu sur la difficulté d’obtenir des données au début de son projet. Arborant une canne à pêche pour pointer les chiffres qu’ils présentent, ses visualisations et son récit pointent du doigt nos préjugés sur l’évolution des populations dans le monde et de la santé de ses habitants. Un des points les plus intéressants de son intervention, que vous pouvez retrouver dans le compte-rendu du blog du Monde "J’ai du bon data", est sa réflexion sur le rôle des données dans la manière de raconter des histoires : "Vous ne faites pas grand chose avec l’open data, vous ne faites pas grand chose avec la visualisation de données, mais ce sont deux outils formidables pour raconter des histoires." Ramener les données à un outil pour raconter des histoires, un bon résumé du thème de ce festival : open knowledge in action.