Rions un peu avec le web de données du Ministère de la Culture

[update du 26/11/2012 : le site data.culture.fr, cité ci-dessous, a été modifié le 22 novembre, après la parution de ce billet et ses mentions légales ont été supprimées. Les captures d’écrans figurant ci-dessous attestent encore de l’état antérieur]

En matière de diffusion des données culturelles en France, il y a hélas souvent bien plus d’occasions de pleurer que de rire.

Nightmare Fuel. Par michaeljesusday. CC-BY. Source : Flickr

Cette semaine était cependant un peu plus réjouissante, avec la signature d’une convention entre Wikimedia France, l’INRIA et le Ministère de la Culture autour du projet Semanticpédia, qui vise à sémantiser plusieurs jeux de données issues des projets de Wikimedia. Ce travail collaboratif représente un enjeu important afin que les données culturelles francophones investissent le web de données et il devrait permettre à terme aux institutions culturelles françaises de récupérer des données enrichies pour améliorer la diffusion de leurs contenus en ligne.

A cette occasion, Aurélie Filippetti a prononcé un discours dans lequel c’est la première fois qu’un Ministre de la Culture invite les établissements culturels français à contribuer à l’enrichissement des données de Wikipedia :

Mais ce partenariat ne saurait être à sens unique. Le savoir  accessible sur Wikipédia est en perpétuelle construction et peut bénéficier pleinement de l’expertise du ministère. C’est pourquoi nos établissements sont invités à leur tour à consolider, à enrichir ou à rectifier s’il y a lieu les données figurant sur Wikipédia, afin non seulement d’augmenter la qualité de ses articles en langue française, mais aussi son efficacité sur le Web sémantique.

Tout ceci est fort bien et fort beau et je ne conteste nullement que cette signature marque un jalon majeur pour la reconnaissance de Wikipédia, ni que le projet Semanticpedia ait un rôle important à jouer pour le rayonnement de la culture française.

Néanmoins, je suis très loin de partager l’enthousiasme quelque peu débordant qui s’est manifesté notamment sur Twitter chez nombreuses personnes qui ont vu là le signe que le Ministère de la Culture s’apprêtait à « investir le web de données ».

Je resterai au contraire extrêmement prudent à ce sujet, étant donné le flottement qui caractérise la politique du Ministère de la Culture quant à la diffusion des données. La tentation semble en effet particulièrement forte de recourir aux technologies du web sémantique, sans pour autant s’engager dans une démarche d’ouverture de type Open Data.

Comme j’ai déjà eu l’occasion de le dire à plusieurs reprises, la Culture est le mouton noir de l’Open Data en France et cet état de fait était encore rappelé récemment par Claire Gallon de LiberTIC dans une tribune publiée sur OWNI, qui n’hésite pas à parler de « tartufferie » :

Pour preuve, les conflits liés aux données fermées se multiplient et l’absence de soutien politique pour l’extension de l’ouverture à des données d’intérêt général, ou permettant réellement de rendre compte de l’action publique risque de confiner le mouvement français à une logique de publication de données gadgets.

Un premier sujet de déception porte sur la position du ministère de la Culture qui s’est récemment déclaré “favorable à l’ouverture des données culturelles dans un cadre d’exception“. Entendez : oui à l’Open Data, mais sans toucher au cadre juridique actuel qui confère aux données culturelles le pouvoir de se soustraire à l’obligation d’ouverture.

La tartufferie était également au rendez-vous lors du lancement du Centre Pompidou Virtuel, à propos duquel j’ai déjà eu l’occasion de montrer que les données, pourtant sémantisées, sont demeurées sous un régime de fermeture, en dépit des artifices de communication déployés pour nous faire croire que le projet était dans une logique d’ouverture.

J’entends déjà les éminents spécialistes de ces questions m’expliquer, comme ils le font régulièrement dans les commentaires de ce blog, que la sémantisation et l’Open Data sont deux choses différentes et qu’on peut parfaitement faire l’un sans l’autre. Qu’on puisse le faire, c’est chose certaine, mais uniquement au prix d’une dénaturation de la logique du web de données, qui veut que les informations puissent être connectées entre elles et circuler le plus largement possible, afin que cette technologie produise son plein potentiel. Et pour ceux qui en douteraient, je les renvoie directement à Tim Berners-Lee, le père du web sémantique, qui ne sépare pas dans sa vision les considérations techniques de l’ouverture juridique = Open ET Linked Data.

Je vous promettais de rire dans ce billet, alors rions un peu quand même avec ce délicieux web de données à la sauce Ministère de la Culture. Vous allez voir que vouloir « investir le web de données » tout freinant des quatre fers sur l’ouverture peut produire des résultats absolument clownesques !

Un site intitulé data.culture.fr vient en effet d’ouvrir qui diffuse plusieurs thésaurus du Ministère de la Culture, passés au format SKOS, afin de permettre leur utilisation dans le cadre du web sémantique. On y trouve notamment le Thésaurus-matières pour l’indexation des archives locales ou le Thésaurus de la désignation des oeuvres architecturales et mobilières.

Fort bien, mais lorsque l’on essaie de savoir quels sont les conditions d’utilisation de ces jeux de données, on tombe sur une mention Droits indiquant : « Tous droits de reproduction interdits ».

Sémantisation sans Open Data, nous y sommes…

Mais l’amusant dans la chose, puisqu’il faut bien rire un peu au lieu de pleurer, c’est que la même page comporte en bas un point de téléchargement (un dump) pour reproduire ces jeux de données, ainsi qu’un Sparql endpoint, pour que des machines puissent venir s’y brancher. Or cela n’a juste aucun sens de proposer de telles fonctionnalités en maintenant une interdiction générale de reproduction. Ou alors il faut que l’on m’explique comment on peut faire pour télécharger sans copier !

Par ailleurs, pour rajouter une petite pincée de LOL dans ce delirium propriétaire, on notera que pour des gens qui s’intéressent au web sémantique, il y a comme un petit problème avec le sens de cette interdiction.

On nous dit en effet : « Tous droits de reproduction interdits ». Hum…

J’aimerais savoir ce que peuvent être des « droits interdits ». On peut dire que la reproduction est interdite ou que les droits sont réservés, mais des « droits interdits », c’est un oxymore qui me paraît hautement innovant d’un point de vue sémantique !

Tout cela en fait n’a aucun sens, car la politique du Ministère en matière de diffusion des données est complètement incohérente. Certes, on est avide de faire du web sémantique, parce qu’il faut bien en être, mais comme on conserve une conception boutiquière et épicière de la valeur de ces données, on s’arqueboute sur la fameuse exception culturelle pour les fermer, en espérant un jour les transformer en rivière de diamants.

Par ailleurs, on notera que l’interdiction ne mentionne aucun fondement juridique et que l’on ne daigne même pas indiquer aux pauvres citoyens que nous sommes sur la base de quelle loi nous sommes ainsi interdits de reproduction. Ça, dans une démocratie, ça n’est pas de l’exception culturelle, mais tout simplement un mépris pur et simple de l’Etat de droit, qui veut que les administrations doivent toujours s’appuyer sur la loi lorsqu’elles restreignent des libertés. On imagine que c’est la loi du 17 juillet 1978 qui est ici mobilisée, mais dans l’immédiat, nous n’aurons droit qu’au fait du Prince !

Franchement, je recommanderais plutôt à data.culture.fr de se tourner vers la licence CB – Complete Bullshit – inventée par Jérôme Choain. Au moins les choses seraient plus claires !

« Tout article ou image produite sous licence Complete Bullshit est reconnu d’inutilité publique. Tout y est ouvertement faux et scandaleusement mensonger, en général dans l’unique espoir d’aider à la LOLitude ambiante. »

D’ailleurs, le simple fait qu’il existe un data.culture.fr est en soi révélateur. Car les données publiques des administrations centrales doivent normalement rejoindre le portail data.gouv.fr. Sauf que cela implique que les données soient publiées sous la Licence ouverte d’Etalab et entrent dans une démarche d’Open Data, ce qui n’a pas l’air au goût du Ministère…

Toutes ces crispations découlent du fait que le Ministère de la Culture reste crispé sur la notion d’exception culturelle, qui permet aux établissements de décider du régime de réutilisation de leurs données. Une réponse récente d’Aurélie Filippetti à une question parlementaire posée par le député Marcel Rogemont l’a rappelé de manière éclatante :

la loi n° 78-753 du 17 juillet 1978 consacre en son article 11 un régime propre aux informations publiques culturelles. Il en résulte que les établissements, organismes ou services culturels ne sont pas soumis aux dispositions et principes résultant des autres articles du chapitre II de la loi de 1978 notamment son article 10 qui crée un droit, sous certaines conditions, à la réutilisation libre et gratuite des informations publiques.

Cette disposition leur sert, sauf exceptions rarissimes, à rester à l’écart du mouvement de l’Open Data, au nom d’un illusoire espoir de valorisation économique des données. Laurent Chemla a très bien dénoncé cette utilisation de l’exception culturelle dans un de ces papiers sur OWNI :

En France, la ministre de la Culture vient de répondre à la question que les données publiques culturelles sont exclues de la politique de l’Open Data, au nom de leur potentiel économique. Et de l’exception culturelle. Diversité culturelle ? Meilleure diffusion de la culture nationale ? No way les gars: il y a du fric en jeu, contentez-vous de la culture américaine.

De ce point de vue, on peut constater que l’alternance politique n’a absolument rien changé et que cette politique de fermeture et de marchandisation est strictement la même que celle du gouvernement précédent.

Alors même si je suis prêt à admettre que la signature de la convention Semanticpedia est un évènement important, je reste extrêmement sceptique sur la volonté du Ministère d’embrasser réellement les enjeux du web de données, avec toutes leurs conséquences.

Dans son discours, Aurélie Filippetti a pourtant reconnu l’importance des licences libres dans le fonctionnement de Wikipédia :

Le caractère libre et réutilisable des informations présentes sur l’encyclopédie Wikipédia, disponibles sous plusieurs licences ouvertes, est à cet égard un gage de diffusion aussi large que possible des données qu’elle rassemble.

Que n’applique-t-on pas ces belles paroles aux données culturelles elles-mêmes en les plaçant sous la Licence ouverte Etalab et en les diffusant sur data.gouv.fr, plutôt qu’en inventant des conditions burlesques pour les fermer, avec un amateurisme juridique flagrant !

Aurélie Filippetti s’est même risquée à parler de « partage des connaissances » et de « bien commun », à propos du développement du web 3.0 :

Ce système est amené à jouer un rôle essentiel dans la navigation sur
l’Internet, dans la transmission et le partage des connaissances, dans les interactions entre langues et cultures médiatisées par les outils numériques. Pour qu’il participe pleinement au bien commun, il doit être pensé comme un lieu d’échange ouvert, et il importe évidemment que notre langue et notre culture y trouvent leur place.

C’est fort bien de prôner l’ouverture, de parler de bien commun, mais n’oublions pas que dans la réponse à la question parlementaire évoquée ci-dessus, la même Aurélie Filippetti admet que le gouvernement français agit au niveau européen pour maintenir les données culturelles sous un régime d’exception :

[La France] a plaidé pour que ce régime tienne pleinement compte des spécificités de ce secteur et de son économie, qui se caractérise par des besoins élevés d’investissement dans des opérations de numérisation complexes. La France a par conséquent demandé une exemption large et souple au principe de tarification au coût marginal pour les musées, archives et bibliothèques.

J’encourage donc tout le monde à bien prendre en considération ces éléments et à toujours garder en tête quelle est la politique défendue par ce gouvernement en matière de données culturelles.

Il serait souhaitable également que l’engouement pour ces foooormidables technologiques du web sémantique n’agissent pas comme un narcotique puissant, faisant passer au second plan les enjeux de l’ouverture des données.

Des pistes pour débloquer la situation ont été avancées dans le rapport Open GLAM pour l’ouverture des données et des contenus culturels. Ce rapport a été transmis au Ministère, mais il semble bien qu’il n’y ait eu aucun retour à ce jour et ces propositions n’ont pas fait dévier d’un iota la position du Ministère si l’on en croit la réponse faite par Aurélie Filippetti à la question parlementaire de Marcel Rogemont, intervenue après la transmission.

C’est bon de rire parfois, mais c’est mieux encore de pouvoir se réjouir.

Red Noses. CC-BY-NC-ND. Par forchaza. Source : Flickr

A ce titre, la nouvelle récente qui m’a le plus réjoui, c’est d’apprendre que le département du Rhône avait accepté de délivrer une autorisation gratuite pour une réutilisation commerciale de données d’archives. Cette avancée vers l’ouverture est d’autant plus méritoire qu’elle intervient dans un domaine où des questions épineuses de protection des données personnelles se posaient et où la situation avait dégénéré en contentieux, mais le département a prouvé que des solutions pratiques pouvaient être trouvées, au-delà du blocage induit par l’exception culturelle.

C’est un signe fort que les choses peuvent changer par la base, malgré les errances de la politique gouvernementale et peut-être que le projet Semanticpedia pourra aussi aider à aller dans ce sens, comme l’espèrent ses promoteurs.

Mais comme il serait plus simple, plus cohérent et plus bénéfique pour l’intérêt général de sortir par le haut de tout cet imbroglio et par un geste politique clair et fort, de mener enfin de front l’investissement du web sémantique et l’ouverture des données culturelles !


27 réflexions sur “Rions un peu avec le web de données du Ministère de la Culture

  1. Eh oui, cher collègue, il ne faut jamais oublier que le Ministère de la Culture dispose d’une Direction des industries culturelles !

  2. Tout le brassage autour de cet accord ressemble beaucoup à de la poudre aux yeux. Ce qui se raconte sur wikipédia n’est pas la réalité de wikipédia, mais un récit fictif promotionnels. Pendant ce temps, les données de nombreux musée n’offrent pas de catalogue en ligne, où sont en ligne sous ©, ce qui est effectivement très amusant, car vraiment spécial, comme le montre par exemple sur le catalogue Europeana. Pour le catalogue du MUCEM (catalogue de l’ex-musée des ATP), le nombre d’erreurs est ahurissant. Par exemple, mentionner « illustrateur non-précisé » alors que l’on voit très bien qu’il y a une signature… mais que l’image est de définition tellement mauvaise qu’il est impossible de définir quel est le dessinateur. Sur Gallica, de plus en plus souvent, les images en ligne sont minuscules, et il faut payer pour avoir l’image en définition convenable ; l’image en ligne ne sert donc que de « produit d’appel ». L’argent public dépensé dans ce contrat aurait mieux fait d’aller vers des programmes de numérisation et de mise en ligne sous domaine public. On est exactement dans le même cas avec les programmes de numérisation du CNRS, par exemple quand sont financés par le très grand équipement Adonis (beaucoup d’argent) de l’INSHS (Institut des SHS/CNRS) la numérisation de fonds d’archives photographiques, dont de petites vignettes sous © sont ensuite mises en ligne sous © …

    1. A l’IABD ou ailleurs, sait-on combien est payé à l’heure un(e) gardien de musée ou monument employé à mi-temps, un contractuel numérisant des documents pour une société de GED ayant passé un marché avec un musée, bibliothèque ou archive ? Il n’est pas certain que la RMN ou l’INPI de la RMN ne puisse évoluer quoiqu’en pensent marxisants ou syndicaliste et aussi capitalistes. (quel paradigme ou paradoxe et excusez tous les acronymes mais le XXI°siècle arrive et il se fait tard)
      Pourtant, si le web sémantique n’était pas tout à fait que du vent. Les histoires de © et de TBL non plus. Continuez à écrire car cela peut donner des idées à d’autres!

      1. Si l’on devait faire payer tout ce qui coûte à l’Etat directement par le citoyen, on aboutirait à une destruction pure et simple des services publics.

        Que la numérisation, la conservation, le fonctionnement culturel des institutions culturelles coûtent cher, c’est un fait. Qu’il faille pour cela chercher à monétiser les contenus et les données, c’est une pirouette logique que je me refuse à effectuer.

        Surtout que si l’on va dans votre sens, je demande alors à voir combien rapporte effectivement la commercialisation des données culturelles dans ce pays. Trois cacahuètes et demi, et en tout cas, rien qui permette de couvrir les frais.

        Pour ce qui est de la RMN, tout ce verrouillage et tout ce copyfraud rapporte moins de 3 millions d’euros par an, ce qui ne représente par exemple que la moitié des aides annuelles versées par l’Etat au magazine TeleZ ! http://alatoisondor.wordpress.com/2012/10/29/diffuser-la-culture-francaise-ou-aider-tele-z/

        La RMN pourrait donc complètement s’ouvrir et TeleZ garderait encore la moitié de sa subvention annuelle ! L’argument financier est donc vraiment sans pertinence si l’on regarde les choses d’un point de vue global.

        Il appartient à l’Etat et aux collectivités de prendre leurs responsabilités en la matière et pas à nous faire croire à la baguette magique financière de la commercialisation des données.

        C’est tout simplement un mensonge comptable, mais tellement commode en ces temps de crise, pour justifier tout ce qui va dans le sens de la restriction.

        Et ça marche, vu la teneur de votre commentaire !

        Wake up !

        1. I am standing up, justement. Et je ne discuterais de « mensonge comptable » que chiffres sous les yeux.Et mes yeux voient que la RMN tient des boutiques et qu’il y a aussi du mécénat non? A votre avis, pourquoi le Louvre est-il déjà à Abou Dhabi : pour du vent ?
          Ceci n’est certes pas une raison pour monétiser ou « copyfrauder » tout ce qui est numérisé et surtout ce qui est libre de droit et sur ce point, je pense que nous sommes d’accord.
          Janvier, adepte de la réalpolitik et du web sémantique.

  3. Hmm… Je te trouve un peu rigide sur ce coup-ci. Comme disait Eduard Bernstein, l’essentiel c’est le mouvement : semanticpédia est un pas dans le bon sens. Le ministère y va à reculon, mais il y va tout de même. Ça n’excuse en rien les irrégularités et les monstruosités copyfraudesques, mais ça augure peut-être de quelques progrès par rapport à la situation actuelle.

  4. Merci de me faire l’honneur d’être cité, :).

    Bon alors remarquons quand même que j’ai présenté lors de cette de cette journée Sémanticpedia un modeste projet personnel sur les œuvres d’art :
    http://zone47.com/db
    Projet qui consiste à rassembler les données œuvres d’art en provenance de plusieurs dbpedia et à offrir une interface de consultation correspondante.
    C’est non seulement du web de données ouvertes, de l’open data donc, mais c’est même du LOD (Linked Open Data) puisque cet outil mixe les données de plusieurs points d’accès aux données.
    Il est d’ailleurs possible d’aller voir le code source – et même de le reprendre – puisqu’il est ouvert :
    https://github.com/zone47/Artworks
    [au passage le code est relativement simple et peut constituer une initiation pratique au langage SPARQL]

    Et que trouve-t-on dans l’interface ?
    3400 œuvres en provenance de plusieurs dbpedia. Je viens d’en faire la répartition que voici : http://zone47.com/db/t/volume.php

    On remarque que sur 3400 œuvres il y a actuellement 750 qui ne sont *que* sur la dbpedia francophone. Et si plutôt que de voir des chiffres on veut voir des images, c’est par là : http://zone47.com/db/t/fr.php. Alors grand merci Sémanticpedia. On peut déjà y voir une manière concrète de favoriser librement la diffusion du patrimoine grâce à la contribution énorme des Wikipédiens et au travail conséquent de l’INRIA avec le soutien du ministère de la culture.

    Mais tout cela, tu nous dis que ce n’est pas de l’open data institutionnel et en somme que l’invitation à contribuer n’engagerait que ceux qui y croiraient. Au contraire cela crée d’une part une dynamique mais surtout un changement de perspective dans lequel l’open data prend tout son sens.

    Avec cette journée c’est tout un écosystème du web de données culturelles qui émerge enfin. Cela fait quelques années que l’on en parle, et qu’il commence à se mettre en place, et cette journée a été l’occasion d’en voir de multiples exemples concrets.
    Il s’agit bien à moyen terme d’une nouvelle donne numérique dans laquelle doivent maintenant se situer les institutions patrimoniales. L’invitation d’Aurélie Filippetti à ce que ces derniers contribuent à Wikipédia est autant une prise de conscience qu’une vision politique sur la stratégie numérique à adopter faits d’enrichissements mutuels.
    Le web de données est fait d’échange et d’ouverture comme le remarquait justement la ministre dans son discours. L’ouverture des données par les établissements publics patrimoniaux est certainement souhaitable mais apparaît désormais aussi comme une nécessité pour qui veut prétendre être acteur de l’écosystème numérique patrimonial de demain.

    Tu remarques justement que les technologies du web sémantique et l’open data ne peuvent être dissociés. C’est d’ailleurs ce qu’exprimait très bien @figoblog dans son billet (http://www.figoblog.org/node/2011) – et que tu aurais quand même pu relever. Elle évoquait les difficultés dans le contexte particulier d’un « grand » établissement culturel et le besoin que l’ouverture des données sur l’écosystème du Web soit « approfondi, expliqué et démontré ». Et cette journée en était une belle occasion.
    Il y a peut-être des dynamiques contradictoires au sein du ministère de la culture comme tu le relèves mais Sémanticpedia va dans le sens d’une meilleure diffusion du bien commun culturel, fait d’échanges et d’ouvertures par tous les acteurs du domaine.
    Je m’en réjouis et t’y invite car comme l’écrivait Madame de Staël, « l’enthousiasme est un sol fertile ».

    1. Je comprends ta démarche et je ne doute en aucun cas de ta sincérité.

      Mais je pense que tu pêches par une certaine forme de naïveté.

      Tu ne t’en rends peut-être pas compte, mais les images provenant d’institutions françaises qui sont dans Zone47 ne devraient tout simplement pas y être : http://zone47.com/db/

      Le radeau de la Méduse, La Joconde, Le Serment des Horaces, tout ça, c’est copyrighté à mort quant tu vas sur les sites des institutions détentrices.

      Ces images ne sont sur Wikimedia Commons, que parce que des wikipédiens ont ^ris sur eux de ne pas respecter ces conditions illégitimes et parce que la Wikimedia Foundation n’en reconnaît pas la valeur, pour protéger le domaine public contre le copyfraud.

      Ton projet est donc l’incarnation même des problèmes que je souligne et sur lesquels j’essaie d’attirer l’attention.

      Je suis désolé, mais je ne pense pas que Semanticpédia suffise pour faire sortir les institutions françaises de cette logique forcenée de fermeture et d’appropriation des biens communs.

      Et je pense qu’elles n’ont vraiment que faire de s’inscrire dans un « écosystème numérique patrimonial », sinon cela ferait longtemps qu’elles l’auraient fait.

      Par ailleurs, si l’on regarde la politique réelle du Ministère, son interprétation de la loi du 17 juillet 1978 et la manière dont il agit au niveau européen, on se rend bien compte de la nature de ses intentions. Si les choses continuent ainsi, la future directive sur les informations publiques sera encore pire que celle qui existe à présent et cela verrouillera le système pour des années, anéantissant les conditions de possibilités même d’un Open Data culturel.

      Chacun fait ce qu’il veux, mais mon choix, c’est de ne pas accepter cela et de ne pas être dupe de l’excellente stratégie de communication du Ministère.

      Ceci étant dit, je te félicite pour ton projet et tes réalisations.

      En espérant qu’un nouveau durcissement de la politique ne vienne pas un jour t’arracher tes images…

  5. Merci pour cet article. Juste pour précision (qui m’intéresse notamment pour savoir si je me trompe) : il ne me semble pas que la « mention toute reproduction interdite » figure sur le « Thésaurus-matières pour l’indexation des archives locales ».

    1. Bonjour,

      Comme on le voit ici, le site data.culture.fr a été modifié le 22 novembre, suite à la parution de billet et les mentions que je critique ont été retirées.

      La capture d’écran que j’ai effectuée atteste de l’état antérieur du site.

      Il est d’ailleurs assez amusant de voir qu’un simple billet de blog suffit à produire ce genre de réactions…

      Cordialement,

      Calimaq

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.