Des « Robins des Bois » libèrent les livres de Google Book sur Internet Archive.

Hier, sous le billet que j’avais consacré cette semaine aux livres du domaine public dans Google Book, un internaute nommé Pablo Iriarte a laissé un très intéressant commentaire, qui m’incite à revenir sur cette question dans un nouveau billet.

Visiblement, les éditeurs ne sont pas les seuls à essayer de récupérer des ouvrages scannés par Google pour les réutiliser à leurs propres fins. Des utilisateurs d’Internet Archive auraient procédé à des téléchargements massifs (900 000 livres !) pour les charger dans Internet Archive, afin qu’ils puissent être débarassés des restrictions d’usage imposées par Google et regagner ainsi pleinement le domaine public.

Ces Robins des Bois exploiteraient une faille des conditions d’utilisation de Google Book. Celles-ci  interdisent en effet d’extraire du contenu de Google Book en procédant à des « requêtes automatisées » (type aspiration de base de données), mais rien n’interdit à une myriade d’individus de venir télécharger quelques ouvrages pour les déposer dans Internet Archive. Google n’a pas la possibilité de les attaquer, pas plus certainement qu’il ne peut agir contre Internet Archive, dans la mesure où le site ne fait qu’héberger des contenus chargés par ces usagers.

Le procédé est très astucieux.

Robin Hood: Men in Tights preview. CC-BY-NC-SA. Source : Flickr.

J’avais déjà eu vent de telles pratiques au détour d’un billet de mars dernier écrit par Peter Hirtle sur LibraryLaw Blog. Il s’interrogeait à propos de ces agissements : « One has to wonder about the utility of well-meaning efforts such as those of the Internet Archive to capture and store copies of the Google scans« . En cherchant bien dans les forums d’Internet Archive, on trouve effectivement des discussions relatives à des chargement de livres du domaine public extraits de Google Book (voyez cet échange du 29 juillet 2010).

Ailleurs, on apprend également que des utilisateurs d’Internet Archive font disparaître le watermark « Numérisé par Google » que la firme appose au bas de toutes pages des ouvrages de sa bibliothèque numérique », car ils considèrent qu’une telle marque n’a aucune valeur juridique, lorsqu’elle est apposée sur un ouvrage du domaine public.

This would be illegal on Google’s part since no one can copyright or restrict the text part of a public domain item […] we can and should remove their watermarks, since once again this is after all public domain stuff. The founding fathers of the United States would turn-over in their graves is the actually saw what the political scum in this country have done to the copyright laws. Protection was never meant to be for all eternity or for some parasitic mega-corporate mass-media corporations.

Une fois « libérés » dans Internet Archive, les livres sont placés sous le statut « Public Domain » qui permet tout type de réutilisation, y compris à des fins commerciales.

Finalement, à la lumière de cet exemple, comme de celui que j’avais repéré mercredi, on se rend compte que les restrictions que Google tente d’imposer pour verrouiller son contenu sont peut-être beaucoup plus fragiles qu’on ne pourrait penser. Et ce qui va également dans ce sens, c’est que malgré ces extractions massives, Google n’a pas réagi pour l’instant.

Merci à Pablo d’avoir attiré mon attention sur ce point. Je copie ici in extenso son commentaire qui vous apportera des précisions supplémentaires :

J’ai réalisé il y a quelques semaines que plus de 900’000 livres avaient été extraits à partir de Google Book Search et archivés sur Internet Archive. Ce « détournement » des documents du domaine public, scannés par Google à partir des fonds des bibliothèques m’a bien plu car c’est un joli cas d’arroseur arrosé… le même « fair use » évoqué par Google peu alors être utilisé par un autre organisme comme l’internet archive pour se justifier.

Malgré le fait que les PDFs ne sont pas diffusés par l’archive (il y a toujours un lien sur la version de Google qui pourrait compenser l’abus) le full text est bel et bien proposé dans différents formats au téléchargement et à la consultation en ligne via son propre système.

Selon la courte explication donné par Internet Archive sur cette page :

« Digitized books from many different libraries from the Google Book Search program. These digital files have been downloaded from the Google site and uploaded to the Internet Archive by users. While these books may be old enough to be in the public domain, but there is no guarantee by anyone of their legal status. These books have been made text searchable as a finding aid and downloading refers to Google’s site. Please refer to Google’s site for any rights issues or restrictions. »

Ils ont trouvé la parade qui va dans le même sens que celui montré dans ce billet : si les documents ont été extraits par les utilisateurs, cela exclue l’extraction par des moyens automatiques tant redoutée par Google. Cela me paraît très intéressant car, au final, si les utilisateurs se mettent à télécharger en masse les PDF de Google des œuvres du domaine publique, à faire tourner l’OCR dessus et rediffuser sa propre version en texte brut rien ne pourrait les empêcher.

En regardant de près les 900’000 documents on voit très vite que c’est toujours le même utilisateur qui a fait le boulot, ce qui est encore plus surprenant !! mais tout s’explique quand on lit son code d’utilisateur : « TPB » (les pirates sont encore parmi-nous, hip-hip!)

J’ai tenté de chercher des explications ou un semblant de partenariat de coté de Google ou ailleur et je n’ai rien trouvé pour le moment, jusqu’à la parution de votre billet qui ajoute une nouvelle lumière et un trou inattendu pour lequel ces documents peuvent retourner dans le domaine public. Le plus drole de l’histoire est que maintenant il y en a de livres pour lesquels la version européenne de Google Books ne donne que des extraits mais on peut le télécharger complètement via Internet Archive car ils ont exploité le texte intégral fourni par la version américaine du moteur, par exemple cette version des travaux de Charles Darwin publié en 1896, qui dépasse la date fatidique de 1870 pour nous, pauvres européens.

Je me réjouis de voir la réaction de Google (si réaction il y en a…) mais je doute qu’ils tentent quelque chose contre ce détournement car ils attaqueraient le principe fondateur du fair-use qui équivaudrait à se tirer une balle dans le pied. Et finalement ce ne sont que 900’000 livres…


21 réflexions sur “Des « Robins des Bois » libèrent les livres de Google Book sur Internet Archive.

  1. Pour ajouter à l’information.

    « La bibliothèque de l’université de Gand (en abrégé : UGent), l’une des plus grandes de Belgique, vient d’annoncer que les premiers 100 000 livres de ses collections numérisés par Google viennent d’être déversés sur Europeana. »

    pouvait-on lire ici :
    http://www.livreshebdo.fr/actualites/bibliotheques/actualites/100-000-livres-numerises-par-google-lisibles-sur-europeana/5180.aspx

    Intéressant, non ? :-)

    Bien cordialement
    B. Majour

    1. Bonjour,

      Oui, c’est intéressant, mais pas tant que cela en fait. Il faut se méfier de l’imprécision du langage des journalistes…

      Les ouvrages de Gand n’ont pas été « déversés » dans Europeana. Europeana ne stocke pas les fichiers, qui restent hébergés chez les institutions partenaires.

      Europeana se « contente » de moissonner des notices en Dublin Core, de les rapatrier par le biais du protocole OAI-PMH et faire un lien vers les fournisseurs de contenus. Europeana est en fait bien plus un catalogue qu’une réelle bibliothèque numérique…

      Si vous cherchez des ouvrages de l’Université de Gand dans Europeana, vous tomberez sur de simple notices, comportant un champ « view in original context ». En cliquant sur ce lien, on est renvoyé vers le site de l’Université de Gand. Mais là, on tombe sur quelque chose d’un peu étrange. L’ouvrage est bien consultable, mais par le biais d’un outil « Powered by Google ».

      Je pense qu’il s’agit de la « hosted solution », une bibliothèque numérique mise en place par Google chez ses partenaires, dont on trouve aussi la mention dans le contrat signé avec la bibliothèque de Lyon.

      Autant vous dire qu’à mes yeux, ce type de montage ne garantit en rien qu’une exclusivité d’indexation n’a pas été octroyée à Google, pas plus que le « versement » dans Europeana.

      Cordialement,

      Calimaq

  2. Merci pour ce billet et les informations complémentaires très précieuses. Je suis comblé (et gêné en même temps de ne pas avoir fait un peu plus attention à l’orthographe dans mon commentaire…) et très étonné que ce « transfert » n’ait pas fait plus de bruit dans le biblioblogosphère.

    Je profite pour clarifier le jeu de mots avec « TPB » car j’imagine que tout le monde ne fait pas le rapprochement avec « The Pirate Bay » qui utilisait toujours cet « user name » sur leur propre plateforme.

    J’ignore si derrière l’utilisateur TPB d’Internet Archive se cache effectivement une ou plusieurs personnes en relation avec le site de partage de fichiers p2p (et qui se trouve de nouveau devant la justice en ce moment) ou si c’est uniquement un jeu de l’équipe d’Internet Archive, mais j’aimerais bien savoir comment ils sont réussi à extraire en masse ces 900’000 livres sans se faire bloquer par Google.

    Bien cordialement
    Pablo Iriarte

  3. J’ai trouvé la réponse dans cette discussion :

    http://www.archive.org/post/314300/book-digitized-by-google-and-uploaded-to-the-internet-archive-by-user-tpb

    « […] « user tpb » is just an automatic script that copies books from Google to Internet Archive to preserve them […] »

    Cela montre bien que ce sont des utilisateurs « assistés » par cet script qui ont archivé ces fichiers de Google et non pas des flibustiers rescapés des caraïbes. Mais alors pourquoi masquer leurs noms d’utilisateur et afficher partout « TPB »?

    Merci
    Pablo

    1. Bonjour et merci encore pour toutes ces précisions sur cette question.

      Je n’avais pas fait le lien entre Pablo et Pablog !

      La précision que vous apportez ici est importante. En effet, si c’était une seule organisation qui avait chargé tous ces livres dans Internet Archive, Google aurait pu agir, car il aurait pu mettre en avant l’interdiction de procéder à des systematic downloading, qui sont interdites par ses CGU.

      Or ici, ce sont des utilisateurs individuels qui chargent peu à peu des livres dans Internet Archive et cela ne peut être considéré comme une extraction substantielle. Ces agissements n’offrent pas de prise sur le plan juridique ; Google ne peut pas réagir ! Pas plus contre chaque utilisateur individuellement qu’il ne le peut contre Internet Archive qui se contente d’héberger les contenus.

      Cela montre qu’il existe une vraie faille juridique et qu’il est très difficile d’agir face à une communauté décidée à « libérer » des contenus.

      Tiens, je me demande d’ailleurs si ce soir, je ne vais pas aller un peu jouer les Robins des Bois dans Goole Book !

      Merci encore pour vos commentaires. On ne dira jamais assez l’intérêt des commentaires dans la vie d’un blog.

      Au plaisir.

      Calimaq

      1. Je reviens sur le sujet car j’ai eu aussi envie d’apporter ma petite pierre à l’oeuvre de libération collective et ajoutà à l’IA un livre de la bibliothèque universitaire de ma ville qui a été numérisé par Google.

        A ma grande surprise je n’ai pas vu de trace du script « tpb » ou d’une aide quelconque pour automatiser l’archivage ou la récupération des métadonnées. Il faut partir du PDF et le livre est ajouté à la collection « Community texts ». Dans cette collection il y a seulement 500 titres avec la mention « google » dans les notes ou le commentaire.

        Maintenant je dois donc corriger mes suppositions : TPB n’est effectivement pas une personne mais ce n’est pas non plus un script qui peut être utilisé par les internautes. L’ajout de ces 900’000 livres de Google Books a donc dû être fait par des machines ou par des collaborateurs de l’IA assistés par des machines pour accélérer le processus d’archivage ou le faire en séries plus ou moins grandes. Ce qui e tracasse est l’absence d’information sur ce coup génial et sur le fait qu’il y ait eu accord entre IA et Google ou pas (rien trouvé de coté de Google). Je parie sur une action sans accord préalable et limitée dans le temps et la taille pour amorcer la pompe et inciter les gens à continuer la « libération » de ces contenus appartenant au domaine publique.

        Un petit détail rigolo pour terminer et qui me rappelle les jeux de miroirs opposés avec des images imbriquées à l’infini : IA fait l’OCR sur les fichiers PDF de Google qui a son tour indexe le contenu des pages en texte brut dans son crawl régulier de l’archive (par exemple http://www.google.com/search?q=site%3Aarchive.org+goog+_djvu.txt)

        Voilà, cette fois j’arrête l’enquête (pour le moment) et vous remercie de nouveau pour l’accueil dans ce billet, je suis absolument d’accord sur l’importance des commentaires, un peu en désuétude mais bien plus agréables à lire (et à écrire) sans se limiter aux maudits 140 caractères ;-)

        1. Merci pour ce complément d’enquête !

          Il faut bien avouer que le mystère s’épaissit… Car si cette aspiration d’une telle masse d’ouvrages est bien le fait d’Internet Archive, même de manière indirecte, il me semble que cela peut engager sa responsabilité et que Google pourrait réagir pour stopper l’hémorragie.

          La question est alors : pourquoi ne le font-ils pas ? Il leur suffirait de s’appuyer sur l’interdiction des téléchargements systématiques figurant dans leurs CGU. Celle-ci peut s’appuyer sur le droit des bases de données et elle me paraît assez robuste juridiquement.

          C’est en tout cas une affaire à suivre…

    2. « « user tpb » is just an automatic script » montre surtout qu’un petit bout de programme peut simuler à peu près tout ce qu’on veut, pour peu qu’il soit utilisé judicieusement.

      A moins de faire passer le test de Turing à tous leurs lecteurs, je ne vois pas bien comment Google pourrait lever le doute, de façon certaine, sur la manière dont ont été prélevé ces 900.000 titres de chez eux.

      J’adore internet ! :-)

  4. Ping: PabloG
  5. Bonjour,

    est-il possible de préciser ce qu’est cette « date fatidique de 1870 » applicable apparemment en Europe? J’ai fait quelques recherches rapides, mais n’ai rien trouvé.

    Merci

  6. @Mami

    1870 est la date limite qui a été fixée par Google pour le choix de livres à numériser en provenance de la bibliothèque universitaire de Lausanne :

    http://www.unil.ch/bcu/page50690.html

    Cette date est une bonne garantie pour éviter de scanner des livres sous copyright (protection en général en Europe jusqu’à 70 ans après la mort de l’auteur) en absence d’un système automatisé pour déterminer la date à la pièce, comme ceux qui sont en train de se développer :

    http://www.publicdomainworks.net/

    J’ignore si cette date de 1870 a été utilisée dans les autres bibliothèques européennes qui ont participé au programme de Google ou si le choix a été adapté à chaque document, mais il me semble qu’elle est appliquée par Goole sur leur plateforme pour masquer aux internautes en Europe des livres qui sont cependant ouverts pour les Etats-Unis, mais ce n’est qu’une supposition.

    Pablo

  7. Il reste à faire ceci pour les livres du catalogue de Forgotten books (en en donnant une meilleure qualité au passage!)

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.