Extraction automatisée des données et des textes : Savoirscom1 s’engage pour une exception!

janvier 24, 2014 dans Débats, Enclosures, Veille du collectif par SavoirsCom1

Synthèse de la position de Savoirscom1 rédigée par Pierre-Carl Langlais et Lionel Maurel (CC0)

Synthèse de la position de Savoirscom1 rédigée par Pierre-Carl Langlais et Lionel Maurel (CC0). Cliquez sur l’image pour ouvrir le PDF.

L’extraction automatisée des textes et des données (ou text and data mining) est une activité en plein essor. L’amélioration des techniques existantes et la démultiplication des corpus accessibles depuis les réseaux numériques entraînent une véritable révolution des usage scientifiques. Le projet Text2genome est ainsi parvenu à dresser une cartographie ambitieuse du génome humain en compilant 3 millions de publications.

Ces projets ambitieux se heurtent cependant à de nombreuses complications légales. Aux États-Unis, la situation tend à se clarifier : l’extraction automatisée ressortirait du « fair use » (ou usage loyal), une exception très souple qui permet de s’émanciper des contraintes de la législation sur la propriété intellectuelle. Les pays européens ne disposent pas d’une exception comparable.

L’Union Européenne a lancé, début 2013, un groupe de travail sur l’extraction automatisée (le text and data mining working group). Le processus a rapidement pris une direction non-consensuelle en préconisant d’emblée un système de licences contractuelles, accordée au cas par cas par les éditeurs. La ligue des bibliothèque de recherche européenne et plusieurs associations de défense de la connaissance libre (dont l’OKFN) ont décidé de boycotter l’initiative. La réflexion est aujourd’hui au point mort. En l’absence d’une décision adaptée, la recherche européenne risque d’être radicalement distancée par la recherche américaine.

Le Conseil Supérieur de la Propriété Littéraire et Artistique (CSPLA) organisait une audition sur le sujet le 15 janvier. Le collectif Savoirscom1 était représenté par Lionel Maurel et Pierre-Carl Langlais.

La position du collectif est précisée dans cette synthèse. Elle découle de deux constats.

L’extraction automatisée porte sur des idées et non des expressions originales et s’inscrit, à ce titre, dans le domaine public de l’information. Il s’agit pour l’essentiel, de déléguer à des algorithmes la réalisation de pratiques anciennes : l’identification et l’extraction d’information constituent le labeur quotidien du chercheur depuis que la recherche scientifique existe. La plupart des projets d’extraction automatisée peuvent d’ailleurs être effectués avec un papier et un crayon : ils prendraient simplement beaucoup plus de temps.

Bien que l’extraction automatisée se situe, dans l’absolu, hors du champ de la propriété intellectuelle, sa mise en œuvre entraîne des infractions potentielles aux protections existantes. Il s’avère ainsi beaucoup plus efficace de recopier intégralement un corpus dans une base de donnée relationnelle. Bien qu’elle ne donne pas lieu à une publication, une copie de ce type n’est couvert par aucune exception existante.

Sur la base de ces constats, plusieurs recommandations ont été faites.

1. Formaliser la définition du domaine public de l’information. Bien que cette notion soit totalement cohérente avec le code de la propriété intellectuelle, qui ne porte que sur des « œuvres originales », elle n’est jamais précisée. Cette explicitation s’inscrirait aisément dans les différents projets de définition positive du domaine public envisagés au cours de l’an passé (projet de loi d’Isabelle Attard, recommandation de Pierre Lescure).

2. Mettre en place une exception qui couvrirait les infractions potentielles de l’extraction automatisée (en particulier le droit de copie temporaire). Un projet irlandais, basé sur un « fair dealing » (soit une liste limitative de conditions pour que l’exception soit valide) constitue une source d’inspiration intéressante. Cette exception ne pourrait être validée qu’au niveau européen. Le gouvernement français ne serait pas seul à favoriser cette option : le Royaume-Uni et l’Irlande ont déjà développé des propositions d’exception ; l’Allemagne s’est engagée dans une politique ambitieuse de libre accès où une exception pour l’extraction automatisée aurait toute sa place.

3. La synthèse inclut également des recommandations plus spécifiques : faciliter l’extraction automatisée des contenus dans le domaine public ou du corpus des livres indisponibles, élargir les conditions d’accès aux archives du web, clarifier les conditions de publication en libre accès dans les archives ouvertes (HAL) mais aussi sur d’autres interfaces (Persée, Hypotheses, Revue.org)

La synthèse propose enfin un historique des réflexions légales engagées autour du l’extraction automatisée, ainsi qu’une évaluation des différentes options envisagées (soit, outre l’exception, un système de licence et un système de gestion collective). Elle est publiée dans le domaine public vivant (licence CC0). N’hésitez pas à la diffuser et à la partager!