De l’« open-source » à l’« open-data »

On mardi 29 novembre 2011 à 08:00, in BIG Articles, by bjean

Pour faire suite au premier billet qui faisait le point sur l’appréhension juridique (probable) des données publiques, deux autres aspects : la définition de l’Open Data selon l’Open Definition (I) sur laquelle s’appuient certaines des différentes licences utilisées pour une ouverture des données (II).

I – la définition de l’Open Data

Élaboré initialement dans le domaine du logiciel, le mouvement collaboratif du Libre et de l’Open s’est ensuite rapidement étendu au-delà : dans le domaine de la documentation puis des autres œuvres littéraires et artistiques, du matériel, ainsi que des données [1].

Pour se faire, il s’appuie sur le système de propriété intellectuelle existant par l’usage de licences dites libres (ou Open Source [2]). Ces licences constituent ainsi le corollaire inévitable, même si insuffisant, à toute ouverture de (bases de) données dans le cadre d’une politique (publique ou privée) d’Open Data) et peuvent être définies comme des contrats de licence non exclusive de droits de propriété intellectuelle, consentis pour le monde entier et toute la durée des droits, par lesquels un titulaire de droits autorise gracieusement [3] un licencié à copier, modifier et distribuer sa création.

Chaque type de création ayant ses spécificités, plusieurs définitions formalisent les libertés attendues dans chaque domaine. L’Open Data est l’application des concepts formalisés par l’Open Knowledge Foundation (dédiée à la promotion de la connaissance ouverte dans toutes ses formes) au Royaume-Uni et la Sunlight Foundation (qui a pour objet de rendre les gouvernements « transparents et responsables ») aux États-Unis : un accès libre et gratuit aux données sous une licence gratuite qui permette la libre reproduction, redistribution, modification et la libre ré-utilisation (y compris à des fins commerciales) des données[4].

Ces concepts ont été formalisés sous la forme d’une définition (générique) appelée l’« Open Definition », écrite sur le modèle de l’« Open Source Definition » du domaine du logiciel.

Ainsi, pour qu’une base de données puisse être considérée comme ouverte, la définition requiert :

  1. Le libre accès des bases de données : les bases de données doivent être disponibles entièrement, pour un coût raisonnable en cas de distribution matérielle (gratuitement lorsque le coût est négligeable, comme pour un transfert par Internet). Elles doivent être disponibles dans une forme adaptée et modifiable.
  2. La libre redistribution des bases de données : la licence ne peut, par exemple, exiger le paiement d’une redevance supplémentaire au titre de la redistribution.
  3. La libre réutilisation des bases de données : la licence doit permettre la création et la redistribution de bases de données dérivées (éventuellement sous la même licence lorsqu’elle est de type share alike ou copyleft).
  4. L’absence de restrictions techniques : il ne doit pas y avoir de restriction technique empêchant la jouissance des droits conférés par la licence.
  5. L’attribution des auteurs et contributeurs : la licence peut soumettre au bénéfice de la licence l’attribution de la paternité des créateurs et contributeurs.
  6. L’intégrité de la base doit être préservée : un tiers ne peut pas s’approprier le travail d’un autre et les contributions de chacun sont clairement attribuées.
  7. L’absence de discrimination entre les personnes ou les groupes : toute personne détentrice d’une copie de la base de données bénéficie des termes de la licence tant qu’il s’y conforme lui-même.
  8. L’absence de discrimination entre les domaines d’application : la licence se limite à la propriété intellectuelle : elle ne peut en aucun cas réguler d’autres domaines « politiques » ou commerciaux.
  9. La licence s’applique sans dépendre d’autres contrats : par exemple on ne peut pas ajouter un NDA (Non-Disclosure Agreement ou accord de confidentialité) lors de l’accès à la base.
  10. La licence ne doit pas être propre à la compilation de bases sur un même média : elle est attachée à la base de données et non à cet ensemble, le licencié étant libre de la sortir et d’en jouir conformément à la licence en dehors de cet ensemble.
  11. La licence ne doit pas s’étendre automatiquement à d’autres bases compilées sur un même média : ce qui ne s’oppose toutefois pas aux licences de type share alike ayant une étendue large (à l’instar de la GNU GPL dans le domaine du logiciel qui ne s’étend qu’au programme envisagé comme un tout).

II – Les licences Open Data

Plusieurs licences adaptées aux bases de données sont apparues : dans un premier temps pour répondre aux besoins de projets communautaires (1) et dans un second temps pour répondre à l’ouverture des informations publiques (2).

Comme en matière de licences libres en général, parmi les options proposées par les licences Open Data, on distingue les licences dites permissives et les licences dites share alike (3.).

1. Le courant initial de licences communautaires adaptées aux bases de données

Les premières réflexions juridiques relatives aux bases de données ouvertes ont résulté de l’importance grandissante d’initiatives communautaires (notamment le projet Open Street Map[5]).

Peu sensibilisé aux subtilités juridiques, ces premiers projets communautaires utilisaient les licences libres de logicielles (GNU GPL ou MIT) ou de contenu (Creative Commons)[6]. Néanmoins, de nouvelles licences furent ensuite rédigées afin de correspondre aux nouvelles communautés d’utilisateurs se fédérant dans la constitution de bases de données.

Deux courants de pensée ont alors animé ces nouveaux projets : le premier sous la direction de l’Open Knowledge Foundation et le second sous celle du projet Science Commons de Creative Commons.

En 2007, Science Commons lança le projet CC-0 visant à concéder le plus largement possible les droits sur les données. La licence Creative Common Zero (CC-0) qui en résulta est la licence conseillée par le projet Sciences Commons pour l’application aux bases de données. Le projet communautaire Personal Genome ainsi que la région italienne du Piémont utilisent cette licence.

En 2009, l’Open Knowledge Foundation a publié un panel de licences reposant sur une assiette plus large que le seul droit d’auteur, en incluant également le droit des contrats et le droit sui generis des bases de données (article 2.0 « Champ d’application » de la Licence)[7]. Il existe actuellement trois licences rédigées sur ce principe :

L’ordre dans lequel ces trois licences viennent d’être citées traduit le contrôle croissant qu’elles offrent aux titulaires de droits sur les bases de données : la PDDL opère une « renonciation » aux droits similaires à la licence CC-0 précitée, l’ODC-By impose seulement de mentionner la paternité et de différencier les contributions de chacun, tandis que l’ODbL (ODC-ODbL) contient une clause de type share alike.

2. Les licences rédigées pour l’ouverture des « données publiques »

L’ouverture des données est ainsi accélérée par la reconnaissance de certaines missions liées aux services publics :

  1. l’exigence démocratique de transparence de l’État;
  2. la transformation de notre société en une société de la connaissance et de l’information et l’incitation corollaire au développement d’activités commerciales fondées sur l’information (voir par exemple le Livre Vert sur le droit d’auteur dans l’économie de la connaissance du 16 juillet 2008 et la directive européenne INSPIRE 2007/2/CE qui contraint les États membres à publier un certain nombre de données publiques géographiques).
  3. le succès généralisé de l’open innovation (la capacité à bénéficier de la créativité, de l’intelligence et des contributions externes – on parle aussi d’« open source au-delà du logiciel », voire de crowdsourcing (probablement la forme la plus ouverte de l’OI

À l’échelle internationale, les États-Unis en 2009, puis le Royaume-Uni en 2010, ont été les deux premiers pays à communiquer sur l’adoption d’une politique d’Open Data avec la mise en place de leurs portails respectifs.

Devant le succès de ces initiatives, tant en terme de communication qu’au regard des usages qu’elles ont engendrés, les autres pays ont rapidement adopté des démarches similaires : Pays-Bas, Suède, Espagne (la ville espagnole Saragosse utilise la licence ColorIURIS), Bulgarie, Canada, Tunisie, Finlande, Australie, Nouvelle-Zélande, Irlande du Nord et Maroc. Le site américain « Open Data Site » répertorie ainsi plus de 200 initiatives similaires à l’échelle des états, des collectivités ou des organisations internationales.

Plusieurs types de licences sont utilisés pour la diffusion de ces données :
  • les licences communautaires préexistantes (principalement les licences Creative Commons et ODbL)
    • la coopération autrichienne « Cooperation OGD Austria » a opté pour la CC-By 3.0 ;
    • de nombreuses collectivités françaises ont opté pour l’ODbL (la Mairie de Paris, Nantes Metropole, Grand Toulouse, le Nord-Pas-De-Calais, etc.).
  • ou des licences spécifiques :
    • l’Open Government Licence en Angleterre pour le site legislation.gov.uk : la licence est rédigée pour les besoins du gouvernement britannique et « interopérable » avec la licence Creative Commons Attribution (pour le copyright) et la licence Open Data Commons Attribution (pour les bases de données) ;
    • la licence ColorIURIS pour l’Espagne Zaragoza ;
    • la récente Licence Ouverte qui sera utilisée en France par toute l’administration et les collectivités qui le décident. Elle est très ouverte et compatible avec les principales licences communautaires existantes, notamment :
      • l’« Open Government Licence » (OGL) du Royaume-Uni,
      • la « Creative Commons Attribution 2.0 » (CC-BY 2.0) de Creative Commons,
      • l’« Open Data Commons Attribution » (ODC-BY) de l’Open Knowledge Foundation.
Il est d’ailleurs probable que cette dernière licence rende obsolète les licences rédigées précédemment par l’Agence du patrimoine immatériel de l’État (APIE)[8] (voir notamment la Licence Informations publiques) et avant elle par le Ministère de la justice (rédactrice en 2010 de la licence « Information Publique librement réutilisable » ).

3. Les licences Share Alike

Une distinction fondamentale doit être faite entre licences libres : les licences dites « share alike » et les licences dites « permissives ».

Les licences libres de type share alike sont des licences qui imposent à celui qui crée une œuvre ou une base de données dérivée (pris au sens large – les licences précisant la notion) de l’œuvre ou de la base de données mise initialement sous licence libre de « reverser » ladite œuvre ou base dérivée selon les même termes contractuels que ceux auxquels est soumise l’œuvre ou la base de données initiale.

Ainsi, contrairement aux licences dites permissives où les obligations seulement doivent être maintenues lors de la rediffusion[9], les licences de type share alike rendent également persistantes les libertés (droits) consenties : le licencié ne pouvant rediffuser la création que sous la même licence ou, lorsque la licence le précise, une licence similaire.

C’est ce qu’on appelle le principe du copyleft.Les licences de type share alike intéressent généralement les collectivités ou personnes privées pour diffuser leur patrimoine immatériel tout en continuant à le valoriser, puisque les utilisateurs qui modifient la base doivent la reverser sous la même licence, offrant les mêmes libertés.

Les conditions d’utilisation relatives aux bases ainsi mises à disposition par la ville de Vancouver indiquent par exemple : « Please note that by accessing the datasets, you agree to these Terms of Use, which are intended to protect and promote the City’s commitments to open data and ensure that the recipients of these datasets give back to the community the benefits they derive from these datasets ».

Ces politiques sont néanmoins parfois contestées à l’égard de données de collectivités publiques qui, pour certains, devraient être diffusées sans aucune restriction[10].

De toutes les licences adaptées aux bases de données précédemment citées, seule la licence ODbL est une licence de type share alike.

La CC-By-SA, licence équivalente de la famille Creative Commons, n’est quant à elle pas adaptée à un usage sur une base de données[11] car centré sur le droit d’auteur (au moins en Europe, le droit sui generis des bases de données n’étant pas harmonisé internationalement).


[1] Les pratiques en matière de logiciel restent néanmoins bien plus avancées que dans les autres domaines d’application et permettent d’illustrer voire d’inspirer certaines démarches. Elles serviront donc parfois de base aux raisonnements menés dans la présente consultation bien que cette dernière ne porte pas sur la mise à disposition d’un logiciel mais d’une base de données.

[2] L’Open Source Initiative certifie « Open Source » périodiquement les licences qui lui sont présentées au regard de l’Open Source Definition. Toutes les licences certifiées Open Source sont publiées comme telles sur le site de l’Open Source Initiative .

[3] Le caractère gratuit, non pas de la mise à disposition, mais de la concession de droits (automatique) subséquente, est donc la principale distinction entre libre et propriétaire.

[4] Voir aussi la « Déclaration commune sur l’Open Data en France » rédigée par les associations Regards Citoyens, OKF, Creative Commons France et Veni Vidi Libri, : « [t]oute licence introduisant des limitations ou des discriminations à l’accès aux données ou des restrictions sur leur reproduction ou redistribution à des fins commerciales ne doit pas être considérée comme une licence Open Data, et cela en conformité avec ce qui a été préalablement établi par OpenDefinition.org. Actuellement, en France, seules certaines licences utilisées par les administrations publiques satisfont ces critères et nous recommandons donc le choix de ces licences libres ».

[5]Initiative très représentative de l’intérêt de l’open data pour le privé comme le public, le projet Open Street Map est un projet de cartographie libre et mondiale, une sorte de « Google Maps-like » enrichi et ouvert qui permet à tout un chacun de partir réaliser ses propres relevés GPS, de les partager via les outils fournis et ensuite de les enrichir. Le projet connaît une croissance fulgurante et continue depuis son lancement (les principales villes étant toutes cartographiées et certaines données n’intéressant que quelques passionnés (comme les tracés des chemins de randonnée) sont d’une qualité qui dépasse les solutions officielles ou grand public. Véritable « base de données géographiques », le projet OSM propose de nombreuses applications (la cartographie, très visible, n’étant qu’une partie de celles-ci).

[6]Open Street Map (OSM) est un bon exemple de cette évolution : lancé en 2005, le projet était initialement sous licence CC-By-SA, jusqu’à ce que la politique de licence soit revue lors de l’apparition de la licence ODbL en 2009.

[7] Voir la FAQ publiée sur le site de OKF : http://www.opendatacommons.org/faq/.

[8]Créée sur l’initiative de la Direction de l’Information Légale et Administrative (DILA), elle a pour mission de mener une réflexion, coordonner, évaluer et organiser un effort commun des différentes administrations sur leurs données.

[9]Par exemple, la licence proposée par Etalab est une licence permissive qui n’impose que très peu de contraintes pour les utilisateurs et offre peu de retours pour le donneur de licence (pas de clause share alike).

[10]Voir à cet égard le récent rapport Samuelson-Glushko, Analysis of share-alike obligations in municipal open data licenses, Canadian Internet Policy and Public Interest Clinic, University of Ottawa, 2011.

[11]Voir Mike Linksvayer, « CC and data[bases]: huge in 2011, what you can do », https://creativecommons.org/weblog/entry/26283.

Tagged with:
 

2 Responses to “De l’« open-source » à l’« open-data »”

  1. Nicolas dit :

    Merci pour cet intéressant article, qui permet de mieux comprendre d’où viennent les licences ODBl et CC et la philosophie sous-jacente.

    Sa lecture laisse néanmoins sans réponse une question récurrente que j’ai au sujet de l’applicabilité pratique de la clause « Share Alike » de l’ODBl.

    Est-ce que cette clause n’interdit pas de fait aux entreprises, qui disposeraient déjà d’une base de données couvertes par des licences « non libres », d’exploiter des données publiques libérées sous licence ODBl ?

    La rédaction de cette clause « Share Alike » dans la licence ODBl me parait en effet floue sur les points suivants :

    1- La licence ODBl précise que toute « base de données dérivée » contenant des données sous licence ODBl doit être elle-même rediffusée sous cette même licence, mais qu’entend-t-on juridiquement par « base de données dérivée » ?

    Pour prendre un exemple, si une entreprise souhaite intégrer à sa base de données, comportant déjà des millions de données, la liste des kiosques de presse parisiens mis à disposition par « Paris OpenData », quelle est alors la « base de données dérivée » associée au sein de l’ODBl ?

    Est-ce uniquement la liste des enregistrements de la base concernant les kiosques de presse parisiens, ou bien l’ensemble des enregistrements de la base de données initiale y compris ceux sans rapport avec les données publiques concernées ?

    2- En outre, dans le cas où la base de données initiale de l’entreprise est déjà couverte par des licences ou obligations moins permissives que l’ODBl, est-ce que la base de données dérivée doit néanmoins être mise à disposition sous licence ODBl, même si cela contredit les autres licences ou obligations préexistantes relatives aux données ?

    Pour prendre un exemple, la cohabitation juridique me parait difficile entre une clause « Share Alike » -qui impose une diffusion par défaut des données à tout tiers demandeur- et la réglementation CNIL sur les données personnelles -qui interdit de transmettre ces mêmes données à des tiers sans accord des personnes concernées.

    Dans l’attente de vous lire

  2. Mben dit :

    Bonjour,

    Toutes mes excuses pour cette réponse tardive, je n’avais pas vu le commentaire…

    Toutes ces questions sont intéressantes, je vais essayer d’y répondre sans trop entrer dans le technique :


    > « Est-ce que cette clause n’interdit pas de fait aux entreprises, qui disposeraient déjà d’une base de données couverte par des licences « non libres », d’exploiter des données publiques libérées sous licence ODBl ? » : la clause n’interdit pas, mais encadre l’autorisation offerte d’utiliser très largement la base de données sous OdbL (et uniquement lorsqu’il y a une communication publique de la base – un usage pour des besoins propres restera toujours libre) :
    ===> si la base de données est dite dérivée (la nouvelle base de données repose sur la base originaire : modification, ajout de tout ou partie de la base dans une plus grande, etc.) alors la licence OdbL demandera effectivement son application au tout ;
    ===> si on se trouve dans la situation d’utilisation conjointe de plusieurs bases de données indépendantes, il s’agit alors de bases de données dites collaboratives. Dans ce cas, seules la base de données d’origine ou ses dérivées doivent être diffusées sous OdbL, les autres restant sous leurs propres licences. Donc, la solution peut parfaitement être de combiner la base sous OdbL avec d’autres propriétaires/commerciales, dès lors qu’on donne accès à la base sous OdbL (ainsi qu’aux modifications qui purent y être apportées) (solution qui peut être sous optimale techniquement, mais c’est tout de même la seule contrepartie à une base qui est mise à disposition gracieusement…).

    > « est-ce que la base de données dérivée doit néanmoins être mise à disposition sous licence ODBl, même si cela contredit les autres licences ou obligations préexistantes relatives aux données ? » : non, puisqu’en agissant de la sorte le licencié irait contre ses engagements vis-à-vis des autres bases. S’il ne lui est pas possible de respecter l’ensemble des licences le liant aux différents auteurs des multiples BDD, alors il lui faut renoncer à la distribution conjointe (ou chercheur une méthode différente pour arriver au même résultat). On parle généralement d’ « incompatibilité » entre licences (mais il me semble injuste d’imputer cela à la seule licence OdbL : son objectif est que la base soit toujours ouverte et réutilisable par tous, ainsi il est compréhensible qu’elle empêche certaines situations portant atteinte aux libertés qu’elle affiche).

    > concernant l’exemple de la CNIL : là on touche à deux sujets vraiment différents. D’une part la licence Share Alike n’impose cette distribution que si la base est déjà mise à disposition (ce pour quoi l’accord des personnes concernées par ces données à caractère personnel est nécessaire). D’autre part, dans leur dynamique même, il semblerait que le mouvement d’ouverture sous couvert d’Open Data et les préoccupations de la CNIL en matière de données à caractère personnel soient difficilement conciliables. En effet, la CNIL considère justement que le croisement de jeux de données qui ne seraient pas proprement« à caractère personnel » puisse permettre l’identification d’un individu, ce qui reviendrait potentiellement à soumettre un plus grand nombre de données au régime de la Loi Informatique et Liberté. Cela porte néanmoins directement atteintes aux principes directeurs de l’Open Data (et de l’Open Innovation) selon lesquels il conviendrait d’accompagner la création de produits et services non prévus plutôt que de limiter la sphère d’innovation à quelques axes prédéfinis. Je n’ai pas de réponse, mais cela pose à mon sens deux difficultés :
    ===> La finalité n’étant pas connue par avance, il est impossible de remplir les obligations habituelles du consentement éclairé de toute personne concernée (relatif à l’existence du traitement, les finalités de celui-ci et tout risque général ou le devenir) lorsqu’elles sont combinées à d’autres données dans la même situation.
    ===> celui qui réalise de nouveaux produits ou services à partir de ces données libérées n’est généralement pas en capacité de se procurer les autorisations nécessaires: n’ayant aucune faculté de contacter les personnes concernées, ni même de retrouver les personnes ayant initialement collecté les informations.