#1 Mon 09 September 2019 15:29
- tevrard
- Participant assidu
- Date d'inscription: 23 May 2016
- Messages: 320
L'INPI et l'Opendata
Bonjour à tous.
L'Institut National de la Propriété Industrielle a publié des données en "open data" !
https://www.inpi.fr/fr/services-et-pres … /open-data
L'INPI dans l'open data, on pouvait pressentir que ça allait être joyeux... pour ma part je ne suis pas déçu ^^ (création de compte, format wtf, environ 1000 fichiers dans l'extrait test)
Je cherche à exploiter les données sur les brevets français. Cependant je bute sur le xml. Je connais pas le format et je ne sais pas comment mouliner ça pour retomber sur un csv potable.
Des conseils?
PS : j'en profite pour vous mettre le lien de l'article de cquest sur d'autres données de l'inpi
https://www.inpi.fr/fr/services-et-pres … /open-data
Hors ligne
#2 Mon 09 September 2019 15:49
- tumasgiu
- Membre
- Lieu: Ajaccio
- Date d'inscription: 5 Jul 2010
- Messages: 1159
Re: L'INPI et l'Opendata
Salut,
apparemment les documents xml utilisent le standard XML ST36
(cf https://www.inpi.fr/fr/download-file?id=27496, Chap. 1 paragraphe 1)
qui est apparemment un standard utilisé pour normaliser les
informations concernant des brevets :
https://www.wipo.int/export/sites/www/s … -36-01.pdf
Dernière modification par tumasgiu (Mon 09 September 2019 15:50)
Hors ligne
#3 Mon 09 September 2019 15:58
- tumasgiu
- Membre
- Lieu: Ajaccio
- Date d'inscription: 5 Jul 2010
- Messages: 1159
Re: L'INPI et l'Opendata
ici, des infos, notamment le DTD :
https://www.wipo.int/standards/en/xml_material/st36/
Hors ligne
#4 Mon 09 September 2019 16:38
- tevrard
- Participant assidu
- Date d'inscription: 23 May 2016
- Messages: 320
Re: L'INPI et l'Opendata
Yep, c'est bien le standard xml st36 qui est utilisé.
Mais du coup ma question c'est plutôt comment passe-t-on d'une syntaxe "balises" à une syntaxe "tableur".
Dernière modification par tevrard (Mon 09 September 2019 16:39)
Hors ligne
#5 Mon 09 September 2019 16:58
- tumasgiu
- Membre
- Lieu: Ajaccio
- Date d'inscription: 5 Jul 2010
- Messages: 1159
Re: L'INPI et l'Opendata
J'ai pas trop regardé comment sont structurées les données mais :
* Utiliser XSLT, qui est un langage permettant de restructurer
des documents XML, ici l'idée ça serait "désimbriquer" les données
pour les rendre plates.
Il y a des utilitaires UNIX en ligne de commande permettant de faire
ce genre de chose, sous Windows je ne sais pas si il y a des choses
natives (peut être avec Powershell), mais avec CygWin, on peut utiliser
les utilitaires UNIX.
* Utiliser un langage de script (python, perl) pour faire le job (avec un module
de manipulation XML).
* lxprintf. Je ne sais pas si on peut l'utiliser avec Windows, et je ne sais pas
si il est bien adapté pour ce type de document.
* C'est pour intégrer dans une base Postgres ? Ça tombe bien, il y a un type xml
dédié. Vous pouvez intégrer les document XML bruts dans une table
et utiliser les fonctions pour décomposer ceux-ci directement avec SQL, plutôt pratique.
Dernière modification par tumasgiu (Mon 09 September 2019 17:01)
Hors ligne
#6 Mon 09 September 2019 17:14
- tevrard
- Participant assidu
- Date d'inscription: 23 May 2016
- Messages: 320
Re: L'INPI et l'Opendata
Merci ! ça c'est un post qui m'aide à voir plus clair
C'est bien pour insertion dans une bdd postgres.
Du coup, après une discussion planning, je vais pas me mettre dessus tout de suite, mais je manquerai pas de faire des retours quand j'aurai avancé dessus
Hors ligne
#7 Tue 10 September 2019 23:52
- cquest
- Participant assidu
- Date d'inscription: 6 Jan 2013
- Messages: 875
Re: L'INPI et l'Opendata
Je ne me suis pas encore penché sur la partie brevet et marques des données INPI... uniquement pour l'instant sur celles provenant des greffes des tribunaux de commerces (immatriculation, modifications et radiations + comptes et bilans).
C'est sur ma tout doux liste... mais un peu bas pour l'instant.
Objectif: remettre ça en forme, dans un mode de livraison plus pensé pour les réutilisateurs...
Pour les IMR et comptes/bilans, je le fait déjà: une archive quotidienne plutôt que des centaines et milliers de fichiers à transférer par FTP.
Pour le XML, c'est un format très courant, il existe de nombreux outils pour le manipuler. Même postgres sait gérer nativement du XML depuis au moins la version 8.3 pour en extraire les infos que l'on veut. C'est vrai que ça change des formats tabulaires.
Voir: https://www.postgresql.org/docs/11/func … PROCESSING
Christian Quest - https://amicale.net/@cquest sur Mastodon (terminé twitter/X)
Membre fondateur et porte parole d'OpenStreetMap France
Initiateur de opendatArchives, OpenEventDatabase, Panoramax
Hors ligne