#1 Fri 25 July 2014 16:28
- Geo-x
- Participant assidu
- Lieu: Pau
- Date d'inscription: 2 Nov 2010
- Messages: 215
Utilisation/traitement de données INSEE
Bonjour @ tous.
Cela fait quelques mois que je tente l'expérience de traiter un certains nombre de données INSEE, dans le but de réaliser des cartographies statistiques.
Seulement voilà, l'INSEE fournit ses données sous forme de (nombreux) tableaux, ce qui rend le travail laborieux et difficile à réaliser.
Je souhaitais donc savoir s'il y' avait parmi vous, des adeptes des données INSEE, habitué à les traiter sur plusieurs années et encore mieux à les intégrer dans un SGBD, afin de partager la méthodologie, le savoir-faire, les erreurs à éviter etc...
En vous remerciant par avance.
Geo-x
Hors ligne
#2 Tue 29 July 2014 09:01
Re: Utilisation/traitement de données INSEE
Bonjour,
C'est effectivement très compliqué de tenir à jour les données INSEE. Je l'ai fait moi même quelques temps et au final j'ai opté par une prestation.
De plus en plus d'entreprises proposent cette prestation, ce n'est pas un hasard !
J'ai fait une liste de mes variables et demandé le plus possible une antériorité sur les chiffres.
Et je reçois une fois par an les données mises à jour.
Voilà !
Hors ligne
#3 Tue 29 July 2014 10:00
- ProjetSIG
- Juste Inscrit !
- Date d'inscription: 7 Jul 2014
- Messages: 4
Re: Utilisation/traitement de données INSEE
Bonjour,
Votre demande est très intéressante, nous avons le projet d'intégrer l'ensemble des données INSEE dans une base postgis/postgres.
Si vous le souhaitez on peux échanger à ce sujet et pourquoi pas essayer de mutualiser la prestation.
Bien cordialement
Hors ligne
#4 Tue 29 July 2014 12:18
Re: Utilisation/traitement de données INSEE
Bonjour,
Effectivement, l'INSEE propose un nombre important de jeux de données.
Pour ma part, j'intègre pas mal de leurs bases dans PostgreSQL. Au final, cela me prend peut-être entre dix et quinze jours par an.
Je les intègre dans une forme brute pour ne pas perdre de temps à l'intégration. Par ce faire, j'utilise des ETL {geo}Kettle ou Safe FME. A titre d'exemple, l'intégration de l'ensemble des données du RP2011 m'a demandé 2 jours (téléchargement compris).
Par la suite, tous les traitements / requêtes sont au maximum en SQL ce que me permet les reproduire assez facilement au fil des mises à jour et des changements territoriaux.
Cordialement
Hors ligne
#5 Sat 02 August 2014 18:36
- pchevallot
- Participant occasionnel
- Lieu: METZ
- Date d'inscription: 24 Apr 2008
- Messages: 15
- Site web
Re: Utilisation/traitement de données INSEE
Bonjour,
De notre côté, nous avons réalisé cela en créant un véritable entrepôt de données (au sens de l'informatique décisionnelle, c'est-à-dire avec une modélisation en étoile, indépendante des bases de données relationnelles ou des fichiers à plat du site de l'INSEE) dans PostgreSQL / PostGIS et nous pouvons rendre accessible dans une plateforme web toutes ces données de l'INSEE (avec l'antériorité disponible sur le site de l'INSEE, 1962 ou 1968 en général) dans :
- des rapports,
- des tableaux de bord,
- et des hypercubes (vues analytiques multidimensionnelles OLAP).
Nous intégrons la composante géoagraphique / géostatistique dans les rapports et les tableaux de bord, avec l'intégration de librairies de DataViz (comme D3.js par exemple pour des visualisations de flux de personnes dans des diagrammes de Sankey) et les librairies Leaflet ou OpenLayers.
Cela nous permet de produire des tableaux, des graphiques et des cartographies (choroplèthes et symboles proportionnels), à partir d'un entrepôt de données, véritable colonne vertébrale de la plateforme, et de croiser / d'analyser les données de l'INSEE, à toutes les échelles de territoire et selon tous les types de découpage possibles pour la France entière :
- analyse et forage de données (avec les agrégations) pour les découpages administratifs : France / Région / Département / Arrondissement / Canton / Commune (et même infracommunal lorsque la donnée est disponible) ;
- découpages "politiques" : EPCI, SCOT, "Pays", etc.
- découpages statistiques : aires urbaines, bassins de vie, zones d'emploi, unités urbaines, etc.
Je peux envoyer à toutes les personnes intéressées un document PDF (un peu trop volumineux pour l'intégrer en pièce jointe à ce message) qui illustre avec de nombreuses captures d'écran nos travaux actuels.
Et au passage, nous sommes preneurs de toutes les remarques, critiques et conseils :-)
Bien cordialement,
Pascal
Hors ligne
#6 Mon 04 August 2014 14:41
Re: Utilisation/traitement de données INSEE
Bonjour,
Je me permets de me greffer au sujet.
J'utilise postgre/postgis mais jusqu'à maintenant je n'ai eu qu'à traiter de petite quantité de données ce qui rendait les choses plus aisées.
Je souhaiterais aujourd'hui également intégrer les données INSEE à postgres. Je me demandais s'il existait une méthode pour créer les colonnes dans les tables de la base de manière automatique... en effet lorsque l'on voit le nombre de colonnes dans chacun des fichiers xls cela devient vite compliqué d'écrire une requête à la main...
A minima, est il possible avec une requête de définir le type de plusieurs colonnes en une fois ?
Au lieu d'avoir quelque chose comme cela :
ALTER TABLE POP ADD COLUMN a text;
ADD COLUMN b text;
ADD COLUMN c text;
On aurait quelque chose comme cela :
ADD COLUMN [a,b,c] text;
Je me permets de poser cette question car je suppose que vous n'avez pas créer toute ces colonnes de manière individuelle...
Merci beaucoup d'avance pour tout retour.
Hors ligne
#7 Mon 04 August 2014 14:55
- Geo-x
- Participant assidu
- Lieu: Pau
- Date d'inscription: 2 Nov 2010
- Messages: 215
Re: Utilisation/traitement de données INSEE
Je tire déjà plusieurs enseignement de vos réponses :
1- Je vois que beaucoup de monde s'est intéressé/penché sur le sujet
2- Il y a autant de personnes qu'il y a de méthodes de traiter la donnée
3- Même si en finalité tout finit dans postgres/postgis !
Il est clair qu'une prestation est sûrement le plus simple, mais cela à un coût et nous souhaitons faire l'intégralité de nos traitements en interne.
J'avais en effet pensé à passer par FME pour traiter les données même s'il y a toujours un risque que l'INSEE modifie la structure de ses fichiers ou ne modifie la structure de ses variables.
M. Chevallot, même si votre technique semble des plus abouties je ne suis pas sûr que cette méthode puisse s'appliquer à notre configuration mais votre structure m'intéresse et je suis toujours preneur sur des retours d'expérience, votre PDF volumineux m'intéresse donc :-)
Geo-x
Hors ligne
#8 Thu 07 August 2014 17:04
- pchevallot
- Participant occasionnel
- Lieu: METZ
- Date d'inscription: 24 Apr 2008
- Messages: 15
- Site web
Re: Utilisation/traitement de données INSEE
Bonjour Geo-x,
Désolé pour ma réponse tardive : les vacances puis un retour rapide sont passés par là...
M. Chevallot, même si votre technique semble des plus abouties je ne suis pas sûr que cette méthode puisse s'appliquer à notre configuration mais votre structure m'intéresse et je suis toujours preneur sur des retours d'expérience, votre PDF volumineux m'intéresse donc :-)
Geo-x
Pouvez-vous me communiquer une adresse mail où vous envoyer mon document PDF, s'il vous plaît ?
Enfin, à mon tour de vous poser une question : quelle est la configuration de votre structure à laquelle vous faites référence dans votre message ? Quelles en sont les particularités ?
Par avance, je vous remercie de votre retour d'informations.
Bien cordialement,
Pascal
Hors ligne
#9 Fri 12 September 2014 08:50
- JPG
- Participant occasionnel
- Date d'inscription: 21 Sep 2011
- Messages: 31
Re: Utilisation/traitement de données INSEE
Désolé d'intervenir si tard : "charrette-recensement" oblige...
Je travaille depuis des années avec les fichiers INSEE France entière, au niveau communal ou infra-communal. Lorsque j'ai essayé de les gérer plus globalement que selon les ensembles diffusés par l'INSEE (populations légales, état-civil, recensements, revenus, etc.) je me suis heurté en particulier à la difficulté de prendre en compte, tout spécialement pour les évolutions, les modifications territoriales résultant des fusions/séparations de communes (plus de deux cents en vingt ans), avec, évidemment, leurs conséquences sur les regroupements communaux. Dans la pratique, si l'on veut préparer les données pour une évolution t1-t2, il faudra regrouper (chiffres, mais aussi polygones) pour t1 les communes qui , entre t1 et t2, se sont unies, et pour t2 celles qui se sont séparées... sachant que certaines (Béthune, par exemple) ont pu entretemps fusionner et se séparer sans que cela aie des répercussions ni en t1, ni en t2 !
Bien sûr, je suis intéressé par tout retour d'expérience ou solution(s) sur ce sujet, et je suis à la disposition de qui le souhaite pour partager mes propres expériences. Celles-ci étant d'ailleurs plus tournées vers la cartographie statistique proprement-dite. Et j'espère ne pas trop m'éloigner du sujet des "entrepôts de données" en ajoutant que je complète et finalise la gestion des fichiers en les "branchant" sur une application web de cartographie interactive et dynamique, et surtout automatique, ce qui permet à mon site http://www.cartostat.eu/cartes/TABLEAU_GENERAL.html de compter une vingtaine de milliers de cartes (librement téléchargeables), outre une centaine de milliers sur mon serveur (libres, zip sur demande).
Hors ligne
#10 Mon 15 September 2014 11:01
- Geo-x
- Participant assidu
- Lieu: Pau
- Date d'inscription: 2 Nov 2010
- Messages: 215
Re: Utilisation/traitement de données INSEE
Comme vous pouvez le constater, de mon côté aussi les vacances sont passées par là.
Enfin, à mon tour de vous poser une question : quelle est la configuration de votre structure à laquelle vous faites référence dans votre message ? Quelles en sont les particularités ?
Par avance, je vous remercie de votre retour d'informations.
Pour répondre à votre question, notre configuration semble similaire à la vôtre en terme de SGBD, étant donné que nous utilisons Postgres + Postgis et l'interface utilisateur est également un WebSIG. La seule différence avec vous, c'est que nous n'avons pas la main sur le développement de notre WebSIG. En revanche rien ne nous empêche d'utiliser d'autres sytèmes de visualisation de données (QGis, PhilCarto ...).
C'est pourquoi votre PDF m'intéresse tout de même sur la partie SGBD (Mon adresse mail est visible.
je me suis heurté en particulier à la difficulté de prendre en compte, tout spécialement pour les évolutions, les modifications territoriales résultant des fusions/séparations de communes (plus de deux cents en vingt ans), avec, évidemment, leurs conséquences sur les regroupements communaux.
Concernant votre problème il est clair qu'il y a tout le temps un décalage entre la fusion et la répercussion de l'entité sur le site de l'INSEE. L'idéal serait qu'il y ait un observatoire des fusions de collectivités mais à ma connaissance, cela n'existe pas encore.
Geo-x
Hors ligne
#11 Mon 15 September 2014 14:18
- damien_boilley
- Participant assidu
- Lieu: Grenoble
- Date d'inscription: 16 Apr 2009
- Messages: 224
Re: Utilisation/traitement de données INSEE
L'idéal serait qu'il y ait un observatoire des fusions de collectivités mais à ma connaissance, cela n'existe pas encore.
Pas de nouvelles du projet Geopeuple, à l'IGN et à l'EHESS, qui devait produire une base de données des limites administratives des communes sur les 200 dernières années ?
Hors ligne
#12 Mon 15 September 2014 16:29
- pchevallot
- Participant occasionnel
- Lieu: METZ
- Date d'inscription: 24 Apr 2008
- Messages: 15
- Site web
Re: Utilisation/traitement de données INSEE
Bonjour Geo-x,
Désolé mais il semble que votre adresse mail ne soit pas publique.
Cordialement,
Pascal
Hors ligne
#13 Wed 17 September 2014 09:39
- Marc Leobet
- Participant assidu
- Lieu: Nowhere
- Date d'inscription: 19 Sep 2005
- Messages: 1103
- Site web
Re: Utilisation/traitement de données INSEE
Bonjour,
OSM annonçait dans ces colonnes une mise à jour "en temps réel" des fusions-associations-divorces des communes dans le cadre de sa gestion des limites communales. Je ne sais pas si cela répond à cet observatoire que nos services attendent, mais c'est peut-être à creuser.
Cordialement
Marc Leobet
@MarcLeobet sur Twitter
Hors ligne
#14 Wed 17 September 2014 21:27
- cquest
- Participant assidu
- Date d'inscription: 6 Jan 2013
- Messages: 875
Re: Utilisation/traitement de données INSEE
Temps réel peut être pas, mais suivre à minima les publications au JORF... en plus le rythme est actuellement bien calme pour les fusions de communes.
Ce qui est plus difficile à suivre ce sont les changements de limites lorsque des communes s'échangent des terrains (oui, ça arrive). Ceci est publié au JORF, mais pas les plans permettant de faire les mises à jour.
Christian Quest - https://amicale.net/@cquest sur Mastodon (terminé twitter/X)
Membre fondateur et porte parole d'OpenStreetMap France
Initiateur de opendatArchives, OpenEventDatabase, Panoramax
Hors ligne
#15 Thu 08 December 2016 14:14
- Groflo
- Participant actif
- Date d'inscription: 3 Jun 2013
- Messages: 84
Re: Utilisation/traitement de données INSEE
Bonjour à tous,
Je m'excuse de remonter ce fil fortement daté, mais il vient à point dans une réflexion que je mène depuis plusieurs mois !
Je cherche comme certains d'entre vous apparemment, à intégrer de nombreuses sources INSEE dans un base regroupée pour faire des extractions (géographiques et non géographiques) de façon automatisée et plus rapide.
Et comme je ne m'y connais que très peu en BDD et surtout encore moins en BI, ETL et tout le jargon qui va avec, j'étais assez désolé et perdu.
Et puis je tombe sur ce fil où je lis notamment cbredel expliquant qu'il met les fichiers INSEE dans PostgreSQL en forme brute puis qu'il les rend exploitable avec un ETL (ici geoKettle). D'où une grande avancée pour moi, et en mettant les mains dans geoKettle, effectivement je commence à comprendre tout l'intérêt d'un tel système, et toute la puissance de l'ETL.
Mais la route va encore être bien longue de mon côté, puisque je pars de bien loin, c'est pourquoi, si en faisant remonter ce fil, je donne envie à certains de partager à nouveau leurs retours, questions, réussites et difficultés, ça me serait super utile !
Merci par avance !
Hors ligne
#16 Thu 08 December 2016 15:13
- pchevallot
- Participant occasionnel
- Lieu: METZ
- Date d'inscription: 24 Apr 2008
- Messages: 15
- Site web
Re: Utilisation/traitement de données INSEE
Bonjour Groflo,
Si cela vous intéresse, possibilité de vous exposer / présenter rapidement un projet en agences d'urbanisme qui intègre un entrepôt de données sur la France entière, avec tous les découpages administratifs, politiques et statistiques, comportant notamment les 11 thématiques des chiffres clés de l'INSEE (exemple de la capture d'écran ci-jointe), le 5 thématiques infra-communales de l'INSEE, et tout un tas d'autres données issues d'Open Data (Base Permanente des Equipements, Sit@del2, Acoss, Mobilités professionnelles, scolaires et résidentielles, Agreste, etc.), dans un stack applicatif Open Source : PostgreSQL / PostGIS, Pentaho (dont PDI/Kettle), GeoServer.
Si cela peut vous donner des idées ou pour répondre à quelques questions, vous pouvez me contacter en message privé à : pascal.chevallot@ gmail.com
Bien cordialement,
Pascal
Hors ligne
#17 Fri 09 December 2016 10:14
- Groflo
- Participant actif
- Date d'inscription: 3 Jun 2013
- Messages: 84
Re: Utilisation/traitement de données INSEE
C'est effectivement impressionnant !
Merci pour la proposition, je vous contacte rapidement. Toutefois, si vous avez envie (et la possibilité) de préciser des choses ici sur la façon dont c'est construit/fonctionne par exemple (je pense entre autres à l'intégration des fichiers sources : quels fichiers, quels reformatages nécessaires, etc. mais aussi au temps/compétences nécessaires pour arriver à ce résultat…), je pense que ça pourrait intéressant d'autres membres du forum !
Hors ligne
#18 Fri 09 December 2016 11:54
- pchevallot
- Participant occasionnel
- Lieu: METZ
- Date d'inscription: 24 Apr 2008
- Messages: 15
- Site web
Re: Utilisation/traitement de données INSEE
Bonjour Groflo,
Il y a 2 volets à ce projet :
- la description globale que je vais pouvoir faire avec plaisir ci-dessous,
- un volet que je ne peux pas détailler dans ce forum, car contraire à l'étiquette de GeoRezo, puisqu'il y a en arrière-plan une "jeune pousse" qui se développe en ce moment-même sur la construction de services. Il y a donc un volet commercial et c'est en message privé que je peux détailler, et en toute transparence, la "machinerie profonde" et le modèle économique.
Passons donc à le description de l'architecture et aux compétences requises :
- toute l'environnement applicatif est entièrement Open Source ;
- le projet s'est construit autour d'un entrepôt de données modélisé selon les règles de l'art de l'informatique décisionnelle, en l'occurrence le "schéma en étoile" : pour faire très rapide et très simple, la modélisation en étoile va permettre de construire des "cubes" de données, et donc de "se promener" avec une facilité déconcertante dans de gros volumes de données, pour tout un tas de millésimes et dans des hiérarchies géographiques multiples, va également permettre de faire du "benchmarking territorial" en self-service et de comparer des territoires entre eux sur tout un tas de thématiques.
Le modèle en étoile, en schématisant, c'est :
- au "centre" de l'étoile, on a un "fait mesuré" (un nombre, celui de la population par exemple).
- Les "branches de l'étoile" sont les "axes d'analyse", les "dimensions" : par exemple, les différentes "strates" géographiques et leur imbrication comme un mille-feuilles (ex : de la France entière à la commune, en passant par les nouvelles régions, les régions, les départements, les arrondissements et les cantons), la dimension "temps" (pour avoir les différents millésimes) et tout un tas de dimensions "contextuelles" (ex : le genre H/F, les codes NAF et leur imbrication en plusieurs classes, le statut salarial, les tranches d'âge, le mode de transport, etc.).
Cette structuration spécifique (j'imagine que c'est le "reformatage" que vous évoquez), pour passer des fichiers sources (par exemple les dopnnées INSEE) vers la base PostgreSQL, se fait, dans le cas d'espèce, à l'aide de Kettle / PDI.
Ensuite, les "cubes" proprement dits, lisibles par Saiku (la capture d'écran jointe dans mon message précédent) ou dans Excel en XMLA par exemple, sont structurés dans des schémas XML.
Les sources de l'entrepôt en question sont très variées : INSEE communal (chiffres clés) et infracommunal, Sit@del2, BPE, Acoss, CAF (RSA, RSO, Paje, etc.), données environnementales (production d'électricité renouvelable), Mobilités résidentielles, professionnelles et scolaires, Economie présentielle et productive, Agreste, Emplois des cadres des fonctions métropolitaines, bref un "joli T0" pour qui désire ne pas partir de 0 justement ;-)
Une fois structuré, l'entrepôt permet non seulement de "forer" des cubes, mais également de construire des "rapports" et des "tableaux de bord" web et dynamiques, grâce à l'écosystème d'outils Open Source de Pentaho.
A votre service en messagerie privée pour d'autres renseignements sur pascal.chevallot@ gmail.com
Bonne journée,
Cordialement,
Pascal
Hors ligne
#19 Fri 09 December 2016 15:32
- white-shadow90
- Participant actif
- Date d'inscription: 9 Oct 2013
- Messages: 91
Re: Utilisation/traitement de données INSEE
Bonjour,
Je profite de ce sujet pour indiquer que l'APUR a développé un outil qui se base sur l'INSEE et qui permet de faire des choses très sympathiques :
http://www.apur.org/dataviz/portrait_mgp/index.html
Hors ligne
#20 Tue 13 December 2016 08:52
Re: Utilisation/traitement de données INSEE
Bonjour,
C'est sympa, mais cela ne vaut pas un bon (vieux) GéoClip!
Bonne journée,
Bruno
Hors ligne
#21 Tue 13 December 2016 10:21
- Groflo
- Participant actif
- Date d'inscription: 3 Jun 2013
- Messages: 84
Re: Utilisation/traitement de données INSEE
Merci Pascal pour cette vue d'ensemble. C'est intéressant en effet !
En revanche, je me questionne sur la logique du schéma en étoile, dans un entrepôt de données, appliqué à une telle liste de données (si vous pouvez répondre publiquement, sinon n'hésitez pas par message électronique).
Prenons une simple source de la population par communes, avec la pop13, la pop08, puis le détail par tranche d'âge. Est-ce que ça veut dire que dans un tel modèle, on privilégiera une table de faits par type d'info (une table de fait avec la pop13, une avec la pop08, et la dimension année viendra faire le lien entre ces 2 tables de faits, tout comme on fera une table de faits par tranche d'âge), ce qui crée un nombre impressionnant de tables, ou bien à l'inverse, une table de faits de population, qu'elle soit de 2008 ou 2013 (ou bien de n'importe quelle autre année), et qu'elle soit celle des 0-14 ans ou celle des 75+, ce qui me semble plus en accord avec l'idée du modèle en étoile, mais génère dans ce cas des tables de millions de lignes j'imagine (puisqu'il faut 36000 communes si on part de la communes * le nombre de dimensions. Par exemple, le fichier excel RP de l'évolution de la pop des communes en 2013 contient près de 4 millions de cellules remplies).
Et dans ce cas d'ailleurs, faut-il partir d'une table complète au niveau géographique le plus faible (type IRIS) puis, par le jeu des dimensions, reconstituer les populations pour les autres niveaux ?
Au regard du travail, ça me semble effectivement démesuré d'imaginer une solution maison pour mes besoins, mais depuis que j'ai mis le doigt dans ce monde tout nouveau pour moi du décisionnel, je trouve ça intellectuellement très stimulant à comprendre.
A votre service en messagerie privée pour d'autres renseignements sur pascal.chevallot@ gmail.com
Message envoyé, merci
C'est sympa, mais cela ne vaut pas un bon (vieux) GéoClip!
Il est vrai que GéoClip a toujours été un outil très attrayant et qui semble bien pensé.
Hors ligne