banniere

Le portail francophone de la géomatique


Toujours pas inscrit ? Mot de passe oublié ?
Nom d'utilisateur    Mot de passe              Toujours pas inscrit ?   Mot de passe oublié ?

Annonce

#1 Sat 24 August 2024 08:24

grunt2
Juste Inscrit !
Date d'inscription: 7 Jul 2024
Messages: 1

Publication projet opensource d analyse de l open data territorial

Bonjour,

(je ne suis pas "nouvel inscrit", mais mon profil habituel, grunt, a été marqué comme ayant eu un incident sur Georezo, et j'ai dû le recréer)

Après sept ans de préparation, je publie un projet open source d'extraction et d'analyse des données open data nationales et territoriales.
Comptes France (nom pas encore définitif) sur https://gitlab.com/territoirevif/comptes-france

Extraction puis mise à disposition de données
Son premier objectif est d'extraire des jeux de données : communes, intercommunalités, entreprises, base équipement, comptabilité, besoins en main d’œuvre, revenus et imposition des ménages, associations, sur plusieurs années (principalement de 2018 à 2024) en les rendant comparables (présentées sous la même forme) chaque année.
En les nettoyant, typant pour en faire des jeux Apache Parquet partitionnés et triés. Cette partie est écrite en Java/Spring Boot/Spark.
→Pour simplifier, l'application fait du data-engineering.

Connexion d'outils pour débuter rapidement une analyse ou une application autour
Son deuxième rôle est de connecter des composants aidant à l'analyse et l'exploitation de ces données : une base PostGIS, un Apache Spark, une IHM de départ Angular, un Geoserver, et un Elastic, pour épargner à celui qui veut débuter un examen de données géographiques d'avoir à se bâtir, lui-même, un environnement assez complexe à mettre en œuvre.
Cette partie peut être exploitée par n'importe quel langage de programmation ou d'extraction (capable de lire des fichiers Parquet, et optionnellement, de faire des appels REST). Je vais chercher à faciliter sa connexion avec Python et Jupyter, qui offrent de nombreuses fonctions en cartographie et mathématiques/statistiques.
→Ici, l'application présente les données, permet leur emploi (graphique, extraction, machine learning...). C'est à l'utilisateur de réaliser l'étude de son choix.

Il s'agit d'un projet open source de support, d'un Plan de travail pour permettre à qui en a besoin d'avoir un point de départ où il peut adjoindre ses propres données, et débuter ses analyses.

Les premiers jeux de données sélectionnés sont économiques
J'ai pensé ce projet avec une orientation sur les données économiques, initialement. Avec comme public visé, par exemple, les Groupes d'Action Locaux (GAL, LEADER) qui font de nombreuses études sur leur territoire.
Son intérêt est de gommer beaucoup d'aspérités et de complexités liés aux données open data, ou dues à l'organisation de nos collectivités territoriales.
(exemples en cours : l'arrivée de la Base Permanente des Équipements et Services 2023 INSEE, de structure différente de ses versions précédentes. Les intercommunalités et leur manière d'expression des Établissements Publics Territoriaux (EPT) dans les fichiers BANATIC. Le fichier unique des comptes individuels des communes (pour leur analyse financière) qui ont perdu des données en 2022 (la taxe d'habitation sur résidence principale ayant été abandonnée) mais les ont aussi perdues pour les années précédentes ce qui le rend inexploitable et il faut avertir qui le met à disposition), etc.

Vos remarques seront les bienvenues.
Sur le but que je lui ai donné, ce qu'il faut documenter, ce que vous aimeriez y trouver.
Et si vous l'utilisez, les difficultés que vous rencontrez. Ou s'il y a des choses qui vous paraissent étranges.
Je ne sais pas où publier, pour commencer, en à côté du projet open source, les datasets Parquet des données finales qu'il produit. Pour éviter à ses utilisateurs l'étape de génération des datasets, et passer directement à celle d'utilisation. J'ai besoin d'entre 40 et 100 Go, et je ne sais pas où ça se trouve sur Internet, un tel espace d'hébergement.

Dernière modification par grunt2 (Mon 26 August 2024 07:10)

Hors ligne

 

Pied de page des forums

Powered by FluxBB