Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site. Si vous continuez à utiliser ce dernier, nous considèrerons que vous acceptez l'utilisation des cookies. J'ai compris ! ou En savoir plus !.
banniere

Le portail francophone de la géomatique


Toujours pas inscrit ? Mot de passe oublié ?
Nom d'utilisateur    Mot de passe              Toujours pas inscrit ?   Mot de passe oublié ?

Annonce

Rencontres QGIS 2025

L'appel à participation est ouvert jusqu'au 19 janvier 2025!

#1 Tue 20 November 2012 16:32

lavillerose
Juste Inscrit !
Date d'inscription: 20 Nov 2012
Messages: 4

[Aide] Extraction données depuis de larges jeux de données

Bonjour à tous,

C'est la 1ère fois que je post un sujet sur le forum et si jamais il n'est pas du tout à sa bonne place voudriez-vous bien les modérateurs le transférer là où il faut qu'il y soit merci.

Pour mon propos, je dois effectuer des statistiques basiques sur des données socio-économiques de l'Agglomération toulousaine, puis les retraiter dans un atlas SIG sous MapInfo.

Ma base de données est le résultat du recensement de la population 2009 mis à disposition par l'INSEE sur ce lien :
http://www.recensement.insee.fr/fichier … eme=INDCVI
C'est le fichier "D" nommé INDCVIZD. Je l'ai téléchargé mais je suis confronté à un gros problème. Une fois le fichier décompressé, je me retrouve avec un fichier .*txt qui fait au total 1Go de données, ce qui est énorme! Mon ordinateur n'ayant que 2Go de Ram (sur Win XP), il ne peut pas ouvrir ce fichier que ce soit avec MapInfo, ou Blocnote.

Je n'ai pas besoin de toutes les données contenues dans ce fichier mais juste extraire celles concernant l'agglomération toulousaine (166000 lignes) ou au pire la région Midi-Pyrénées (4 millions de lignes).

Pour le moment, mes recherches sur google m'ont lancé sur la piste du traitement de données à la volée à l'aide du logiciel de statistiques "R" (GNU) et l'utilisation du Package "hashfile". (Je précise que je suis fervent utilisateur du Gratuit)
Voir le lien http://yusung.blogspot.fr/2007/09/deali … -in-r.html
Son principe est de pallier le manque de mémoire Ram en enregistrant temporairement les données sur le disque dur. N'étant pas un grand spécialiste des statistiques et des lignes de commandes complexes je tatonne encore...

Il semblerait que SAS soit déjà capable de le faire mais je n'ai malheureusement pas les moyen de me l'acquérir.

Est-ce que quelqu'un aurait une idée de la manière d'extraire des données contenues dans de très larges jeux de données comme celui-ci?

Merci

Billy

Hors ligne

 

#2 Tue 20 November 2012 17:03

MathieuR
Membre
Lieu: aix-en-provence
Date d'inscription: 16 Feb 2009
Messages: 1690
Site web

Re: [Aide] Extraction données depuis de larges jeux de données

déjà, stocker le tout dans un sgbd type postgresql peut être un moyen d'améliorer les performances, notamment dans le requêtage.


geodata au cerema et petits billets en géomatique

Hors ligne

 

#3 Tue 20 November 2012 17:44

Yves
Membre du bureau
Lieu: Aix-les-Bains
Date d'inscription: 22 Mar 2006
Messages: 9869
Site web

Re: [Aide] Extraction données depuis de larges jeux de données

Bonjour,

Ou sqlite ?

Y.


Yves Jacolin, bénévole de l'association GeoRezo.net, agit au nom et pour le compte de l'association - Partageons ce qui nous départage !!  - GeoRezo vous aide ? Aidez GeoRezo !

Hors ligne

 

#4 Tue 20 November 2012 20:42

AlineC
Membre du bureau
Lieu: AVIGNON
Date d'inscription: 5 Sep 2005
Messages: 2143
Site web

Re: [Aide] Extraction données depuis de larges jeux de données

Bonjour

Juste une question : quel est l'intérêt d'utiliser ces fichiers très volumineux plutôt que des données à l'IRIS ?

Merci de vos éclairages

En ligne

 

#5 Wed 21 November 2012 12:23

lavillerose
Juste Inscrit !
Date d'inscription: 20 Nov 2012
Messages: 4

Re: [Aide] Extraction données depuis de larges jeux de données

Bonjour

AlineC,
En effet je ne suis pas rentré dans le détail. Le but de mon projet est de reprendre une étude sociologique qui avait déjà été faite sur les inégalités sociales dans une petite zone (appelons-la "Etude1"). Je voudrais l'étendre à une comparaison à l'échelle du quartier et de l'agglomération sans avoir à retravailler les données brutes pour qu'elles restent conformes à l'étude1. De plus les quartiers ne sont pas tous forcément découpés en fonction des IRIS, et puis à mon avis vu leur nombre important, je ne me vois pas les télécharger et les traiter un par un pouir le moment. D'où la raison pour laquelle je veux tenter de travailler sur les bases de données volumineuses de l'étude1. J'espère que ça reste compréhensible...

Baobazz et Yves,
J'ai un peu regardé postgresql et SQLite. Effectivement cela pourrait être une voie pour extraire mes données sans passer par des applications lourdes. Ce qui m'ennuie est que je ne suis pas encore assez familié avec les requetes SQL complexes, je n'ai utilisé que les requêtes basiques sur MySQL et il y a de cela un bail.

Donc si je comprends bien Postgresql aurait un meilleur outil d'indexation des données et de gestion des relations entre les tables que MySQL.
Pour SQLite, il semblerait d'après un article sur Wiki que je cite :

"D'une manière générale, il est conseillé d'utiliser SQLite là où les données ne sont pas centralisées et où l'expansion de la taille de la base ne risque pas de devenir critique. Si la base de données a pour but de centraliser une grande masse de données et de les fournir à un grand nombre de clients, il est préférable d'utiliser des SGBD basés sur le paradigme client-serveur. SQLite a pour objectif de remplacer les fichiers texte et non les serveurs de base de données traditionnels2."

Je pense que ma BDD est déjà critique dans sa taille avec en plus 89 variables à trier! Peut-être que ce n'est pas la bonne solution malgré le fait que de se passer de l'intermédiaire Client-SGBD pourrait bien soulager les calculs de ma machine.

Bon, je vais quand même tester l'extraction avec PostgreSQL et SQLite avec ma petite config et je vous tiens au courant de l'avancée.

Si jamais vous avez des idées je suis preneur.

Bien cordialement


Billy

Hors ligne

 

#6 Wed 21 November 2012 13:22

Jean-Michel
Membre
Lieu: An Oriant /Lorient
Date d'inscription: 3 Oct 2005
Messages: 3909

Re: [Aide] Extraction données depuis de larges jeux de données

Bonjour,
La solution est là : http://www.agam.org/fr/ressources-et-do … tract.html
C'est fait pour ce type de données et c'est fait pour s'en servir !
Il est également référencé ici
A mettre dans vos outils de références !
Les agences d'urbanisme font du bon boulot...


Jean-Michel
GeoRezo, c'est des blogs, un wiki, un Netvibes ...
GeoRezo vous aide ==> Aidez GeoRezo !

Hors ligne

 

#7 Wed 21 November 2012 14:16

lavillerose
Juste Inscrit !
Date d'inscription: 20 Nov 2012
Messages: 4

Re: [Aide] Extraction données depuis de larges jeux de données

Bonjour Jean-Michel,

Merci beaucoup pour le lien, cela me semble le plus simple à mettre en oeuvre. Je regarde ça dès que j'ai mon ordi entre les mains.

Cordialement

Billy

Hors ligne

 

#8 Mon 03 December 2012 10:49

lavillerose
Juste Inscrit !
Date d'inscription: 20 Nov 2012
Messages: 4

Re: [Aide] Extraction données depuis de larges jeux de données

En effet cet outil est très puissant.
J'ai pu enfin extraire mes données avec un peu de difficultés mais ça marche très bien.

Merci à tous

Cordialement

Hors ligne

 

Pied de page des forums

Powered by FluxBB