Pages: 1
- Sujet précédent - [Aide] Extraction données depuis de larges jeux de données - Sujet suivant
#1 Tue 20 November 2012 16:32
- lavillerose
- Juste Inscrit !
- Date d'inscription: 20 Nov 2012
- Messages: 4
[Aide] Extraction données depuis de larges jeux de données
Bonjour à tous,
C'est la 1ère fois que je post un sujet sur le forum et si jamais il n'est pas du tout à sa bonne place voudriez-vous bien les modérateurs le transférer là où il faut qu'il y soit merci.
Pour mon propos, je dois effectuer des statistiques basiques sur des données socio-économiques de l'Agglomération toulousaine, puis les retraiter dans un atlas SIG sous MapInfo.
Ma base de données est le résultat du recensement de la population 2009 mis à disposition par l'INSEE sur ce lien :
http://www.recensement.insee.fr/fichier … eme=INDCVI
C'est le fichier "D" nommé INDCVIZD. Je l'ai téléchargé mais je suis confronté à un gros problème. Une fois le fichier décompressé, je me retrouve avec un fichier .*txt qui fait au total 1Go de données, ce qui est énorme! Mon ordinateur n'ayant que 2Go de Ram (sur Win XP), il ne peut pas ouvrir ce fichier que ce soit avec MapInfo, ou Blocnote.
Je n'ai pas besoin de toutes les données contenues dans ce fichier mais juste extraire celles concernant l'agglomération toulousaine (166000 lignes) ou au pire la région Midi-Pyrénées (4 millions de lignes).
Pour le moment, mes recherches sur google m'ont lancé sur la piste du traitement de données à la volée à l'aide du logiciel de statistiques "R" (GNU) et l'utilisation du Package "hashfile". (Je précise que je suis fervent utilisateur du Gratuit)
Voir le lien http://yusung.blogspot.fr/2007/09/deali … -in-r.html
Son principe est de pallier le manque de mémoire Ram en enregistrant temporairement les données sur le disque dur. N'étant pas un grand spécialiste des statistiques et des lignes de commandes complexes je tatonne encore...
Il semblerait que SAS soit déjà capable de le faire mais je n'ai malheureusement pas les moyen de me l'acquérir.
Est-ce que quelqu'un aurait une idée de la manière d'extraire des données contenues dans de très larges jeux de données comme celui-ci?
Merci
Billy
Hors ligne
#2 Tue 20 November 2012 17:03
Re: [Aide] Extraction données depuis de larges jeux de données
déjà, stocker le tout dans un sgbd type postgresql peut être un moyen d'améliorer les performances, notamment dans le requêtage.
geodata au cerema et petits billets en géomatique
Hors ligne
#3 Tue 20 November 2012 17:44
Re: [Aide] Extraction données depuis de larges jeux de données
Bonjour,
Ou sqlite ?
Y.
Yves Jacolin, bénévole de l'association GeoRezo.net, agit au nom et pour le compte de l'association - Partageons ce qui nous départage !! - GeoRezo vous aide ? Aidez GeoRezo !
Hors ligne
#4 Tue 20 November 2012 20:42
Re: [Aide] Extraction données depuis de larges jeux de données
Bonjour
Juste une question : quel est l'intérêt d'utiliser ces fichiers très volumineux plutôt que des données à l'IRIS ?
Merci de vos éclairages
Hors ligne
#5 Wed 21 November 2012 12:23
- lavillerose
- Juste Inscrit !
- Date d'inscription: 20 Nov 2012
- Messages: 4
Re: [Aide] Extraction données depuis de larges jeux de données
Bonjour
AlineC,
En effet je ne suis pas rentré dans le détail. Le but de mon projet est de reprendre une étude sociologique qui avait déjà été faite sur les inégalités sociales dans une petite zone (appelons-la "Etude1"). Je voudrais l'étendre à une comparaison à l'échelle du quartier et de l'agglomération sans avoir à retravailler les données brutes pour qu'elles restent conformes à l'étude1. De plus les quartiers ne sont pas tous forcément découpés en fonction des IRIS, et puis à mon avis vu leur nombre important, je ne me vois pas les télécharger et les traiter un par un pouir le moment. D'où la raison pour laquelle je veux tenter de travailler sur les bases de données volumineuses de l'étude1. J'espère que ça reste compréhensible...
Baobazz et Yves,
J'ai un peu regardé postgresql et SQLite. Effectivement cela pourrait être une voie pour extraire mes données sans passer par des applications lourdes. Ce qui m'ennuie est que je ne suis pas encore assez familié avec les requetes SQL complexes, je n'ai utilisé que les requêtes basiques sur MySQL et il y a de cela un bail.
Donc si je comprends bien Postgresql aurait un meilleur outil d'indexation des données et de gestion des relations entre les tables que MySQL.
Pour SQLite, il semblerait d'après un article sur Wiki que je cite :
"D'une manière générale, il est conseillé d'utiliser SQLite là où les données ne sont pas centralisées et où l'expansion de la taille de la base ne risque pas de devenir critique. Si la base de données a pour but de centraliser une grande masse de données et de les fournir à un grand nombre de clients, il est préférable d'utiliser des SGBD basés sur le paradigme client-serveur. SQLite a pour objectif de remplacer les fichiers texte et non les serveurs de base de données traditionnels2."
Je pense que ma BDD est déjà critique dans sa taille avec en plus 89 variables à trier! Peut-être que ce n'est pas la bonne solution malgré le fait que de se passer de l'intermédiaire Client-SGBD pourrait bien soulager les calculs de ma machine.
Bon, je vais quand même tester l'extraction avec PostgreSQL et SQLite avec ma petite config et je vous tiens au courant de l'avancée.
Si jamais vous avez des idées je suis preneur.
Bien cordialement
Billy
Hors ligne
#6 Wed 21 November 2012 13:22
- Jean-Michel
- Membre
- Lieu: An Oriant /Lorient
- Date d'inscription: 3 Oct 2005
- Messages: 3909
Re: [Aide] Extraction données depuis de larges jeux de données
Bonjour,
La solution est là : http://www.agam.org/fr/ressources-et-do … tract.html
C'est fait pour ce type de données et c'est fait pour s'en servir !
Il est également référencé ici
A mettre dans vos outils de références !
Les agences d'urbanisme font du bon boulot...
Jean-Michel
GeoRezo, c'est des blogs, un wiki, un Netvibes ...
GeoRezo vous aide ==> Aidez GeoRezo !
Hors ligne
#7 Wed 21 November 2012 14:16
- lavillerose
- Juste Inscrit !
- Date d'inscription: 20 Nov 2012
- Messages: 4
Re: [Aide] Extraction données depuis de larges jeux de données
Bonjour Jean-Michel,
Merci beaucoup pour le lien, cela me semble le plus simple à mettre en oeuvre. Je regarde ça dès que j'ai mon ordi entre les mains.
Cordialement
Billy
Hors ligne
#8 Mon 03 December 2012 10:49
- lavillerose
- Juste Inscrit !
- Date d'inscription: 20 Nov 2012
- Messages: 4
Re: [Aide] Extraction données depuis de larges jeux de données
En effet cet outil est très puissant.
J'ai pu enfin extraire mes données avec un peu de difficultés mais ça marche très bien.
Merci à tous
Cordialement
Hors ligne
Pages: 1
- Sujet précédent - [Aide] Extraction données depuis de larges jeux de données - Sujet suivant