#1 Wed 19 April 2006 10:33
- martind
- Juste Inscrit !
- Lieu: Paris
- Date d'inscription: 29 Sep 2005
- Messages: 8
Solutions de data cleaning
Bonjour à tous,
Je souhaite m'informer des solutions de data cleaning existantes. Il s'agirait de nettoyer une base de données d'adresses en vue d'un géocodage de meilleure qualité. Quelqu'un se serait-il déjà penché sur ce sujet ? Je ne trouve pas beaucoup d'infos sur le net là dessus à part quelques solutions de gros éditeurs.
Merci !
Hors ligne
#2 Wed 19 April 2006 11:33
- Damien BEAUSEIGNEUR
- Participant assidu
- Lieu: meyzieu
- Date d'inscription: 5 Sep 2005
- Messages: 425
Re: Solutions de data cleaning
C'est quelque par une gajure. L'ensemble des solutions apportée, pour optimiser le géocodage.
Les causes de mauvais géocodage
En premier l'orthographe des rues, peu générer des erreurs dans le géocodage.
En second la date, de la données, certaines rues ayant put changer de nom. Et donc une différence possible entre les données du géocodeur et les données de la bases.
Les rues nouvelles.
Rue non cartographiées dans le référentiel.
Les codes postaux pour les cedex différents des codes postaux principaux.
Une bonne organisation des données adresses.
Pour gérer ce genre de problème, il faut faire appel à la restructuration des adresses, celà ne fera pas tous mais celà devrais booster un peu les résultats.
Hors ligne
#3 Wed 19 April 2006 12:01
- poumpampim
- Participant occasionnel
- Lieu: Saint-Maurice
- Date d'inscription: 13 Jan 2006
- Messages: 31
- Site web
Re: Solutions de data cleaning
Bonjour,
Combien d'adresses avez-vous ? De quel type (urbaines/rurales, d'entreprises/de particuliers) ?
L'opération de restructuration des adresses doit-elle être faite ponctuellement ou régulièrement ? Si régulièrement quel volume est concerné par la mise à jour ?
Quelle est la précision attendue du géocodage (10 à 15 mètres ?, 100 mètres ?, 500 mètres ? 1 km ?)
En fonction de ces réponses, on peut déterminer si vous avez intérêt, à faire vous même à la main, à faire vous même avec logiciel acheté, à sous-traiter.
Bien cordialement,
OL
Hors ligne
#4 Wed 19 April 2006 12:18
- martind
- Juste Inscrit !
- Lieu: Paris
- Date d'inscription: 29 Sep 2005
- Messages: 8
Re: Solutions de data cleaning
Bonjour,
Combien d'adresses avez-vous ? De quel type (urbaines/rurales, d'entreprises/de particuliers) ?
L'opération de restructuration des adresses doit-elle être faite ponctuellement ou régulièrement ? Si régulièrement quel volume est concerné par la mise à jour ?
Quelle est la précision attendue du géocodage (10 à 15 mètres ?, 100 mètres ?, 500 mètres ? 1 km ?)
En fonction de ces réponses, on peut déterminer si vous avez intérêt, à faire vous même à la main, à faire vous même avec logiciel acheté, à sous-traiter.
Bien cordialement,
OL
Adresses de particuliers, restructuration partielle semestrielle (pas tout à fait défini encore ), précision à l'IRIS. Volume : un fichier texte d'environ 600 Mo (5 champs).
Bien sûr, je pourrais chercher une solution en sous-traitance, mais ce n'est pas une option retenue.
J'ai vu une solution proposée dans SQL server ( http://msdn2.microsoft.com/fr-fr/librar … L.90).aspx )... Si quelqu'un connait ?
Hors ligne
#5 Wed 19 April 2006 14:18
- Damien BEAUSEIGNEUR
- Participant assidu
- Lieu: meyzieu
- Date d'inscription: 5 Sep 2005
- Messages: 425
Re: Solutions de data cleaning
Compte tenu de la taille, il n'y a qu'une seule solution l'automatisation.
Parce qu'a raison d'1ko par adresse celà représente quand même 600 000 adresses à géocoder. Et même si l'évolution est limité à 10% celà représentera 60000 adresses à regéocoder.
Pour ce genre de géocodage, on peut se limiter au code iris, mais pour certaine adresse il faut une précision au numéro pour connaître le bon iris.
La base correspondance iris adresse est un bon point de départ, mais à compléter avec un géocodage au numéro et une détection graphique pour les adresse non trouvées.
Précision nécessaire: sur les communes de moins de 4000 habitant -la ville.
Pour les autres la rue voir une précision au numéro.
Amoins d'utiliser des logiciels de normalisation d'adresses, il te faudra développer ton géocodeur.
Bonne chance.
Hors ligne
#6 Wed 19 April 2006 15:25
- martind
- Juste Inscrit !
- Lieu: Paris
- Date d'inscription: 29 Sep 2005
- Messages: 8
Re: Solutions de data cleaning
A moins d'utiliser des logiciels de normalisation d'adresses
C'est précisément sur ces logiciels que je cherche des informations. Est-ce qu'ils normalisent en établissant une relation avec une base d'adresses à jour, ou bien est-ce qu'ils ne font que formater les données ? Quel éditeur propose ce genre de logiciel ? Etc
Hors ligne
#7 Wed 19 April 2006 17:39
- Damien BEAUSEIGNEUR
- Participant assidu
- Lieu: meyzieu
- Date d'inscription: 5 Sep 2005
- Messages: 425
Re: Solutions de data cleaning
Si l'on par sur l'utilisation du référentiel postal.
Normalement ils font plus que seulement formater les champs, il vérifie l'exactitude de l'adresse, la reformule eventuellement selon la classification du logiciel. L'idéal c'est d'avoir les mêmes données quelque soit le fournisseur et donc prendre le normalisateur tournant avec les même données que le géocodeur, et même éventuellement lancer les deux dans la foulée.
Il existe bien des normalisateurs, voir la liste des géocodeurs pour information, certain intègre cette technologie, pour avoir suivi son développement le géocodeur de Mercuriale-Data, permets cette normalisation, et optimise cette recherche d'adresse.
Hors ligne
#8 Wed 19 April 2006 20:46
- P.Latour
- Invité
Re: Solutions de data cleaning
Bonjour
Vous pouvez consulter les problématiques du géocodage à l'adresse suivante http://www.spatialist.fr/index.php?opti … Itemid=181
Il est clair que réaliser une RNVP (restructuration, Normalisation, Validation postale) ne peut en principe qu'améliorer la qualité du résultat. Voir les outils recommandés par le SNA de La Poste http://sna.laposte.cvf.fr/rubrique.php3?id_rubrique=95.
Le problème est que les qualités des géocodeurs sont très sujettes à caution : un test fait sur un fichier de 5.000 adresses avec 4 géocodeurs différents a montré que le taux d'exactitude (différences inférieures à 50 m) est à peine de 25 %
De plus en plus les entreprises qui souhaitent une haute qualité recourent au GPS (réseaux de points de vente par exemple). Par contre lorsqu'on géocode un fichier de particuliers, par exemple, le principe consiste à jouer avec l'effet statistique et éliminer toutes les adresses pour lesquelles le géocodeur ne garantit pas l'exactitude.
Le principe des géocodeurs (et des outils de rNVP) est de comparer les contenus des champs du fichier à coder à ceux des référentiels (de la Poste ou cartographiques). La comparaison se fait caractère / caractère après réorganisation du champ (numéro, Type de voie, Toponyme). Les outils de géocodage disposent en général de curseurs pour indiquer le niveau de matchage des caractères, ou bien ils renvoient une qualification qui indique le niveau de matchage (sur base de X% de caractères trouvés).
De toute façon il y a au préalable un gros travail à faire de traitement visuel par tris successifs sur les champs du fichier et qui permer de faire de grosses corrections.
Enfin il faut souvent compléter un géocodage automatique par des opérations de recherche manuelle en particulier quand on a beaucoup d'adresses dans des résidences.