Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site. Si vous continuez à utiliser ce dernier, nous considèrerons que vous acceptez l'utilisation des cookies. J'ai compris ! ou En savoir plus !.
banniere

Le portail francophone de la géomatique


Toujours pas inscrit ? Mot de passe oublié ?
Nom d'utilisateur    Mot de passe              Toujours pas inscrit ?   Mot de passe oublié ?

Annonce

Suite à un problème technique intervenu entre le 22 et le 23 mars, nous avons du procéder dans la soirée du 25 mars, à la restauration de la base de données du 24 mars (matinée).

En clair, nous avons perdu vos contributions et inscriptions du dimanche 24 et du lundi 25 mars.
Nous vous prions de nous excuser.

#1 Tue 25 October 2022 10:32

rbonnefoi
Juste Inscrit !
Date d'inscription: 26 Sep 2016
Messages: 4

Geocodage en masse tronque avec l'API adresse CSV

Bonjour à tous,

Je rencontre un problème avec l'API adresse csv, qui me renvoie systématiquement un fichier tronqué (beaucoup moins de ligne en sortie qu'en entrée, sans erreur apparente).

J'ai d'abord naïvement essayé avec mon extraction complète (14Mo, 230 000 lignes) pour me rendre compte que le CSV renvoyé par l'API ne contenait que 4200 lignes.

J'ai donc envoyé un fichier plus petit, contenant les premières 4300 lignes, le fichier renvoyé contient également les mêmes 4200 lignes (tout rond).

En travaillant sur le fichier des 4300 dernières lignes, cette fois l'API ne renvoie que 700 lignes (tout rond).

J'ai essayé de supprimer les 4200e et 700e ligne pour voir si l'API s'arrêtait du fait d'un problème de formatage d'une ligne en particulier, mais ça n'a rien changé.

Le fait que le nombre de lignes renvoyées soit à chaque fois multiple de 700 n'est sûrement pas anodin, et peut-être lié à un traitement par paquet qui s'arrête (timemout ou erreur dans un paquet en lien avec une sorte de COMMIT ?). Sachant que l'API ne mouline qu'à chaque fois une dizaine de secondes au plus (il me semble avoir lu qqpart que le timeout était de 600 secondes).

Voici la requête que j'utilise :

Code:

curl -o dau_ban_4300t.csv -X POST -F data=@dau_non_geolocalise_4300t.csv -F columns=adresse -F citycode=commune -F result_columns=latitude -F result_columns=longitude -F result_columns=result_score -F result_columns=result_type https://api-adresse.data.gouv.fr/search/csv/

Merci à tous ceux qui pourraient m'aider à résoudre mon problème, sur lequel j'ai déjà passé pas mal de temps d'investigation sans succès.

Je peux bien sûr envoyer en MP les fichiers csv que j'utilise (je n'ai pas trouvé comment les joindre sur le forum).

Bonne journée à tous.

Hors ligne

 

#2 Tue 25 October 2022 11:03

jdesboeufs
Participant assidu
Lieu: Paris
Date d'inscription: 11 Jun 2012
Messages: 156

Re: Geocodage en masse tronque avec l'API adresse CSV

Bonjour,

Je suis encore sur le sujet pour quelques jours, tu peux m'envoyer ton fichier à adresse@texte-a-enlever.data.gouv.fr pour qu'on regarde.
(tu peux aussi indiquer l'adresse IP d'appel pour qu'on recherche dans les logs)

Il y a en effet un traitement qui découpe le fichier par paquets (de 100). Soit il y a une erreur (grave apparemment) dans le fichier entre les lignes 4200 et 4300, soit en effet on a un soucis de timeout. On va corriger ça.

On bosse par ailleurs sur un nouveau système de géocodage en masse pour la Géoplateforme qu'il sera possible de beta-tester très bientôt.

Merci pour le retour.


Jérôme Desboeufs / Living Data
ex-BAN ex-Etalab

Hors ligne

 

#3 Tue 25 October 2022 15:10

rbonnefoi
Juste Inscrit !
Date d'inscription: 26 Sep 2016
Messages: 4

Re: Geocodage en masse tronque avec l'API adresse CSV

Merci beaucoup pour votre retour rapide et votre proposition d'aide.

Je vous ai fait suivre mes fichiers tests à l'adresse indiquée.

Hors ligne

 

#4 Wed 26 October 2022 09:45

rbonnefoi
Juste Inscrit !
Date d'inscription: 26 Sep 2016
Messages: 4

Re: Geocodage en masse tronque avec l'API adresse CSV

Problème résolu par l'équipe de l'API (merci à elle) : des guillemets ou double apostrophes dans certaines lignes posaient problème à l'API, qui s'arrête de traiter le lot de lignes en cours de process (100 lignes par 100 lignes).

A l'attention des utilisateurs de l'API : un arrêt inopiné de traitement du fichier d'entrée par l'API ne génère vraisemblablement pas de message d'erreur, il faut donc bien vérifier l'égalité entre le nombre de lignes en entrée et le nombre de lignes en sortie pour savoir si la routine de géocodage s'est terminée complètement.

Hors ligne

 

Pied de page des forums

Powered by FluxBB