#1 Wed 01 April 2009 15:41
L'ETL (Extract transform Load) pour les nuls
Bonjour la liste,
Je cherche quelques vulgarisations du concept d'outils ETL (est-ce pareil que Data Warehousing? Il y a un bouquin mais bon ?). J'ai du mal à aborder la notion, elle m'intéresse mais il y a des choses qui m'échappent sûrement, notamment quand je commence à lire des pages en anglais de tutoriaux qui me laissent un peu perplexes et me laissent l'impression d'avoir un neurone défaillant.
Je cherche une bonne âme pour me vulgariser en mots simples tout ça et m'aider à bien saisir le concept. Voilà ce que j'en comprend pour le moment, néophyte en ce domaine : des outils de création de scripts "visuels" permettant d'appliquer des traitements automatisés (à préciser) à un grand nombre de données. Est-ce bien ça ?
Exemple :
- je prend un shape, je le découpe en fonction d'un autre, j'exporte en Mif.
- je fais une extraction de données d'une geodatabase, je projette ma donnée, et j'exporte en tab ou je remet dans ma geodatabase.
J'ai l'impression que mon approche est simplissime (voire erronée), et je suis convaincu que ces solutions sont capable de mieux et de plus complexe. Auriez vous des exemples "parlant" de l'utilisation de ces solutions ?
Autre questions (naives?), tant que j'y suis :
- est-ce que FME et Spatial Data Integrator (je n'ai installé que le deuxième) sont bien des outils ETL, faisant des choses similaires ?
- quelles structures utilisent ces solutions ?
- est-ce réservé aux traitement raster, vecteur ou est-ce uniquement pour des bases de données (et/ou autre chose) ?
Merci de toute réponses qui complèteront mon inculture en ce domaine
Robin.
Hors ligne
#2 Wed 01 April 2009 16:11
Re: L'ETL (Extract transform Load) pour les nuls
Salut robin,
Je vais tenter de répondre à tes questions :
Bonjour la liste,
Je cherche quelques vulgarisations du concept d'outils ETL (est-ce pareil que Data Warehousing? Il y a un bouquin mais bon ?). J'ai du mal à aborder la notion, elle m'intéresse mais il y a des choses qui m'échappent sûrement, notamment quand je commence à lire des pages en anglais de tutoriaux qui me laissent un peu perplexes et me laissent l'impression d'avoir un neurone défaillant.
Je cherche une bonne âme pour me vulgariser en mots simples tout ça et m'aider à bien saisir le concept. Voilà ce que j'en comprend pour le moment, néophyte en ce domaine : des outils de création de scripts "visuels" permettant d'appliquer des traitements automatisés (à préciser) à un grand nombre de données. Est-ce bien ça ?
Le concept d'ETL/ELT et de DataWarehouse font partie des concepts de la Business Intelligence ou Intelligence d'affaire voir intelligence décisionnelle. Un ETL/ELT est comme son nom l'indique, une application qui permet de triturer tes données pour les importer (L) et les modifier (T). Cela va un peu plus loin que de la simple transformation de format. Par exemple j'ai un fournisseur de données qui m'envoie des données hebdomadaire. Mais la structure de sa base est complètement différente de la mienne, j'ai des nomenclatures différentes et enfin des données sont déjà dans ma base, que je ne veux pas dédoubler. L'ETL va me permettre de récupérer ces données, de le comparer avec celle que j'ai, de les restructurer voir de les modifier.
Un datawarehouse est simplement un entrepôt de données spécialisé pour fournir des données à un système dans le cadre d'une base de données complexe. En effet tu as différente façon de la structure (en étoile, etc.) qui ont chacune ses avantages et ses inconvénients.
Dans la chaîne de BI tu commences par l'ETL pour industrialiser l'import de tes données d'un fournisseur (ou plusieurs), puis tu créés tes datawarehouse, enfin tu configure ton cube OLAP pour réaliser des analyses, des rapports automatisés (reporting), des tableaux de bord (dashboard) [les mots-clés sont en italique].
Exemple :
- je prend un shape, je le découpe en fonction d'un autre, j'exporte en Mif.
- je fais une extraction de données d'une geodatabase, je projette ma donnée, et j'exporte en tab ou je remet dans ma geodatabase.
J'ai l'impression que mon approche est simplissime (voire erronée), et je suis convaincu que ces solutions sont capable de mieux et de plus complexe. Auriez vous des exemples "parlant" de l'utilisation de ces solutions ?
conf plus haut
Autre questions (naives?), tant que j'y suis :
- est-ce que FME et Spatial Data Integrator (je n'ai installé que le deuxième) sont bien des outils ETL, faisant des choses similaires ?
Disons que ce sont tout deux des ETL et qu'ils ont les mêmes objectifs. Maintenant l'un est en retard sur l'autre d'un point de vue fonctionnalités spatiales. Bien que SDI doit avoir quelques atouts que n'a pas FME
- quelles structures utilisent ces solutions ?
Qu'entends tu pas structure ?
- est-ce réservé aux traitement raster, vecteur ou est-ce uniquement pour des bases de données (et/ou autre chose) ?
Les ETLs sont réservé à toutes personnes désirant industrialiser des tâches d'import, modification et export de données dans différent format.
Y.
Yves Jacolin, bénévole de l'association GeoRezo.net, agit au nom et pour le compte de l'association - Partageons ce qui nous départage !! - GeoRezo vous aide ? Aidez GeoRezo !
Hors ligne
#3 Wed 01 April 2009 16:11
- Jean-Yves G
- Membre
- Lieu: toulouse
- Date d'inscription: 12 Oct 2005
- Messages: 516
Re: L'ETL (Extract transform Load) pour les nuls
Bonjour Robin,
on va donc commencer par des mots très simples :
Un ETL est un outil que l'on installe quelquepart et qui permet de transférer de la donnée d'un endroit vers un autre en faisant un peu de bricole entre les deux.
Ce genre d'outil est beaucoup utilisé dans le monde des gros systèmes d'informations constituée de plusieurs bases différentes (avec évidemment des SGBD différents) . Dans ces mondes, les modèles de BD sont issues d'une longue histoire et le système d'information ressemble maintenant à un gigantesque complexe pétrochimique transférant en permanence (batchs) de la donnée d'un endroit à une autre pour synchroniser tout cela et réduire toutes les redondances.
Le plus simple est de transférer des données d'une table relationnelle d'une BD vers une autre table relationnelle d'une autre BD . Ceci se fait avec 3 clicks avec un ETL . Il faut 4 clicks pour ajouter un petit contrôle entre les deux et 5 clicks pour faire un gros contrôle.
Dans tous les cas, cela permet d'écrire beaucoup moins de code SQL et de scripts pour maintenir un flux entre deux BD. Mais on doit quand même écrire quelques "scripts" pour mettre en place des contrôles.
Le monde géographique n'est pas passé à coté de ces concepts et FME à sauté sur l'occasion pour se proclamer L'ETL géographique ... Ce qui n'est pas faux car FME peut transformer des choux en carottes et permet d'écrire des contrôles avec un peu de programmation. (L'open source est aussi sur le créneau avec Talend).
NOTONS que les vieux développeurs du siècle dernier n'aiment pas les ETL , qu'ils appellent des clickodromes , ils restent accroché à leurs scripts shell et SQL.
En fait tu as bien compris ce qu'est un ETL , un Mr Jourdain de l'ETL qui en fait sans le savoir .
FME, Spatial Data Integrator sont des ETL géographiques .
Cordialement
JYG
Hors ligne
#4 Wed 01 April 2009 16:17
- Jérôme TEIXEIRA
- Participant occasionnel
- Date d'inscription: 18 Jun 2007
- Messages: 31
Re: L'ETL (Extract transform Load) pour les nuls
Bonjour Robin.
Tu es dans le VRAI concernant les ETL disponibles sur le marché.
Effectivement, les ETL vont bien plus loin qu'un changement de format et de coordonnées.
IL s'agit bien de véritables ateliers de "triturage" de données géo et/ou attributaires.
Et tout ça à base de drag & drop de "fonctions".
OUI, FME et SDI sont bien des ETL
Le SI17 utilise FME & SDI, aisni que bon nombre de collectivités + privés.
FME notamment nous permet de traiter moult formats:
- les raster,
- les vecteurs,
- les SGBD (PostgreSQL/PostGis, SDE, Oracle, SQLServer, MySQL...),
- les flux (WMS,WFS, XML,openstreetMap, ...)
- Ecriture vers Google, ECW,...
- import de formats spécifiques comme GéoConcept, Apic, JSON...
- Import PCI EDIGéO tar.bz² et majic2 avec chargement dans PostGis et Oracle, ... (Idem pour SDI côté PostGis)
Et j'en passe.
En cas d'explications sur les usages au quotidien, tu peux m'appeler.
-------------------------------------------------------------------------------------
Jérôme Teixeira
Technicien SIG - Pôle SIG - Syndicat Informatique de Charente-Maritime
j.teixeira@ si17.fr
05.46.92.31.61
-------------------------------------------------------------------------------------
Hors ligne
#5 Wed 01 April 2009 18:29
Re: L'ETL (Extract transform Load) pour les nuls
Merci à vous pour ces infos éclairées (et vulgarisées). Je suis rassuré de voir que ça correspond un peu à ce que je pensais et que ça confirme les raison pour lesquelles je pensais me plonger là dedans (notamment gagner du temps). Les exemples d'utilisation m'intéressent, Jérome, je te donnerais un p'tit coup de fil dans la semaine puisque c'est gentiment proposé, si ça ne te dérange pas
Je vais pouvoir passer à la phase B : maîtriser le soft
Merci encore et bonne soirée,
Robin
Ps : je découvre l'expression être un Mr Jourdain, j'ai été un peu surpris quand j'ai lu "Il est vaniteux, naïf et capricieux" (aie, qu'ais je fait ?), mais j'ai mieux compris avec ce paragraphe : Dans l'acte II, scène 5, Monsieur Jourdain apprend, au cours d'un échange avec son maitre de philosophie, qu'il dit de la prose depuis longtemps sans qu'il n'en sût rien : « Par ma foi ! il y a plus de quarante ans que je dis de la prose sans que j'en susse rien, et je vous suis le plus obligé du monde de m'avoir appris cela. » Par extension, Monsieur Jourdain désigne quelqu'un pratiquant une activité sans même avoir connaissance de son existence.
Hors ligne
#6 Thu 02 April 2009 14:40
- Alain Prallong
- Participant occasionnel
- Lieu: Montpellier (34)
- Date d'inscription: 1 Oct 2005
- Messages: 47
Re: L'ETL (Extract transform Load) pour les nuls
Bonsoir
Un avis d'un "vieux développeur du siècle dernier" qui aime bien les ETL et autres joyeusetés du même style !
La techno ETL doit être replacée de manière large dans le concept d'EAI (entreprise application integration) ou en français "intégration d'applications d'entreprise" qui est une architecture du type "intergicielle" permettant à des applications plus ou moins hétérogènes d'échanger entre elles. On est dans le groupe des technos dites de Business Intelligence (BI) comme l'a noté justement un contributeur au débat.
Sans s'enfoncer dans un jargonnage technique insipide, cette remarque a son importance car la techno ETL n'est pas la seule à répondre au problème des échanges entre des applications qui ne peuvent pas dialoguer directement, le MOM (pour Middleware Orienté Message) y répond très bien également et parfois de manière beaucoup plus fluide, voire "au pied levé". Tout ces dispositifs conceptuels se trouvent réunis dans une évolution de l'EAI qui est l'ESB (non ce n'est pas une maladie mais l'Enterprise Service Bus) qui combine MOM, Web services, services de transformation et de routage dits "intelligents" (ETL).
Tous ces concepts empruntent à ceux qui ont présidé au développement des techniques d'urbanisation des systèmes (notion de "cartographie applicative", de "cartographie d'infrastructure", etc.).
Vous trouverez sur le site guidescomparatif.com un document sur les ETL, certes il date de qq années mais il reste d'actualité.
Bonne lecture et bonne soirée
____________________________________________
Alain PRALLONG
Alain PRALLONG
Hors ligne
#7 Thu 02 April 2009 14:41
Re: L'ETL (Extract transform Load) pour les nuls
Bonjour
pour poursuivre la discussion ETL est ce que quelqu'un a réussi à utiliser
SDI avec des données SIG (Spatial Data Integrator : Open Source spatial ETL)
j'ai fait l'install mais après je suis perdue ?
merci
Hors ligne
#8 Thu 02 April 2009 14:57
Re: L'ETL (Extract transform Load) pour les nuls
Oui je suis en train de transformer le cadastre du format EDIGEO au format Pgsql en utilisant SDI.
N'hésite pas à poser tes questions sur GeoLibre
Y.
Dernière modification par Yves (Thu 02 April 2009 15:01)
Yves Jacolin, bénévole de l'association GeoRezo.net, agit au nom et pour le compte de l'association - Partageons ce qui nous départage !! - GeoRezo vous aide ? Aidez GeoRezo !
Hors ligne
#9 Thu 02 April 2009 15:07
- Jérôme TEIXEIRA
- Participant occasionnel
- Date d'inscription: 18 Jun 2007
- Messages: 31
Re: L'ETL (Extract transform Load) pour les nuls
Salut Robin.
Avec grand plaisir
Je suis disponible pour discussion téléphonique au sujet de FME. Par contre, je ne suis disponible qu'aujourd'hui à-partir de 16h00. Demain, ce sera beaucoup trop court.
Confirme moi le RDV téléphonique.
Cordialement
Hors ligne
#10 Thu 02 April 2009 15:13
Re: L'ETL (Extract transform Load) pour les nuls
Le lien vers l'article qu'évoque Alain : http://www.guidescomparatifs.com/etl-integration.asp. Il faut rentrer ses coordonnées pour avoir accès.
pour poursuivre la discussion ETL est ce que quelqu'un a réussi à utiliser
SDI avec des données SIG (Spatial Data Integrator : Open Source spatial ETL)
j'ai fait l'install mais après je suis perdue ?
Si ça peut te rassurer, on est au moins deux Je te propose, comme suggère Yves, de venir nous rejoindre sur le sujet suivant pour les échanges plus techniques sur ce soft en particulier :
http://georezo.net/forum/viewtopic.php?id=51636.
A très vite
Robin.
Hors ligne
#11 Thu 02 April 2009 16:41
- David JONGLEZ
- Participant actif
- Lieu: Le Bourget-du-Lac
- Date d'inscription: 22 Sep 2005
- Messages: 93
Re: L'ETL (Extract transform Load) pour les nuls
Bonjour,
L'ETL est un outil graphique permettant de concevoir des process (parfois très complexes) de traitement de la données (attributaires et/ou cartographiques). Même si cet outil est graphique, il nécessite l'acquisition de compétences spécifiques. Le "traitement de la donnée" et plus généralement, l'administration de données est un métier et nécessite des compétences spécifiques.
Il est claire que SDI (qui est basée sur Talend OS) est un outil professionnel de traitement de la donnée et peut paraître un peu complexe pour qui n'est pas familier à un ETL. Je vous invite donc à utiliser les tutoriaux qui existent sur les sites de spatialdataintegrator.org ou de talend Open Studio et/ou à suivre une formation spécifique.
Cordialement,
David
Hors ligne