Les filtres de Bloom dans Parquet
Un fichier parquet bien construit oriente le requêteur en lui disant d’abord où ne pas aller. Plus il ferme de portes à votre requête SQL, moins elle se perd en explorations inutiles, plus vite elle avance vers l’essentiel.
C’est exactement la logique du data skipping : éviter de lire ce qui ne sert à rien.
Pour cela, le format parquet dispose de trois leviers complémentaires — dont deux sont bien connus, et un troisième, plus discret : les filtres de Bloom.
Premier levier : des colonnes physiquement séparées.
Parquet est un format orientĂ© colonnes. Si une requĂŞte ne porte que sur 3 colonnes d’un fichier qui en contient 20, alors les 17 autres ne seront tout simplement jamais lues.Â

