Nettoyer, normaliser et reformater n’importe quel type de données

À l’ère du big data, les gestionnaires de données passent une grande partie de leur temps à effectuer un travail de « conservateur de données », une tâche fastidieuse et peu intéressante consistant à collecter, préparer et nettoyer des données disparates. Nous proposons la transformation Melissa Cleanser pour Pentaho® et Microsoft SQL Server® Integration Services (SSIS) pour vous aider à automatiser et préparer les données pour le processus de nettoyage. Cela permet aux utilisateurs de créer des scripts personnalisés de nettoyage pour les données souffrant de nombreuses erreurs et incohérences. Avec ce composant, les gestionnaires de données ont la possibilité de normaliser et de valider des listes d’inventaire afin de mieux préparer et nettoyer les données avant analyse.

  • Nettoyez tous types de données et atteignez un niveau de qualité supérieur pour l’intégration, l’entreposage et l’analyse des données
  • Obtenez un meilleur contrôle de vos données lorsqu’elles sont optimisées et économisez du temps et des ressources à votre entreprise
  • Personnalisez et créez des règles (déclencheurs) pour la normalisation des données
Data Cleansing - How Cleanser Works - Singapore

Comment fonctionne Cleanser

La transformation Cleanser permet aux utilisateurs de nettoyer, de normaliser et de reformater n’importe quel type de données, qu’il s’agisse de modifier la casse, d’ajouter ou de supprimer de la ponctuation, d’étendre ou de réduire les abréviations, ou de rechercher et remplacer n’importe quelle partie d’une chaîne de caractères. L’outil applique différentes opérations de nettoyage à vos efforts d’intégration et d’entreposage de données. La transformation comporte cinq opérations de nettoyage principales :

Voir les options de nettoyage

+
  • Ponctuation
    Ajouter ou supprimer de la ponctuation.
  • Abréviation
    Développer ou réduire les abréviations, par exemple : CA en « Californie »
  • Recherche et remplacement
    Remplacer des portions d’une chaîne de caractères
  • Expressions
    Créer des expressions programmatiques pour donner un sens aux valeurs des données
  • Regex
    Utiliser des expressions régulières pour extraire, valider, etc.

Ressources utiles

Vimeo

Vidéo sur le nettoyage des données

Regarder la vidéo