Nettoyage des données
Nettoyer, normaliser et reformater n’importe quel type de données
À l’ère du big data, les gestionnaires de données passent une grande partie de leur temps à effectuer un travail de « conservateur de données », une tâche fastidieuse et peu intéressante consistant à collecter, préparer et nettoyer des données disparates. Nous proposons la transformation Melissa Cleanser pour Pentaho® et Microsoft SQL Server® Integration Services (SSIS) pour vous aider à automatiser et préparer les données pour le processus de nettoyage. Cela permet aux utilisateurs de créer des scripts personnalisés de nettoyage pour les données souffrant de nombreuses erreurs et incohérences. Avec ce composant, les gestionnaires de données ont la possibilité de normaliser et de valider des listes d’inventaire afin de mieux préparer et nettoyer les données avant analyse.
- Nettoyez tous types de données et atteignez un niveau de qualité supérieur pour l’intégration, l’entreposage et l’analyse des données
- Obtenez un meilleur contrôle de vos données lorsqu’elles sont optimisées et économisez du temps et des ressources à votre entreprise
- Personnalisez et créez des règles (déclencheurs) pour la normalisation des données
Comment fonctionne Cleanser
La transformation Cleanser permet aux utilisateurs de nettoyer, de normaliser et de reformater n’importe quel type de données, qu’il s’agisse de modifier la casse, d’ajouter ou de supprimer de la ponctuation, d’étendre ou de réduire les abréviations, ou de rechercher et remplacer n’importe quelle partie d’une chaîne de caractères. L’outil applique différentes opérations de nettoyage à vos efforts d’intégration et d’entreposage de données. La transformation comporte cinq opérations de nettoyage principales :
Voir les options de nettoyage
+-
Ponctuation
Ajouter ou supprimer de la ponctuation. -
Abréviation
Développer ou réduire les abréviations, par exemple : CA en « Californie » -
Recherche et remplacement
Remplacer des portions d’une chaîne de caractères -
Expressions
Créer des expressions programmatiques pour donner un sens aux valeurs des données -
Regex
Utiliser des expressions régulières pour extraire, valider, etc.
Ressources utiles