Nettoyage de base de données

Tibo -  
 Cécile - Talend -
Bonjour a tous

Tout d'abord merci a CCM pour ce forum qui m'a déjà aidé à plusieurs reprises.

Je possède une base de données ( Access 97 ) qui tourne depuis plusieurs années. Des boublons, des fautes d'orthographes ... se sont glissés dans ma base. Je sais qu'il existe de nombreux logiciel permettant la nettoyage de base. Si quelqu'un possède une expérience avec de tels logiciels merci de m'orienter vers certains logiciels performant ( gratuit ou non ).

D'avance merci de prendre du temps pour répondre a mes problemes.
A voir également:

4 réponses

zaidi hamza
 
j'ai lus votre message et j'ai le meme probleme si vous avez trouvez le logiciel du nettyoage tu fait un grand service a moi merci d'avance
0
sebsauvage Messages postés 33415 Statut Modérateur 15 667
 
Je sais qu'il existe de nombreux logiciel permettant la nettoyage de base.

mmm... j'ai de gros doutes sur ces logiciels.

Chaque base ayant une structure spécifique, et chaque champ ayant une signification précise, je vois mal comment un logiciel pourrait faire ça.
Même pour un humain, corriger les données d'une base est loin d'être trivial.

Je m'explique:
Doublons : Comment déterminer si c'est légitime ou pas ?
ça ne peut pas se faire automatiquement.

Exemple:
ID  NOM           ADRESSE
--- ------------- --------------------------------------
5   Jean Dupont   3 rue du moulin, 67000 Strasbourg
6   Jean Dupont   5 rue de la Vielle, 67000 Strasbourg


D'après vous, est-ce que c'est un doublon ?

OUI !
C'est la même personne, elle a changé d'adresse, il faut supprimer le doublon.

Ah ben NON !
Ce sont deux personnes différentes qui portent le même nom: Il faut garder les deux lignes.

Comment un programme pourrait-il deviner la bonne solution ?

Ce genre de programme va sûrement vous flinguer votre base.

Ne laissez pas un programme faire n'importe quoi sur vos données, c'est dangereux.
Faites les corrections vous-même. Et faites très attention à ce que vous faites.
0
sebsauvage Messages postés 33415 Statut Modérateur 15 667
 
PS: S'il y a des lignes totalement doublonnées (données strictement identiques) il faut se demander s'il y a une bonne raison que la table n'ait pas de clé primaire.

Autrement dit, revoir sérieusement le modèle de la base.

On ne dénormalise pas une base sans raison solide.
0
awax92
 
je viens de lire quelques lignes sur l exemple il ne sagit pas de doublon mais 2 familles qui portent le meme nom etant donner qu il n ont pas la meme adresse!
alors attention!!!! essais de voir le numéros de tel et autre pour avoir la certitude.
0
Jean-François Pillou Messages postés 19261 Date d'inscription   Statut Webmaster Dernière intervention   63 279 > awax92
 
Tu as lu le "OUI" dans les explications ?
0
Cécile - Talend
 
Bonjour,

Nous organisons un webinar gratuit sur ce sujet le 17 avril de 15h-16h. Inscrivez-vous et vous pourrez voir une démonstration de notre outil open source.

Ce Webinar de 45 minutes présentera:
- Pourquoi il est fondamental pour l'intégration de données de disposer de données de bonne qualité
- Les différents aspects de la qualité de données
- Comment embarquer la qualité de données dans les processus d'intégration de données
- Les avantages de l'open source pour la qualité de données

Inscription:
https://www1.gotomeeting.com/register/184756931

Si vous souhaitez être invités aux prochains Webinar de Talend, écrivez-nous à webinar@talend.com

Cécile - Talend
www.talend.com
0