Rechercher les doublons dans une liste des données

Fermé
Tive - 6 juin 2016 à 16:10
michel_m Messages postés 16603 Date d'inscription lundi 12 septembre 2005 Statut Contributeur Dernière intervention 16 décembre 2023 - 7 juin 2016 à 10:39
Bonjour chers amis,

Je suis à la recherche des doublons de codes produits dans une liste de plus de 10 000 enregistrements.
Mon objectif étant de detecter automatiquement les enregistrements ayant au moins 3 caractères sequentiellement similaires, je vous prie de m'aider avec une technique fiable pour les detecter automatiquement.

Merci d'avance.
A voir également:

3 réponses

michel_m Messages postés 16603 Date d'inscription lundi 12 septembre 2005 Statut Contributeur Dernière intervention 16 décembre 2023 3 310
6 juin 2016 à 16:29
Bonjour
..."les enregistrements ayant au moins 3 caractères sequentiellement similaires "...


c'est à dire ?
des exemples seraient les bienvenus
0
Bonjour Michel,

Pratiquement, j'ai une liste des pieces de rechange vehicule. Chaque piece a son propre numero de serie que vous voyez à l'interieur de chaque description.
Cependant, quelqu'un peut avoir saisi la description "Gasket, 104-6730, CAT" et quelqu'un d'autre peut avoir saisi "Gasket, 1046730, CAT".
Ici, il s'agit d'une meme piece de rechange dont le Numero de serie est ecrit differement dans la descripion.

Maintenant mon objectif est d'arriver à detecter ces articles repetés, eliminer les doublons en se basant sur au moins 3 caracteres sequentiels. Par exemple ici: Gasket, 104-6730, CAT et Gasket, 1046730, CAT.

Imaginons qu'il s'agit d'une liste de plus de 10 000 articles.

Voila un peu mon besoin cher Michel. Au cas ou ce n'est pas bien comprehensible, file-moi ton adresse mail et je t'envois la liste au format excel.

Merci d'avance pour votre aide tous!
0
michel_m Messages postés 16603 Date d'inscription lundi 12 septembre 2005 Statut Contributeur Dernière intervention 16 décembre 2023 3 310
7 juin 2016 à 09:09
Bonjour,

Règle de sécurité de base:
ne jamais mettre son adresse mail sur un site public.
Sur CCM, la modération la supprime avec raison

question
1/104673 et 110673 : doublon ?
Gasket, 104-6730, CAT et Gasqet 104-6730, CAT: doublon ?

2/ éliminer les doublons :
laquelle est la bonne Ref: 104-6730 ou 1046730

pour joindre une pièce
Mettre le classeur sans données confidentielles en pièce jointe sur https://www.cjoint.com/
et coller le raccourci par un clic droit sur le lien proposé dans le message de réponse




0
Merci Michel pour la consigne.

Je viens d'attacher le fichier exemple dans le lien que vous venez de m'indiquer.
J'ai essayé de colorer les enregistrements repetés pour expliciter mon probleme.

Veuillez regarder de pres les numeros de serie dans la description de l'article et comparer avec l'autre de la meme couleur.

J'aimerais, sans y aller ligne par ligne detecter ces enregistrement avec les numeros de serie presque similaires.

La bonne reference, pour repondre à votre question est 104-6730 pour ce cas precis.


Merci pour votre aide!
0
michel_m Messages postés 16603 Date d'inscription lundi 12 septembre 2005 Statut Contributeur Dernière intervention 16 décembre 2023 3 310
7 juin 2016 à 10:39
et il est ou le classeur ?

coller le raccourci par un clic droit sur le lien proposé dans le message de réponse
0