Identification des doublons sur la base des attributs de pro

Fermé
ExcelBeginner49 Messages postés 2 Date d'inscription lundi 12 décembre 2022 Statut Membre Dernière intervention 20 décembre 2022 - 12 déc. 2022 à 17:12
Raymond PENTIER Messages postés 58844 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 30 janvier 2025 - 24 déc. 2022 à 01:29

Bonjour,

Je suis sur une problématique un peu complexe mais je suis sûr que je peux la solutionner en utilisant excel, sauf que je n'arrive pas à trouver une méthode pour y parvenir.

Je vous explique : j'ai un magasin plein de produits à gérer (on va considérer que c'est des stocks) et je dois identifier les produits en double

Cette identification se basera sur des attributs. En effet, chaque produit a une vingtaine d'attributs : cela peut être une valeur numérique (longueur, largeur, poids, ...), alphabétique (marque, constructeur, ...) ou alphanumérique (code fournisseur, code de rangement, ...)

J'ai donné sur le fichier excel une illustration avec 200 lignes pour les produits et 20 colonnes pour les attributs. En vrai, j'ai plus de 10 000 produits

Mon objectif c'est d'identifier les produits en double sur la base des valeurs des attributs, chaque attribut aura une pondération.

Les pondération vont de 1 (pour les attributs ayant un faible potentiel d'identification de doublons) à 5 pour des articles ayant un fort potentiel d'identification de doublons

Par exemple, l'attribut 1(longueur) aura une pondération de 1 parce que 2 produits de même longueur ne sont pas forcément un doublon. L'attribut 3(code fournisseur) aura une pondération de 4 parce que 2 produits ayant le même code fournisseur , il y a de grandes chances que ce soit des doublons.

Avez-vous en tête une méthode excel qui peut m'aider à trouver les doublons de produits ?

Je pense notamment à créer une matrice carré avec 200 lignes et 200 colonnes (le nombre de produits) (onglet méthode identification doublon sur le fichier excel) et où sur chaque cellule je mettrai la note finale de comparaison entre le produit i et le produit j, les notes supérieurs à certain seuil que je choisirai seront les doublons, sauf que je n'arrive pas à mettre en place les formules qui m'aideront à le faire

Merci beaucoup d'avance.

Windows / Chrome 108.0.0.0

A voir également:

5 réponses

via55 Messages postés 14512 Date d'inscription mercredi 16 janvier 2013 Statut Membre Dernière intervention 18 janvier 2025 2 741
12 déc. 2022 à 17:39

Bonsoir

Pas la peine de s'embêter à noter les attributs, il suffit dans une 21eme colonne de concaténer les valeurs des colonnes précedentes

Ensuite, en supposant les concaténations en colonne V par ex, en W2 mettre la formule  :=

SI(NB.SI(V:V;V2)>1;"Doublon";"")

et l'étirer ensuite vers le bas

En filtrant tout ton tableau sur cette colonne W selon le critère Doublon ou vide tu auras la liste des produits en doublon ou celle des non-doublons

Cdlmnt

Via


0
Raymond PENTIER Messages postés 58844 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 30 janvier 2025 17 277
12 déc. 2022 à 17:50

Bonjour.

La solution de mon ami Via a le mérite d'être simple et efficace.

Je crains que tu n'en sois pas entièrement satisfait, avec ta volonté de pondérer certaine attributs.

Mais pour qu'on puisse travailler utilement sur ton fichier, il faut que tu nous envoies ce fichier, et non pas une simple photo !

 1) Aller dans https://www.cjoint.com/
 2) Cliquer sur [Parcourir] pour sélectionner le fichier (15 Mo maxi)
 3) Défiler vers le bas pour cliquer sur le bouton bleu [Créer le lien Cjoint]
 4) Au bout de quelques secondes la deuxième page s'affiche, avec le lien en gras ; faire un clic-droit dessus et choisir "Copier le lien"
 5) Revenir dans la discussion sur CCM, et dans votre message faire "Coller".
=>Voir la fiche https://www.commentcamarche.net/faq/29493-utiliser-cjoint-pour-heberger-des-fichiers
Il existe aussi https://www.transfernow.net/

Cependant nous ne pourrons rien faire, car tu as oublié de mettre en ligne 2 le coefficient de pondération de chaque attribut !

Tu n'as même pas précisé l'intitulé de ces attributs ...


0
ExcelBeginner49 Messages postés 2 Date d'inscription lundi 12 décembre 2022 Statut Membre Dernière intervention 20 décembre 2022
20 déc. 2022 à 16:10

Bonjour à tous,

Merci pour vos retours et désolé si je n'ai pas été assez explicite, je vais essayer de m'expliquer : 

Mon hypothèse est que de manière générale pour avoir un doublon entre 2 produits il faut que ces 2 produits aient à minima un certains nombre d'attributs semblables, et bien sûr chaque attribut a sa propre pondération

Je m'explique pour cette dernière partie : 2 produits ayant le même attribut ''longueur'' ne sont pas forcément des doublons par exemple un double décimètre peut avoir la même longueur d'un ipad ... et donc pour l'attribut longueur j'attribue la pondération 1

Par contre 2 produits ayant le même attribut fournisseur, il y a de fortes chances que ça soit un doublon, et donc je leur attribue une pondération de 5

Et afin d'identifier ces doublons, pour chaque produit et par rapport aux autres, je somme les attributs semblables multipliés par leur pondération.

Et dans mon exemple : les attributs en commun entre le produit 1 et 2 sont les attributs 2 et 17 qui ont respectivement les pondérations 2 et 1, donc la somme est de 3.

==> J'ai aussi alimenté le fichier avec des exemples sur 5 produits et j'ai mis 3 onglets

le premier onglet décrit la valeur des attributs '(en colonnes) par produits (en lignes)

Le second onglet définit la pondération

Le 3ème onglet sera une analyse comparative entre produits par produit : par exemple pour le produit 1 il a une note de 3 par rapport au produit 2 (attribut 2 * pondération = 2 + attribut 17* pondération = 1)

Après je compte définir un seuil à partir duquel on peut considérer que les produits sont des doublons. Par exemple si le seuil est 5, on peut dire qu'on a sur cet exemple un seul doublon c'est le produit 1 avec le produit 5

En effet, l'idée de Mr Via est très efficace sauf que je voudrais traiter chaque attribut à part avec sa propre pondération

J'ai mis à jour le fichier Excel avec vos remarques, 

https://www.cjoint.com/c/LLupjBF7S6N

0
via55 Messages postés 14512 Date d'inscription mercredi 16 janvier 2013 Statut Membre Dernière intervention 18 janvier 2025 2 741
20 déc. 2022 à 17:48

Bonsoir

Pour moi tu es en train de vouloir monter une usine à gaz qui ne donneras rien et je ne vois pas comment faire !

Je lâche l'affaire, en espérant que mon ami Raymond, que je salue au passage et à qui je souhaite de bonne fêtes, trouve une solution

Cdlmnt

Via


0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Raymond PENTIER Messages postés 58844 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 30 janvier 2025 17 277
21 déc. 2022 à 14:22

Bonjour.

Hélas non, Via ; je n'ai trouvé aucune méthode pour résoudre ce casse-tête ; je suppose qu'il faudrait utiliser les formules matricielles, ou des fonctions des catégories Cube, Ingénierie ou Base de données ; mais je ne les utilise jamais !

Bonnes fêtes de fin d'année.


0
Raymond PENTIER Messages postés 58844 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 30 janvier 2025 17 277
24 déc. 2022 à 01:29

(... suite)

Aujourd'hui j'ai essayé avec un tableau croisé dynamique, sans aucun succès !

0