Comparer deux fichiers CSV avec Python Résolu

Question

Bonjour,

Je cherche à comparer 2 fichiers CSV pour en ressortir les similitude dans un autre fichiers mais pour le moment le programme me ressort les infos des 2 fichiers.

Voici le programme :

import csv

with open('Recherche.csv', 'r',encoding='utf-8') as t1, open('TravailSFE.csv', 'r',encoding='utf-8') as t2:
    fileone = t1.readlines()
    filetwo = t2.readlines()

with open('update.csv', 'w',encoding='utf-8') as outFile:
    for line in filetwo:
        if line in fileone:
            outFile.write(lines)

Pour vous expliquer le fichier Recherche contient en 1ère colonne les adresses d'entreprise et la deuxième colonne les siren des entreprises.

Et le fichier travail contient juste les adresses et j'aimerais donc que le fichier update me ressorte les adresses qui sont similaires pour en sortir les sirens ( je ne sais pas si c'est très clair ;) )

Si vous pouvez m'aidez je vous en remercierais. 
Windows / Chrome 128.0.0.0

Bruno83200_6929 · Answer

Bonjour,

Si j'ai bien compris ce que vous voulez faire. Vous avez deux fichiers CSV : l'un contient les adresses d'entreprises avec leurs SIREN, et l'autre contient uniquement les adresses. Vous souhaitez créer un fichier de sortie avec les adresses communes et les SIREN correspondants.

Si c'est bien cela, vous devez déjà vérifier si les fichiers CSV sont correctement formatés et que les adresses dans les deux fichiers sont dans le même format pour éviter les erreurs lors de la comparaison.

Ensuite, il faut adapter votre rpogramme pour lire les fichiers CSV en utilisant le module csv pour gérer les données de manière structurée.

Créer un dictionnaire à partir du premier fichier CSV pour stocker les adresses et les SIREN.

Comparer les adresses du deuxième fichier avec celles du dictionnaire.

Écrire les adresses communes et leurs SIREN dans le fichier de sortie.

Un petit programme comme :

import csv

# Lire le fichier Recherche.csv et créer un dictionnaire pour les adresses et SIREN
adresses_siren = {}
with open('Recherche.csv', 'r', encoding='utf-8') as recherche_file:
    reader = csv.reader(recherche_file)
    next(reader)  # Si votre fichier a une ligne d'en-tête, sinon retirez cette ligne
    for row in reader:
        adresse = row[0]
        siren = row[1]
        adresses_siren[adresse] = siren

# Lire le fichier TravailSFE.csv et comparer les adresses avec celles du dictionnaire
with open('TravailSFE.csv', 'r', encoding='utf-8') as travail_file, \
     open('update.csv', 'w', encoding='utf-8', newline='') as update_file:
    
    reader = csv.reader(travail_file)
    writer = csv.writer(update_file)
    
    # Écrire l'en-tête dans le fichier de sortie si nécessaire
    writer.writerow(['Adresse', 'SIREN'])
    
    for row in reader:
        adresse = row[0]
        if adresse in adresses_siren:
            writer.writerow([adresse, adresses_siren[adresse]])

print("La comparaison est terminée. Les résultats ont été écrits dans 'update.csv'.")

On utilise csv.reader pour lire les fichiers ligne par ligne.
On passe les en-têtes avec next(reader) si votre fichier a des en-têtes.

Le dictionnaire adresses_siren associe chaque adresse à son SIREN, facilitant la recherche rapide.

On vérifie si chaque adresse du fichier TravailSFE.csv est présente dans le dictionnaire.
Si elle l'est, on écrit l'adresse et le SIREN correspondant dans le fichier update.csv.

Bruno83200_6929 · Answer

L'erreur IndexError: list index out of range signifie que le programme tente d'accéder à un élément dans une liste (ici row[1] pour le SIREN), mais que la ligne en question ne contient pas assez d'éléments (colonnes) pour accéder à cet index.

Cela peut se produire pour plusieurs raisons :

Certaines lignes dans votre fichier CSV ne contiennent pas deux colonnes.
Il pourrait y avoir des lignes vides.

Il peut y avoir des problèmes de formatage dans le fichier (comme des retours à la ligne ou des délimiteurs incorrects).

Vérifier que chaque ligne a bien deux colonnes dans le fichier Recherche.csv.

Ajouter des contrôles d'erreur pour gérer les lignes vides ou mal formatées.

J'ai gardé votre code, je reviens et je vais vous fournir une version du code qui ajoute un contrôle supplémentaire pour vérifier que chaque ligne contient au moins deux colonnes avant de tenter d'accéder aux indices.

Bruno83200_6929 · Answer

Voilà, j'ai ajouté le contrôle supplémentaire dans le code.

import csv

# Lire le fichier Recherche.csv et créer un dictionnaire pour les adresses et SIREN
adresses_siren = {}
with open('Recherche.csv', 'r', encoding='utf-8') as recherche_file:
    reader = csv.reader(recherche_file)
    next(reader)  # Si votre fichier a une ligne d'en-tête, sinon retirez cette ligne
    for row in reader:
        # Vérifier que la ligne a bien deux colonnes (adresse et SIREN)
        if len(row) < 2:
            print(f"Ligne ignorée (colonne manquante) : {row}")
            continue  # Passer à la ligne suivante si la ligne ne contient pas 2 colonnes
        adresse = row[0]
        siren = row[1]
        adresses_siren[adresse] = siren

# Lire le fichier TravailSFE.csv et comparer les adresses avec celles du dictionnaire
with open('TravailSFE.csv', 'r', encoding='utf-8') as travail_file, \
     open('update.csv', 'w', encoding='utf-8', newline='') as update_file:
    
    reader = csv.reader(travail_file)
    writer = csv.writer(update_file)
    
    # Écrire l'en-tête dans le fichier de sortie si nécessaire
    writer.writerow(['Adresse', 'SIREN'])
    
    for row in reader:
        if len(row) == 0:  # Vérifier si la ligne est vide
            print(f"Ligne vide ignorée : {row}")
            continue
        adresse = row[0]
        if adresse in adresses_siren:
            writer.writerow([adresse, adresses_siren[adresse]])

print("La comparaison est terminée. Les résultats ont été écrits dans 'update.csv'.")

Lisana_69 · Answer

import csv

adresse_siren = {}
with open('BDS.csv', 'r', encoding='utf-8') as recherche_file:
    reader = csv.reader(recherche_file)
    next(reader)
    for row in reader:
        adresse = row[0]
        siren = row[1]
        adresse_siren[adresse] = siren

with open('BDT.csv', 'r', encoding='utf-8') as travail_file, \
        open('update.csv', 'w', encoding='utf-8', newline='') as update_file:
    reader = csv.reader(travail_file)
    writer = csv.writer(update_file)

writer.writerow(['adresse', 'siren'])

for row in reader:
        adresse = row[0]
        if adresse in adresse_siren:
            writer.writerow([adresse, adresse_siren[adresse]])

print("La comparaison est terminée. Les résultats ont été écrits dans 'update.csv'.")

La première image est le CSV de BDS (anciennement recherche) et la deuxième est le CSV de BDT (Travail SFE).

Je vous ai aussi renvoyé le programme, peut être cela vous permettra d'identifier mieux mon erreur.

Lisana_69 · Answer

Je viens d'essayer le nouveau programme :

il m'affiche bien les lignes ignorée dans la console python mais le fichier update est vide.

Bruno83200_6929 · Answer

Si le fichier update.csv est vide, cela signifie que le programme n'a trouvé aucune correspondance entre les adresses du fichier BDT.csv et celles du fichier BDS.csv. Cela peut être dû à plusieurs raisons, soit :

Incohérence dans le format des adresses (ex. : espaces en trop, lettres en majuscules/minuscules, accents).

Problème de casse (majuscules/minuscules) : les adresses pourraient être écrites différemment dans les deux fichiers, rendant la comparaison impossible.

Différences subtiles dans les adresses (comme des virgules ou des abréviations différentes, par exemple, "Rue" au lieu de "R.").

Je vais ajouter une fonction au code avec normalize_string() pour convertir les adresses en minuscules, supprimer les accents (é, è, à, etc.) et les espaces superflus. Cela permet de rendre les adresses des deux fichiers comparables même si elles diffèrent légèrement dans la casse ou les accents.

Si une adresse du fichier BDT.csv ne correspond à aucune adresse dans BDS.csv, elle sera affichée dans la console. Cela vous aidera à identifier les différences éventuelles.

Je modifie le code et vous l'adresse. Nous allons y parvenir, ne désespéré pas, ce n'est pour moi qu'une question de formatage.

Lisana_69 · Answer

Le fichier update reste vide même après la modification du programme.

Je ne comprends pas pourquoi car j'ai bien vérifier les adresses du fichier BDS correspondent avec celui de BDT

Bruno83200_6929 · Answer

OK

Le message que vous avez obtenu montre que l'adresse dans le fichier contient des caractères inattendus. Le code ASCII [32, 59, 59, 59, 59] représente les caractères suivants :

32 : un espace ( ),
59 : un point-virgule (;).

Cela indique que certaines lignes dans vos fichiers CSV contiennent des caractères non attendus ou mal formatés, comme des points-virgules successifs (;;;;). Ces caractères peuvent être le résultat d'un formatage incorrect dans le fichier d'origine ou une mauvaise manipulation du fichier CSV.

Je vais vous re préparer un script. Je vous l'adresse tout à l'heure.

Lisana_69 · Answer

Okay je comprends

Pas de soucis a tout à l'heure et Merci beaucoup.

mamiemando · Answer

Bonjour,

Afin que tout un chacun puisse tester les programmes proposés, serait-il possible de partager les fichiers CSV en question ?

As-tu considéré pandas ? Outre le fait qu'il est possible de charger facilement des fichiers csv (voir pd.read_csv), pandas fournit ne nombreuses primitives très  performantes pour manipuler les données. Si j'ai bien compris, le but est ici de trouver une jointure entre les deux fichiers selon la colonne siren (si c'est le cas, tu peux utiliser pd.join). Pour exporter une dataframe, utilise la méthode to_csv.

Exemple :

fichier1.csv

nom,prenom,siren
solo,han,1111
skywalker,luke,1111
the hutt,jabba,0
vador,dark,333

fichier2.csv

siren,cause
1111,rebellion
333,empire

toto.py

#!/usr/bin/env python3

import pandas as pd

df1 = pd.read_csv("fichier1.csv")
print(df1)
print("-" * 50)
df2 = pd.read_csv("fichier2.csv")
print(df2)
print("-" * 50)
df = df1.set_index("siren").join(df2.set_index("siren"))
print(df)
print("-" * 50)
print(df.to_csv()

Résultat :

nom prenom  siren
0       solo    han   1111
1  skywalker   luke   1111
2   the hutt  jabba      0
3      vador   dark    333
--------------------------------------------------
   siren      cause
0   1111  rebellion
1    333     empire
--------------------------------------------------
             nom prenom      cause
siren                             
1111        solo    han  rebellion
1111   skywalker   luke  rebellion
0       the hutt  jabba        NaN
333        vador   dark     empire
--------------------------------------------------
siren,nom,prenom,cause
1111,solo,han,rebellion
1111,skywalker,luke,rebellion
0,the hutt,jabba,
333,vador,dark,empire

Bonne chance

Lisana_69 · Answer

Merci pour votre réponse mais malheureusement je ne peux pas partager les fichiers car ceux sont des contacts d'entreprise.

Mais je vais essayer de réfléchir avec la fonction pandas

Merci beaucoup

Bruno83200_6929 · Answer

Les points-virgules pourraient être présents au lieu de colonnes valides, ce qui signifie que les fichiers CSV ne sont pas correctement structurés ou mal lus.

Voici le code modifié pour utiliser le point-virgule comme séparateur, au cas où ce serait le cas dans vos fichiers :

import csv
import unicodedata

# Fonction pour normaliser les adresses (mettre en minuscules, supprimer les accents)
def normalize_string(s):
    s = s.strip().lower()  # Retirer les espaces et passer en minuscules
    s = unicodedata.normalize('NFKD', s).encode('ASCII', 'ignore').decode('ASCII')  # Supprimer les accents
    return s

adresse_siren = {}

# Lire le fichier BDS.csv avec le séparateur point-virgule
with open('BDS.csv', 'r', encoding='utf-8') as recherche_file:
    reader = csv.reader(recherche_file, delimiter=';')  # Spécifier le séparateur
    next(reader)  # Passer la ligne d'en-tête si elle existe
    for row in reader:
        if len(row) < 2:  # Vérifier que la ligne contient au moins 2 colonnes (adresse, siren)
            print(f"Ligne ignorée (colonne manquante ou mal formatée) : {row}")
            continue  # Passer les lignes incorrectes
        adresse = normalize_string(row[0])  # Normaliser l'adresse
        siren = row[1].strip()  # Retirer les espaces superflus pour le siren
        print(f"Ajout au dictionnaire : {row[0]} -> {siren} (normalisé : {adresse})")
        adresse_siren[adresse] = siren

# Lire le fichier BDT.csv avec le séparateur point-virgule et comparer les adresses
with open('BDT.csv', 'r', encoding='utf-8') as travail_file, \
     open('update.csv', 'w', encoding='utf-8', newline='') as update_file:
    
    reader = csv.reader(travail_file, delimiter=';')  # Spécifier le séparateur
    writer = csv.writer(update_file)

writer.writerow(['adresse', 'siren'])  # Écrire l'en-tête dans le fichier de sortie

for row in reader:
        if len(row) == 0:  # Vérifier si la ligne est vide
            print(f"Ligne vide ignorée : {row}")
            continue
        adresse = normalize_string(row[0])  # Normaliser l'adresse dans BDT.csv
        print(f"Comparaison de : {row[0]} (normalisé : {adresse})")
        if adresse in adresse_siren:
            print(f"Adresse correspondante trouvée : {row[0]} -> {adresse_siren[adresse]}")
            writer.writerow([row[0], adresse_siren[adresse]])  # Utiliser l'adresse d'origine dans le fichier de sortie
        else:
            print(f"Adresse non trouvée : {row[0]} (normalisé : {adresse})")

print("La comparaison est terminée. Les résultats ont été écrits dans 'update.csv'.")

Si vos fichiers utilisent le point-virgule comme séparateur (ce qui semble être le cas vu les caractères ;;;;), cela permet au programme de correctement lire les colonnes des fichiers.

Si cette solution ne fonctionne pas, il pourrait être utile de vérifier manuellement les fichiers CSV pour vous assurer que les colonnes sont bien séparées par des virgules ou des points-virgules.

Si vos fichiers ne sont pas bien structurés, essayez de les réexporter avec un outil comme Excel ou un éditeur de texte pour vous assurer qu'ils respectent le format CSV correct (avec des séparateurs clairs).

La manipulation des fichiers CSV est toujours très délicate, les erreurs sont souvent liées au formatage des fichiers. Il est toujours plus judicieux d'utiliser des outils comme Excel et LibreOffice Calc (qui est gratuit et open source) qui sont des tableurs populaires pour manipuler des fichiers CSV. Si vous n'y parvenez pas avec python, je vous conseille d'utiliser un de ces tableurs.

Vous pouvez copier/coller les adresses d'un fichier dans un nouveau tableau, puis utiliser des formules comme RECHERCHEV pour associer les SIREN aux adresses correspondantes.

Exemple de formule RECHERCHEV :

=RECHERCHEV(A2;BDS!A:B;2;FAUX)

Je ne sais plus quelle solution vous apporter.

Lisana_69 · Answer

Avec le code nic aussi

Comparer deux fichiers CSV avec Python

13 réponses

Discussions similaires

Newsletters