Comparaison deux fichiers. Résolu

Question

Bonjour, 

Un fichier est généré toutes les heures avec 2000 lignes (limit max). 
Chaque heure, le nouveau fichier contient une partie des lignes du fichier généré l'heure précédente + des nouvelles lignes. 

Chaque heure, à la fin du traitement, j'aimerais avoir un fichier qui ne contient aucun doublon, soit les lignes des heures précédentes + uniquement les nouvelles du nouveau fichier. 

mon idée:

comm -3 FIC(H-1)  FICH > FIC.com
cat FIC.com >>  FIC(H-1)

Il y a mieux? 

Merci. 


Configuration: Windows / Chrome 92.0.4515.131

mamiemando · Answer

Bonjour,

Il faudrait clarifier avec un petit exemple pour être sûr de comprendre ton problème.

Si j'ai bien compris tu as un buffer de 2000 lignes dont tu fais un dump toutes les heures de ce buffer, et tu veux à partir de ces dumps, reconstruire l'ensemble des lignes qui ont engendrées ces photos.

Ensuite, le fait que tu utilises comm laisse supposer que tes fichiers sont triés (e.g. parce que les lignes sont horodatées) -- je suppose qu'il s'agit d'une sorte de log.

Si c'est bien ça, comm me paraît très bien, car contrairement à diff, il va exploiter le fait que tes fichiers sont triés (e.g. parce que les lignes sont horodatées, comme dans un log) et sera donc plus rapide que diff.

Après la question c'est est ce que le problème ne devrait pas être traité en amont, c'est-à-dire, au lieu de faire un dump périodique, ne faudrait-il pas plutôt que l'outil qui génère ses lignes utilise un logger (e.g. rsyslog) pour avoir un unique fichier mis à jour en temps réel.

Bonne chance

mamiemando · Answer

Bonjour

Vu les contraintes imposées par ton API, il semble effectivement compliqué d'envisager un logger. Du coup, ta solution basée sur comm me paraît très bienà condition que les lignes soient ordonnées. Autrement comm peut ne pas marcher comme le montre cet exemple :

(mando@silk) (~) $ cat fichier1 1 a3 c2 b(mando@silk) (~) $ cat fichier22 b1 A(mando@silk) (~) $ comm -3 fichier1 fichier2 1 a        2 bcomm: le fichier 2 n'est pas dans l'ordre trié        1 A3 ccomm: le fichier 1 n'est pas dans l'ordre trié2 bcomm: l'entrée n'est pas dans l'ordre trié

Or vu le format de tes fichiers, il n'est pas évident que tes fichiers soient triés.

En tout cas, si tu observes un problème lié à ça, tu pourrais te rabattre du diff pour extraire les lignes apparues dans le dernier fichier (ce sont celles qui commenceront par +). 

diff --new-line-format="%L" --old-line-format="" --unchanged-line-format="" fichier1 fichier2

Pour plus de détails ou voir d'autres approches, voir cette discussion.

Bonne chance

Comparaison deux fichiers.

2 réponses

Votre réponse

Discussions similaires