[PERL]Comment supprimer des lignes en double dans un fichier ? Résolu

Question

Bonjour,

Je souhaiterai supprimer les lignes avec l'ip en double dans un fichier, ainsi que la ligne qui possède des doublons.

Par exemple dans mon fichier:
1.1.1.1;toto.google.com
2.2.2.2;toto.google.com
3.3.3.3;tata.google.com
1.1.1.1;tutu.google.com

fichier après traitement :
2.2.2.2;toto.google.com
3.3.3.3;tata.google.com

fichier duplicate :
1.1.1.1;toto.google.com
1.1.1.1;tutu.google.com

Ce n'est donc pas qu'une simple suppression de doublon et je ne vois pas trop comment faire. Mon fichier fait environ 20 000 lignes.

Merci.

[Dal] · Answer

Salut fxtaa, 20000 lignes, ce n'est pas tant que cela, alors tu peux charger l'intégralité de ton fichier dans un array Perl et utiliser grep dessus pour les extractions. Ensuite, toujours avec grep, tu peux te servir de chaque extraction pour retirer les éléments de la liste ayant été extraits (dans l'exemple ci-dessous en créant un hash dont les clefs sont les éléments extraits). Voilà ce que cela donne avec un fichier de départ que j'ai un peu complexifié pour vérifier le fonctionnement : $ cat fxtaa_fichier.txt12.24.0.125;autre1.1.1.1;toto.google.com2.2.2.2;toto.google.com3.3.3.3;tata.google.com1.1.1.1;tutu.google.com5.5.5.5;truc5.5.5.5;truc2.2.2.2;toto.google.com et un script comme celui-là : $ cat fxtaa.pl #!/usr/bin/perl use strict; use warnings; open FILE, '<', "fxtaa_fichier.txt" or die; my @array_all = ; close FILE; my $index = 0; print "dupliqués : "; while ($index < scalar @array_all) { $_ = $array_all[$index]; die("Erreur de format ligne $_") unless /^([0-9.]+)/; { my @matches = grep { /^$1/ } @array_all; if (scalar @matches > 1) { print @matches; my %h; @h{@matches} = undef; @array_all = grep {not exists $h{$_}} @array_all; } else { $index++; } } } print "non dupliqués : "; print @array_all; cela produit : $ ./fxtaa.pldupliqués :1.1.1.1;toto.google.com1.1.1.1;tutu.google.com2.2.2.2;toto.google.com2.2.2.2;toto.google.com5.5.5.5;truc5.5.5.5;trucnon dupliqués :12.24.0.125;autre3.3.3.3;tata.google.com Dal

fxtaa · Answer

Superbe.

j'avais fait une boucle dans une boucle... c'était pas super opti.

Merci!

[PERL]Comment supprimer des lignes en double dans un fichier ?

2 réponses

Votre réponse

Newsletters