selection ligne suivante CSH foreach Résolu

Question

Bonjour, 


Je travail sous le Shell CSH, dans un parcour de fichier je souhaite comparer l'élément de la premiere colone ligne N avec l'element de la premiere colone ligne N+1. Je n'y arrive pas ... :/ 
Comment récuperer un element a N+1 ? 

en Gro j'ai un fichier du type 

simon ok x 
simon ok x 
simon ok x 
simon ok x 
fabien ok x 
fabien ok x 
seb ok x 
yoann ok x 
yoann ok x 
yoann ok x 
yoann ok x 
yoann ok x 
yoann ok x 

et je veu obtenir ca : 

simon ok 4 
simon ok 4 
simon ok 4 
simon ok 4 
fabien ok 2 
fabien ok 2 
seb ok 1 
yoann ok 6 
yoann ok 6 
yoann ok 6 
yoann ok 6 
yoann ok 6 
yoann ok 6 

le fichier a traiter est trés grand par contre ... donc j'essai de faire quelque chose de léger ... 


pour l'instant j'arrive a rien je test mais rien ne marche 

ex : 
#! /bin/csh -f 

foreach line ( "'cat tttt'" ) 
set argv = ( $line ) 
set name1 = $1 
set name2 = $3 
if ( $1 == $1 + 1) then 
echo " $1 et '$1+1' test true " 
else 
echo " $1 et 'expr $1 + 1' test false " 
endif 

end 


voila si quelqu'un a une idée pour réaliser un tel script en CSH ... ( je suis nul en CSH mais bon j'ai pas choisi mon support de travail malheureusement :/ ) 

merci d'avance

zipe31 · Accepted Answer

Bon c'est pour un shell bash, il te faudra adapter la syntaxe pour le csh...

$ cat plop 
simon ok x febgeg
simon ok x rhedg
simon ok x erze
simon ok x srg e
fabien ok x nrteth
fabien ok x tehhet
seb ok x et ee
yoann ok x eth
yoann ok x et he
yoann ok x ehe
yoann ok x egr
yoann ok x ereh
yoann ok x ete

$ cat foo.sh 

#! /bin/bash

#set -xv

while read line
do
sed -i "/${line% *}/{s/ok x/ok ${line#* }/}" plop
done < <(awk '{ print $1 }' plop | uniq -c | awk '{ print $2,$1 }')


$ ./foo.sh 

$ cat plop 
simon ok 4 febgeg
simon ok 4 rhedg
simon ok 4 erze
simon ok 4 srg e
fabien ok 2 nrteth
fabien ok 2 tehhet
seb ok 1 et ee
yoann ok 6 eth
yoann ok 6 et he
yoann ok 6 ehe
yoann ok 6 egr
yoann ok 6 ereh
yoann ok 6 ete

$ 
;-))

zipe31 · Answer

Salut,

Au cas ou... des outils tous prêts existent sous GNU/Linux...

$ cat plop
simon ok x
simon ok x
simon ok x
simon ok x
fabien ok x
fabien ok x
seb ok x
yoann ok x
yoann ok x
yoann ok x
yoann ok x
yoann ok x
yoann ok x

$ uniq -c plop 
      4 simon ok x
      2 fabien ok x             
      1 seb ok x                
      6 yoann ok x    
          
$
;-))

zipe31 · Answer

$ cat plop                        
simon ok x febgeg                                      
simon ok x rhedg                                       
simon ok x erze                                        
simon ok x srg e                                       
fabien ok x nrteth                                     
fabien ok x tehhet                                     
seb ok x et ee                                         
yoann ok x eth                                         
yoann ok x et he                                       
yoann ok x ehe                                         
yoann ok x egr                                         
yoann ok x ereh                                        
yoann ok x ete   

$ cat csh_foo.csh

#! /bin/csh

foreach line ( 'awk '{ print $1 }' plop | uniq -c | awk '{ printf "%s|%s
",$2,$1 }'' )

set line = "$line:gas/|/ /"
set argv = ( $line )
sed "/$1/{s/ok x/ok $2/}" plop > blop
mv blop plop

end

$ ./csh_foo.csh

$ cat plop
simon ok 4 febgeg
simon ok 4 rhedg
simon ok 4 erze
simon ok 4 srg e
fabien ok 2 nrteth
fabien ok 2 tehhet
seb ok 1 et ee
yoann ok 6 eth
yoann ok 6 et he
yoann ok 6 ehe
yoann ok 6 egr
yoann ok 6 ereh
yoann ok 6 ete
$
;-))

lami20j · Answer

Re,

Bon, il doit avoir plus simple mais je pense à quelque chose de genre :
- on obtiens le nombre d'occurrences et on les stocke dans un fichier temp

:~$ perl -ane '$h{$F[0]}++;END{print "$_:$h{$_}
" for keys %h}' visiteurr > visiteurr.occ
lami20j@debian-acer:~$ cat visiteurr.occ 
seb:1
yoann:6
simon:4
fabien:2

- on utilise le fichier temp et on insère le nombre d'occurrences dans le fichier
:~$ cat visiteurr
simon ok x febgeg
simon ok x rhedg
simon ok x erze
simon ok x srg e
fabien ok x nrteth
fabien ok x tehhet
seb ok x et ee
yoann ok x eth
yoann ok x et he
yoann ok x ehe
yoann ok x egr
yoann ok x ereh
yoann ok x ete 
:~$ perl -ne '$h{$1}=$2 if /(.*):(.*)/;s/^(.*?)\s(.*?)\sx(.*)/$1 $2 $h{$1} $3/ and print' visiteurr.occ visiteurr
simon ok 4  febgeg
simon ok 4  rhedg
simon ok 4  erze
simon ok 4  srg e
fabien ok 2  nrteth
fabien ok 2  tehhet
seb ok 1  et ee
yoann ok 6  eth
yoann ok 6  et he
yoann ok 6  ehe
yoann ok 6  egr
yoann ok 6  ereh
yoann ok 6  ete

lami20j · Answer

Salut, 1ère commande perl -ane '$h{$F[0]}++;END{print "$_:$h{$_} " for keys %h}' visiteurr > visiteurr.occ Le rôle de cette commande c'est de compter le nombre d'occurrence du mot se trouvant au début des lignes du fichier. Pour cela j'utilise la structure de donné appelée hash ou tableau associatif. Cette structure de donnée permet d'accéder aux éléments de tableau par une clé (qui est une chaîne de caractère). A chaque clé correspond une valeur (qui peut être une chaîne, un nombre, un tableau, un hash, une référence, bref un peu tout ;-) Ce qui donne la présentation suivante %hash = ( "cle1" => "valeur", "cle2" => "autre valeur", .... "cleN" => "et encore une valeur", ); A savoir que la clé est unique. Dans ton exemple la commande va parcourir chaque ligne de fichier. Vu qu'on cherche le nombre d'occurrence du 1er mot de chaque ligne alors il suffit de considérer le 1er mot comme clé et vu qu'elle devrait être unique alors il me suffira par la suite de compter la valeur. Voici ce qui se passe sur le capot. Traitement de la 1ère ligne la clé est simon et la valeur sera 1 Traitement de la 2ème ligne la clé est simon et la valeur sera 2 (la valeur est incrementé à chaque passage) Tout ça pour tout les simon quelque soit le numéro de la ligne dans le fichier (donc les ligens ayant simon au début n'ont pas besoin d'être groupée) Quand on arrive à fabien alors c'est une nouvelle clé et à l'instar de la clé simon la valeur sera incrémenté et ainsi de suite jusqu'à la dernière ligne de fichier. A la fin le hash a un peu cette forme (à savoir qu'on peut trier le hash mais pas besoin dans ce cas) qui est interne donc aléatoire et pas dans l'ordre de création de hash %h = ( "seb" => 1, "yoann" => 6, "simon" => 4, "fabien" => 2, ); A ce moment le hash est dans la mémoire vive et il faudrait le sauvegarder quelque part, j'ai choisi un fichier. Le bloc END{} permet qu'une fois arrivé à la fin de fichier, d'afficher le hash. Pour enregistrer dans le fichier j'ai utiliser une simple redirection de STDOUT (sortie standard, l'écran) vers un fichier. Voilà le fonctionnement pour la 1ère commande. Les option utiliser permet de spliter les mots de chaque ligne dans un tableau @F et ensuite j'utilise $F[0] - le 1er élément (simon, seb, fabien, yoann) La 2ème commande perl -ne '$h{$1}=$2 if /(.*):(.*)/;s/^(.*?)\s(.*?)\sx(.*)/$1 $2 $h{$1} $3/ and print' visiteurr.occ visiteurr Cette commande lit les deux fichiers : - celui créé par le 1ère commande qui contient le nombre d'occurences - le fichier original. La commande contient deux lignes de code séparées par point-virgule $h{$1}=$2 if /(.*):(.*)/ et s/^(.*?)\s(.*?)\sx(.*)/$1 $2 $h{$1} $3/ and print La commande $h{$1}=$2 if /(.*):(.*)/ au moment de la lecture du 1er fichier va recréer le hash. Cette fois si le séparateur n'est plus l'espace mais les deux points (.*):(.*) c'est une expression régulière qu'on pourrait la traduire comme ça . veut dire n'importe quel caractère * c'est un quantificateur qui permet de trouver 0,1 ou n'importe combien de caractères () les parenthèses c'est pour capturer le motif trouvé : c'est le caractère littéral Les captures sont numéroté de 1 à .... et les variables correspondante sont $1, $2 ..... Ce qui est intéressant c'est que le hash sera rempli si est seulement la ligne contient un : (ça pourrait poser des problèmes de mémoires pas de résultat si le fichier original contiendra :) On pourrait améliorer en utilisant les ancrages de début et fin chaîne. (^ - début ; $ - fin) Tu pourrais te demander pourquoi on ne l'as pas fait d'un coup au lieu de créer un fichier temporaire. Si le fichier est de grande taille (disons des millions des lignes) alors je te laisse imaginé de combien de mémoire vive + swap on devrait avoir pour stoker tout ça. Bon le cas le plus défavorable sera si le fichier original contiendrait une clé par ligne, mais en ce cas il n'y aura plus besoin de compter le nombre d'occurrences et en ce cas l'ajout du 1 dans le colonne serait suffisant Donc $h{$1}=$2 if /(.*):(.*)/ dit en bref : remplie moi le hash avec cle => valeur si est seulement la ligne lu dans le fichier contient : A la fin de la lecture du 1er fichier, le hash est rempli et c'est la lecture du fichier original qui commence. s/^(.*?)\s(.*?)\sx(.*)/$1 $2 $h{$1} $3/ and print Sachant que le séparateur est l'espace alors il suffit de séparer les mots et ensuite remplacer le x avec la valeur correspondant qui se trouve dans le hash s/MOTIF/REMPLACEMENT/ c'est la fonction substitute qui permet de remplacer la partie gauche avec ce qui se trouve à droite La partie MOTIF s/^(.*?)\s(.*?)\sx(.*)/ s/ ^ -ancrage début chaine ( - début 1ère capture - $1 .*? - n'importe quel caractère 0,1 ou n'importe combien des fois mais éviter la gourmandise ) - fin 1ère capture \s - cherche un espace ( - début 2ème capture - $2 .*? - n'importe quel caractère 0,1 ou n'importe combien des fois mais éviter la gourmandise ) - fin 2ème capture \sx - c'est ici le champ concerné pour le changement ( - la 3ème capture - $3 .* - n'importe quel caractère 0,1 ou n'importe combien des fois, gourmande cette fois ) - fin de la 3ème capture Attention, si la colonne a modifié ne contient pas x alors il faudrai changer la regex La partie REMPLACEMENT /$1 $2 $h{$1} $3/ and print / $1 - la 1ère capture $2 - espace la 2ème capture $h{$1} - espace et voir (nombre occurrence) $3 - espace et la 3ème capture / and print - fin de remplacement et affiche nombre occurence $h{$1} La 1ère capture c'est le 1ère mot de la ligne. $h{$1} par exemple quand le mot est simon on a : $h{"simon"} et dans le hash on a vu que la valeur de simon est le nombre d'occurrences trouvées par le 1ère commande, donc 4 Cette substitution est appliquée pour chaque ligne. Voilà, j'espère que c'est un peu plus clair. c'est lui le spécialiste en Perl ;-)) Pas menteur en ce qui concerne la connexion, mais pour le reste oui ;-))

lami20j · Answer

Salut,   

A vrai dire mon test est fait sur un exemple qui semble n'est pas être conforme à ton fichier.   
Pour ça j'aurais peut être besoin de ton fichier.   
Tu peux me l'envoyer par mail.   

petite précision aussi ... diference entre ".*?" et juste ".*" ?  

Voici un exemple pour voir la différence.   
Tu remarques quand j'utilise .* alors $1 vaut xigenc - .* a avalé tout jusqu'au dernière e, donc la plus longue chaine   
En revanche quand j'utilise .*? alors $1 vaut xig - .*? a avalé jusqu'au 1er e, donc la chaine minimale    


:~$ echo exigence    
exigence   
:~$ echo exigence | perl -ne '/e(.*)e/ ; print "$1
"'   
xigenc   
r:~$ echo exigence | perl -ne '/e(.*?)e/ ; print "$1
"'   
xig

zipe31 · Answer

Salut,

Pour ça j'aurais peut être besoin de ton fichier.
Tu peux me l'envoyer par mail. 
Déjà demandé, mais ce n'est pas possible, par contre les lignes originelles ressemblent à ça ;-\

lami20j · Answer

Salut,

Déjà demandé, mais ce n'est pas possible, par contre les lignes originelles ressemblent

Ben, c'est justement ça qui me dérange que ça rassemble, mais personne ne dit ce qui se trouve derrière les caractères non imprimables (espace, tabulation, ou je ne sais pas quoi encore ;-)

Je vais essayer de généraliser.

zipe31 · Answer

Faut faire avec.... mais c'est là qu'on voit les véritables bêtes au final ;-))

lami20j · Answer

Re,

je comprend pas comment "simuler" des colonnes ...

Vous savez ?

Alors on va essayer de savoir la structure de ton fichier.
Avec cette commande tous les caractères différent des espace, tab sont remplacés par A et les autres par leur code ascii.

perl -ne 'while(/(.)/g){my $x=$1;($x=~/\s/)?(print " ", ord($x), " "):print "A"};print "
"' visiteurr > visit.struct

Ensuite tu mets le fichier visit.struct sur cjoint.com


Pour preuve voici ce qui affiche chez moi

~$ cat visiteurr
simon ok x febgeg
simon ok x rhedg
simon ok x erze
simon ok x srg e
fabien ok x nrteth
fabien ok x tehhet
seb ok x et ee
yoann ok x eth
yoann ok x et he
yoann ok x ehe
yoann ok x egr
yoann ok x ereh
yoann ok x ete 
~$ perl -ne 'while(/(.)/g){my $x=$1;($x=~/\s/)?(print " ", ord($x), " "):print "A"};print "
"' visiteurr > visit.struct
lami20j@debian-acer:~$ cat visit.struct 
AAAAA 32 AA 32 A 32 AAAAAA
AAAAA 32 AA 32 A 32 AAAAA
AAAAA 32 AA 32 A 32 AAAA
AAAAA 32 AA 32 A 32 AAA 32 A
AAAAAA 32 AA 32 A 32 AAAAAA
AAAAAA 32 AA 32 A 32 AAAAAA
AAA 32 AA 32 A 32 AA 32 AA
AAAAA 32 AA 32 A 32 AAA
AAAAA 32 AA 32 A 32 AA 32 AA
AAAAA 32 AA 32 A 32 AAA
AAAAA 32 AA 32 A 32 AAA
AAAAA 32 AA 32 A 32 AAAA
AAAAA 32 AA 32 A 32 AAA 32

visiteurr · Answer

RE ^^ alors aprés avoir longement modifié le code pour tenté de l'adapter ^^ voila ce que j'obtient: 

perl -ne '$h{$1}=$2 if /(.*):(.*)/;s/^(.*?)	modification	(.*)/$1	$h{$1}	$2/ and print' texte.txt.occ texte.tmp.3_2 > texte.txt.tmp.3_3

avec des lignes de ce type :

simon modification 9999.00 test 999.00 tes2 test3 pierre 99.00 test4 yoann 99.00 99.00 grande_phrase 9999999.00 99.00 99.00 9.00 99.00 didier 

et ca marche super bien 

Malheureusement je n'ai en aucun cas le droit de sortir un document même modifié de mon entreprise ... De plus le fichier possède 16000 lignes trés trés longues ^^ tu me diras c'est pas grand chose lol j'en ai un qui posséde plus de 4 millions de lignes =) ( plus de 200Mo ).
Sur mon exemple si dessu chaque mot est dans une colonne différente et le résultat doit etre : 

simon 8 9999.00 test 999.00 tes2 test3 pierre 99.00 test4 yoann 99.00 99.00 grande_phrase 9999999.00 99.00 99.00 9.00 99.00 didier 

si Simon aparait 8 fois en première position.

Que pensez vous de mes modifs ? c'est normale que ca marche ou c'est un coup de chance et ca va pas marcher tout le temps ?

 Merci les gars c'est vraiment sympa

Selection ligne suivante CSH foreach

11 réponses

Discussions similaires

Newsletters