[bash] traitements multiples sur un fichier Résolu

Question

Bonjour, 

Je dois réaliser un script qui effectue plusieurs opération de traitement sur un fichier.txt
Je dois tout d'abord rechercher son encodage, et s'il n'est pas en utf-8 le convertir. Puis je dois segmenter mon corpus en mots, pour ensuite effectuer un calcul d'occurrences des mots, dont le résultat doit être présenter par ordre de fréquence décroissante.

Voici mon script :

#!/bin/bash

echo " Donnez le nom du corpus: " ;
read corpus ;

#----------------------------------
encodage=$(file -i corpus-test.txt) ;#détermine l'encodage du texte
iconv -f $encodage -t utf-8 corpus-test.txt > corpus-test.u8 ;#si l'encodage n'est pas en utf-8, je le converti en utf-8 et change son nom
#----------------------------------
sed -e 's/^[ 	]*//;s/[ 	]*$//' corpus-test.u8 > corpus-test.tok ;#segmentation du texte

sort | uniq -c \ | sort -rg < corpus-test.tok > corpus-test.tok.freq ;#calcul de la fréquence et trie par ordre décroissant

seulement lorsque j'exécute mon script sous cygwin, les erreurs suivantes apparaissent :
- iconv : conversion from corpus-test.txt : unsupported
- iconv : try 'iconv -l' to get the list of supported encodings
- uniq : : No such file or directory

Je ne comprends pas d'où viennent ces erreurs.

Est ce que quelqu'un pourrait m'expliquer svp ?

Merci :)

Configuration: Windows Vista

laoshu · Answer

Bonjour,

Qu'est ce que ça donne si tu essaye :


#!/bin/bash

echo " Donnez le nom du corpus: " ;
read corpus ;

#----------------------------------
encodage=$(file -i corpus-test.txt) 
#détermine l'encodage du texte

iconv -f $encodage -t UTF-8 corpus-test.txt > corpus-test.u8 
#si l'encodage n'est pas en utf-8, je le converti en utf-8 et change son nom 

#----------------------------------
sed -e 's/^[ 	]*//;s/[ 	]*$//' corpus-test.u8 > corpus-test.tok 
#segmentation du texte


sort < corpus-test.tok | uniq -c \ | sort -rg  > corpus-test.tok.freq
#calcul de la fréquence et trie par ordre décroissant

lami20j · Answer

Salut,

C'est obligatoire en bash?

lami20j · Answer

Re,

:~$ cat plop
1835
1812
1693
1692
1587
1566
1531
1499
1465
89
74
29
23
23
23
20
19
17
16
4
3
2°
1°
1er
1er
ôtée
ôtait
îles
îles
îles
îles
île
île
être
être
être
être
être
être
être
être
être
être
être
être
être
être
être
être
être
être
être
:~$ perl -ne '$h{$_}++;END{for $e(reverse sort {$h{$a} <=> $h{$b}}keys %h){print "$h{$e} $e"}}' plop
19 être
4 îles
3 23
2 île
2 1er
1 1465
1 1812
1 3
1 1499
1 1587
1 1566
1 17
1 ôtée
1 1°
1 ôtait
1 1692
1 20
1 1693
1 1835
1 89
1 29
1 16
1 74
1 2°
1 4
1 1531
1 19
:~$

hakkio · Answer

Merci beaucoup à vous tous pour toutes vos réponses. J'ai réussi à avoir ce que je voulais. J'avais oublié un | dans mon script et c'est pour ça que tout était chamboulé. Je pensais pourtant m'être bien relue ^^

[bash] traitements multiples sur un fichier

4 réponses

Votre réponse

Discussions similaires

Newsletters