convertir colonne en ligne et formatage de la ligne. Résolu

Question

Bonjour, 

J'ai des lignes du type

SLA1;VM1SLA2; VM2SLA1;VM3SLA2; VM4SLA1:VM5

... que j'aimerais le convertir en

SLA1; "VM1","VM3","VM5"SLA2;"VM2","VM4"

... avec un programe bash.

Merci pour votre aide.  ;-)

mamiemando · Accepted Answer

Bonjour,

Ce que tu cherches à faire est ce qu'on appelle typiquement en base de donnée un group by. Dans ton cas les éléments groupés sont concaténés mais tu peux imaginer n'importe quelle opération d'agrégation en général (somme, moyenne, etc...). Pour faire un group by en shell tu peux passer par une commande comme awk.

 Cette discussion montre comment sommer les éléments agrégés, il suffit donc de l'adapter légèrement.
 Cette discussion montre comment les concaténer. La différence majeure est qu'on teste si la clé existe dans le tableau intermédiaire, car par défaut awk considère que les valeurs stockées sont des valeurs numériques (or ici, tu veux une chaîne de caractères).

Enfin, pour éviter d'avoir des espaces qui traîne, on remplace $1 (la clé) et $2 (la valeur à ajouter à la concaténation) à l'aide de gsub, comme expliqué dans cette discussion.

On obtient donc ceci :

$ awk 'BEGIN { FS = ";"; } { gsub(/^[ 	]+/, "", $1); gsub(/^[ 	]+/, "", $2); if (a[$1]) { a[$1] = a[$1] ";" $2; } else { a[$1] = $2; } } END {for (i in a) { print i ":" a[i]; } }' toto.csvSLA1:VM1;VM3;VM5SLA2:VM2;VM4

Voici une manière plus lisible d'obtenir le même résultat, en passant par un script awk.

toto.csv

SLA1;VM1SLA2; VM2SLA1;VM3SLA2; VM4SLA1;VM5

toto.awk

BEGIN {
    FS = ";";
}

{
    gsub(/^[ 	]+/, "", $1);
    gsub(/^[ 	]+/, "", $2);
    if (a[$1]) {
        a[$1] = a[$1] ";" $2;
    } else {
        a[$1] = $2;
    }
}

END {
    for (i in a) {
        print i ":" a[i];
    }
}

awk -f toto.awk toto.csv

Quelques explications :

 le bloc BEGIN initialise la variable FS qui en awk, permet de préciser quel caractère sépare les colonnes (; dans toto.csv)
 le bloc suivant se déclenche à chaque ligne lue. $0 correspond à la ligne complète $i correspond à la i-ème colonne. Avec gsub on supprime tous les espaces (voir cours sur les expressions rationnelles)
 Ensuite, on regarde si la clé $1 existe ou non dans le tableau a qui va être utilisé comme un dictionnaire clé / valeur. Cela donne l'opportunité de copier la chaîne associé à la seconde colonne (dans le else) ou de la concaténer dans a[$1].
 Le bloc END est déclenché une fois le fichier complètement parcouru. On itère sur a pour générer le résultat écrit retourné par awk.

Bonne chance

Convertir colonne en ligne et formatage de la ligne.

1 réponse

Discussions similaires

Newsletters