Traitement de données dans fichier Résolu

Question

Bonjour, 
J'ai une base de donnée, contenant 1 million d'article.
Chacun de ces articles est composé de 50 champs décrivant l'article
(la liste des champs est dans une table à part).

Toutes les infos sur les articles sont donc dans une table champ de 50 millions de champs, sous la forme

 id article  idchamp   valeur1              1           alpha1              2           beta1              3           gamma...2              1          delta2              2          eta2              3          itoa...900 000     1          kappa...900 000     50        lambda

Je voudrais le transformer en format
1;1=alpha -2=beta - 3=gamma;2;1=delta - 2=eta - 3=iota;900000;1=kappa....50=lambad;

J'ai testé de faires des boucles de requetes base, ce qui est le plus simple (car en plus, tant qu'a faire, je voudrais remplace l'id article par le nom de l'article présent dans une autre table, et les id de champs par le nom des champs...

Sauf que vous imaginez qu'on arrive à faire des millions de requetes, et du coup, ça prends trop de temps (avec la méthode utilisée, ça prends environ une minute par article... j'en aurais donc pour 900 000 minutes... j'ose pas calculer le temps que ça prendrais).

Je me suis donc dis, je vais tenter de le faire en sed (ou awk, mais je sens que c'est plus du travail pour sed).

Je vais donc chercher comment faire (il me semble que j'ai déja vu des situations équivalents ici même), mais si des gens s'ennuient et son intéressés par l'exercice.

Comme toujours, c'est de la prod, l'important c'est que ça marche, pas que ce soit 'joli'.
Par contre, y'a un catch sur la vitesse de traitement vu la quantité de donnée.

Mis en jeu pour la meilleure réponse : une bière ou un coca sur Paris (je paye juste la boisson, hein, vous vous démerdez pour l'hébergement et le transport) :)


Configuration: Anthill inside
Sco/unix 5.07 /bin/sh 
 
Stop failing the turing test !

dubcek · Answer

hello
comme ça ?
$ cat  fichierid article  idchamp   valeur1              1           alpha1              2           beta1              3           gamma...2              1          delta2              2          eta2              3          itoa...900 000     1          kappa900 000     5         tarpé900 000     50        lambda$$ awk -F '[ ][ ]+' '/[0-9]/ {e="="; m=" - "; printf $1 ";" $2 e $3 m; getline; printf $2 e $3 m; getline; printf $2 e $3 ";
"}' fichier1;1=alpha - 2=beta - 3=gamma;2;1=delta - 2=eta - 3=itoa;900 000;1=kappa - 5=tarpé - 50=lambda;

zipe31 · Answer

Salut,

Une solution avec sed, mais il ne faut pas qu'il y ait d'espace dans l'ID ;-\

Le fichier de départ :
id article  idchamp   valeur1              1           alpha1              2           beta1              3           gamma2              1          delta2              2          eta2              3          itoa900000     1          kappa900000     5         tarpe900000     50        lambda

Le script sed (script.sed) :

#n
1 n
:z
$ bw
h
N
/^$[^ ;]*$$ \{2,\}\|;$.*\n\1/ {    
    s/\n[0-9]\+ \{2,\}/ - /
    b z                                
}
x
    s/ \{2,\}/;/1
    s/ \{2,\}/=/g
p
g
D
:w
    s/ \{2,\}/;/1
    s/ \{2,\}/=/g
p

Le résultat :
$ sed -f script.sed plop 1;1=alpha - 2=beta - 3=gamma2;1=delta - 2=eta - 3=itoa900000;1=kappa - 5=tarpe - 50=lambda

ryko1820 · Answer

Hello,

en SQL c'est plus ou moins un PIVOT. C'est quoi comme base ?

dna.factory · Answer

je testerai tout ça mardi

dna.factory · Answer

Encore une fois, vous me donnez exactement ce que je demande.
encore une fois, évidement, je ne demande pas ce que je veux (mais bon, c'est classique dans le milieu).

donc voici exactement les données telles qu'elles sortent de la requete
 
 article_ref | id_template_champ |                 valeur-------------+-------------------+-------------------------------------          10 |                 1 | OFF          10 |                 2 | NORM          10 |                 3 | C          10 |                 4 | 3601029829114          10 |                 5 | 29114          10 |                 6 | -9114          10 |                 7 | KNOWN          10 |                 8 | PILES TECHPLUS R6 8+4GRAT 1PCE          10 |                 9 | 2.75          10 |                10 | a          10 |                11 | 2.75          10 |                12 | aX          10 |                13 | 0          10 |                14 | 1.000000          10 |                15 | 1.0          10 |                16 | Prix unitaire          10 |                17 |          10 |                18 | 

Utiliser les pipes comme séparateur de champ, c'est pas trop compliqué.
Par contre, ce qui devient compliqué, c'est que le champ valeur peut contenir des espaces, et des champs vides

Je travaille déja sur ce que vous m'avez donné, quitte à modifier les données en entrée 'pour arriver à une situation déjà résolue'.

dubcek · Answer

$ awk -f f9.awk fichier10;1=OFF - 2=NORM - 3=C - 4=3601029829114 - 5=29114 - 6=-9114 - 7=KNOWN - 8=PILES TECHPLUS R6 8+4GRAT 1PCE - 9=2.75 - 10=a - 11=2.75 - 12=aX - 13=0 - 14=1.000000 - 15=1.0 - 16=Prix unitaire - 17= - 18=;$ $ cat f9.awkBEGIN {	FS=" *[|] *"}/[0-9]/ {sub("^ *", ""); sub(" *$", ""); c1=$1; c2=$2; $1=$2=""; t[c1]=t[c1] "|" c2 "|" $3}END {	for (n in t) {		printf n ";"; x=split(t[n], a)		for (k=2; k<=x; k+=2)			printf("%s=%s%s", a[k], a[k+1], k==x-1? c=";
": c=" - ")	}}

Traitement de données dans fichier

6 réponses

Newsletters