Récupérer des contenus de forum

Résolu/Fermé
cyrille - Modifié par zipe31 le 17/12/2013 à 23:16
 cyrille - 18 déc. 2013 à 21:46
Bonjour,

Je suis étudiant et fais de l'analyse de contenu.
J'aimerai récupérer des contenus de forum.
Si je regarde le code source de la page j'ai l'impression que je devrais récupérer ce qui entre 2 balises

<div id="" class="post entry-content ">blablablabla

</div>

Comment puis je proceder avec la ligne de commande linux ? awk, grep ou autre ?
J'avoue que je patauge...
Merci d'avance.

4 réponses

zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 407
18 déc. 2013 à 07:48
Salut,

Il nous faudrait un exemple CONCRET d'un site, de ce que tu veux exactement récupérer et sous quelle forme...
0
Bonjour,

J'ai eu cette idée en passant par le site http://quanti.hypotheses.org/724/

Mon site serait d'analyses serait http://forum.velovert.com/forum/1-forum-de-discussion/ mais je suis susceptible d'en trouver d'autres.

C'est n'importe lequel de ces post.

La forme récupérable c'est du txt utilisable sous RQDA

Le but c'est de faire de l'analyse quali.

Merci!

Je precise que je suis sous linux et windows 7.
0
zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 407
18 déc. 2013 à 08:15
La forme récupérable c'est du txt utilisable sous RQDA
C'est à dire ??? Je ne connais pas RQDA et je n'ai pas envie de chercher ;-\

Prends un post au hasard dans ton forum et dis-nous ce que tu veux exactement en sortie.
0
Un simple fichier au format txt me va.

si je prend ce fil : http://forum.velovert.com/topic/161962-changement-vtt/

j'aimerai un fichier qui compile les interventions des posteurs.

"Bonjour
Avant de faire "le grand saut " a tu déjà testé le 29"??
Sinon ici comme dans les mags on prêche souvent pour notre paroisse ; ) donc pour moi ton choix est bon : )
Sinon tu as regard2 la V.P.C ??
Sinon ton budget est de combien ?? Car il faudra surement "budgété" des nouvelles roues car souvent celles monté sont des enclumes "

"Effectivement, je n'ai pas eu l'occasion de tester un 29'' sauf dans la boutique, ce qui me semble être peu représentatif de la vraie vie. Je me disait que pour 1 m 80 et 83 kg, çe choix de gabarit serait cohérent.
Avec ce Lapierre, mon budget de 1500 euros est déjà un peu dépassé.
Question poids, un peu de barde en moins autour de mes abdos (presque) mythologiques sera plus efficace qu' un tout carbone. "

etc...
0
zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 407
18 déc. 2013 à 08:47
Ok, donc il te faut effectivement parser le code source de la page via un outil comme
sed
(choix objectif de ma part vu que c'est celui que je maîtrise le mieux), mais tu auras besoin d'autres outils, notamment
wget
ou
cURL
pour récupérer la page et
w3m
pour l'affichage...

Voilà un petit exemple avec le lien que tu as donné :

$ wget -q -O- http://forum.velovert.com/topic/161962-changement-vtt/ | sed -n "/<div class='post entry-content '>/,/<\/div>/p" vtt.htm | w3m -dump -T text/html
Bonjour,
Je pense acquérir un vtt neuf pour remplacer mon vieux rockrider 6.1 tout
suspendu qui commencee à s'user de partout. Après avoir consulté plusieurs
boutiques (petites et grandes), je me suis aperçu que chacun avait tendance à
prêcher pour sa chapelle. Je pense que si j'avais été commerçant, j'aurais fait
de même...
Donc, difficile de démêler l'écheveau de tous les arguments.
Après quelques heures passées sur les forums, j'ai pu répondre à certaines de
mes interrogations: je ne suis sûr de rien en ce qui concerne les choix
techniques. J'aurais tout de même plutôt tendance à rechercher un 29''
Il me semble que les grandes roues passent mieux les obstacles. La surface au
sol permettrait à mon avis une meilleure adhérence sur les feuilles de
l'automne , ainsi que sur (dans) la boue hivernale. Notons que dans mes Côtes
d'Armor, l'hiver est parfois long, ce qui ne veut pas dire désagréable si on
est habitué.
Mon choix se porterait donc vers un Lapierre, le X-control 229. il se trouve
que la plage des dévellopements de ce 29 est presque la même que celle de mon
26.


Mon niveau: Je roule 1 à 3 x mois, de 30 à 40, parfois 50 km , et ce à 13-14 de
moyenne au vu du terrain local. Dénivellé + en moyenne 150m/10km. Avec mes 42
ans, je ne fais pas l'endouille sur des passages techniques ni l'imbécile avec
mon cardio. Je ne suis pas non plus un fou de technique, mes chaussures de vélo
sont souvent mes bottes de voile...

Et je suis bien conscient qu'un choix de beau vélo a un côté irrationel.
Que pensez-vous de ce choix de vélo, de ce type de monture?

P.S.: la météo de ces jours-ci ayant tendance à remplir les chemins creux, je
me demande si je devrait plutôt investir daans un pédalo...
Bonjour
Avant de faire "le grand saut " a tu déjà testé le 29"??
Sinon ici comme dans les mags on prêche souvent pour notre paroisse ; ) donc
pour moi ton choix est bon : )
Sinon tu as regard2 la V.P.C ??
Sinon ton budget est de combien ?? Car il faudra surement "budgété" des
nouvelles roues car souvent celles monté sont des enclumes
Effectivement, je n'ai pas eu l'occasion de tester un 29'' sauf dans la
boutique, ce qui me semble être peu représentatif de la vraie vie. Je me disait
que pour 1 m 80 et 83 kg, çe choix de gabarit serait cohérent.
Avec ce Lapierre, mon budget de 1500 euros est déjà un peu dépassé.
Question poids, un peu de barde en moins autour de mes abdos (presque)
mythologiques sera plus efficace qu' un tout carbone.

Voir le messageEnez Koalen, le 18 décembre 2013 à 08h15, dit :

Effectivement, je n'ai pas eu l'occasion de tester un 29'' sauf dans la
boutique, ce qui me semble être peu représentatif de la vraie vie. Je me disait
que pour 1 m 80 et 83 kg, çe choix de gabarit serait cohérent.
Avec ce Lapierre, mon budget de 1500 euros est déjà un peu dépassé.
Question poids, un peu de barde en moins autour de mes abdos (presque)
mythologiques sera plus efficace qu' un tout carbone.


$

0
Merci !

je teste ce soir sur mon pc perso.

sed -n "/<div class='post entry-content '>/,/<\/div>/p" vtt.htm

si je comprend on dit a sed

recupere moi ce que tu as entre <div class='post entry-content '>

et le premier <\/div> que tu rencontres.

Au niveau de la syntaxe de la commande, le premier motif est entre 2 // , le second motif entre 2 // et après la virgule ?

/p je ne connais pas

A la fin instruction : met moi ça dans un fichier htm

je peux mettre dans un txt à la place ? et j'evite le dernier |


sed -n "/<div class='post entry-content '>/,/<\/div>/p" vtt.txt
0
zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 407
18 déc. 2013 à 10:28
Oups j'ai fait une erreur de recopie de ma commande, le nom du fichier dans la syntaxe sed est inutile dans la mesure où on traite la sortie de wget ;-(
Voilà la bonne syntaxe :

wget -q -O- http://forum.velovert.com/topic/161962-changement-vtt/ | sed -n "/<div class='post entry-content '>/,/<\/div>/p"  | w3m -dump -T text/html


si je comprend on dit a sed recupere moi ce que tu as entre <div class='post entry-content '> et le premier <\/div> que tu rencontres.
Oui.

Au niveau de la syntaxe de la commande, le premier motif est entre 2 // , le second motif entre 2 // et après la virgule ?
La syntaxe c'est
/motif1/,/motif2/ instructions 

/p je ne connais pas
En fait le
p
marche avec l'option
-n
, on demande juste de ne rien imprimer sur la sortie standard (-n), mais uniquement ce qu'on veut grâce au flag
p
.



A la fin instruction : met moi ça dans un fichier htm
Juste une redirection à faire
> fichier.txt
.

wget -q -O- http://forum.velovert.com/topic/161962-changement-vtt/ | sed -n "/<div class='post entry-content '>/,/<\/div>/p"  | w3m -dump -T text/html > fichier.txt

et j'evite le dernier |

Non, sans
w3m
c'est du texte brut que tu récupéres avec tous les balises du code source ;-(
0
Ca parait top :)
Merci.
Je n'ai pas eu l'idée d'utiliser sed. :(

Est ce que ce serait simple de récupérer tout le fil et de faire un seul fichier ?

peut etre en ajoutant quelques parametres à wget ?



On met peut etre le doigt dans quelque chose de ardu ?

En tout cas merci pour ton aide efficace.
0
zipe31 Messages postés 36402 Date d'inscription dimanche 7 novembre 2010 Statut Contributeur Dernière intervention 27 janvier 2021 6 407
18 déc. 2013 à 11:31
Est ce que ce serait simple de récupérer tout le fil et de faire un seul fichier ?
peut etre en ajoutant quelques parametres à wget ?
Avec
wget
non, mais avec
cURL
oui ;-))

J'ai fait un test sur les 5 premières pages et ça a l'air de gazer ;-))

curl -s http://forum.velovert.com/topic/90576-forum-du-nouveau-lapierre-zesty-140/page__st__[00-60:20] | sed -n "/<div class='post entry-content '>/,/<\/div>/p"  | w3m -dump -T text/html > fich.txt 
0
Ok, grand merci!
je teste ça ce soir et te tiens au courant.
Bonne journée!
0
Ca marche impeccable!
Grand merci à zipe31.
Je marque le post comme résolu!
0