Extraire info d'un flux rss en bash

Question

Bonjour,

j'utilise Linux/ubuntu et j'aimerais élaborer un petit programme bash qui me permettrait d'afficher des informations extraite d'un flux RSS (en fait les titres de certaines manifestations) en ligne.

Est-ce possible ? Je pense que oui mais cela dépasse de très loin mes capacités.

merci à tous par avance !
Dansei

PS : cela me servira dans kmail et me permettra d'insérer ces informations automatiquement dans ma signature

Utilisateur anonyme · Answer

Salut ! Je pense que oui. Etant donnée qu'un flux RSS est un fichier XML, ca ne doit pas être compliqué. Tu dois avoir une sorte de balisage comme en HTML dans ce flux du genre l'info de ouf ! Il suffit de lire le fichier ligne par ligne et de chercher la chaine et de faire ton découpage entre 3 blocs et récupérer l'info. Je ne suis pas un AS en batch mais c'est largement faisable. Quelques liens pour t'aider Lire fichier texte => http://www.commentcamarche.net/faq/sujet 5027 comment lire un fichier ligne par ligne Découper une chaîne de caractères =>http://www.commentcamarche.net/forum/affich 6742165 decouper chaine de caractere Bon courage!

dansei10000 · Answer

Bonsoir Ahmet, je te remercie de ta réponse. Je suis allé voir les liens que tu proposes mais, malheureusement, ça ne me suffit pas ... désolé En fait, je voudrais extraire des informations d'un fichier ayant la forme suivante :

Rencontre Nationale des Directeurs de l'Innovation 2009 - lundi 25 mai 2009

Le thème de cette deuxième rencontre est « Innover pour sortir de la crise et repartir en croissance »...
Lire la suite...

Conférence sur l'Intelligence Economique - mardi 26 mai 2009

L'Intelligence Economique en soutien à l'Innovation. Au programme : "pratiquer l'innovation au quotidien dans l'entreprise"...
Lire la suite...

.... etc ...

Les seules informations qui m'intéressent sont en fait celles situées entre les balises h3 J'espère avoir été plus clair, merci

jipicy · Answer

Salut,sed -n 's#.*

$.*$

.*#\1#p' fichier;-))

dansei10000 · Answer

oh la la merci beaucoup beaucoup ! ça me fait beaucoup avancer vers mon objectif final deux choses cependant : - pourrais-tu m'expliquer un petit peu le sens de l'expression régulière utilisée (parce que c'est cryptique et que, même en essayant de lire les doc que je peux trouver, ça reste ... magique et mystérieux) (comme ça, je pourrais essayer de comprendre suffisamment pour l'adapter tout seul et ne garder que les titres, sans les balises - je voudrais que ce script s'applique à un fichier qui est en ligne. Penses-tu que je peux m'en sortir en utilisant la commande wget par exemple ? Même si tu ne réponds pas à ce mail, merci encore pour les informations déjà fournies !

jipicy · Answer

Si tu ne veux que les titres :sed -n 's#.*

$.*$

.*#\1#;s#.*">$.*$<.*#\1#p' fichieravec cette modification ça devrait le faire... Pour ce qui est de récupérer le fichier un truc du genre devrait le faire :wget url_du_fichier.rss.xmlpour le parser directement au travers d'un pipe avec "sed" :wget -q -O - url_du_fichier.rss.xml | sed 'blablabla'Pour les explications des regex, j'essaierai de trouver 5 minutes dans la journée pour t'expliquer ça.

dansei10000 · Answer

Encore merci ! J'avais également réussi vaguement à obtenir les titres (sauf que je l'ai fait sans trop comprendre et en bidouillant ta commande) sed -n 's#.*>$.*$

dansei10000 · Answer

Ouh la la je viens de m'apercevoir d'une grosse erreur en fait c'est beaucoup plus simple que je ne le pensais car je ne travaillant pas sur le bon fichier (en fait j'ais fait "enregistrer sous" à partir de firefox affichant le flux rss et du coup le navifgateur avait ajouté plein de code qui n'était pas dans le fichier d'origine) En fait la commande suivante marche parfaitement : sed -n 's#.*$.*$.*#\1#p' mon_fichier Je n'ai plus qu'à trouver comment supprimer la première ligne (et choisir par exemple de ne garder que les 5 suivantes) pour avoir enfin terminé cette petite tâche que je m'étais fixé. encore merci pour tout !

jipicy · Answer

Re-wget -q -O - http://www.jinnove.com/flux_rss?export=agenda.xml | sed -n 's#.*$.*$.*#\1#p'marche parfaitement chez moi ;-))

Extraire info d'un flux rss en bash

8 réponses

Discussions similaires

Newsletters