Utilisation de sed et grep
Résolu
Poireau007
Messages postés
83
Date d'inscription
Statut
Membre
Dernière intervention
-
Poireau007 Messages postés 83 Date d'inscription Statut Membre Dernière intervention -
Poireau007 Messages postés 83 Date d'inscription Statut Membre Dernière intervention -
Bonjour à tous !
Je voudrais modifier plusieurs pages (500) de mon site pour les intégrer dans une BDD. Actuellement le texte des pages que je veux récuperer est en dur et c'est pas tip top...
pour simplifier j'ai :
donc j'aimerais recuperer :
MON TEXTE QUE JE VEUX RECUPERER, MAIS J'Y ARRIVE PAS
Je sais pas trop comment m'y prendre...
Soit avec sed je remplace TOUT par ce qu'il y a entre </h2><br> et <br><br><center>
Soit avec grep en greppant ce qu'il y a entre </h2><br> et <br><br><center>
Malheuresement dans les 2 cas j'y arrive pas trop, en fait je ne maitrise pas trop les jokers...
un coup c'est .*, un coup c'est ? et un coup c'est /pattern/... grrr
Je voudrais modifier plusieurs pages (500) de mon site pour les intégrer dans une BDD. Actuellement le texte des pages que je veux récuperer est en dur et c'est pas tip top...
pour simplifier j'ai :
code code code code <div id="contenu"> <h2>MON TITRE</h2><br> MON TEXTE QUE JE VEUX RECUPERER, MAIS J'Y ARRIVE PAS <br><br> <center> <a href="index.html"> code code code code
donc j'aimerais recuperer :
MON TEXTE QUE JE VEUX RECUPERER, MAIS J'Y ARRIVE PAS
Je sais pas trop comment m'y prendre...
Soit avec sed je remplace TOUT par ce qu'il y a entre </h2><br> et <br><br><center>
Soit avec grep en greppant ce qu'il y a entre </h2><br> et <br><br><center>
Malheuresement dans les 2 cas j'y arrive pas trop, en fait je ne maitrise pas trop les jokers...
un coup c'est .*, un coup c'est ? et un coup c'est /pattern/... grrr
A voir également:
- Utilisation de sed et grep
- Utilisation chromecast - Guide
- Télécharger gratuitement notice d'utilisation - Guide
- Imprimante en cours d'utilisation ✓ - Forum Imprimante
- Comment savoir qui utilise mon wifi et le bloquer - Guide
- La ressource demandée est en cours d'utilisation - Forum Téléphones & tablettes Android
10 réponses
ro1ri@bt:~$ vim monfichier ro1ri@bt:~$ cat monfichier v id="contenu"> <h2>MON TITRE</h2><br> MON TEXTE QUE JE VEUX RECUPERER, MAIS J'Y ARRIVE PAS <br><br> <center> <a href="index.html"> code code code code ro1ri@bt:~$ grep TEXTE monfichier MON TEXTE QUE JE VEUX RECUPERER, MAIS J'Y ARRIVE PAS ro1ri@bt:~$
Ce n'est qu'un exemple. Si tu veut récupérer toutes les lignes contenant "texte" quelque soit la case ::
ro1ri@bt:~$ grep -i texte monfichier MON TEXTE QUE JE VEUX RECUPERER, MAIS J'Y ARRIVE PAS ro1ri@bt:~$
Ensuite pour renvoyer le résultat dans un fichier texte, >> fichier_sortie à la fin de ta ligne.
jp@MDK:~/tmpfs ssh$ cat Poireau007 <div id="contenu"> <h2>Nouvelle banquette pour la 207</h2><br> La peugeot 207 fait peu neuve avec 3 nouveaux motifs de siège. on se souvient des précédentes versions...BLA BLA BLA. <br><br> <center> <a href="index.html"> jp@MDK:~/tmpfs ssh$ sed -n '\|<div id="contenu">|{n;n;p}' Poireau007 La peugeot 207 fait peu neuve avec 3 nouveaux motifs de siège. on se souvient des précédentes versions...BLA BLA BLA. jp@MDK:~/tmpfs ssh$
;-))
Heu oui, désolé j'aime les mac ! :)
ma version c'est bash-3.2 sous snow panther
Ben avec le ; ça marche !!! merci !!
Bon sinon j'aimerais bien comprendre ton expression :)
sed -n # ca c'est pour ne pas traiter les lignes une à une, mais tout le bloc, si j'ai bien compris
'\| #la ca doit etre pour dire le terme suivant est un pattern
<div id="contenu"> #ben ca c'est le pattern
|{n;n;p}' # heu la je voit pas du tout, c'est pas des options... et pourquoi ca ne grep que mon texte et pas le reste ??
Poireau007 #ca c'est mon fichier
Merci à tous vous 2 !
ma version c'est bash-3.2 sous snow panther
Ben avec le ; ça marche !!! merci !!
Bon sinon j'aimerais bien comprendre ton expression :)
sed -n # ca c'est pour ne pas traiter les lignes une à une, mais tout le bloc, si j'ai bien compris
'\| #la ca doit etre pour dire le terme suivant est un pattern
<div id="contenu"> #ben ca c'est le pattern
|{n;n;p}' # heu la je voit pas du tout, c'est pas des options... et pourquoi ca ne grep que mon texte et pas le reste ??
Poireau007 #ca c'est mon fichier
Merci à tous vous 2 !
-n
Non, ça c'est pour un affichage uniquement sur commande, ce paramètre marche en binôme avec le "p" de fin de l'expression. Donc on n'affiche sur la sortie standard (l'écran) que ce qu'on demande implicitement avec la commande "p" (print)
\|
Ca c'est le caractère délimiteur pour le motif. Par défaut c'est un slash '/', mais comme le motif était susceptible d'en contenir un (de slash), on définit un nouveau caractère délimiteur (le pipe '|' ici) en le protégeant par un anti-slash.
<div id="contenu">
Le motif recharché.
|
Caractère délimiteur de fin (pour le motif)
{
Début d'un regroupement de commande qui ne seront appliquées qu'au motif précédent.
n
Commande next. Cette commande en fait vide la mémoire principale de son contenu (en l'envoyant normalement sur la sortie standard, mais comme on a demandé un affichage explicite, elle part dans les choux) et la remplace par la ligne suivante.
n
On recommence puisque c'est la seconde ligne après le motif qui nous intéresse.
p
On affiche le résultat.
}
Fin du regroupement de commandes.
Pour de plus amples détails sur SED :
Sed - Introduction à SED - Part I
Sed - Introduction à SED - Part II
Sed - Introduction à SED - Part III
Non, ça c'est pour un affichage uniquement sur commande, ce paramètre marche en binôme avec le "p" de fin de l'expression. Donc on n'affiche sur la sortie standard (l'écran) que ce qu'on demande implicitement avec la commande "p" (print)
\|
Ca c'est le caractère délimiteur pour le motif. Par défaut c'est un slash '/', mais comme le motif était susceptible d'en contenir un (de slash), on définit un nouveau caractère délimiteur (le pipe '|' ici) en le protégeant par un anti-slash.
<div id="contenu">
Le motif recharché.
|
Caractère délimiteur de fin (pour le motif)
{
Début d'un regroupement de commande qui ne seront appliquées qu'au motif précédent.
n
Commande next. Cette commande en fait vide la mémoire principale de son contenu (en l'envoyant normalement sur la sortie standard, mais comme on a demandé un affichage explicite, elle part dans les choux) et la remplace par la ligne suivante.
n
On recommence puisque c'est la seconde ligne après le motif qui nous intéresse.
p
On affiche le résultat.
}
Fin du regroupement de commandes.
Pour de plus amples détails sur SED :
Sed - Introduction à SED - Part I
Sed - Introduction à SED - Part II
Sed - Introduction à SED - Part III
Salut,
Peux-tu coller un exemple concret (un morceau de ton fichier) ?
Sinon, est-ce que le code se présente exactement comme ton exemple ci-dessus ? A savoir les sauts de lignes, les espaces, les balises, etc. ???
Peux-tu coller un exemple concret (un morceau de ton fichier) ?
Sinon, est-ce que le code se présente exactement comme ton exemple ci-dessus ? A savoir les sauts de lignes, les espaces, les balises, etc. ???
Sinon en espérant que tu ais mis des retours à la ligne entre tes balises et ton texte, peut être un petit :
grep -v -E ^'<' monfichier
Par contre j'avoue que le résulta sera peu-être pas tip-top propre :/
grep -v -E ^'<' monfichier
Par contre j'avoue que le résulta sera peu-être pas tip-top propre :/
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
Bonjour Ro&ri et merci pour ta réponse,
je ne comprend pas trop la solution que tu proposes, tu fais vim et ensuite cat c'est ça ? Comment je récupere mon texte sur tout mes fichiers ?
En fait au départ j'ouvre mes 500 fichiers avec :
c'est a partir de grep que c'est la cata !!
je ne comprend pas trop la solution que tu proposes, tu fais vim et ensuite cat c'est ça ? Comment je récupere mon texte sur tout mes fichiers ?
En fait au départ j'ouvre mes 500 fichiers avec :
for i in $(ls); do cat $i | grep qui marche pas >>res.txt; done
c'est a partir de grep que c'est la cata !!
Alors désolé mon méssage #1 c'était une connerie, par contre si c'est un language balisé, essayes ::
Explications ::
-v demande à grep de ressortir toutes les lignes ne remplissant pas les conditions mises en parrametre
-r pour chercher dans tous les fichiers d'un dossier
-E pour dire à grep qu'on va utiliser des expressions régulières
^'<' chercher les lignes contenant < en début de ligne
En espérant que ça marche :-/
grep -v -r -E ^'<' ton_dossier >> resultat.txt
Explications ::
-v demande à grep de ressortir toutes les lignes ne remplissant pas les conditions mises en parrametre
-r pour chercher dans tous les fichiers d'un dossier
-E pour dire à grep qu'on va utiliser des expressions régulières
^'<' chercher les lignes contenant < en début de ligne
En espérant que ça marche :-/
Ah c'est marant ce truc je savais pas que tu pouvais grepper comme ça :)
Sinon ca me ressort plein de ligne dont je n'ai pas besoin...
ex :
Sinon ca me ressort plein de ligne dont je n'ai pas besoin...
ex :
fichier.html: fichier.html: fichier.html: <br><br> fichier.html: </div> fichier.html: <p> </p>
Pour mon mrceau de code ou celui de jipicy ??
Peut-être en enlevant le ^ ?? Par contre ça risques de te virer quelques lignes de texte que tu aurais voulu garder ...
Peut-être en enlevant le ^ ?? Par contre ça risques de te virer quelques lignes de texte que tu aurais voulu garder ...
Non le tiens,
quand j'enleve le ^ ca supprime mon texte, en effet.
peut etre que le texte est trop complexe (au niveau des caracteres)
quand j'enleve le ^ ca supprime mon texte, en effet.
peut etre que le texte est trop complexe (au niveau des caracteres)