Récuperer texte dans un fichier
*RHCP*
-
jipicy Messages postés 41342 Statut Modérateur -
jipicy Messages postés 41342 Statut Modérateur -
Bonsoir,
J'ai des milliers de fichiers html et je voudrais récupérer le texte qui se trouve entre deux balises uniques dans le fichier.
J'ai essayer des tas de commandes et de combinaisons (grep, cut -d, cut -f, head, tail, . . .) mais je ne suis arrivé à rien de concluant.
Mes balises sont du type : <xxx> texte à récupérer </xxx>
Merci de votre aide ;-)
J'ai des milliers de fichiers html et je voudrais récupérer le texte qui se trouve entre deux balises uniques dans le fichier.
J'ai essayer des tas de commandes et de combinaisons (grep, cut -d, cut -f, head, tail, . . .) mais je ne suis arrivé à rien de concluant.
Mes balises sont du type : <xxx> texte à récupérer </xxx>
Merci de votre aide ;-)
A voir également:
- Récuperer texte dans un fichier
- Fichier bin - Guide
- Comment réduire la taille d'un fichier - Guide
- Comment ouvrir un fichier epub ? - Guide
- Fichier rar - Guide
- Fichier .dat - Guide
3 réponses
Salut,
Il aurait été bien d'avoir un exemple des fichiers "html" ainsi que des balises, par exemple si le texte à récupérer tient sur une seule ligne ou plusieurs, enfin du moins si les balises sont sur une ou plusieurs lignes...
Bon en attendant voilà un bout de code pour des balises (uniques) et du texte sur une seule ligne :
Il aurait été bien d'avoir un exemple des fichiers "html" ainsi que des balises, par exemple si le texte à récupérer tient sur une seule ligne ou plusieurs, enfin du moins si les balises sont sur une ou plusieurs lignes...
Bon en attendant voilà un bout de code pour des balises (uniques) et du texte sur une seule ligne :
sed -n 's|<balise>\(.*\)</balise>|\1|p' *.html > fichier.sortie;-))
Bonjour,
J'ai testé la commande sur mon fichier mais ça ne fonctionne pas. C'est certainement une petite faute dans la commande mais comme je suis loin d'être un pro des expressions régulières !
Sinon voilà un exemple de fichier : https://tabs.ultimate-guitar.com/tab/jimi-hendrix/little-wing-tabs-11712
Je voudrais récupérer le contenu entre les balises <xmp> qui sont uniques.
Merci et à bientôt.
J'ai testé la commande sur mon fichier mais ça ne fonctionne pas. C'est certainement une petite faute dans la commande mais comme je suis loin d'être un pro des expressions régulières !
Sinon voilà un exemple de fichier : https://tabs.ultimate-guitar.com/tab/jimi-hendrix/little-wing-tabs-11712
Je voudrais récupérer le contenu entre les balises <xmp> qui sont uniques.
Merci et à bientôt.