[Java][RegExp] Extraire lien HTML
Résolu
djschorn
Messages postés
13
Date d'inscription
Statut
Membre
Dernière intervention
-
asevere Messages postés 13095 Date d'inscription Statut Webmaster Dernière intervention -
asevere Messages postés 13095 Date d'inscription Statut Webmaster Dernière intervention -
Bonjour,
Voilà je voudrais extraire d'une page HTML tout les liens qui y sont contenu.
J'ai essayé un truc du style :
Pattern pattern = Pattern.compile("(<A HREF=).*(</A>)");
Matcher matcher = pattern.matcher(maChaine);
while(matcher.find())
System.out.println(matcher.group());
Mais ca m'affiche tout le texte contenu entre le 1er et le dernier lien (inclus) :-(
Il est évident que l'erreur vient du pattern, mais comment faire ?
Merci d'avance
Voilà je voudrais extraire d'une page HTML tout les liens qui y sont contenu.
J'ai essayé un truc du style :
Pattern pattern = Pattern.compile("(<A HREF=).*(</A>)");
Matcher matcher = pattern.matcher(maChaine);
while(matcher.find())
System.out.println(matcher.group());
Mais ca m'affiche tout le texte contenu entre le 1er et le dernier lien (inclus) :-(
Il est évident que l'erreur vient du pattern, mais comment faire ?
Merci d'avance
A voir également:
- [Java][RegExp] Extraire lien HTML
- Waptrick java football - Télécharger - Jeux vidéo
- Jeux java itel - Télécharger - Jeux vidéo
- Lien url - Guide
- Extraire une video youtube - Guide
- Créer un lien pour partager des photos - Guide
3 réponses
Salut,
Je ne me souviens plus des expressions regulieres en java,
Mais selon le standard des erxpressions il me semble qu'un patern comme celui là:
"<a href=[^>]*>[^<]*</a>" devrai te donner pour chaque lien quelque chose du type
<a href="...">nomdulien</a>
[^>]* et [^<]* représentent normalement n'importe quel caractére exepté '>', respectivement '<' .
essaye ca et dis moi si ca marche :o)
++
Na kaer eo va Breizh,
gand ar mor glaz èn-dro dezi !
Je ne me souviens plus des expressions regulieres en java,
Mais selon le standard des erxpressions il me semble qu'un patern comme celui là:
"<a href=[^>]*>[^<]*</a>" devrai te donner pour chaque lien quelque chose du type
<a href="...">nomdulien</a>
[^>]* et [^<]* représentent normalement n'importe quel caractére exepté '>', respectivement '<' .
essaye ca et dis moi si ca marche :o)
++
Na kaer eo va Breizh,
gand ar mor glaz èn-dro dezi !