Comment créer un parseur

Stephan -  
sebsauvage Messages postés 33415 Statut Modérateur -
Bonjour,
Je recherche à créer un parseur qui lit la source des pages web et qui isolerait le contenu compris entre 2 tags (par exemple pour ressortir simplement les HEAD.

Savez vous si un code existe en PHP ou XML que je pourrais personnaliser?
Sinon comment s'y prendre?

Merci de votre aide précieuse.

3 réponses

sebsauvage Messages postés 33415 Statut Modérateur 15 664
 
Hello.

php je ne connais pas, mais en Python c'est du gâteau:

(Exemple: voir "Extraire les liens d'une page HTML" dans la page http://wikipython.flibuste.net/moin.py/CodesDivers).

Mais bon en php on devrait s'en tirer avec les expressions régulières (regarde mon exemple en Python utilisant les expressions régulières: il devrait être réutilisable en php).
0
Utilisateur anonyme
 
Je sais que pour les HEAD il y a GETMETATAGS mais si je veux ressortir uniquement les url par exemple, comment faire?
0
sebsauvage Messages postés 33415 Statut Modérateur 15 664
 
Dans mon exemple, l'expression régulière
<a href=(.*?)>

permet de récupérer tous les liens d'une page.

Je pense que le module d'expressions régulières existe en php.

Il te suffira donc d'adapter cette expression regulière pour extraire les informations qui t'intéressent.
0