Réalisation d'un outils SEO

Fermé
Kalheesi Messages postés 11 Date d'inscription jeudi 12 juin 2014 Statut Membre Dernière intervention 20 juin 2014 - 12 juin 2014 à 11:50
Kalheesi Messages postés 11 Date d'inscription jeudi 12 juin 2014 Statut Membre Dernière intervention 20 juin 2014 - 17 juin 2014 à 15:01
Bonjour,

Je suis actuellement en stage en entreprise et mon projet est de réaliser un outils de type SEO (récupération de donnée tel que le nombre de phrase, de mot, de lien, ect. sur la page web analyser). Je viens vous demander de l'aide car après de nombreuses recherches je ne trouve pas les informations voulus..

J'ai pris connaissance de la fonction file_get_contents() qui me permet de récupérer la page en code html (si j'ai bien compris), cependant y a-t-il une méthode pour distinguer les images, les textes, ect. de ce code ?
Ce qui va me poser plus de réflexion je pense est de savoir comment récupérer les pages indexés et le poids de la page.

Je vous avoue que je ne sais pas trop par quoi commencer, et je me sens complètement perdue. Je vous ne vous demande pas non plus de me servir le code php de mon outil sur un plateau mais de me donner quelques pistes. :)

Merci de votre aide.

2 réponses

Nhay Messages postés 838 Date d'inscription vendredi 2 novembre 2012 Statut Membre Dernière intervention 17 décembre 2015 126
12 juin 2014 à 12:40
Bonjour,
Pour trouver toutes les balises, le plus simples c'est de parser ton ficher comme tu le ferai avec un fichier XML
https://www.php.net/manual/fr/domdocument.loadhtml.php

Tu pourra ainsi avec une fonction recursive parser toute ta page, avoir le nom des balises, etc ...
Et ainsi différencier le traitement si c'est une image, un lien, ou du texte.
0
Kalheesi Messages postés 11 Date d'inscription jeudi 12 juin 2014 Statut Membre Dernière intervention 20 juin 2014 1
17 juin 2014 à 15:01
Merci pour ton aide.
Au final l'entreprise où je suis utilise la classe Snoopy, donc j'ai réussi à me débrouiller sans parser.
(pour ceux que ça interesse : http://snoopy.sourceforge.net/
0