Bonjour,
Je travail actuellement sur un petit robot qui a pour fonctionnalité de parcourir le web à la recherche d'informations dans le but de créer un petit moteur de recherche (pour mes études).
J'ai développé ce petit robot en c++ et j'utilise les expressions régulière (de la librairie regex.h).
Seulement j'ai un petit problème au niveau de son utilisation.
Voici la fonction que j'ai fait pour me retourner la valeur d'un champs sensé être unique dans une page html :
je reçois bien ce qui correspond aux keywords mais aussi avec les valeurs "meta name=keywords content=......" , alors que seul les valeurs de content m'intéressent, c'est à dire ce qui correspond à la deuxième parenthèse.
J'ai pas mal chercher et je ne suis pas parvenu à trouver comment ne récuperer que ce que je veux.
J'ai aussi besoin de ceci pour récupérer les url qui sont écrites de plusieurs façon différentes dans une page.
Je fais donc appel au savoir général pour si l'un(e) d'entre vous aurai une solution.
Un autre problème vient de la génération du nom de fichier dans lequel je place les temporairement le code, jusqu'à présent j'utilisais rand(), mais le problème est que le résultat, je crois,se base sur l'horloge interne et ceci me donne parfois des nom de fichier équivalent. ce qui génère quelques erreurs lorsque je revient sur le fichier.
Je vais rechercher une méthode pour obtenir un nom unique, mais si vous avez des idées, n'hésitez pas.
Pour ce qui est de l'identifiant de fichier unique, je vais me contenter pour l'instant de l'url de la page, avec les caractères spéciaux en moins.
C'est pas parfais, mais bon.