recupérer les URL d'un site Fermé

Question

Bonjour tout le monde. depuis quelque temps j'essaye de résoudre un petit problème mais je n'arrive pas. voila mon problème : sur cette page du site marmiton j'ai fait une recherche dont le mot clé est NOUILLES j'obtiens 10 recette par page voila la 1ere : http://www.marmiton.org/recettes/reche [...] ?aqt=nouilles ce que je voudrais faire c'est de récupérer les url des 10 recettes. exemple URL1 : /recettes/recette_porc-saute-aux-nouilles-chinoises_36503.aspx donc Faire une feuille xsl permettant de lister les 10 url et aussi les trier dune maniere unique ?? j'aimerai savoir si y'a pas un moyen de les récupérer avec un script systématiquement ? sinon je me contenterai de les faire à la main pcq y'a 298 recettes dans le but de faire un corpus. et ma 2eme question est ce que y'a moyen d'ajouter à 300 fichers un "doctype mais de maniere systématique pas à la main. le doctype des fichierss n'est pas bon et mes pages ne sont pas valides donc je voudrais rajouter le doctype je sais que c possible en shell "commandes" mais je my connais pas trop ? merci d'avance Windows 7 / Firefox 14.0.1

zipe31 · Answer

Salut,

Oui c'est possible ;-))

Bon il te faut quelques outils comme w3m et cURL (ou wget).

Dans un premier temps il te faut récupérer le nombre de recettes totales. Pour ça tu le fais avec "w3m" plus un petit coup de "awk" :

$ w3m -no-cookie -dump -T /text/html http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles | awk '/^Recettes 1 / { print $6 }'
298

Je te laisse faire la découpe pour faire la boucle avec les instruction qui vont suivre...

Ensuite donc tu fais une boucle dans laquelle  à partir de ton adresse de départ "http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles", tu vas parser le code source et en sortir les adresses :

$ curl -s 'http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles' | egrep -o "Resultat\" href='[^']*" | sed 's#.*/#/#'
/recette_porc-saute-aux-nouilles-chinoises_36503.aspx
/recette_nouilles-chinoises-facon-corinne_41618.aspx
/recette_nouilles-soba-aux-graines-de-sesame_82164.aspx
/recette_potage-asiatique-aux-nouilles-porc-et-crevettes_28939.aspx
/recette_nouilles-birmanes_46215.aspx
/recette_nouilles-chinoises_17284.aspx
/recette_nouilles-a-ma-facon_27725.aspx
/recette_nouilles-chinoises-soja-et-poulet-au-wok-facile_42206.aspx
/recette_nouilles-chinoises-au-chorizo_86837.aspx
/recette_nouilles-chinoises-aux-crevettes-et-concombre_87519.aspx
Pour les autres pages il suffit d'ajouter "&sort=&st=5&start=10" à l'url en incrémentant la page de "10" à chaque fois

$ curl -s 'http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&sort=&st=5&start=10' | egrep -o "Resultat\" href='[^']*" | sed 's#.*/#/#'
/recette_nouille-sautees-au-boeuf_70734.aspx
/recette_courgette-farcie-aux-nouilles-chinoises_58122.aspx
/recette_nouilles-chinoises-aux-pousses-de-soja_61393.aspx
/recette_stir-fry-de-nouilles-a-la-thailandaise_11186.aspx
/recette_nouilles-sautees-au-soja-et-aux-crevettes_17926.aspx
/recette_saute-de-nouilles-au-porc-et-aux-cacahuetes_47117.aspx
/recette_paupiette-de-saumon-aux-nouilles-chinoises_23622.aspx
/recette_wok-de-poulet-au-nouilles-chinoises_69338.aspx
/recette_nouilles-chinoises-au-poivron_47981.aspx
/recette_nouilles-chinoises-au-poulet-et-au-gingembre_24018.aspx
Voilà, bon courage ;-))

sam_bauer · Answer

merci bcp pour ta réponse. 


voila moi j'ai déjà aspiré le site j'ai les 300 fichiers que j'ai récupéré. 
  
wget -F -B -x -r -E -c -nv -D www.marmiton.org -I recettes https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles 


avec ca Marmiton ne peut être validé car : 

    Le doctype n'est pas le bon 
    Il existe des problèmes d'encodage de caractère (cp1215 en iso en utf8) 

je veux ajouter le doctype en début de ligne pour tous les fichiers (300) ?????? avec un script ? d'une manière systématique ?



Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes (div au centre de la page)
Appliquer la feuille sur chaque fichier valide et construire la liste des url ???   puis de les triées ? et supprimer les doublons ???? 


encore merci d'avance

sam_bauer · Answer

Bonjour Zipe31,

j'ai une petite question, si t'as le temps de me répondre bien-sur

une fois que j'ai les 10 url je veux pouvoir extraire leur contenu et que les recette c'est la zone ou le div ou il ya la recette ? 

est ce que cela est possible 

merci 
sam

sam_bauer · Answer

j'ai 30 fichiers qui correspondent à 30 pages des 10 recette "nouilles, ce qui donne 30page *10 = 298 recettes ca c fait. 

 je doit  ajouter le doctype en début de ligne ? ?? j'ai aucune idée par avec une feuille xsl qu'il faut applique les 30 ficheirs ? pour faire la meme chose pour les pages aspirer càd les 298. ? 

Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes  

Appliquer la feuille sur chaque fichier valide et construire la liste des url à traiter  
Trier de manière unique afin de retirer les doublons 
Utiliser wget pour aspirer ces page => création du corpus nouilles 


ce qui m'interesse c de recuperer bien sur le code source qui va me permettre par la suite de le corriger avec tidy j'ai un script qui fait ça  

#!/bin/bash 
cpt=-9 

for i in 'ls rech*' 
do 
   echo -n "$i..." 
   tidy -q -asxhtml $i >a$cpt.xhtml  2>a$cpt.err 
   echo "done" 
 cpt='expr $cpt + 10' 
done 



le résultat final c de faire un corpus de 298 recettes ? 



voila jespere que ta compris mon problème

merci

sam_bauer · Answer

1. tudy rajoute ca    "<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN">"

et corrige les erreur du code html ? pcq le code html du site  marmiton est plein d'erreur pour pouvoir traiter les pages en local il faut corriger les erreurs sinon je ne peux pas charger les fichiers et aussi il a un probleme d'encodage 


 premièrement une feuille xsl qui me traite mes fichiers  la feuille.xsl va lister les 298 urls et les trier ?

2ement  quelque chose qui aspire les 298 pages donc je veux bien  le code source qui aspire ces 298 pages en partant de 30 fichiers  de 10 url  et afficher le resultat de l'aspiration ? 

3ement récupérer le que les recettes "le corps de la recette"= titre,cuisson, ingredients,preparation " donc le code source qui me permet de faire ca ?   

désolé zip31 stp dis moi je suis toujours vague ? ou c clair ou y'a quelque chose qui n'est pas claire

sam_bauer · Answer

je ne sais le quel utiliser wget et recuperer les données ou bien via les chemins pcq si c avec wget  ce sera une combinaison de commandes et moi je ne suis pas dans le domaine ou  bien script php utilisant des chemins xpath afin  de segmenter n'importe quelle recette (titre, ingrédient, préparation...)

?

sam_bauer · Answer

bonjour zip31 j'ai 3 fichiers test1.html, test.html, test3.html expemple de code pour test1.html : 12 Liste de personnes 13 14 15

Liste de personnes

16 17 ma question :c que je veux ajouter le doctype pour les 3 fichiers d'une manière systématique et biensur en bash si c possible : càd le fichiers sortant il aura la forme Liste de personnes

Liste de personnes

c tu as une idée ? merci

sam_bauer · Answer

wow grand merci j'aimerai un jour pouvoir arriver a faire des chose comme toi 

mais juste une question pourquoi y'a les fichiers .bak

moi ce que je veux faire c juste de creer un fichier temporaire qui aura le code html + doctype ensuite on remove tout dans le fichiers orginal 

fichier1.html --> fihcier1temp"+doctype" --> fichier1.html


est tu crois que c possible sinon corrige moi ?
jessaye juste de comprendre 

merci zipe31

sam_bauer · Answer

oui j'ai pensé à ca c vrai 

merci zipe31

mon problème avec les feuilles xsl persiste toujours 

donc ma question est la suivante : avec c 3 liens :

https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=-9 

https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=10

https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=20

 
chaque lien  liste 10 recettes 

je veux une feuille xsl que j'appliquerai sur les 3 liens pour pouvoir récupérer les liens des 10 recettes.


je sais ta méthode en haut elle marche très bien 

mais que je le fasse avec une feuille xsl si t'as une idée ?

sam_bauer · Answer

merci zipe31 pour ton aide précieuse

sam_bauer · Answer

rebonjour ZIP31


j'ai une autre question si on veux supprimer ce qu'on vient d'ajouter est ce que cela est possible ? et comment ?

merci

sam_bauer · Answer

ça a marché nickel 

thanks zip31

sam_bauer · Answer

bonjour zip

j'ai un problème d'encodage j'ai ajouté le doctype 

je voulais voir quel tête ça a et ça me donne par exemple 

 

GÃ¢teau de pÃ¢tes Ã  la
bÃ©chamel, au jambon et aux champignons

est ce que tas une idée comment remédier a ce problème ?

bien-sur je me suis documenté avant de venir ici 


c de rajouter ça : <meta http-equiv="Content-Type" content="text/html; charset=windows-1252" /> 

est ce que ça peut régler le problème ou c pas ca qu'il faut faire  :
et est ce que y'a pas un moyen de le rajouter pour tous les fichiers si cela va ôter ce problème d'encodage ?

Recupérer les URL d'un site

13 réponses

Discussions similaires