Recupérer les URL d'un site
Fermé
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
-
25 juil. 2012 à 18:26
Col - 28 sept. 2012 à 11:06
Col - 28 sept. 2012 à 11:06
A voir également:
- Récupérer toutes les urls d'un site
- Site de telechargement - Accueil - Outils
- Site comme coco - Accueil - Réseaux sociaux
- Comment récupérer les messages supprimés sur whatsapp - Guide
- C'est quoi l'url d'un site ? - Guide
- Quel site remplace coco - Accueil - Réseaux sociaux
13 réponses
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
25 juil. 2012 à 19:07
25 juil. 2012 à 19:07
Salut,
Oui c'est possible ;-))
Bon il te faut quelques outils comme w3m et cURL (ou wget).
Dans un premier temps il te faut récupérer le nombre de recettes totales. Pour ça tu le fais avec "w3m" plus un petit coup de "awk" :
Je te laisse faire la découpe pour faire la boucle avec les instruction qui vont suivre...
Ensuite donc tu fais une boucle dans laquelle à partir de ton adresse de départ "http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles", tu vas parser le code source et en sortir les adresses :
Pour les autres pages il suffit d'ajouter "&sort=&st=5&start=10" à l'url en incrémentant la page de "10" à chaque fois
Voilà, bon courage ;-))
Oui c'est possible ;-))
Bon il te faut quelques outils comme w3m et cURL (ou wget).
Dans un premier temps il te faut récupérer le nombre de recettes totales. Pour ça tu le fais avec "w3m" plus un petit coup de "awk" :
$ w3m -no-cookie -dump -T /text/html http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles | awk '/^Recettes 1 / { print $6 }' 298
Je te laisse faire la découpe pour faire la boucle avec les instruction qui vont suivre...
Ensuite donc tu fais une boucle dans laquelle à partir de ton adresse de départ "http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles", tu vas parser le code source et en sortir les adresses :
$ curl -s 'http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles' | egrep -o "Resultat\" href='[^']*" | sed 's#.*/#/#' /recette_porc-saute-aux-nouilles-chinoises_36503.aspx /recette_nouilles-chinoises-facon-corinne_41618.aspx /recette_nouilles-soba-aux-graines-de-sesame_82164.aspx /recette_potage-asiatique-aux-nouilles-porc-et-crevettes_28939.aspx /recette_nouilles-birmanes_46215.aspx /recette_nouilles-chinoises_17284.aspx /recette_nouilles-a-ma-facon_27725.aspx /recette_nouilles-chinoises-soja-et-poulet-au-wok-facile_42206.aspx /recette_nouilles-chinoises-au-chorizo_86837.aspx /recette_nouilles-chinoises-aux-crevettes-et-concombre_87519.aspx
Pour les autres pages il suffit d'ajouter "&sort=&st=5&start=10" à l'url en incrémentant la page de "10" à chaque fois
$ curl -s 'http://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&sort=&st=5&start=10' | egrep -o "Resultat\" href='[^']*" | sed 's#.*/#/#'
/recette_nouille-sautees-au-boeuf_70734.aspx
/recette_courgette-farcie-aux-nouilles-chinoises_58122.aspx
/recette_nouilles-chinoises-aux-pousses-de-soja_61393.aspx
/recette_stir-fry-de-nouilles-a-la-thailandaise_11186.aspx
/recette_nouilles-sautees-au-soja-et-aux-crevettes_17926.aspx
/recette_saute-de-nouilles-au-porc-et-aux-cacahuetes_47117.aspx
/recette_paupiette-de-saumon-aux-nouilles-chinoises_23622.aspx
/recette_wok-de-poulet-au-nouilles-chinoises_69338.aspx
/recette_nouilles-chinoises-au-poivron_47981.aspx
/recette_nouilles-chinoises-au-poulet-et-au-gingembre_24018.aspx
Voilà, bon courage ;-))
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
Modifié par sam_bauer le 25/07/2012 à 19:45
Modifié par sam_bauer le 25/07/2012 à 19:45
merci bcp pour ta réponse.
voila moi j'ai déjà aspiré le site j'ai les 300 fichiers que j'ai récupéré.
wget -F -B -x -r -E -c -nv -D www.marmiton.org -I recettes https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles
avec ca Marmiton ne peut être validé car :
Le doctype n'est pas le bon
Il existe des problèmes d'encodage de caractère (cp1215 en iso en utf8)
je veux ajouter le doctype en début de ligne pour tous les fichiers (300) ?????? avec un script ? d'une manière systématique ?
Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes (div au centre de la page)
Appliquer la feuille sur chaque fichier valide et construire la liste des url ??? puis de les triées ? et supprimer les doublons ????
encore merci d'avance
voila moi j'ai déjà aspiré le site j'ai les 300 fichiers que j'ai récupéré.
wget -F -B -x -r -E -c -nv -D www.marmiton.org -I recettes https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles
avec ca Marmiton ne peut être validé car :
Le doctype n'est pas le bon
Il existe des problèmes d'encodage de caractère (cp1215 en iso en utf8)
je veux ajouter le doctype en début de ligne pour tous les fichiers (300) ?????? avec un script ? d'une manière systématique ?
Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes (div au centre de la page)
Appliquer la feuille sur chaque fichier valide et construire la liste des url ??? puis de les triées ? et supprimer les doublons ????
encore merci d'avance
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
26 juil. 2012 à 16:29
26 juil. 2012 à 16:29
Bonjour Zipe31,
j'ai une petite question, si t'as le temps de me répondre bien-sur
une fois que j'ai les 10 url je veux pouvoir extraire leur contenu et que les recette c'est la zone ou le div ou il ya la recette ?
est ce que cela est possible
merci
sam
j'ai une petite question, si t'as le temps de me répondre bien-sur
une fois que j'ai les 10 url je veux pouvoir extraire leur contenu et que les recette c'est la zone ou le div ou il ya la recette ?
est ce que cela est possible
merci
sam
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
26 juil. 2012 à 16:32
26 juil. 2012 à 16:32
Salut,
Tu veux le code source ou que l'affichage ?
Tu veux le code source ou que l'affichage ?
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
Modifié par sam_bauer le 26/07/2012 à 16:51
Modifié par sam_bauer le 26/07/2012 à 16:51
le code source qui me permet de récupérer les 10 recettes de la première page "nouilles" , on m'a dit que c possible avec une feuille xsl que j'appliquerai sur les fichiers récupérés(html)
et aussi rassembler toutes les url cad 298 du mot clé "nouille" sur une seule feille xsl . pour pouvoir les trier et construire mon corpus nouille par la suite
merci
et aussi rassembler toutes les url cad 298 du mot clé "nouille" sur une seule feille xsl . pour pouvoir les trier et construire mon corpus nouille par la suite
merci
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
26 juil. 2012 à 16:51
26 juil. 2012 à 16:51
Je comprend rien ;-((
Tu veux quoi exactement ?
Récupérer les pages ?
Si oui sous quelle forme ?
Le texte brut ou le code source ?
Tu veux quoi exactement ?
Récupérer les pages ?
Si oui sous quelle forme ?
Le texte brut ou le code source ?
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
Modifié par sam_bauer le 26/07/2012 à 17:13
Modifié par sam_bauer le 26/07/2012 à 17:13
j'ai 30 fichiers qui correspondent à 30 pages des 10 recette "nouilles, ce qui donne 30page *10 = 298 recettes ca c fait.
je doit ajouter le doctype en début de ligne ? ?? j'ai aucune idée par avec une feuille xsl qu'il faut applique les 30 ficheirs ? pour faire la meme chose pour les pages aspirer càd les 298. ?
Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes
Appliquer la feuille sur chaque fichier valide et construire la liste des url à traiter
Trier de manière unique afin de retirer les doublons
Utiliser wget pour aspirer ces page => création du corpus nouilles
ce qui m'interesse c de recuperer bien sur le code source qui va me permettre par la suite de le corriger avec tidy j'ai un script qui fait ça
#!/bin/bash
cpt=-9
for i in 'ls rech*'
do
echo -n "$i..."
tidy -q -asxhtml $i >a$cpt.xhtml 2>a$cpt.err
echo "done"
cpt='expr $cpt + 10'
done
le résultat final c de faire un corpus de 298 recettes ?
voila jespere que ta compris mon problème
merci
je doit ajouter le doctype en début de ligne ? ?? j'ai aucune idée par avec une feuille xsl qu'il faut applique les 30 ficheirs ? pour faire la meme chose pour les pages aspirer càd les 298. ?
Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes
Appliquer la feuille sur chaque fichier valide et construire la liste des url à traiter
Trier de manière unique afin de retirer les doublons
Utiliser wget pour aspirer ces page => création du corpus nouilles
ce qui m'interesse c de recuperer bien sur le code source qui va me permettre par la suite de le corriger avec tidy j'ai un script qui fait ça
#!/bin/bash
cpt=-9
for i in 'ls rech*'
do
echo -n "$i..."
tidy -q -asxhtml $i >a$cpt.xhtml 2>a$cpt.err
echo "done"
cpt='expr $cpt + 10'
done
le résultat final c de faire un corpus de 298 recettes ?
voila jespere que ta compris mon problème
merci
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
26 juil. 2012 à 17:33
26 juil. 2012 à 17:33
voila jespere que ta compris mon problème
Encore moins ;-(((
j'ai 30 fichiers qui correspondent à 30 pages des 10 recette "nouilles, ce qui donne 30page *10 = 298 recettes ca c fait.
Donc tu les as déjà récupérés ?
je doit ajouter le doctype en début de ligne ? ?? j'ai aucune idée par avec une feuille xsl qu'il faut applique les 30 ficheirs ? pour faire la meme chose pour les pages aspirer càd les 298. ?
Rien compris ;-((
Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes
Là je ne comprends pas ??? Le script que je t'ai donné dans mon 1er message ne te convient pas ? Pourtant c'est ce qu'il fait, sans avoir besoin de récupérer quoi que ce soit avant.
Appliquer la feuille sur chaque fichier valide et construire la liste des url à traiter
Trier de manière unique afin de retirer les doublons
Utiliser wget pour aspirer ces page => création du corpus nouilles
Mon script fait ça ;-\
ce qui m'interesse c de recuperer bien sur le code source qui va me permettre par la suite de le corriger avec tidy j'ai un script qui fait ça
Ne connaissant tidy que de nom, peux-tu me dire pour ma gouverne ce qu'il est censé faire là ?
Merci.
le résultat final c de faire un corpus de 298 recettes ?
Ok, mais sous quelle forme ? Une seule page html contenant juste le texte des recettes ?
Encore moins ;-(((
j'ai 30 fichiers qui correspondent à 30 pages des 10 recette "nouilles, ce qui donne 30page *10 = 298 recettes ca c fait.
Donc tu les as déjà récupérés ?
je doit ajouter le doctype en début de ligne ? ?? j'ai aucune idée par avec une feuille xsl qu'il faut applique les 30 ficheirs ? pour faire la meme chose pour les pages aspirer càd les 298. ?
Rien compris ;-((
Faire une feuille xsl permettant de lister les url (adresses) des 10 recettes
Là je ne comprends pas ??? Le script que je t'ai donné dans mon 1er message ne te convient pas ? Pourtant c'est ce qu'il fait, sans avoir besoin de récupérer quoi que ce soit avant.
Appliquer la feuille sur chaque fichier valide et construire la liste des url à traiter
Trier de manière unique afin de retirer les doublons
Utiliser wget pour aspirer ces page => création du corpus nouilles
Mon script fait ça ;-\
ce qui m'interesse c de recuperer bien sur le code source qui va me permettre par la suite de le corriger avec tidy j'ai un script qui fait ça
Ne connaissant tidy que de nom, peux-tu me dire pour ma gouverne ce qu'il est censé faire là ?
Merci.
le résultat final c de faire un corpus de 298 recettes ?
Ok, mais sous quelle forme ? Une seule page html contenant juste le texte des recettes ?
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
26 juil. 2012 à 17:49
26 juil. 2012 à 17:49
1. tudy rajoute ca "<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN">"
et corrige les erreur du code html ? pcq le code html du site marmiton est plein d'erreur pour pouvoir traiter les pages en local il faut corriger les erreurs sinon je ne peux pas charger les fichiers et aussi il a un probleme d'encodage
premièrement une feuille xsl qui me traite mes fichiers la feuille.xsl va lister les 298 urls et les trier ?
2ement quelque chose qui aspire les 298 pages donc je veux bien le code source qui aspire ces 298 pages en partant de 30 fichiers de 10 url et afficher le resultat de l'aspiration ?
3ement récupérer le que les recettes "le corps de la recette"= titre,cuisson, ingredients,preparation " donc le code source qui me permet de faire ca ?
désolé zip31 stp dis moi je suis toujours vague ? ou c clair ou y'a quelque chose qui n'est pas claire
et corrige les erreur du code html ? pcq le code html du site marmiton est plein d'erreur pour pouvoir traiter les pages en local il faut corriger les erreurs sinon je ne peux pas charger les fichiers et aussi il a un probleme d'encodage
premièrement une feuille xsl qui me traite mes fichiers la feuille.xsl va lister les 298 urls et les trier ?
2ement quelque chose qui aspire les 298 pages donc je veux bien le code source qui aspire ces 298 pages en partant de 30 fichiers de 10 url et afficher le resultat de l'aspiration ?
3ement récupérer le que les recettes "le corps de la recette"= titre,cuisson, ingredients,preparation " donc le code source qui me permet de faire ca ?
désolé zip31 stp dis moi je suis toujours vague ? ou c clair ou y'a quelque chose qui n'est pas claire
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
26 juil. 2012 à 18:42
26 juil. 2012 à 18:42
Tiens juste un petit aperçu de mon script plus haut légèrement amélioré.
On te demande le mot à chercher, puis ça te récupère dans un fichier la liste des URL's des recettes correspondantes...
Voilà, après ça tu n'as plus qu'à faire une boucle sur le fichier contenant la liste des URL's et avec wget ou cURL récupérer les pages.
On te demande le mot à chercher, puis ça te récupère dans un fichier la liste des URL's des recettes correspondantes...
$ ls # Le contenu du répertoire foo.sh $ cat foo.sh # Le script #! /bin/bash read -p "Entrez un terme à rechercher : " Clef Nbre=$(w3m -no-cookie -dump -T /text/html "http://www.marmiton.org/recettes/recherche.aspx?aqt=${Clef}" | awk '/^Recettes 1 / { print $6 }') for (( i=0; i < ${Nbre}; i = i + 10 ));do curl -s "http://www.marmiton.org/recettes/recherche.aspx?aqt=${Clef}&sort=&st=5&start=${i}" | egrep -o "Resultat\" href='[^']*" | sed 's#.*/#/#' >> liste_recettes_${Clef}.txt done $ ./foo.sh # On lance le script Entrez un terme à rechercher : citrouille $ ls # Moins de 10 secondes après j'ai la liste des URL's foo.sh liste_recettes_citrouille.txt $ wc -l liste_recettes_citrouille.txt # On vérifie le nombre d'URL's récupéré 97 liste_recettes_citrouille.txt $ head -15 liste_recettes_citrouille.txt # Onliste les 15 premières /recette_tagliatelles-a-la-citrouille_44359.aspx /recette_cookies-a-la-citrouille_221471.aspx /recette_citrouille-farcie_84153.aspx /recette_lasagnes-a-la-citrouille-et-au-boursin_65168.aspx /recette_tarte-a-la-citrouille-et-au-munster_32819.aspx /recette_crumble-sale-a-la-citrouille_220546.aspx /recette_salade-de-citrouille_35500.aspx /recette_citrouille-frite_32016.aspx /recette_millas-a-la-citrouille_13012.aspx /recette_beignets-a-la-citrouille_19700.aspx /recette_flan-a-la-citrouille_40629.aspx /recette_terrine-de-citrouille_24975.aspx /recette_muffins-a-la-citrouille_15409.aspx /recette_soupe-de-citrouille_38982.aspx /recette_citrouille-a-la-cubaine_84492.aspx $
Voilà, après ça tu n'as plus qu'à faire une boucle sur le fichier contenant la liste des URL's et avec wget ou cURL récupérer les pages.
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
26 juil. 2012 à 19:13
26 juil. 2012 à 19:13
grand merci zipe31
est ce que je peux utiliser un chemin xpath wget pour recuperer le corps de la recette ?
est ce que je peux utiliser un chemin xpath wget pour recuperer le corps de la recette ?
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
26 juil. 2012 à 19:15
26 juil. 2012 à 19:15
un chemin xpath wget
Euh... c'est quoi ça ? ;-\
Euh... c'est quoi ça ? ;-\
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
26 juil. 2012 à 19:20
26 juil. 2012 à 19:20
je ne sais le quel utiliser wget et recuperer les données ou bien via les chemins pcq si c avec wget ce sera une combinaison de commandes et moi je ne suis pas dans le domaine ou bien script php utilisant des chemins xpath afin de segmenter n'importe quelle recette (titre, ingrédient, préparation...)
?
?
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
26 juil. 2012 à 19:26
26 juil. 2012 à 19:26
ou bien script php utilisant des chemins xpath afin de segmenter n'importe quelle recette (titre, ingrédient, préparation...)
Je ne connais pas du tout, mais si tu sais faire, apparemment préfère celui-ci ;-))
Je ne connais pas du tout, mais si tu sais faire, apparemment préfère celui-ci ;-))
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
26 juil. 2012 à 19:41
26 juil. 2012 à 19:41
merci je vais essayer je te dirai pour resultat
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 15:21
27 juil. 2012 à 15:21
bonjour zip31
j'ai 3 fichiers test1.html, test.html, test3.html expemple de code pour test1.html :
<html>
12 <head><title>Liste de personnes</title>
13 </head>
14 <body>
15 <h1>Liste de personnes</h1>
16 </body>
17 </html>
ma question :c que je veux ajouter le doctype pour les 3 fichiers d'une manière systématique et biensur en bash si c possible :
càd le fichiers sortant il aura la forme
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN">
<html>
<head><title>Liste de personnes</title>
</head>
<body>
<h1>Liste de personnes</h1>
</body>
</html>
c tu as une idée ?
merci
j'ai 3 fichiers test1.html, test.html, test3.html expemple de code pour test1.html :
<html>
12 <head><title>Liste de personnes</title>
13 </head>
14 <body>
15 <h1>Liste de personnes</h1>
16 </body>
17 </html>
ma question :c que je veux ajouter le doctype pour les 3 fichiers d'une manière systématique et biensur en bash si c possible :
càd le fichiers sortant il aura la forme
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN">
<html>
<head><title>Liste de personnes</title>
</head>
<body>
<h1>Liste de personnes</h1>
</body>
</html>
c tu as une idée ?
merci
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
27 juil. 2012 à 15:27
27 juil. 2012 à 15:27
Salut,
Avec "sed" ?
Avec "sed" ?
$ ls fich1 fich2 fich3 $ head f* ==> fich1 <== <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich2 <== <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich3 <== <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> $ sed -s -i.bak '1 i<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN">\n' fich* $ ls fich1 fich1.bak fich2 fich2.bak fich3 fich3.bak $ head f* ==> fich1 <== <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN"> <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich1.bak <== <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich2 <== <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN"> <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich2.bak <== <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich3 <== <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 3.2//EN"> <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> ==> fich3.bak <== <html> 12 <head><title>Liste de personnes</title> 13 </head> 14 <body> 15 <h1>Liste de personnes</h1> 16 </body> 17 </html> $
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 15:32
27 juil. 2012 à 15:32
wow grand merci j'aimerai un jour pouvoir arriver a faire des chose comme toi
mais juste une question pourquoi y'a les fichiers .bak
moi ce que je veux faire c juste de creer un fichier temporaire qui aura le code html + doctype ensuite on remove tout dans le fichiers orginal
fichier1.html --> fihcier1temp"+doctype" --> fichier1.html
est tu crois que c possible sinon corrige moi ?
jessaye juste de comprendre
merci zipe31
mais juste une question pourquoi y'a les fichiers .bak
moi ce que je veux faire c juste de creer un fichier temporaire qui aura le code html + doctype ensuite on remove tout dans le fichiers orginal
fichier1.html --> fihcier1temp"+doctype" --> fichier1.html
est tu crois que c possible sinon corrige moi ?
jessaye juste de comprendre
merci zipe31
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
27 juil. 2012 à 15:37
27 juil. 2012 à 15:37
mais juste une question pourquoi y'a les fichiers .bak
L'option "-i" de sed permet de modifier le fichier original.
L'option "-i.bak" crée en plus un fichier de sauvegarde au cas ou.
Apparemment pour ton problème tu n'en as pas besoin, donc l'expression :
L'option "-i" de sed permet de modifier le fichier original.
L'option "-i.bak" crée en plus un fichier de sauvegarde au cas ou.
Apparemment pour ton problème tu n'en as pas besoin, donc l'expression :
sed -i "....." fichier1.htmlfera l'affaire et fera d'un seul coup ton :
fichier1.html --> fihcier1temp"+doctype" --> fichier1.html
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 16:00
27 juil. 2012 à 16:00
oui j'ai pensé à ca c vrai
merci zipe31
mon problème avec les feuilles xsl persiste toujours
donc ma question est la suivante : avec c 3 liens :
https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=-9
https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=10
https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=20
chaque lien liste 10 recettes
je veux une feuille xsl que j'appliquerai sur les 3 liens pour pouvoir récupérer les liens des 10 recettes.
je sais ta méthode en haut elle marche très bien
mais que je le fasse avec une feuille xsl si t'as une idée ?
merci zipe31
mon problème avec les feuilles xsl persiste toujours
donc ma question est la suivante : avec c 3 liens :
https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=-9
https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=10
https://www.marmiton.org/recettes/recherche.aspx?aqt=nouilles&st=5&start=20
chaque lien liste 10 recettes
je veux une feuille xsl que j'appliquerai sur les 3 liens pour pouvoir récupérer les liens des 10 recettes.
je sais ta méthode en haut elle marche très bien
mais que je le fasse avec une feuille xsl si t'as une idée ?
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
27 juil. 2012 à 16:03
27 juil. 2012 à 16:03
mais que je le fasse avec une feuille xsl si t'as une idée ?
Non, aucune, désolé ;-\
Non, aucune, désolé ;-\
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 16:22
27 juil. 2012 à 16:22
merci zipe31 pour ton aide précieuse
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 16:38
27 juil. 2012 à 16:38
rebonjour ZIP31
j'ai une autre question si on veux supprimer ce qu'on vient d'ajouter est ce que cela est possible ? et comment ?
merci
j'ai une autre question si on veux supprimer ce qu'on vient d'ajouter est ce que cela est possible ? et comment ?
merci
zipe31
Messages postés
36402
Date d'inscription
dimanche 7 novembre 2010
Statut
Contributeur
Dernière intervention
27 janvier 2021
6 422
27 juil. 2012 à 16:43
27 juil. 2012 à 16:43
Si c'est la1ère ligne des fichiers :
sed -s -i '1d' fic*Sinon on cible :
sed -s -i '/<!DOCTYPE html PUBLIC/d' fic*
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 16:57
27 juil. 2012 à 16:57
ça a marché nickel
thanks zip31
thanks zip31
sam_bauer
Messages postés
65
Date d'inscription
mercredi 25 juillet 2012
Statut
Membre
Dernière intervention
12 septembre 2012
27 juil. 2012 à 18:06
27 juil. 2012 à 18:06
bonjour zip
j'ai un problème d'encodage j'ai ajouté le doctype
je voulais voir quel tête ça a et ça me donne par exemple
Gâteau de pâtes à la
béchamel, au jambon et aux champignons
est ce que tas une idée comment remédier a ce problème ?
bien-sur je me suis documenté avant de venir ici
c de rajouter ça : <meta http-equiv="Content-Type" content="text/html; charset=windows-1252" />
est ce que ça peut régler le problème ou c pas ca qu'il faut faire :
et est ce que y'a pas un moyen de le rajouter pour tous les fichiers si cela va ôter ce problème d'encodage ?
j'ai un problème d'encodage j'ai ajouté le doctype
je voulais voir quel tête ça a et ça me donne par exemple
Gâteau de pâtes à la
béchamel, au jambon et aux champignons
est ce que tas une idée comment remédier a ce problème ?
bien-sur je me suis documenté avant de venir ici
c de rajouter ça : <meta http-equiv="Content-Type" content="text/html; charset=windows-1252" />
est ce que ça peut régler le problème ou c pas ca qu'il faut faire :
et est ce que y'a pas un moyen de le rajouter pour tous les fichiers si cela va ôter ce problème d'encodage ?
7 sept. 2012 à 16:21
est ce que c'est possible de récupérer le contenu de la recette des urls qu'on a récupéré c.a.d récupérer ça :
Recette Porc sauté aux nouilles chinoises
Plat principal
Très facile :
Bon marché :
Préparation : 15 min
Cuisson : 25 min
Ingrédients (pour 4 personnes) :
- 4 cuillères à café d'huile végétale
- 2 oignons
- 200 g d'haricots vert en conserve
- 100 g de poivron émincé
- 260 g d'escalope de porc
- 1 cuillères à soupe d'ail en poudre ou 1 gousse
- 2 cuillères à soupe de sauce soja
- 1 cuillère à café de vinaigre de vin
- 200 g de nouilles chinoises (cuites)
- sel, poivre du Sichuan moulu
Préparation :
Versez l'huile dans le wok et faites chauffer 3 min à feu moyen.
Pelez et émincez les oignons. Coupez les haricots en morceaux d'un centimètre.
Faites revenir les oignons et les haricots. Ajoutez les poivrons émincés. Faites cuire 10 min.
Ajoutez le porc coupé en fines lanières, l'ail puis la sauce soja, le vinaigre et les nouilles cuites.
Faire sauter le tout pendant 15 min.
merci d'avance
c'est tu as une idée cela me fera plaisir.
7 sept. 2012 à 16:37
Essaie ça (c'est sur une seule et même ligne) :
7 sept. 2012 à 16:46
est ce que y'a un moyen d'appliquer ces commandes sur les 297 urls qu'on a récupéré mais d'une maniéré automatique ou bien je dois a chaque applique cette ligne sur chaque url manuellement
le but c'est de récupérer les 297 recette enfin récupérer leur texte brut dans un seul fichier.txt parex
est ce ? faisable ?
merci d'avance zip31
7 sept. 2012 à 17:18
En supposant que tu aies récupéré dans un fichier (liste.txt) la liste de tes recettes de nouilles comme dans cet exemple, il suffit d'une petite boucle :
Modifié par sam_bauer le 7/09/2012 à 17:30
mais cette ligne ne me donne pas le resultat des 297 url dans un fichier genre liste.txt je fais comment ?