Traitement contenu web
samsaph
Messages postés
10
Statut
Membre
-
sebsauvage Messages postés 33415 Statut Modérateur -
sebsauvage Messages postés 33415 Statut Modérateur -
Bonjour,
En fait je voudrais pouvoir checker plusieurs raccourcis web d'un coup (comme les favoris) et analyser le contenu (présence d'une chaine de caractère spécifique ect...) et si tel groupe de mot est détecté alors déplacer chaque lien dans un dossier spécifique...
c'est une procédure toute simple sauf que je sais pas comme faire l'analyse des pages web... :s
si vous avez un p'tit programme qui peut faire l'affaire ;)
ca m'aiderai beaucoup :D Merdi d'avance
En fait je voudrais pouvoir checker plusieurs raccourcis web d'un coup (comme les favoris) et analyser le contenu (présence d'une chaine de caractère spécifique ect...) et si tel groupe de mot est détecté alors déplacer chaque lien dans un dossier spécifique...
c'est une procédure toute simple sauf que je sais pas comme faire l'analyse des pages web... :s
si vous avez un p'tit programme qui peut faire l'affaire ;)
ca m'aiderai beaucoup :D Merdi d'avance
A voir également:
- Traitement contenu web
- Web office - Guide
- Reconsidérer le traitement de vos informations à des fins publicitaires - Accueil - Réseaux sociaux
- Création site web - Guide
- Traitement de texte gratuit - Guide
- Ce logiciel gratuit et léger est parfait pour remplacer Word, même sur un vieux PC - Guide
4 réponses
Pour le traitement automatisé de pages web, j'utilise du Python.
(par exemple dans Webgobbler)
Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)
(par exemple dans Webgobbler)
Pour décortiquer les pages web, on peut prendre les expressions régulières, ou des modules spécifiques pour traiter l'html, comme BeautifulSoup (capable de lire les pages html males formées)
ok...
webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :s
cela dis merci qd meme ;)
mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?
entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor) mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois...
ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lol
Merci encore si vous avez des pistes supplémentaires
webgobbler c cool et beautifulsoup j'ai pas trouvé bcp d'info dessus :s
cela dis merci qd meme ;)
mais si je veux me faire mon petit programme (malgré mes connaissances plus que basiques en prog) pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?
entk je cherche toujours un moyen rapide pour faire ca, j'ai bien trouver un petit programme (Right Web Monitor) mais il se fait bloquer au moment de se logger et on ne peut pas importer plusieurs raccourcis web a la fois...
ce qui est nul parce que si je dois ajouter mes 2500 links un par un en modifiant les options pour chacun et je vais plus vite a faire le boulot moi meme lol
Merci encore si vous avez des pistes supplémentaires
pourquoi python serait plus intéressant que du java ou je ne sais quoi d'autre ?
Parceque c'est plus simple à programmer.
Exemple:
Extraire le titre de la dernière actualité publiée sur CCM:
(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )
Parceque c'est plus simple à programmer.
Exemple:
Extraire le titre de la dernière actualité publiée sur CCM:
import urllib, BeautifulSoup
page = urllib.urlopen('https://www.commentcamarche.net/actualites/').read()
soup = BeautifulSoup.BeautifulSoup(page)
print soup.findAll("a", { "class" : "TitreActu" })[1].string
(Il faut bien entendu avoir installé le module BeautifoulSoup ; voir https://www.crummy.com/software/BeautifulSoup/ )