A voir également:
- Crées un scraper qui recherche des sites internet
- Recherche automatique des chaînes ne fonctionne pas - Guide
- Créer un compte gmail - Guide
- Sites de téléchargement - Accueil - Outils
- Créer un compte google - Guide
- Comment créer un groupe whatsapp - Guide
3 réponses
yg_be
Messages postés
23352
Date d'inscription
lundi 9 juin 2008
Statut
Contributeur
Dernière intervention
27 novembre 2024
Ambassadeur
1 554
12 févr. 2021 à 21:50
12 févr. 2021 à 21:50
bonjour, bizarre que tu sois bloqué depuis pas mal de temps.
peux-tu nous montrer ce que tu as réalisé pendant tout ce temps? nous pourrons sans doute t'aider à l'améliorer!
peux-tu nous montrer ce que tu as réalisé pendant tout ce temps? nous pourrons sans doute t'aider à l'améliorer!
Tu veux le faire toi même ? tu cherche des outils fait pour ? ou tu cherche une Framework prête d'utilisation ?
Cdlt,
Cdlt,
Dak
- le scraping s'apparente à l'automatisation tu as plusieurs petite framework qui font ça :
- Sélénium/Webdriver ( Java, c#, python ) [ Firefox, Edge, Explorer, Opera, Chrome ]
- Beautiful Soup ( python )
- puppeteer, CasperJS ( nodeJs ) [ chrome ]
Attention à puppeteer il utilise le mode headless, aucun webbrowser ne s'ouvrira ( donc tu ne verra pas les actions visuelles ) je te conseille celui là personnellement mais dès lors que tu maitrisera le sujet. Pour débuter essaie Sélénium, une fois prit en main toutes les Framework se ressembles et tu pourra passer en mode headless avec puppeteer.
Cdlt,
- le scraping s'apparente à l'automatisation tu as plusieurs petite framework qui font ça :
- Sélénium/Webdriver ( Java, c#, python ) [ Firefox, Edge, Explorer, Opera, Chrome ]
- Beautiful Soup ( python )
- puppeteer, CasperJS ( nodeJs ) [ chrome ]
Attention à puppeteer il utilise le mode headless, aucun webbrowser ne s'ouvrira ( donc tu ne verra pas les actions visuelles ) je te conseille celui là personnellement mais dès lors que tu maitrisera le sujet. Pour débuter essaie Sélénium, une fois prit en main toutes les Framework se ressembles et tu pourra passer en mode headless avec puppeteer.
Cdlt,
devGnode
Messages postés
17
Date d'inscription
samedi 13 février 2021
Statut
Membre
Dernière intervention
5 mars 2021
2
>
Enygma
Modifié le 14 févr. 2021 à 00:11
Modifié le 14 févr. 2021 à 00:11
Yap, si tu est un bambi dans le domaine, je vais te prévenir d'avance sur ces Framework il y a peux de tuto de A-Z comme le site du zéro, la documentation est majoritairement en Anglais, beaucoup de code non structuré, il y a Page Object Pattern qui est une bonne pratique de mise en place mais peu mettre un certains temps à s'en approprié correctement et fonctionnellement.
Ton but est de réaliser une navigation sur un domaine et d'en extraire les liens si j'ai bien comprit et tout cela automatiquement ( après que les liens sont en lien avec la maçonnerie ou autre ça c'est ton algo qui va gérer ).
Sélénium va te permette de réaliser le comportement humain sur un site automatiquement afin d'en extraire les données souhaitées.
regarde le minimal exemple sur le site de Sélénium :
https://www.selenium.dev/documentation/en/
- Initialisation du WebDriver
- Navigation vers ...
- Récupération des éléments ( en locurrence des liens donc tous les selecteurs de type "a" )
- Fermeture du WebDriver.
- Traitement des données. ton algo → ( parsing, push en DB ... )
Regarde la doc sur la Framework :
- WebDriver
- WebElement
- Action
- Waiter
- By
Il donne un exemple en Javascipt donc un npm doit être disponible, qui pourrait être plus facile à utiliser que le Java ou autre.
Ton but est de réaliser une navigation sur un domaine et d'en extraire les liens si j'ai bien comprit et tout cela automatiquement ( après que les liens sont en lien avec la maçonnerie ou autre ça c'est ton algo qui va gérer ).
Sélénium va te permette de réaliser le comportement humain sur un site automatiquement afin d'en extraire les données souhaitées.
regarde le minimal exemple sur le site de Sélénium :
https://www.selenium.dev/documentation/en/
- Initialisation du WebDriver
- Navigation vers ...
- Récupération des éléments ( en locurrence des liens donc tous les selecteurs de type "a" )
driver.findElements( By.xpath("//a") )
- Fermeture du WebDriver.
- Traitement des données. ton algo → ( parsing, push en DB ... )
Regarde la doc sur la Framework :
- WebDriver
- WebElement
- Action
- Waiter
- By
Il donne un exemple en Javascipt donc un npm doit être disponible, qui pourrait être plus facile à utiliser que le Java ou autre.
Phil_1857
Messages postés
1872
Date d'inscription
lundi 23 mars 2020
Statut
Membre
Dernière intervention
28 février 2024
168
5 mars 2021 à 10:47
5 mars 2021 à 10:47
je vais tester ça ce soir
vu que je n'en n'ai plus
vu que je n'en n'ai plus
Modifié le 12 févr. 2021 à 22:05
Je pense que tu n'as pas comprie la question ;).
Je suis sur un gros projet et dans celui-ci j'aurais besoins d'un scraper un peux spéciale, comme je l'ai expliqué, mais je ne trouve rien sur sa.
12 févr. 2021 à 22:45