Récupération automatique de données internet
Fermé
DiFav
-
6 oct. 2011 à 15:43
heyquem Messages postés 759 Date d'inscription mercredi 17 juin 2009 Statut Membre Dernière intervention 29 décembre 2013 - 6 oct. 2011 à 21:20
heyquem Messages postés 759 Date d'inscription mercredi 17 juin 2009 Statut Membre Dernière intervention 29 décembre 2013 - 6 oct. 2011 à 21:20
A voir également:
- Récupération automatique de données internet
- Gps sans internet - Guide
- Logiciel de récupération de données - Guide
- Message automatique thunderbird - Guide
- Réponse automatique outlook - Guide
- Sommaire automatique word - Guide
4 réponses
Skull971
Messages postés
118
Date d'inscription
vendredi 6 février 2009
Statut
Membre
Dernière intervention
21 janvier 2014
111
6 oct. 2011 à 16:04
6 oct. 2011 à 16:04
sur mac déjà tu as automator, depuis OSX 10.4 on peut l'utiliser sans problème, voici un tuto si tu ne connais pas
http://www.debutersurmac.com/tutoriels/automator.html
je pense qu'automatiser ce genre de manipulation ne doit pas être trop complexe.
http://www.debutersurmac.com/tutoriels/automator.html
je pense qu'automatiser ce genre de manipulation ne doit pas être trop complexe.
DiFav
Messages postés
1
Date d'inscription
jeudi 6 octobre 2011
Statut
Membre
Dernière intervention
6 octobre 2011
6 oct. 2011 à 16:57
6 oct. 2011 à 16:57
Merci pour ta réponse Skull971
Je ne maîtrise pas Automator mais j'ai lu par ailleurs qu'il était très difficile de récupérer des informations internet par ce biais étant donné que les pages internet sont un code complexe. Qu'en penses tu?
J'ai par ailleurs regardé les tutoriaux que tu m'as envoyés et d'autres et Automator ne m'a pas l'air si simple que ça à prendre en main...
Je ne maîtrise pas Automator mais j'ai lu par ailleurs qu'il était très difficile de récupérer des informations internet par ce biais étant donné que les pages internet sont un code complexe. Qu'en penses tu?
J'ai par ailleurs regardé les tutoriaux que tu m'as envoyés et d'autres et Automator ne m'a pas l'air si simple que ça à prendre en main...
Skull971
Messages postés
118
Date d'inscription
vendredi 6 février 2009
Statut
Membre
Dernière intervention
21 janvier 2014
111
6 oct. 2011 à 19:18
6 oct. 2011 à 19:18
sinon t'as la solution de l'aspirateur de site mais bon si tu procède à une recherche à chaque fois ça ne marchera pas il faudrait que le siret de chaque entreprise se trouve dans la même liste.
heyquem
Messages postés
759
Date d'inscription
mercredi 17 juin 2009
Statut
Membre
Dernière intervention
29 décembre 2013
130
6 oct. 2011 à 19:54
6 oct. 2011 à 19:54
Bonsoir,
Créer soi-même un programme en Python qui fait cela, ça doit pouvoir se faire en 20 minutes
Bon, c'est peut être exagéré, 20 minutes
Disons 15 minutes :)
Créer soi-même un programme en Python qui fait cela, ça doit pouvoir se faire en 20 minutes
Bon, c'est peut être exagéré, 20 minutes
Disons 15 minutes :)
Skull971
Messages postés
118
Date d'inscription
vendredi 6 février 2009
Statut
Membre
Dernière intervention
21 janvier 2014
111
6 oct. 2011 à 20:03
6 oct. 2011 à 20:03
il faudrait lui donner la méthode, moi-même je ne sais pas comment faire
heyquem
Messages postés
759
Date d'inscription
mercredi 17 juin 2009
Statut
Membre
Dernière intervention
29 décembre 2013
130
Modifié par heyquem le 6/10/2011 à 21:22
Modifié par heyquem le 6/10/2011 à 21:22
J'ai regardé la structure des pages du site concernant des sociétés précises.
En ayant Python installé, exécuter ce code:
affiche
en 3 secondes
J'ai fait en sorte de capturer d'autres données que celles évoquées, pour montrer qu'il n'y a rien de difficile à en récupérer plusieurs à la fois dans une page en une seule analyse.
Il faudrait juste avoir la liste des adresses telles que 'http://www.societe.com/societe/danone-dairy-asia-430474262.html' pour lancer la recherche sur toutes les sociétés de la liste
En ayant Python installé, exécuter ce code:
import re from urllib import urlopen regx = re.compile('h1[^>]+>(.+?)</h1>' '[\n\t]+<[^>]+>(.+?)</p>' '.+?SIRET[\n\t</td>]+(\d+)', re.DOTALL) for url in ('http://www.societe.com/societe/blocher-jean-claude-322029877.html', 'http://www.societe.com/societe/compagnie-de-saint-gobain-542039532.html', 'http://www.societe.com/societe/danone-dairy-asia-430474262.html'): sock = urlopen(url) ch = sock.read() sock.close() print '%s\n%s\t\tSIRET %s\n' % regx.search(ch).groups()
affiche
BLOCHER Jean-claude RCS Dinan 322 029 877 SIRET 32202987700048 COMPAGNIE DE SAINT-GOBAIN RCS Nanterre B 542 039 532 SIRET 54203953200040 DANONE DAIRY ASIA RCS Paris B 430 474 262 SIRET 43047426200028
en 3 secondes
J'ai fait en sorte de capturer d'autres données que celles évoquées, pour montrer qu'il n'y a rien de difficile à en récupérer plusieurs à la fois dans une page en une seule analyse.
Il faudrait juste avoir la liste des adresses telles que 'http://www.societe.com/societe/danone-dairy-asia-430474262.html' pour lancer la recherche sur toutes les sociétés de la liste