Récupération automatique de données internet
DiFav
-
heyquem Messages postés 808 Statut Membre -
heyquem Messages postés 808 Statut Membre -
Bonjour,
J'ai créé ma société. Je possède une liste informatique d'environ 5000 entreprises prospects dont j'aimerais connaitre le SIRET. Aux jours d'aujourd'hui, je vais sur société.com, tape le nom de l'entreprise, copie le SIRET, et le colle dans mon fichier Excel. Cela me prend 30 secondes seulement environ. J'en aurai donc pour plus de 40 heures. Connaitriez-vous un système pour automatiser cette démarche sachant que je travaille sur Mac?
Je vous remercie par avance beaucoup pour le temps que vous pourriez me permettre de gagner.
DiFav
J'ai créé ma société. Je possède une liste informatique d'environ 5000 entreprises prospects dont j'aimerais connaitre le SIRET. Aux jours d'aujourd'hui, je vais sur société.com, tape le nom de l'entreprise, copie le SIRET, et le colle dans mon fichier Excel. Cela me prend 30 secondes seulement environ. J'en aurai donc pour plus de 40 heures. Connaitriez-vous un système pour automatiser cette démarche sachant que je travaille sur Mac?
Je vous remercie par avance beaucoup pour le temps que vous pourriez me permettre de gagner.
DiFav
A voir également:
- Récupération automatique de données internet
- Logiciel de sauvegarde automatique gratuit - Guide
- Réponse automatique thunderbird - Guide
- Recherche automatique des chaînes ne fonctionne pas - Guide
- Logiciel de récupération de données - Guide
- Gps sans internet - Guide
4 réponses
sur mac déjà tu as automator, depuis OSX 10.4 on peut l'utiliser sans problème, voici un tuto si tu ne connais pas
http://www.debutersurmac.com/tutoriels/automator.html
je pense qu'automatiser ce genre de manipulation ne doit pas être trop complexe.
http://www.debutersurmac.com/tutoriels/automator.html
je pense qu'automatiser ce genre de manipulation ne doit pas être trop complexe.
Merci pour ta réponse Skull971
Je ne maîtrise pas Automator mais j'ai lu par ailleurs qu'il était très difficile de récupérer des informations internet par ce biais étant donné que les pages internet sont un code complexe. Qu'en penses tu?
J'ai par ailleurs regardé les tutoriaux que tu m'as envoyés et d'autres et Automator ne m'a pas l'air si simple que ça à prendre en main...
Je ne maîtrise pas Automator mais j'ai lu par ailleurs qu'il était très difficile de récupérer des informations internet par ce biais étant donné que les pages internet sont un code complexe. Qu'en penses tu?
J'ai par ailleurs regardé les tutoriaux que tu m'as envoyés et d'autres et Automator ne m'a pas l'air si simple que ça à prendre en main...
sinon t'as la solution de l'aspirateur de site mais bon si tu procède à une recherche à chaque fois ça ne marchera pas il faudrait que le siret de chaque entreprise se trouve dans la même liste.
Bonsoir,
Créer soi-même un programme en Python qui fait cela, ça doit pouvoir se faire en 20 minutes
Bon, c'est peut être exagéré, 20 minutes
Disons 15 minutes :)
Créer soi-même un programme en Python qui fait cela, ça doit pouvoir se faire en 20 minutes
Bon, c'est peut être exagéré, 20 minutes
Disons 15 minutes :)
J'ai regardé la structure des pages du site concernant des sociétés précises.
En ayant Python installé, exécuter ce code:
affiche
en 3 secondes
J'ai fait en sorte de capturer d'autres données que celles évoquées, pour montrer qu'il n'y a rien de difficile à en récupérer plusieurs à la fois dans une page en une seule analyse.
Il faudrait juste avoir la liste des adresses telles que 'http://www.societe.com/societe/danone-dairy-asia-430474262.html' pour lancer la recherche sur toutes les sociétés de la liste
En ayant Python installé, exécuter ce code:
import re
from urllib import urlopen
regx = re.compile('h1[^>]+>(.+?)</h1>'
'[\n\t]+<[^>]+>(.+?)</p>'
'.+?SIRET[\n\t</td>]+(\d+)', re.DOTALL)
for url in ('http://www.societe.com/societe/blocher-jean-claude-322029877.html',
'http://www.societe.com/societe/compagnie-de-saint-gobain-542039532.html',
'http://www.societe.com/societe/danone-dairy-asia-430474262.html'):
sock = urlopen(url)
ch = sock.read()
sock.close()
print '%s\n%s\t\tSIRET %s\n' % regx.search(ch).groups()
affiche
BLOCHER Jean-claude RCS Dinan 322 029 877 SIRET 32202987700048 COMPAGNIE DE SAINT-GOBAIN RCS Nanterre B 542 039 532 SIRET 54203953200040 DANONE DAIRY ASIA RCS Paris B 430 474 262 SIRET 43047426200028
en 3 secondes
J'ai fait en sorte de capturer d'autres données que celles évoquées, pour montrer qu'il n'y a rien de difficile à en récupérer plusieurs à la fois dans une page en une seule analyse.
Il faudrait juste avoir la liste des adresses telles que 'http://www.societe.com/societe/danone-dairy-asia-430474262.html' pour lancer la recherche sur toutes les sociétés de la liste