Récupération automatique de données internet

DiFav -  
heyquem Messages postés 808 Statut Membre -
Bonjour,

J'ai créé ma société. Je possède une liste informatique d'environ 5000 entreprises prospects dont j'aimerais connaitre le SIRET. Aux jours d'aujourd'hui, je vais sur société.com, tape le nom de l'entreprise, copie le SIRET, et le colle dans mon fichier Excel. Cela me prend 30 secondes seulement environ. J'en aurai donc pour plus de 40 heures. Connaitriez-vous un système pour automatiser cette démarche sachant que je travaille sur Mac?

Je vous remercie par avance beaucoup pour le temps que vous pourriez me permettre de gagner.
DiFav

4 réponses

Skull971 Messages postés 148 Statut Membre 111
 
sur mac déjà tu as automator, depuis OSX 10.4 on peut l'utiliser sans problème, voici un tuto si tu ne connais pas
http://www.debutersurmac.com/tutoriels/automator.html
je pense qu'automatiser ce genre de manipulation ne doit pas être trop complexe.
0
DiFav Messages postés 1 Statut Membre
 
Merci pour ta réponse Skull971
Je ne maîtrise pas Automator mais j'ai lu par ailleurs qu'il était très difficile de récupérer des informations internet par ce biais étant donné que les pages internet sont un code complexe. Qu'en penses tu?
J'ai par ailleurs regardé les tutoriaux que tu m'as envoyés et d'autres et Automator ne m'a pas l'air si simple que ça à prendre en main...
0
Skull971 Messages postés 148 Statut Membre 111
 
sinon t'as la solution de l'aspirateur de site mais bon si tu procède à une recherche à chaque fois ça ne marchera pas il faudrait que le siret de chaque entreprise se trouve dans la même liste.
0
heyquem Messages postés 808 Statut Membre 131
 
Bonsoir,

Créer soi-même un programme en Python qui fait cela, ça doit pouvoir se faire en 20 minutes

Bon, c'est peut être exagéré, 20 minutes

Disons 15 minutes :)
0
Skull971 Messages postés 148 Statut Membre 111
 
il faudrait lui donner la méthode, moi-même je ne sais pas comment faire
0
heyquem Messages postés 808 Statut Membre 131
 
J'ai regardé la structure des pages du site concernant des sociétés précises.

En ayant Python installé, exécuter ce code:

import re 
from urllib import urlopen 

regx = re.compile('h1[^>]+>(.+?)</h1>' 
                  '[\n\t]+<[^>]+>(.+?)</p>' 
                  '.+?SIRET[\n\t</td>]+(\d+)', re.DOTALL) 


for url in ('http://www.societe.com/societe/blocher-jean-claude-322029877.html', 
            'http://www.societe.com/societe/compagnie-de-saint-gobain-542039532.html', 
            'http://www.societe.com/societe/danone-dairy-asia-430474262.html'): 
             
    sock = urlopen(url) 
    ch = sock.read() 
    sock.close() 

    print '%s\n%s\t\tSIRET %s\n' % regx.search(ch).groups()


affiche

BLOCHER Jean-claude 
RCS Dinan 322 029 877       SIRET 32202987700048 

COMPAGNIE DE SAINT-GOBAIN 
RCS Nanterre B 542 039 532  SIRET 54203953200040 

DANONE DAIRY ASIA 
RCS Paris B 430 474 262     SIRET 43047426200028


en 3 secondes


J'ai fait en sorte de capturer d'autres données que celles évoquées, pour montrer qu'il n'y a rien de difficile à en récupérer plusieurs à la fois dans une page en une seule analyse.


Il faudrait juste avoir la liste des adresses telles que 'http://www.societe.com/societe/danone-dairy-asia-430474262.html' pour lancer la recherche sur toutes les sociétés de la liste
0