Récupération automatique de données internet

Fermé
DiFav - 6 oct. 2011 à 15:43
heyquem Messages postés 759 Date d'inscription mercredi 17 juin 2009 Statut Membre Dernière intervention 29 décembre 2013 - 6 oct. 2011 à 21:20
Bonjour,

J'ai créé ma société. Je possède une liste informatique d'environ 5000 entreprises prospects dont j'aimerais connaitre le SIRET. Aux jours d'aujourd'hui, je vais sur société.com, tape le nom de l'entreprise, copie le SIRET, et le colle dans mon fichier Excel. Cela me prend 30 secondes seulement environ. J'en aurai donc pour plus de 40 heures. Connaitriez-vous un système pour automatiser cette démarche sachant que je travaille sur Mac?

Je vous remercie par avance beaucoup pour le temps que vous pourriez me permettre de gagner.
DiFav
A voir également:

4 réponses

Skull971 Messages postés 118 Date d'inscription vendredi 6 février 2009 Statut Membre Dernière intervention 21 janvier 2014 111
6 oct. 2011 à 16:04
sur mac déjà tu as automator, depuis OSX 10.4 on peut l'utiliser sans problème, voici un tuto si tu ne connais pas
http://www.debutersurmac.com/tutoriels/automator.html
je pense qu'automatiser ce genre de manipulation ne doit pas être trop complexe.
0
DiFav Messages postés 1 Date d'inscription jeudi 6 octobre 2011 Statut Membre Dernière intervention 6 octobre 2011
6 oct. 2011 à 16:57
Merci pour ta réponse Skull971
Je ne maîtrise pas Automator mais j'ai lu par ailleurs qu'il était très difficile de récupérer des informations internet par ce biais étant donné que les pages internet sont un code complexe. Qu'en penses tu?
J'ai par ailleurs regardé les tutoriaux que tu m'as envoyés et d'autres et Automator ne m'a pas l'air si simple que ça à prendre en main...
0
Skull971 Messages postés 118 Date d'inscription vendredi 6 février 2009 Statut Membre Dernière intervention 21 janvier 2014 111
6 oct. 2011 à 19:18
sinon t'as la solution de l'aspirateur de site mais bon si tu procède à une recherche à chaque fois ça ne marchera pas il faudrait que le siret de chaque entreprise se trouve dans la même liste.
0
heyquem Messages postés 759 Date d'inscription mercredi 17 juin 2009 Statut Membre Dernière intervention 29 décembre 2013 130
6 oct. 2011 à 19:54
Bonsoir,

Créer soi-même un programme en Python qui fait cela, ça doit pouvoir se faire en 20 minutes

Bon, c'est peut être exagéré, 20 minutes







Disons 15 minutes :)
0
Skull971 Messages postés 118 Date d'inscription vendredi 6 février 2009 Statut Membre Dernière intervention 21 janvier 2014 111
6 oct. 2011 à 20:03
il faudrait lui donner la méthode, moi-même je ne sais pas comment faire
0
heyquem Messages postés 759 Date d'inscription mercredi 17 juin 2009 Statut Membre Dernière intervention 29 décembre 2013 130
Modifié par heyquem le 6/10/2011 à 21:22
J'ai regardé la structure des pages du site concernant des sociétés précises.

En ayant Python installé, exécuter ce code:

import re 
from urllib import urlopen 

regx = re.compile('h1[^>]+>(.+?)</h1>' 
                  '[\n\t]+<[^>]+>(.+?)</p>' 
                  '.+?SIRET[\n\t</td>]+(\d+)', re.DOTALL) 


for url in ('http://www.societe.com/societe/blocher-jean-claude-322029877.html', 
            'http://www.societe.com/societe/compagnie-de-saint-gobain-542039532.html', 
            'http://www.societe.com/societe/danone-dairy-asia-430474262.html'): 
             
    sock = urlopen(url) 
    ch = sock.read() 
    sock.close() 

    print '%s\n%s\t\tSIRET %s\n' % regx.search(ch).groups()


affiche

BLOCHER Jean-claude 
RCS Dinan 322 029 877       SIRET 32202987700048 

COMPAGNIE DE SAINT-GOBAIN 
RCS Nanterre B 542 039 532  SIRET 54203953200040 

DANONE DAIRY ASIA 
RCS Paris B 430 474 262     SIRET 43047426200028


en 3 secondes


J'ai fait en sorte de capturer d'autres données que celles évoquées, pour montrer qu'il n'y a rien de difficile à en récupérer plusieurs à la fois dans une page en une seule analyse.


Il faudrait juste avoir la liste des adresses telles que 'http://www.societe.com/societe/danone-dairy-asia-430474262.html' pour lancer la recherche sur toutes les sociétés de la liste
0