importer des données HTML vers Excel

Question

Bonjour la communauté!!!

J'ai plusieurs documents ayant la meme structure (car issus d'un même site). Je voudrais extraire certaines données vers une base de données Excel. La difficulté c'est que j'ai 1000 fichiers html!! Je dois trouver le moyen d'extraire ces informations de tous ces fichiers automatiquement avec par exemple une macro VBA. Voici les informations que je voudrais extraire:

-nom de l'entreprise
-date création
-forme juridique
-capital social
-siret
-etablissement secondaire ( ou siège social)
-adresse
-RCS
-Etablissement(s) (nombre)
-Fonction
-nom
-date de naissance
-lieu de naissance

En pièce jointe (web.zip) vous pourrez m'aider à traiter le premier échantillon.^^

Ensuite j'ai exactement le meme travail à faire avec une autre structure de fichier html issus d'un autre site internet. Il faudrai que j'arrive à importer les données suivantes dans un fichier excel:

-siret
-adresse
-région
-forme juridique
-capital
-date de création
-activité
-effectif
-etablissement(s)
-type
-total du bilan
-ca net
-résultat net

En pièce jointe se trouve un échantillon de ces fichiers (web2.zip).

En ce qui concerne les pièces jointes, ils se trouvent sur le lien suivant :

http://www.excel-downloads.com/forum/160810-extraire-des-champs-dune-ligne-de-code-html-pour-creer-une-base-de-donnees-2.html

J'ai vraiment besoin d'aide.
Je vous remercie d'avance.
Bes. 

Configuration: Windows 7 / Firefox 5.0

creadiff · Accepted Answer

Toutes mes excuses Mademoiselle, je suis plus habitué à voir des Messieurs poser des questions de geeks.

Le truc dans le parsing c'est d'identifier la structure du document, en particulier les structures répétitives ET les structures qui quant à elles sont uniques sur la page. Parfois, un pré-traitement peut être d'une grande aide.

L'autre truc est d'apprendre à utiliser les expressions régulières. En effet, elles permettent d'extraire de façon aisée des données à d'un document texte, à condition de savoir s'en servir.

On remarque ainsi que l'expression régulière suivante permet de capturer tous les champs présents dans le code que tu as présenté :

<span>([^\:]+) \:<\/span>([^<]+)</p>

Quand à savoir comment coder ça... ce serait un peu long à expliquer ici, voici quelques tutos :

https://codes-sources.commentcamarche.net/

https://cafeine.developpez.com/access/tutoriel/regexp/

https://www.regular-expressions.info/vb.html

http://www.vbaexpress.com/kb/getarticle.php?kb_id=68

Quand à savoir comment coder ça... ce serait un peu long à expliquer ici, voici quelques tutos : https://codes-sources.commentcamarche.net/ https://cafeine.developpez.com/access/tutoriel/regexp/ https://www.regular-expressions.info/vb.html http://www.vbaexpress.com/kb/getarticle.php?kb_id=68

creadiff · Answer

Tiens tiens, Monsieur entreprend de parser Sociétés.com  :-)
Par contre la PJ n'apparaît pas. Donne-nous plutôt un échantillon de code HTML, peu de gens (expérimentés) vont télécharger un ZIP qui traîne au hasard d'un forum !

besdu06 · Answer

A non creadiff, c'est pas Monsieur, c'est Mademoiselle!! Les données ne viennent pas du tout de société.com lol. Voici le bout du code qui m'intéresse. L'objectif est de pouvoir récupérer dans une base de données tel que Excel par exemple la date de création, la forme juridique etc...dans des champs. La structure du code est identique pour mes 500 fichiers. Mais comme tu peux le voir dans le lien, j'ai deux structures de fichiers issues de deux sites différents. Voici le morceau de code qui m"intéresse. Le challenge maintenant est de faire (peut etre) un macro qui récupère ces données là.... Informations juridiques

Date de création :01 mars 2009

Forme juridique :Autre société à responsabilité limitée

Capital social :8 000 EURO

SIRET :511 032 500 00015

+ d'informations juridiques sur cette entreprise ? Cliquez ici

Siège

Adresse :34 RUE MAURICE BRUGNON
02500 LA HERIE

RCS :511 032 500

Etablissement(s) :1

Dirigeant principal

Fonction :Gérant

Nom :COLZY Benedicte

Date de naissance :16 Mars 1978

Lieu de naissance :SAINT QUENTIN

Activité

Code NAF :3511Z

Libellé activité :Production d'électricité

Merci de ton aide^^

Importer des données HTML vers Excel

3 réponses

Discussions similaires

Newsletters