Importer des données HTML vers Excel

Fermé
besdu06 - 7 juil. 2011 à 12:10
creadiff Messages postés 445 Date d'inscription samedi 3 avril 2010 Statut Membre Dernière intervention 3 novembre 2011 - 7 juil. 2011 à 21:27
Bonjour la communauté!!!

J'ai plusieurs documents ayant la meme structure (car issus d'un même site). Je voudrais extraire certaines données vers une base de données Excel. La difficulté c'est que j'ai 1000 fichiers html!! Je dois trouver le moyen d'extraire ces informations de tous ces fichiers automatiquement avec par exemple une macro VBA. Voici les informations que je voudrais extraire:

-nom de l'entreprise
-date création
-forme juridique
-capital social
-siret
-etablissement secondaire ( ou siège social)
-adresse
-RCS
-Etablissement(s) (nombre)
-Fonction
-nom
-date de naissance
-lieu de naissance

En pièce jointe (web.zip) vous pourrez m'aider à traiter le premier échantillon.^^

Ensuite j'ai exactement le meme travail à faire avec une autre structure de fichier html issus d'un autre site internet. Il faudrai que j'arrive à importer les données suivantes dans un fichier excel:

-siret
-adresse
-région
-forme juridique
-capital
-date de création
-activité
-effectif
-etablissement(s)
-type
-total du bilan
-ca net
-résultat net

En pièce jointe se trouve un échantillon de ces fichiers (web2.zip).

En ce qui concerne les pièces jointes, ils se trouvent sur le lien suivant :

http://www.excel-downloads.com/forum/160810-extraire-des-champs-dune-ligne-de-code-html-pour-creer-une-base-de-donnees-2.html

J'ai vraiment besoin d'aide.
Je vous remercie d'avance.
Bes.

3 réponses

creadiff Messages postés 445 Date d'inscription samedi 3 avril 2010 Statut Membre Dernière intervention 3 novembre 2011 57
Modifié par creadiff le 7/07/2011 à 21:29
Toutes mes excuses Mademoiselle, je suis plus habitué à voir des Messieurs poser des questions de geeks.

Le truc dans le parsing c'est d'identifier la structure du document, en particulier les structures répétitives ET les structures qui quant à elles sont uniques sur la page. Parfois, un pré-traitement peut être d'une grande aide.

L'autre truc est d'apprendre à utiliser les expressions régulières. En effet, elles permettent d'extraire de façon aisée des données à d'un document texte, à condition de savoir s'en servir.

On remarque ainsi que l'expression régulière suivante permet de capturer tous les champs présents dans le code que tu as présenté :
<span>([^\:]+) \:<\/span>([^<]+)</p>


Quand à savoir comment coder ça... ce serait un peu long à expliquer ici, voici quelques tutos :

https://codes-sources.commentcamarche.net/

https://cafeine.developpez.com/access/tutoriel/regexp/

https://www.regular-expressions.info/vb.html

http://www.vbaexpress.com/kb/getarticle.php?kb_id=68
2