[Recherche] Logiciel filtrage texte

Résolu/Fermé
nico123104 Messages postés 109 Date d'inscription mercredi 25 janvier 2006 Statut Membre Dernière intervention 23 janvier 2010 - 16 janv. 2010 à 23:08
 lami20j - 17 janv. 2010 à 13:30
Bonsoir,

je suis à la recherche d'un logiciel capable de m'extraire tous les liens hypertexte d'un fichier texte, ou html et qu'il soit capable aussi de mes les afficher soit en modifiant le fichier, ou soit de me faire la liste dans un nouveau fichier.

Merci d'avance !
A voir également:

6 réponses

Raymond PENTIER Messages postés 58389 Date d'inscription lundi 13 août 2007 Statut Contributeur Dernière intervention 18 avril 2024 17 090
16 janv. 2010 à 23:22
Je ne pense vraiment pas que ça puisse exister.
0
nico123104 Messages postés 109 Date d'inscription mercredi 25 janvier 2006 Statut Membre Dernière intervention 23 janvier 2010 7
16 janv. 2010 à 23:25
Le problème c'est que j'ai environ 20 000 lignes à traiter.... et un petit logiciel qui me ferait l'extraction des liens ça serait un gain de temps vraiment pas négligeable xD

Ce n'est pas nécessairement un logiciel, un site en ligne avec une page dédiée pour effectuer ce genre de traitement me suffirait.
0
Salut,

je suis à la recherche d'un logiciel capable de m'extraire tous les liens hypertexte d'un fichier texte, ou html
C'est faisable.

et qu'il soit capable aussi de mes les afficher soit en modifiant le fichier, ou soit de me faire la liste dans un nouveau fichier.
Tu veux dire de déplacer les liens hypertexte dans un fichier?
Si oui c'est faisable aussi.

Voici un exemple.
Si on regarde les messages que tu as posté (la page 1 seulement) https://forums.commentcamarche.net/forum/s/m/nico123104 il y en a quelque uns (25 sur la 1ère page)
Si tu regardes le code source de la page tu verras la structure de fichiers qui est assez compliquée)
Voici comment je peux afficher les liens de tes messages avec le nom de Forum
Pour la lisibilité je n'ai pas affiché le début de lien https://www.commentcamarche.net/ (il suffit de l'ajouter pour l'affichage)
Sous windows tu peux installer des outils GNU en ligne de commande qui te permettront de parlser de texte ou html.

Ce n'est qu'un exemple. Il faut savoir que chaque problème de parsing de fichier est spécifique et que c'est très important de connaître la structure de fichiers en entrée et ce qu'on veut obtenir en sortie.

~$ GET https://forums.commentcamarche.net/forum/s/m/nico123104?page=1 > nico
lami20j@debian:~$ perl -ne 'while(/<a href="(\/forum\/affich-[^#]*?)"\s*.*?">.*?theme.*?forum_num=\d+">([^<]*?)<\/a/g){printf "%-20s=>$1\n",$2}' nico
Bureautique         =>/forum/affich-16182209-recherche-logiciel-filtrage-texte
Bureautique         =>/forum/affich-16182209-recherche-logiciel-filtrage-texte
Bureautique         =>/forum/affich-16181649-calendrier-pour-note
Internet            =>/forum/affich-16180661-recherche-police-d-ecriture
Internet            =>/forum/affich-16163811-resillement-chez-orange
Programmation       =>/forum/affich-16145556-zone-degroupee
Logiciels/Pilotes   =>/forum/affich-16134479-pour-les-forts
Programmation       =>/forum/affich-16111262-loi-hadopi-face-a-certains-logiciels
Internet            =>/forum/affich-16129467-python
Internet            =>/forum/affich-16129640-creer-son-site-internet-facile
Internet            =>/forum/affich-16126001-joomla
Internet            =>/forum/affich-16126062-freelotto
Internet            =>/forum/affich-16122466-probleme-avec-explorer-6-et-mshtml-dll
Internet            =>/forum/affich-16122344-sit-web
Programmation       =>/forum/affich-16122909-besoin-de-renseignement-sur-la-biodiversite
Internet            =>/forum/affich-16121835-rotation-de-bits-et-conversion-hexa
Matériel/Hardware   =>/forum/affich-16120226-bug-de-youtube
Linux/Unix          =>/forum/affich-16121608-comment-fonctionne-la-webcam
Linux/Unix          =>/forum/affich-5225580-probleme-partage-linux-windows-xp
Virus/Sécurité      =>/forum/affich-5179810-probleme-backtrack-v2-0
Windows             =>/forum/affich-2142442-bios-probleme-au-demarrage
Droit/Libertés      =>/forum/affich-2090313-volume-information-restore-probleme
Actualités          =>/forum/affich-2058909-telechargement-de-series-etrangeres
Virus/Sécurité      =>/forum/affich-2070347-msn
Virus/Sécurité      =>/forum/affich-1966710-zone-alarm-non-affichage-des-gifs-et-url
0
Re,

Oups, je t'ai copié le mauvais exemple (qui est avec des doublons et les forums ne correspondent pas).
Mais comme je l'ai dit ce n'est qu'à titre d'exemple.
Pour parser ton fichier il faut savoir ce qu'il contient.
Voici l'exemple corrigé

La commande
perl -ne'while(/<a href="(\/forum\/affich-[^#]*?)"\s*class="disc_.*?">.*?theme.*?forum_num=\d+">([^<]*?)<\/a/g){printf"%-20s=>$1\n",$2}' nico

Le résultat
Bureautique         =>/forum/affich-16182209-recherche-logiciel-filtrage-texte
Bureautique         =>/forum/affich-16181649-calendrier-pour-note
Bureautique         =>/forum/affich-16180661-recherche-police-d-ecriture
Internet            =>/forum/affich-16163811-resillement-chez-orange
Internet            =>/forum/affich-16145556-zone-degroupee
Programmation       =>/forum/affich-16134479-pour-les-forts
Logiciels/Pilotes   =>/forum/affich-16111262-loi-hadopi-face-a-certains-logiciels
Programmation       =>/forum/affich-16129467-python
Internet            =>/forum/affich-16129640-creer-son-site-internet-facile
Internet            =>/forum/affich-16126001-joomla
Internet            =>/forum/affich-16126062-freelotto
Internet            =>/forum/affich-16122466-probleme-avec-explorer-6-et-mshtml-dll
Internet            =>/forum/affich-16122344-sit-web
Internet            =>/forum/affich-16122909-besoin-de-renseignement-sur-la-biodiversite
Programmation       =>/forum/affich-16121835-rotation-de-bits-et-conversion-hexa
Internet            =>/forum/affich-16120226-bug-de-youtube
Matériel/Hardware   =>/forum/affich-16121608-comment-fonctionne-la-webcam
Linux/Unix          =>/forum/affich-5225580-probleme-partage-linux-windows-xp
Linux/Unix          =>/forum/affich-5179810-probleme-backtrack-v2-0
Virus/Sécurité      =>/forum/affich-2142442-bios-probleme-au-demarrage
Windows             =>/forum/affich-2090313-volume-information-restore-probleme
Droit/Libertés      =>/forum/affich-2058909-telechargement-de-series-etrangeres
Actualités          =>/forum/affich-2070347-msn
Virus/Sécurité      =>/forum/affich-1966710-zone-alarm-non-affichage-des-gifs-et-url
Virus/Sécurité      =>/forum/affich-2058739-trojandownloader-win32-zlob-fa
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
nico123104 Messages postés 109 Date d'inscription mercredi 25 janvier 2006 Statut Membre Dernière intervention 23 janvier 2010 7
17 janv. 2010 à 13:01
Ton exemple est fait en Perl ?

J'ai fait un script en PHP, qui part du même principe que le tien mais merci quand même de ton aide, je garde ton exemple quelque part ça pourra toujours me servir un jour.

En fait mon logiciel que je cherchais et que d'ailleurs je n'ai pas trouvé s'appelle un parseur (qui fait de l'analyse syntaxique). Je dormirais bien bête ce soir =D
0
Salut,

Oui, c'est du Perl, mais la regex peut être utilisée aussi par une autre application qui implémente les regex

J'ai vu dans ta devise que tu aime python.
Si ce n'est pas le serpent mais le langage alors tu peux aussi le faire en python ;-)

En fait mon logiciel que je cherchais et que d'ailleurs je n'ai pas trouvé s'appelle un parseur (qui fait de l'analyse syntaxique).


En fait je pense que tu peux utiliser un éditeur de texte qui prends en compte les regex (par exemple scite).
Il te suffira d'utiliser la bonne regex ;-)
0