[Recherche] Logiciel filtrage texte
Résolu/Fermé
nico123104
Messages postés
109
Date d'inscription
mercredi 25 janvier 2006
Statut
Membre
Dernière intervention
23 janvier 2010
-
16 janv. 2010 à 23:08
lami20j - 17 janv. 2010 à 13:30
lami20j - 17 janv. 2010 à 13:30
A voir également:
- [Recherche] Logiciel filtrage texte
- Money logiciel - Télécharger - Comptabilité & Facturation
- Recherche musique - Guide
- Logiciel montage vidéo gratuit windows 10 - Guide
- Logiciel benchmark - Guide
- Logiciel spss - Télécharger - Outils professionnels
6 réponses
Raymond PENTIER
Messages postés
58389
Date d'inscription
lundi 13 août 2007
Statut
Contributeur
Dernière intervention
18 avril 2024
17 090
16 janv. 2010 à 23:22
16 janv. 2010 à 23:22
Je ne pense vraiment pas que ça puisse exister.
nico123104
Messages postés
109
Date d'inscription
mercredi 25 janvier 2006
Statut
Membre
Dernière intervention
23 janvier 2010
7
16 janv. 2010 à 23:25
16 janv. 2010 à 23:25
Le problème c'est que j'ai environ 20 000 lignes à traiter.... et un petit logiciel qui me ferait l'extraction des liens ça serait un gain de temps vraiment pas négligeable xD
Ce n'est pas nécessairement un logiciel, un site en ligne avec une page dédiée pour effectuer ce genre de traitement me suffirait.
Ce n'est pas nécessairement un logiciel, un site en ligne avec une page dédiée pour effectuer ce genre de traitement me suffirait.
Salut,
je suis à la recherche d'un logiciel capable de m'extraire tous les liens hypertexte d'un fichier texte, ou html
C'est faisable.
et qu'il soit capable aussi de mes les afficher soit en modifiant le fichier, ou soit de me faire la liste dans un nouveau fichier.
Tu veux dire de déplacer les liens hypertexte dans un fichier?
Si oui c'est faisable aussi.
Voici un exemple.
Si on regarde les messages que tu as posté (la page 1 seulement) https://forums.commentcamarche.net/forum/s/m/nico123104 il y en a quelque uns (25 sur la 1ère page)
Si tu regardes le code source de la page tu verras la structure de fichiers qui est assez compliquée)
Voici comment je peux afficher les liens de tes messages avec le nom de Forum
Pour la lisibilité je n'ai pas affiché le début de lien https://www.commentcamarche.net/ (il suffit de l'ajouter pour l'affichage)
Sous windows tu peux installer des outils GNU en ligne de commande qui te permettront de parlser de texte ou html.
Ce n'est qu'un exemple. Il faut savoir que chaque problème de parsing de fichier est spécifique et que c'est très important de connaître la structure de fichiers en entrée et ce qu'on veut obtenir en sortie.
je suis à la recherche d'un logiciel capable de m'extraire tous les liens hypertexte d'un fichier texte, ou html
C'est faisable.
et qu'il soit capable aussi de mes les afficher soit en modifiant le fichier, ou soit de me faire la liste dans un nouveau fichier.
Tu veux dire de déplacer les liens hypertexte dans un fichier?
Si oui c'est faisable aussi.
Voici un exemple.
Si on regarde les messages que tu as posté (la page 1 seulement) https://forums.commentcamarche.net/forum/s/m/nico123104 il y en a quelque uns (25 sur la 1ère page)
Si tu regardes le code source de la page tu verras la structure de fichiers qui est assez compliquée)
Voici comment je peux afficher les liens de tes messages avec le nom de Forum
Pour la lisibilité je n'ai pas affiché le début de lien https://www.commentcamarche.net/ (il suffit de l'ajouter pour l'affichage)
Sous windows tu peux installer des outils GNU en ligne de commande qui te permettront de parlser de texte ou html.
Ce n'est qu'un exemple. Il faut savoir que chaque problème de parsing de fichier est spécifique et que c'est très important de connaître la structure de fichiers en entrée et ce qu'on veut obtenir en sortie.
~$ GET https://forums.commentcamarche.net/forum/s/m/nico123104?page=1 > nico lami20j@debian:~$ perl -ne 'while(/<a href="(\/forum\/affich-[^#]*?)"\s*.*?">.*?theme.*?forum_num=\d+">([^<]*?)<\/a/g){printf "%-20s=>$1\n",$2}' nico Bureautique =>/forum/affich-16182209-recherche-logiciel-filtrage-texte Bureautique =>/forum/affich-16182209-recherche-logiciel-filtrage-texte Bureautique =>/forum/affich-16181649-calendrier-pour-note Internet =>/forum/affich-16180661-recherche-police-d-ecriture Internet =>/forum/affich-16163811-resillement-chez-orange Programmation =>/forum/affich-16145556-zone-degroupee Logiciels/Pilotes =>/forum/affich-16134479-pour-les-forts Programmation =>/forum/affich-16111262-loi-hadopi-face-a-certains-logiciels Internet =>/forum/affich-16129467-python Internet =>/forum/affich-16129640-creer-son-site-internet-facile Internet =>/forum/affich-16126001-joomla Internet =>/forum/affich-16126062-freelotto Internet =>/forum/affich-16122466-probleme-avec-explorer-6-et-mshtml-dll Internet =>/forum/affich-16122344-sit-web Programmation =>/forum/affich-16122909-besoin-de-renseignement-sur-la-biodiversite Internet =>/forum/affich-16121835-rotation-de-bits-et-conversion-hexa Matériel/Hardware =>/forum/affich-16120226-bug-de-youtube Linux/Unix =>/forum/affich-16121608-comment-fonctionne-la-webcam Linux/Unix =>/forum/affich-5225580-probleme-partage-linux-windows-xp Virus/Sécurité =>/forum/affich-5179810-probleme-backtrack-v2-0 Windows =>/forum/affich-2142442-bios-probleme-au-demarrage Droit/Libertés =>/forum/affich-2090313-volume-information-restore-probleme Actualités =>/forum/affich-2058909-telechargement-de-series-etrangeres Virus/Sécurité =>/forum/affich-2070347-msn Virus/Sécurité =>/forum/affich-1966710-zone-alarm-non-affichage-des-gifs-et-url
Re,
Oups, je t'ai copié le mauvais exemple (qui est avec des doublons et les forums ne correspondent pas).
Mais comme je l'ai dit ce n'est qu'à titre d'exemple.
Pour parser ton fichier il faut savoir ce qu'il contient.
Voici l'exemple corrigé
La commande
perl -ne'while(/<a href="(\/forum\/affich-[^#]*?)"\s*class="disc_.*?">.*?theme.*?forum_num=\d+">([^<]*?)<\/a/g){printf"%-20s=>$1\n",$2}' nico
Le résultat
Oups, je t'ai copié le mauvais exemple (qui est avec des doublons et les forums ne correspondent pas).
Mais comme je l'ai dit ce n'est qu'à titre d'exemple.
Pour parser ton fichier il faut savoir ce qu'il contient.
Voici l'exemple corrigé
La commande
perl -ne'while(/<a href="(\/forum\/affich-[^#]*?)"\s*class="disc_.*?">.*?theme.*?forum_num=\d+">([^<]*?)<\/a/g){printf"%-20s=>$1\n",$2}' nico
Le résultat
Bureautique =>/forum/affich-16182209-recherche-logiciel-filtrage-texte Bureautique =>/forum/affich-16181649-calendrier-pour-note Bureautique =>/forum/affich-16180661-recherche-police-d-ecriture Internet =>/forum/affich-16163811-resillement-chez-orange Internet =>/forum/affich-16145556-zone-degroupee Programmation =>/forum/affich-16134479-pour-les-forts Logiciels/Pilotes =>/forum/affich-16111262-loi-hadopi-face-a-certains-logiciels Programmation =>/forum/affich-16129467-python Internet =>/forum/affich-16129640-creer-son-site-internet-facile Internet =>/forum/affich-16126001-joomla Internet =>/forum/affich-16126062-freelotto Internet =>/forum/affich-16122466-probleme-avec-explorer-6-et-mshtml-dll Internet =>/forum/affich-16122344-sit-web Internet =>/forum/affich-16122909-besoin-de-renseignement-sur-la-biodiversite Programmation =>/forum/affich-16121835-rotation-de-bits-et-conversion-hexa Internet =>/forum/affich-16120226-bug-de-youtube Matériel/Hardware =>/forum/affich-16121608-comment-fonctionne-la-webcam Linux/Unix =>/forum/affich-5225580-probleme-partage-linux-windows-xp Linux/Unix =>/forum/affich-5179810-probleme-backtrack-v2-0 Virus/Sécurité =>/forum/affich-2142442-bios-probleme-au-demarrage Windows =>/forum/affich-2090313-volume-information-restore-probleme Droit/Libertés =>/forum/affich-2058909-telechargement-de-series-etrangeres Actualités =>/forum/affich-2070347-msn Virus/Sécurité =>/forum/affich-1966710-zone-alarm-non-affichage-des-gifs-et-url Virus/Sécurité =>/forum/affich-2058739-trojandownloader-win32-zlob-fa
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre question
nico123104
Messages postés
109
Date d'inscription
mercredi 25 janvier 2006
Statut
Membre
Dernière intervention
23 janvier 2010
7
17 janv. 2010 à 13:01
17 janv. 2010 à 13:01
Ton exemple est fait en Perl ?
J'ai fait un script en PHP, qui part du même principe que le tien mais merci quand même de ton aide, je garde ton exemple quelque part ça pourra toujours me servir un jour.
En fait mon logiciel que je cherchais et que d'ailleurs je n'ai pas trouvé s'appelle un parseur (qui fait de l'analyse syntaxique). Je dormirais bien bête ce soir =D
J'ai fait un script en PHP, qui part du même principe que le tien mais merci quand même de ton aide, je garde ton exemple quelque part ça pourra toujours me servir un jour.
En fait mon logiciel que je cherchais et que d'ailleurs je n'ai pas trouvé s'appelle un parseur (qui fait de l'analyse syntaxique). Je dormirais bien bête ce soir =D
Salut,
Oui, c'est du Perl, mais la regex peut être utilisée aussi par une autre application qui implémente les regex
J'ai vu dans ta devise que tu aime python.
Si ce n'est pas le serpent mais le langage alors tu peux aussi le faire en python ;-)
En fait mon logiciel que je cherchais et que d'ailleurs je n'ai pas trouvé s'appelle un parseur (qui fait de l'analyse syntaxique).
En fait je pense que tu peux utiliser un éditeur de texte qui prends en compte les regex (par exemple scite).
Il te suffira d'utiliser la bonne regex ;-)
Oui, c'est du Perl, mais la regex peut être utilisée aussi par une autre application qui implémente les regex
J'ai vu dans ta devise que tu aime python.
Si ce n'est pas le serpent mais le langage alors tu peux aussi le faire en python ;-)
En fait mon logiciel que je cherchais et que d'ailleurs je n'ai pas trouvé s'appelle un parseur (qui fait de l'analyse syntaxique).
En fait je pense que tu peux utiliser un éditeur de texte qui prends en compte les regex (par exemple scite).
Il te suffira d'utiliser la bonne regex ;-)