Python : Expression régulière

Question

Bonjour, 

J'ai besoin d'aide pour trouver une expression régulière, j'ai plusieurs liens coller sans distinction particulière entre eux et je souhaite trouver une expression pour les récupérer, mon problème est le suivant.

Ma chaine ressemble a ça :

http://www.google.frhttp://fr.weather.comhttp://www.meteoconsult.com

Je ne trouve pas le moyen d'éviter d'inclure une chaine entière, je souhaiterais trouver quelque chose qui ce rapproche de [^http] mais pour une chaine entière, car cette manière  ne prends que les lettres individuellement.  J'ai regarder la documentation de python bien entendu mais je dois avouer que je suis un peu perdu.

Merci de m'aider.

Utilisateur anonyme · Accepted Answer

Les réponses données ici sont correctes. Je t'en donne une autre qui t'enverras sous forme de liste les urls

ch="http://www.google.frhttp://fr.weather.comhttp://www.meteoconsult.com"
new_ch=ch.replace("http://", " ").split()
# resultat : ['www.google.fr', 'fr.weather.com', 'www.meteoconsult.com']

for url in new_ch:
	print "http://"+url # pour avoir les urls sous la forme http://...

# resultat : 
#https://www.google.fr/?gws_rd=ssl
#https://weather.com/fr-FR/temps/aujour/l/FRXX0076:1:FR
#http://www.meteoconsult.com</code>



Que demander de plus? Le faire avec le module re, c'est comme écraser une fourmi avec un marteau piqueur

fiddy · Answer

Bonjour,
Pas besoin de passer par une regexp, tu peux tout simplement utiliser la méthode slip.
Par exemple : chaine.split("http://") te renverra dans un tableau www.google.fr, fr.weather.com, www.meteoconsult.com
Et si tu veux, tu peux remettre facilement le http:// devant si ça t'es important.

Cdlt,

Nouga · Answer

Merci pour ta réponse,

Effectivement ça serai une solution mais il ce trouve que je dois utiliser une expression régulière pour ce cas, si quelqu'un pouvait m'aider dans ce sens, ça dois surement être possible mais je n'arrive pas a trouver par moi même.

Utilisateur anonyme · Answer

Sans espaces entre tes urls c'est pas évident. La solution proposée précédemment est bonne et de toute façon bien plus rapide que les expressions régulières.

Char Snipeur · Answer

tu sais que ton adresse est comprise entre deux "http://" donc, un truc dans le genre :
find(" http://[:alpnum:|.|/]*http://|$ " )
c'est à dire tout caractère alphanumérique plus les caractères accepter dans les URL ('/', '.', '_', '-' ...) compris entre "http://" et  : "http://" ou une fin de ligne.

Nouga · Answer

Je relance mon sujet en désespoir de cause, je n'ai toujours pas trouver de solution correcte.

Nouga · Answer

@Char Snipeur:
en quoi ma solution ne conviens pas ?
Merci d'essayer de m'aider avant tout, le tiens quand même a le dire et surtout ne t'offusque pas. C'est juste que tu me propose une idée que je décris  dans mon premier poste, c'est à dire prendre la chaine entre "http" et "http" en me proposant un exemple qui n'est la que pour représenté ton idée donc qui ne fonctionnement pas, du coup il faut admettre que ça ne m'aide que moyennement. 

@fred1599:
Merci, je pense que je vais utilisé ta proposition vu que je ne trouve pas pour l'expression régulière, au passage peux tu m'expliquer, si ce n'est pas trop abusé de ton temps, pourquoi tu me déconseilles d'utilisé le module re, c'est un module particulièrement lourd ?

Utilisateur anonyme · Answer

Sur du texte complexe, le module re est très efficace, mais sur du gros fichier il est particulièrement long, et si on peut l'éviter, les autres solutions seront toujours plus rapides.

Python : Expression régulière

8 réponses

Discussions similaires

Newsletters