Recherche délicate dans un .doc en php

Résolu/Fermé
DoulyCreations Messages postés 187 Date d'inscription lundi 11 avril 2011 Statut Membre Dernière intervention 23 mars 2015 - Modifié par DoulyCreations le 26/09/2011 à 10:19
faboons Messages postés 269 Date d'inscription mardi 12 février 2008 Statut Membre Dernière intervention 22 janvier 2024 - 26 sept. 2011 à 19:36
Bonjour,

Je viens à vous pour résoudre un problème assez lourd.

Pour mon application je souhaiterais faire une recherche de mot-clé dans un document .doc en php

Ce que j'ai réalisé jusqu'à ce jour:
- Conversion de .doc en .htm => OK
- Récupération de contenu du document .htm dans la BDD => OK
- Recherche de mot-clé dans le contenu dans la BDD => OK
- Limiter le stockage du contenu dans la BDD => En cours

La recherche par mot-clé dans la BDD se fait avec une requête simple comme :
$Request3 = "SELECT lien FROM search_cand WHERE contenu LIKE '".$_GET['motcle']."'";



Le plus important pour le moment ce serait de récupérer le strict nécessaire pour la recherche afin de prendre le moins de place possible dans la BDD.
J'ai donc cherché sur notre cher amis Google mais aucun résultat...

J'ai donc entamé la méthode du str_replace mais c'est vraiment trop lourd car il faudrait que str_replace puisse supprimer ce qu'il y a entre 2 balises (ex: <head>...</head>)

Je suis en manque de solution...


Je vous en serait très reconnaissant si vous pouvez m'aiguiller.
Merci d'avance,
Cordialement



Quand on veut on peut ! Ou pas ...
A voir également:

2 réponses

Alain_42 Messages postés 5361 Date d'inscription dimanche 3 février 2008 Statut Membre Dernière intervention 13 février 2017 894
26 sept. 2011 à 16:29
pourquoi ne pas transformer ton .doc en .txt ? au lieu du html
ce serait moins volumineux.
en reenregistrant en .txt
0
faboons Messages postés 269 Date d'inscription mardi 12 février 2008 Statut Membre Dernière intervention 22 janvier 2024 50
26 sept. 2011 à 19:36
Si tu veux faire une recherche de mots-clés, ça veut dire que tu veux supprimer les balises html et garder le texte, je me trompe ?

Je ne comprends pas cette phrase :


"supprimer ce qu'il y a entre 2 balises (ex: <head>...</head>)".
C'est pas l'inverse que tu veux faire ?

Pour supprimer les balises tu peux utiliser la fonction php strip_tags.

@+.
Fab.
0