Recherche délicate dans un .doc en php

Résolu
DoulyCreations Messages postés 187 Date d'inscription   Statut Membre Dernière intervention   -  
faboons Messages postés 275 Date d'inscription   Statut Membre Dernière intervention   -
Bonjour,

Je viens à vous pour résoudre un problème assez lourd.

Pour mon application je souhaiterais faire une recherche de mot-clé dans un document .doc en php

Ce que j'ai réalisé jusqu'à ce jour:
- Conversion de .doc en .htm => OK
- Récupération de contenu du document .htm dans la BDD => OK
- Recherche de mot-clé dans le contenu dans la BDD => OK
- Limiter le stockage du contenu dans la BDD => En cours

La recherche par mot-clé dans la BDD se fait avec une requête simple comme :
$Request3 = "SELECT lien FROM search_cand WHERE contenu LIKE '".$_GET['motcle']."'";



Le plus important pour le moment ce serait de récupérer le strict nécessaire pour la recherche afin de prendre le moins de place possible dans la BDD.
J'ai donc cherché sur notre cher amis Google mais aucun résultat...

J'ai donc entamé la méthode du str_replace mais c'est vraiment trop lourd car il faudrait que str_replace puisse supprimer ce qu'il y a entre 2 balises (ex: <head>...</head>)

Je suis en manque de solution...


Je vous en serait très reconnaissant si vous pouvez m'aiguiller.
Merci d'avance,
Cordialement



Quand on veut on peut ! Ou pas ...
A voir également:

2 réponses

Alain_42 Messages postés 5361 Date d'inscription   Statut Membre Dernière intervention   894
 
pourquoi ne pas transformer ton .doc en .txt ? au lieu du html
ce serait moins volumineux.
en reenregistrant en .txt
0
faboons Messages postés 275 Date d'inscription   Statut Membre Dernière intervention   50
 
Si tu veux faire une recherche de mots-clés, ça veut dire que tu veux supprimer les balises html et garder le texte, je me trompe ?

Je ne comprends pas cette phrase :


"supprimer ce qu'il y a entre 2 balises (ex: <head>...</head>)".
C'est pas l'inverse que tu veux faire ?

Pour supprimer les balises tu peux utiliser la fonction php strip_tags.

@+.
Fab.
0