flopad
Messages postés528Date d'inscriptionmercredi 28 septembre 2005StatutMembreDernière intervention 6 mars 2009
-
25 oct. 2005 à 12:45
GallyNet
Messages postés434Date d'inscriptionmardi 1 juin 2004StatutMembreDernière intervention15 décembre 2008
-
25 oct. 2005 à 13:56
Bonjour,
ceci est un bout de code utilise pour mon moteur de recherche intranet.
J'ai un soucis car il ne me trouve pas mes documents pdf, pouvez vous me dire svp ou est l'erreur...??
// Sélection des extensions
// On ne scanne que ces types de fichiers
// Maintenant on est sûr de devoir scanner le fichier
// On peut éxécuter tous les traitements nécessaires
// Détermination du type de fichier
// On ne vérifiera que le nom des fichiers de type "img" (image)
// alors que les fichiers de type "normal" seront entièrement retraités
// car considérés comme contenant du texte lisible par le moteur.
// Maintenant qu'on a déterminé la place de notre fichier entre les deux types
// On va appliquer des retraitements préliminaires sur les fichiers de type "normal" uniquement
if($filetype=="normal"){
// Etape 1 -
// On effectue des remplacements pour pouvoir appliquer les regex :
// 1- On remplace le saut de ligne par un espace
// 3- Les (code html pour un espace) sont remplacés par des espaces
// 4- Les doubles espaces sont remplacés par un simple espace
// Etape 2-
// On lance les regex
// 1- On vire le code entre <head> et </head> qui contient en général tout les trucs qui ne nous intéressent pas ici (feuille de style, javascript...)
// 2- On vire le javascript pour éviter les bugs au cas ou une partie nous aurait échappée
// 3- On vire les attributs de style pour les mêmes raisons
// Merci encore une fois à Frédéric Bouchery pour le regex
// Etape 3-
// On remplace le code html des accents et autres caractères spéciaux par le terme correspondant
// pour le titre ET le contenu
// Maintenant le fichier a été retraité (si nécessaire),
// on peut voir s'il contient ce qu'on cherche.
// On incrémente le nb de fichiers scannés
$zetotal++;
if($zetotal>9999){ continue 2; }
// Si on trouve la recherche
if(strpos("$tout","$blork") || strpos("$file","$blork") || strpos("$titre","$blork")){
// Résultats +1
$compteresultats++;
// S'il s'agit d'un fichier de type "normal"
if($filetype=="normal"){
// On compte les occurences du terme
// Les occurences trouvées dans le titre comptent pour 10 (pire qu'au scrabble) car ils sont souvent explicites sur le contenu de la page
// Si le pourcentage est supérieur ou égal à 100 on le ramène à 99
// Et s'il est égal à 0 on le ramène à 1 pour qu'il puisse être réindexé (voir suite)
if($p>=100){ $p="99"; }
if($p=="0"){ $p="1"; }
// On va créer une clé identique pour chaque résultat.
// Le premier sera un "1", pour que la clé soit réindexée
// Le suivant sera le nombre d'occurences total de mots trouvés (en dizaines)
// Ensuite le pourcentage de similarité du texte + celui du titre (deux chiffres)
// Enfin le numéro du résultat (4 chiffres)
// Avec cette clé on pourra classer les résultats par ordre décroissant selon le chiffre obtenu, donc par pertinence.
// Notes :
// La clé ne doit pas commencer par 0 donc il était important de mettre en premier
// un "1", ou un chiffre supérieur à 0 en tout cas.
// La clé ne doit pas être supérieure à 8 chiffres, sinon elle ne sera pas réindexée.
// Cette bidouille me permettra par la suite avec array_unshift() de réindexer le tableau avec
// des clés numériques pour pouvoir afficher uniquement les résultats souhaités, donc j'économise
// du temps d'éxécution et des ressources par rapport à l'ancienne méthode qui consistait à créer
// un nouveau tableau. L'array_unshift() me rajoutera une valeur de clé 0 que je ne supprime pas
// parce que je pourrai ainsi gérer mes résultats à partir de 1, ce qui est plus logique.
// On ramène les occurences au maxi à 99
// Puis on rajoute un 0 devant le chiffre s'il est inférieur à 10
// Enfin on ne garde que le chiffre des dizaines
// On enregistre
$zeresults["1".$total_mots."".$p."".$compteresul
tats2]="$src";
// On remet a zéro histoire d'éviter des doublons
unset(
$compteresultats2,
$tout,
$resume,
$src,
$titre,
$filetype,
$p,
$p1,
$p2,
$file,
$ext,
$total_mots,
$register
);
}}
// On referme
// Sésame ferme toi
closedir($fp);
unset($tout,$filetype,$fp,$ext); }
// Si on a des résultats
// On les classe par ordre décroissant de pertinence
// Ensuite on lance un array_unshift() qui réindexe le tableau
// ce qui nous permet d'avoir des clés numériques et de gérer les résultats à partir de 1
// Pour de plus amples explications vous pouvez voir un peu plus haut
// ou me contacter, j'essaierai de vous expliquer ça en détail.
if($compteresultats=="0"){
echo("<br><center> Votre recherche sur le terme <b>$blork2</b> n'a donné aucun résultat. Essayez d'élargir votre recherche en y mettant moins de mots ou vérifiez son orthographe.</center>");
}
else{
echo("<p align=center><br>$compteresultats $rs sur $zetotal $fich.</p>"); }
echo("$form_recherche");
// On met le footer, et c'est fini
include("blork_engine_bas.html");
Zep3k!GnO
Messages postés2025Date d'inscriptionjeudi 22 septembre 2005StatutMembreDernière intervention18 novembre 2015200 25 oct. 2005 à 13:22
Perso je sais pas si ça y fait mais ta synthaxe if($ext=="html" || $ext=="doc" || $ext=="xls" || $ext=="ppt" || $ext=="pdf") moi j'la trouve pas top, normalement pour ce qui est des 'OU' ou des 'ET' faut présenter comme ça :
Après je sais pas si ca vient de la car ton codde est un peu massif et la je viens de me manger un américai, alors ça = ton code c'est lourd pour la digestion ..; :D
GallyNet
Messages postés434Date d'inscriptionmardi 1 juin 2004StatutMembreDernière intervention15 décembre 2008386 25 oct. 2005 à 13:56
C'est vrai que pour un petit bout de code, il est assez grand.
La syntaxe des OU est parfaite, pas besoin de la changer.
Tu dis qu'il ne trouve pas les fichiers pdf, mais est-ce qu'il trouve bien les autres fichiers ? Est tu sur que t'est fichiers pdf ont bien l'extension .pdf ? Et non pas .PDF ?