[php] recherche

Question

Bonjour,
ceci est un bout de code utilise pour mon moteur de recherche intranet.
J'ai un soucis car il ne me trouve pas mes documents pdf, pouvez vous me dire svp ou est l'erreur...??

// Sélection des extensions
// On ne scanne que ces types de fichiers

if(
$ext!="doc"
&& $ext!="xls"
&& $ext!="pdf"
&& $ext!="ppt" ){ continue; }

// Maintenant on est sûr de devoir scanner le fichier
// On peut éxécuter tous les traitements nécessaires

// Détermination du type de fichier
// On ne vérifiera que le nom des fichiers de type "img" (image)
// alors que les fichiers de type "normal" seront entièrement retraités
// car considérés comme contenant du texte lisible par le moteur.

if($ext=="html" || $ext=="doc" || $ext=="xls" || $ext=="ppt" || $ext=="pdf"){
$filetype="normal"; } else{ $filetype="doc" || $filetype="xls" || $filetype="ppt" || $filetype="pdf" || $filetype="img"; }

// Maintenant qu'on a déterminé la place de notre fichier entre les deux types
// On va appliquer des retraitements préliminaires sur les fichiers de type "normal" uniquement
if($filetype=="normal"){

// On ouvre le contenu du fichier

$recupere_le_fichier=fopen("$d/$file","r");
$tout=fread($recupere_le_fichier,500000);
fclose($recupere_le_fichier);

// Passage en minuscules
$tout=strtolower($tout);

// On vire le html et le php
$tout=strip_tags($tout,'<title></title><
;script></script><head></head><style
></style>');

// On récupère le titre du fichier
// Ou alors on affiche le nom avec l'extension
// Puis on supprime le titre pour ne pas fausser les résultats

if(strpos($tout,"<title>") && strpos($tout,"</title>"))
{
$titre1=strstr($tout,'<title>');
$titre2=strstr($tout,'</title>');
$titre1=str_replace("$titre2","",$titre1);
$titre1=str_replace("<title>","",$titre1);
if($titre1==""){ $titre=$file; } else{ $titre=$titre1; }
}
else{
$titre=$file; }

$titre=strtolower($titre);
unset($titre1, $titre2);
$tout = preg_replace('`<title.*?/title>`', '', $tout);

// 3 étapes ici :

// Etape 1 -
// On effectue des remplacements pour pouvoir appliquer les regex :
// 1- On remplace le saut de ligne par un espace
// 3- Les (code html pour un espace) sont remplacés par des espaces
// 4- Les doubles espaces sont remplacés par un simple espace

// Etape 2-
// On lance les regex
// 1- On vire le code entre <head> et </head> qui contient en général tout les trucs qui ne nous intéressent pas ici (feuille de style, javascript...)
// 2- On vire le javascript pour éviter les bugs au cas ou une partie nous aurait échappée
// 3- On vire les attributs de style pour les mêmes raisons
// Merci encore une fois à Frédéric Bouchery pour le regex

// Etape 3-
// On remplace le code html des accents et autres caractères spéciaux par le terme correspondant
// pour le titre ET le contenu

$tout = str_replace("\n"," ",$tout);
$tout = str_replace(" "," ",$tout);
$tout = str_replace(" "," ",$tout);

$tout = preg_replace('`<head.*?/head>`', '', $tout);
$tout = preg_replace('`<script.*?/script>`', '', $tout);
$tout = preg_replace('`<style.*?/style>`', '', $tout);

foreach($caractere_special as $caractere_code=>$caractere_traduction){
$tout = str_replace("$caractere_code","$caractere_traduc
tion",$tout);
$titre = str_replace("$caractere_code","$caractere_traduc
tion",$titre); }

// Fin du retraitement
}

// Maintenant le fichier a été retraité (si nécessaire),
// on peut voir s'il contient ce qu'on cherche.

// On incrémente le nb de fichiers scannés
$zetotal++;
if($zetotal>9999){ continue 2; }

// Si on trouve la recherche
if(strpos("$tout","$blork") || strpos("$file","$blork") || strpos("$titre","$blork")){

// Résultats +1
$compteresultats++;

// S'il s'agit d'un fichier de type "normal"
if($filetype=="normal"){

// On compte les occurences du terme
// Les occurences trouvées dans le titre comptent pour 10 (pire qu'au scrabble) car ils sont souvent explicites sur le contenu de la page

$total_mots=intval(substr_count($titre,$blork)*1
0+$total_mots);
$total_mots=intval(substr_count($tout,$blork)+$t
otal_mots);

// On crée la description

$position=strpos($tout, $blork);
$start_position=intval($position-50);
if($start_position<0){ $start_position="0"; }
$fin_position=intval($longueur_blork+100);

if($position === FALSE ){ $resume.="Terme exact introuvable dans le contenu du fichier."; }
else{
$resume="... ";
$resume.=substr($tout, $start_position, $fin_position);
$resume.=" ... ";

// On met en gras le terme recherché dans la description
$resume=str_replace($blork,"<b>$blork2</b>
",$resume); }

}

// Si c'est une image ou un autre type de fichier
// On adapte la description
else{ $resume="Fichier $ext"; }

// Puis dans le titre
$titre=str_replace($blork,"<b>$blork2</b>"
,$titre);

// Calcul du pourcentage de pertinence

similar_text($blork, $tout, $p1);
similar_text($blork, $titre, $p2);
$p=intval($p1+$p2);

// Si le pourcentage est supérieur ou égal à 100 on le ramène à 99
// Et s'il est égal à 0 on le ramène à 1 pour qu'il puisse être réindexé (voir suite)

if($p>=100){ $p="99"; }
if($p=="0"){ $p="1"; }

// On va créer une clé identique pour chaque résultat.
// Le premier sera un "1", pour que la clé soit réindexée
// Le suivant sera le nombre d'occurences total de mots trouvés (en dizaines)
// Ensuite le pourcentage de similarité du texte + celui du titre (deux chiffres)
// Enfin le numéro du résultat (4 chiffres)
// Avec cette clé on pourra classer les résultats par ordre décroissant selon le chiffre obtenu, donc par pertinence.

// Notes :
// La clé ne doit pas commencer par 0 donc il était important de mettre en premier
// un "1", ou un chiffre supérieur à 0 en tout cas.
// La clé ne doit pas être supérieure à 8 chiffres, sinon elle ne sera pas réindexée.

// Cette bidouille me permettra par la suite avec array_unshift() de réindexer le tableau avec
// des clés numériques pour pouvoir afficher uniquement les résultats souhaités, donc j'économise
// du temps d'éxécution et des ressources par rapport à l'ancienne méthode qui consistait à créer
// un nouveau tableau. L'array_unshift() me rajoutera une valeur de clé 0 que je ne supprime pas
// parce que je pourrai ainsi gérer mes résultats à partir de 1, ce qui est plus logique.

// On ramène les occurences au maxi à 99
// Puis on rajoute un 0 devant le chiffre s'il est inférieur à 10
// Enfin on ne garde que le chiffre des dizaines

if($total_mots>=100){ $total_mots="99"; }
if (strlen($total_mots)==1){
$total_mots=str_repeat("0",2-strlen($total_mots)
).$total_mots; }
$total_mots=substr($total_mots, 0, 1);

// Idem pour les pourcentages

if (strlen($p)==1){
$p=str_repeat("0",2-strlen($p)).$p; }

// Et enfin le numéro du résultat

$compteresultats2=$compteresultats;
if (strlen($compteresultats2)<4){
$compteresultats2=str_repeat("0",4-strlen($compt
eresultats2)).$compteresultats2; }

// On met la première lettre du titre en majuscules
$titre=ucfirst($titre);

// URL par défaut pour les fichiers

// On vire l'extension si besoin
if($montre_ext=="off" && $filetype!="img"){
$file=str_replace(".$ext","",$file); }

if($go2url==""){ $go_2_url="$d/$file"; }
else{
$go_2_url="$go2url";
$go_2_url=str_replace("[dossier]",$d,$go_2_url);

$go_2_url=str_replace("[fichier]",$file,$go_2_ur
l); }

// Source du résultat

$src=" <A href=\"$go_2_url\">$titre</A> <br>
$resume

";

// On enregistre
$zeresults["1".$total_mots."".$p."".$compteresul
tats2]="$src";

// On remet a zéro histoire d'éviter des doublons
unset(
$compteresultats2,
$tout,
$resume,
$src,
$titre,
$filetype,
$p,
$p1,
$p2,
$file,
$ext,
$total_mots,
$register
);

}}

// On referme
// Sésame ferme toi

closedir($fp);
unset($tout,$filetype,$fp,$ext); }

// Si on a des résultats
// On les classe par ordre décroissant de pertinence
// Ensuite on lance un array_unshift() qui réindexe le tableau
// ce qui nous permet d'avoir des clés numériques et de gérer les résultats à partir de 1
// Pour de plus amples explications vous pouvez voir un peu plus haut
// ou me contacter, j'essaierai de vous expliquer ça en détail.

if($compteresultats>0){
krsort($zeresults);
array_unshift($zeresults,"rien"); }

// On définit les différentes variables qui serviront pour la barre de navigation

if($start=="1" && $compteresultats=="0" ){ $start="0"; }
$pourvoir=intval($start+$maxipage-1);
if($pourvoir>$compteresultats){ $pourvoir=$compteresultats; }
$finstart=intval($compteresultats-$maxipage+1);
$prevbarre=intval($start-$maxipage);
$nextbarre=intval($start+$maxipage);
$nb_barre="1";
$compte_affichage=$start;

// Changement du texte selon les résultats
// Entre singulier et pluriel

$rs=" résultat trouvé ";
$fich=" fichier";
if($compteresultats>1){ $rs=" résultats trouvés "; }
if($zetotal>1){ $fich=" fichiers"; }

// Maintenant on commence l'affichage

echo("Résultats de votre recherche pour <b>$blork2</b><br> $compteresultats $rs sur $zetotal $fich - Affichage des résultats $start à $pourvoir");

if($compteresultats>0){ echo("$form_recherche"); }

// On sélectionne les éléments du tableau de résultat à afficher et on les lance

if($compteresultats>0){
foreach($zeresults as $key=>$value){
if($key>=$start && $key<$nextbarre){

echo("<br><br>
$value");

$compte_affichage++; }} }

// Et si on a trop de résultats par rapport au nombre à afficher dans la page on met la barre de navigation

if($compteresultats>$maxipage){

echo("<p align=center><br>");

if($start!="1"){
echo("<A href=\"engine.php?blork=$blork&action=go&
;choix=$choix\"><< Début</A> <A href=\"engine.php?blork=$blork&action=go&
;start=$prevbarre&choix=$choix\">< Page précédente</A> ("); }
else{ echo("<< Début < Page précédente ("); }

for($barre=1;$barre<$compteresultats;){
$finbarre=intval($compteresultats-$barre);
echo(" <A href=\"engine.php?blork=$blork&action=go&
;start=$barre&choix=$choix\">$nb_barre</A
> ");
$nb_barre++;
$barre=intval($barre+$maxipage); }

if($start<$finstart){ echo(") <A href=\"engine.php?blork=$blork&action=go&
;start=$nextbarre&choix=$choix\">Page suivante ></A> <A href=\"engine.php?blork=$blork&action=go&
;start=$finstart&choix=$choix\">Fin >></A>"); }
else{ echo(") Page suivante > Fin >>"); }

echo("</p>");

}

if($compteresultats=="0"){
echo("<br><center> Votre recherche sur le terme <b>$blork2</b> n'a donné aucun résultat. Essayez d'élargir votre recherche en y mettant moins de mots ou vérifiez son orthographe.</center>");
}
else{
echo("<p align=center><br>$compteresultats $rs sur $zetotal $fich.</p>"); }

echo("$form_recherche");

// On met le footer, et c'est fini
include("blork_engine_bas.html");

?>

Zep3k!GnO · Answer

Perso je sais pas si ça y fait mais ta synthaxe if($ext=="html" || $ext=="doc" || $ext=="xls" || $ext=="ppt" || $ext=="pdf") moi j'la trouve pas top, normalement pour ce qui est des 'OU' ou des 'ET' faut présenter comme ça :

if(($ext=="html") ||( $ext=="doc") ||( $ext=="xls") || ($ext=="ppt") ||( $ext=="pdf"))

Après je sais pas si ca vient de la car ton codde est un peu massif et la je viens de me manger un américai, alors ça = ton code c'est lourd pour la digestion ..; :D

Zep3k!GnO
-->hi i hi o on va pas au boulot :P

GallyNet · Answer

C'est vrai que pour un petit bout de code, il est assez grand.

La syntaxe des OU est parfaite, pas besoin de la changer.

Tu dis qu'il ne trouve pas les fichiers pdf, mais est-ce qu'il trouve bien les autres fichiers ? Est tu sur que t'est fichiers pdf ont bien l'extension .pdf ? Et non pas .PDF ?

[php] recherche

2 réponses

Discussions similaires

Newsletters