Parsing de fichiers / Filtrage de données

Question

Bonjour, 

avant d'insérer un fichier en base de données (MySQL) je fais un petit peu de parsing pour constituer à la volée un fichier SQL à partir d'un fichier texte, parsing réalisé en PHP CLI.

Des strings sont passées à une boucle qui les découpe en mots. 
Certains mots sont dans une liste d'exclusions (case sensitive et non case sensitive), si les mots sont présents dans cette liste ceux-ci sont rejetés.

actuellement le code dans la boucle est le suivant (j'en suis à une liste de 80 exclusions, soit plus de 160 lignes de code juste pour ça) :

for ($wordCount = 0; $wordCount < count($explodedLine) && $wordCount < 5;$wordCount++) //Je ne garde que les 5 premiers mots
{
  $pos1  = stripos($explodedLine[$wordCount],'titi');
  $pos2  = stripos($explodedLine[$wordCount],'tutu');
  $pos3  = stripos($explodedLine[$wordCount],'tata');
  $pos4  = stripos($explodedLine[$wordCount],'toto');
  $pos5  = strpos($explodedLine[$wordCount],'BLABLA');
  $pos6  = stripos($explodedLine[$wordCount],'XXXXX');

if (
    $pos1  === false && 
    $pos2  === false && 
    $pos3  === false && 
    $pos4  === false && 
    $pos5  === false && 
    $pos6  === false 
  }
  {    
    $fileName .= $explodedLine[$wordCount] ." ";
  }
}

fwrite($fHndlDest,"INSERT INTO etc ". $fileName ." etc ..." //La requête SQL


Bon, tout fonctionne mais je trouve ça un peu bourrin ... Y aurait-il, une façon plus élégante de procéder ? 

Cela ne me dérangerait pas de conserver la liste d'exclusions dans la base de données ou dans un fichier texte par exemple, et de récupérer ces infos dans un tableau transmis ensuite à une fonction "magique" dont j'ignore jusqu'à l'existence ou l'utilisation,  mais je vois pas trop comment intégrer cela simplement dans le code.

L'objectif serait d'éviter d'avoir à écrire 400 lignes de code si je dois gérer 200 exclusions.
Ou alors il va falloir que je fasse un script php qui générera cette partie du script php en include par exemple :p

La démarche est peut-être totalement erronée ... Si quelqu'un avait des conseils ... 
Merci d'avance pour vos réponses.


Configuration: Tout plein de petits Linux Gentoo
De l'Android un peu aussi 
et 1 Windows pour tester ... 
 
You may stop me but you can't stop us all   ;-)

mpmp93 · Answer

Bonsoir,

Oui ya moyen....

$exclusion = array('toto','tata','titi'.......les autres données.....)$mot // la variable qui contient le mot à rechercher dans le tableauif (in_array($mot, $exclusion)) {    echo "j'ai trouvé";}

C'est in_array qui fera tout.

A+

ryko1820 · Answer

Hello, J'ai fait d'autres trucs depuis, et là il fallait que je rafraîchisse un peu mes données, alors je me suis replongé la dedans, et voilà ce que ça donne finalement : (je l'utilise en CLI alors je fais des echo pour logger les actions) Un fichier PHP pour les exclusions héberge les tableaux pour les blacklist sensitive et case ignore : /* * * * * * * * * * * * * * * * File exclusionsList.php * * Liste des exclusions case sensitive et case ignore * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * */ $caseIgnoreExclusions = array( 'tutu', 'toto', 'tata', 'titi'); $caseSensitiveExclusions = array( 'AeGT', 'GGBf', 'GOLD', 'GolD', 'WV'); J'exploite ça comme ça (n'hésitez pas à critiquer j'apprends) : class Fileutil { private $caseIgnoreExclusions = array(); private $caseSensitiveExclusions = array(); private $needle; public function __construct() { include 'exclusionsList.php'; $this->caseIgnoreExclusions = $caseIgnoreExclusions; $this->caseSensitiveExclusions = $caseSensitiveExclusions; $this->needle = ""; } public function parseFile($fileSource,$fileDest) { $fHndlSource = fopen($fileSource,"r"); $fHndlDest = fopen($fileDest,"w"); $totalLine = 0; $totalWrote = 0; $blankLineCount = 0; while (!feof($fHndlSource)) { $line = fgets($fHndlSource); $totalLine++; /* ... plusieurs manipulations sans grand intérérêt sur les strings, les mots ... on découpes les phrases, les mots, ça str_replace et ça explode ... */ if (strlen($fileName)>1) //pour retirer ligne vides { // pour logs echo "Original sentence = ". trim($fileName) ." "; $add_nl = ""; // Boucle de traitement des exclusions $fileName = ""; for ($wordCount = 0; $wordCount < count($explodedLine) && $wordCount < 6;$wordCount++) //on ne garde que les 6 premiers mots de chaque string pour sa reconstruction { $this->needle = $explodedLine[$wordCount]; // C'EST ICI QUE CA SE PASSE !!! :-) if (count($this->ar_stripos($this->caseIgnoreExclusions))>0 || count($this->ar_strpos($this->caseSensitiveExclusions))>0) { // pour logs strlen($add_nl)>0 ? $add_str="" : $add_str = " Removed word(s) : "; echo $add_str. $explodedLine[$wordCount] ." "; $add_nl = " "; } else { $fileName .= $explodedLine[$wordCount] ." "; } } echo $add_nl."Final sentence = ". trim($fileName) ." =========================================== "; // ... etc ... Ecriture de mon fichier SQL ... } else { $blankLineCount++; } } fclose($fHndlSource); fclose($fHndlDest); } // LES 2 FONCTIONS QUI FONT LE BOULOT public function ar_stripos($haystack){ return array_filter(array_map(function($cbArg){ return stripos($this->needle , $cbArg); },$haystack),'is_int'); } public function ar_strpos($haystack){ return array_filter(array_map(function($cbArg){ return strpos($this->needle , $cbArg); },$haystack),'is_int'); } } Maintenant que je peux gérer plus facilement les exclusions, j'arrive à un taux de filtrage de mes données tout à fait intéressant ... Même si 2/3 "bruits" par-ci, par-là peuvent encore pas être filtrés. Çà doit être facilement adaptable en procédural. You may stop me but you can't stop us all ;-)

ryko1820 · Answer

Au final, sans la propriété pour needle :

Le sujet aurait pu aussi être stripos et strpos utilisant des array en arguments, (fonctions anonymes, array_filter, array_map).

if (count($this->ar_stripos($this->caseIgnoreExclusions,$explodedLine[$wordCount]))>0 || count($this->ar_strpos($this->caseSensitiveExclusions,$explodedLine[$wordCount]))>0) {
              // pour logs
              strlen($add_nl)>0 ? $add_str="" : $add_str = "	Removed word(s) : ";
              echo $add_str. $explodedLine[$wordCount] ."  ";
              $add_nl = "
";
          }
          else
          {
            $fileName .= $explodedLine[$wordCount] ." ";
          }


avec les "use" dans les fonctions


 public function ar_stripos($haystack,$needle){
        return array_filter(array_map(function($cbArg) use ($needle){
                    return stripos($needle , $cbArg);
                    },$haystack),'is_int');
  }
  
  public function ar_strpos($haystack,$needle){
        return array_filter(array_map(function($cbArg) use ($needle){
                    return strpos($needle , $cbArg);
                    },$haystack),'is_int');
  }

Parsing de fichiers / Filtrage de données

3 réponses

Discussions similaires

Newsletters