Extraction sous-chaines page web

Résolu

p_tony Messages postés 77 Statut Membre -
p_tony Messages postés 77 Statut Membre - 17 févr. 2014 à 17:58

Bonjour,

Je cherche le moyen de récupéré 4 informations dans une page web que je récupère déjà en local
Il s'agit de la page d'info de mon imprimante, dont je veux extraire le status des cartouches d'encres, le status de l'imprimante et le nombre total de pages imprimées.

Pour les status, je sais que je peux le déterminer à partir des icones de status affichés dans la page (icon_status_normal.gif = normal, icon_status_warning.gif = warning, etc...)

cat $PAGE_PATH | grep "/icon_status_"

me permet déja de filtrer un peu pour obtenir:

var blackInkStatusImage="./gif/icon_status_normal.gif";
var colorInkStatusImage="./gif/icon_status_normal.gif";
         <img src="http://192.168.0.11/gif/icon_status_normal.gif" border="0" align="absmiddle" alt="Ready" title="Ready"/> 
                        <img src="http://192.168.0.11/gif/icon_status_normal.gif" border="0" align="absmiddle" alt="Ready" title="Ready" />

mais enfaite je suis un peu perdu entre sed, awk, ou grep.

Ce que je voudrais au final, c'est des variables black_ink_status, color_ink_status, printer_status, total_pages

edit:
Bon, je tatonne lentement:

cat $PAGE_PATH | sed -nr 's#.+/icon_status_([a-z]+).*#\1#p'

me renvoie

normal
normal
normal
normal

Voici un extrait épuré (c'est plus digeste) du html de la page


<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">  <!-- document type -->
<head>
   <!-- Backend page info intialization -->
   <title>
      HP Officejet J6400 series
   192.168.0.11
   </title>
   <script language="JavaScript" type="text/javascript">
      <!-- add in specific javascript functions here
      var blackink=70;
      var blackInkStatusImage="./gif/icon_status_normal.gif";
      var colorink=70;
      var colorInkStatusImage="./gif/icon_status_normal.gif";
      -->
   </script>
<!-- specific html head page -->
</head>
<body>

<!-- ####################################################
####################################################-->

<!-- user information -->
<table cellpadding="0" cellspacing="0" border="0" width="100%" summary="This table is used to display the device network information.">
   <tr>
      <td class="status">
         Status: 
         <img src="http://192.168.0.11/gif/icon_status_normal.gif" border="0" align="absmiddle" alt="Ready" title="Ready"/> 
         Ready    
      </td>
   </tr>
</table>

<!-- ####################################################
####################################################-->

            <div class="statusPane">
               <h5>
                   Device:
               </h5>
               <table cellpadding="0" cellspacing="0" class="dataTable" id="tableDeviceDetails" width="100%">
                  <tr>
                     <td class="info">
                        Total Page Count
                     </td>
                     <td>
                        313
                     </td>
                  </tr>
               </table>
            </div>

Afficher la suite

3 réponses

zipe31 Messages postés 34620 Date d'inscription Statut Contributeur Dernière intervention 6 501

Salut,

Et tu voudrais que ça te renvoie quoi exactement ?

p_tony Messages postés 77 Statut Membre 42
Bonjour,

Je vais préciser, mais du coup j'ai un doute sur le sens de ta question.

Pour les status, je sais que je peux le déterminer à partir des icones de status affichés dans la page:
- icon_status_normal.gif = normal,
- icon_status_warning.gif = warning,

cela veut dire qu'à certains endroits j'ai des chaines
```
 /gif/icon_status_normal.gif 
```
desquelles je veux extraire la sous-chaine entre
```
 /gif/icon_status_ 
```
et
```
.gif 
```
... soit ici
```
normal 
```
.

Sinon pour le nombre total de pages, c'est ici le nombre (313) dans le tableau:
```
               <table cellpadding="0" cellspacing="0" class="dataTable" id="tableDeviceDetails" width="100%">
                  <tr>
                     <td class="info">
                        Total Page Count
                     </td>
                     <td>
                        313
                     </td>
                  </tr>
               </table>
<code>
```
0
zipe31 Messages postés 34620 Date d'inscription Statut Contributeur Dernière intervention 6 501
N'ayant pas le contenu de la page en entier, les solutions ci-après sont sous réserves ;-\

Pour le normal (en parsant le code source de la page) :
```
$ grep -Po 'var .*[Ss]tatus_\K[^.]*' brol 
normal
normal
```
Pour le status et le nombre de page (en parsant la sortie formatée avec un navigateur en mode terminal) :
```
$ links -dump brol | grep -Po '(Status:|Page Count) *\K[^ ]*'
Ready
313
```
0

p_tony Messages postés 77 Statut Membre 42

Merci pour ta proposition, mais enfaite j'ai oublié de préciser que mon systeme est un nas synology et que les utilitaires sont ceux de busybox 1.16.

Ca signifie que certaines options ne sont pas présentent.

Ici pas de grep avec l'option -P malheureusement:

nas> cat $PAGE_PATH | grep -Po 'var .*[Ss]tatus_\K[^.]*' brol
grep: invalid option -- P
BusyBox v1.16.1 (2013-11-09 00:52:17 CST) multi-call binary.

Usage: grep [-HhnlLoqvsriFE] [-m N] [-A/B/C N] PATTERN/-e PATTERN.../-f FILE [FILE]...

Search for PATTERN in FILEs (or stdin)

Options:
        -H      Add 'filename:' prefix
        -h      Do not add 'filename:' prefix
        -n      Add 'line_no:' prefix
        -l      Show only names of files that match
        -L      Show only names of files that don't match
        -c      Show only count of matching lines
        -o      Show only the matching part of line
        -q      Quiet. Return 0 if PATTERN is found, 1 otherwise
        -v      Select non-matching lines
        -s      Suppress open and read errors
        -r      Recurse
        -i      Ignore case
        -F      PATTERN is a literal (not regexp)
        -E      PATTERN is an extended regexp
        -m N    Match up to N times per file
        -A N    Print N lines of trailing context
        -B N    Print N lines of leading context
        -C N    Same as '-A N -B N'
        -e PTRN Pattern to match
        -f FILE Read pattern from file

et je n'ai pas links non-plus du coup :/ .

une alternative peut-être ? :)

zipe31 Messages postés 34620 Date d'inscription Statut Contributeur Dernière intervention 6 501
mon systeme est un nas synology et que les utilitaires sont ceux de busybox 1.16
Effectivement, ça va limiter grave ;-((

Va falloir parser avec du
```
sed
```
ou du
```
awk
```
et oublier links et consort ;-\
0

Réponse 2 / 3
dubcek Messages postés 18627 Date d'inscription Statut Contributeur Dernière intervention 5 660
hello
comme ça ?
```
$ awk -F "[ =/]*" '/var.*status/ {split($6, a, "[_.]"); print $3, a[3]}' fichier.html
blackInkStatusImage normal
colorInkStatusImage normal
$ 
```
0
1. p_tony Messages postés 77 Statut Membre 42
  
  Hmmm, ça me renvoie ça :/
  
  awk -F "[ =/]*" '/var.*status/ {split($6, a, "[_.]"); print $3, a[3]}' /var/services/web/cronPrinterPage.html a a
  .
  
  0
2. dubcek Messages postés 18627 Date d'inscription Statut Contributeur Dernière intervention 5 660
  
  montre le fichier html
  
  0
3. dubcek Messages postés 18627 Date d'inscription Statut Contributeur Dernière intervention 5 660
  
  essayer ça
  $ awk '/var.*status/ {split($2, a, "[=/._]"); print a[1], a[7]}' fichier.html
  blackInkStatusImage normal
  colorInkStatusImage normal
  avec page count
  $ awk '/var.*status/ {split($2, a, "[=/._]"); print a[1], a[7]} /Total/ {getline; getline; getline; print $1}' fichier.html
  blackInkStatusImage normal
  colorInkStatusImage normal
  313
  
  0
4. p_tony Messages postés 77 Statut Membre 42
  
  Voici la source html , dont j'ai enlever quelques infos et les lignes vides: https://pastebin.com/ue0yENcN
  
  0
5. dubcek Messages postés 18627 Date d'inscription Statut Contributeur Dernière intervention 5 660
  
  résultat.
  $ awk '/var.*status/ {split($2, a, "[=/._]"); print a[1], a[7]}' fichier.htm
  blackInkStatusImage normal
  colorInkStatusImage normal
  
  0
Réponse 3 / 3
p_tony Messages postés 77 Statut Membre 42
Bon j'ai trouvé ça pour les satus des cartouches et de l'imprimante:
```
BLACK_INK_STATUS=$(cat $PAGE_PATH | sed -nre 's#.+/icon_status_([a-z]+).*#\1#p' | sed -n '1p' )
COLOR_INK_STATUS=$(cat $PAGE_PATH | sed -nre 's#.+/icon_status_([a-z]+).*#\1#p' | sed -n '2p' )
PRINTER_STATUS=$(cat $PAGE_PATH | sed -nre 's#.+/icon_status_([a-z]+).*#\1#p' | sed -n '3p' )
echo $BLACK_INK_STATUS; echo $COLOR_INK_STATUS; echo $PRINTER_STATUS
```
```
normal 
normal 
normal 
```
Question subsidiaire:

Pourquoi, je ne peux pas modifier mon message original pour y ajouter de nouvelles infos ?
:/
0
1. zipe31 Messages postés 34620 Date d'inscription Statut Contributeur Dernière intervention 6 501
  
  Salut,
  
  Parce qu'il y a un délai pour l'édition, et ça se comprend, par exemple, vu que j'ai déjà vu ton 1er message, il est rare que j'y retourne voir une quelconque modif (sauf cas exceptionnel), donc mieux vaut rajouter une réponse, au moins on est averti et c'est mieux ainsi ;-))
  
  0
2. p_tony Messages postés 77 Statut Membre 42
  
  Oui c'est pas faux.
  Enfaite c'est une habitudes à cause des autres forums, ou justement les gens trouvent plus commode d'avoir un suivie dans le premier post plutôt que de lire 50 messages
  
  0
3. zipe31 Messages postés 34620 Date d'inscription Statut Contributeur Dernière intervention 6 501
  
  Re-
  
  Tiens par rapport à tes tests, essaies ça :
  
  $ sed -rn 's#.*icon_status_([^.]*).*#\1#p;/Page Count/{n;n;n;s/ *//p}' plop
  normal
  normal
  normal
  313
  
  0
4. p_tony Messages postés 77 Statut Membre 42
  
  Nickel, c'est ce que je cherché :)
  
  Je vais l'utilisais comme ça:
  BLACK_INK_STATUS=$(cat $PAGE_PATH | sed -rn 's#.+/icon_status_([^.]+).*#\1#p' | sed -n '1p' ) COLOR_INK_STATUS=$(cat $PAGE_PATH | sed -rn 's#.+/icon_status_([^.]+).*#\1#p' | sed -n '2p' ) PRINTER_STATUS=$(cat $PAGE_PATH | sed -rn 's#.+/icon_status_([^.]+).*#\1#p' | sed -n '3p' ) TOTAL_PRINTED_PAGES=$( cat $PAGE_PATH | sed -rn '/Page Count/{n;n;n;s/ *//p}'
  
  Je ne pense qu'il doit y'avoir mieux plus selectionne la 2ere 2eme ou 3eme ocuurence, mais en attendant ça fait le boulot :).
  
  Merci pour votre aide.
  
  0
5. p_tony Messages postés 77 Statut Membre 42
  
  Ce coup de fatigue que j'ai eu ^^'
  Je pense qu'il doit y avoir mieux pour sélectionner la 1ere 2eme ou 3eme occurrence, mais en attendant ça fait le boulot :).
  
  Et sinon au final je pars sur
  BLACK_INK_STATUS=$(sed -rn 's#/icon_status_([^.]+).*#\1#p' $PAGE_PATH | sed -n '1p') COLOR_INK_STATUS=$(sed -rn 's#/icon_status_([^.]+).*#\1#p' $PAGE_PATH | sed -n '2p') PRINTER_STATUS=$( sed -rn 's#/icon_status_([^.]+).*#\1#p' $PAGE_PATH | sed -n '3p') TOTAL_PRINTED_PAGES=$(sed -rn '/Page Count/{n;n;n;s/ *//p}' $PAGE_PATH)
  
  Le
  cat $PAGE_PATH
  n'est peut-être pas utile enfaite :)
  
  0

Extraction sous-chaines page web

3 réponses

Discussions similaires

Newsletters