Lire un fichier généré par le (vieux !) logiciel MS Works Résolu

Question

Bonjour,

J'avais dans mes archives un ensemble de fichiers .wps, et, ne disposant plus de MS Works depuis longtemps, je me suis amusé à rédiger un code pour afficher leur contenu (en mode console pour le moment) :

import sys
import os
import string

files_dir = os.getcwd()+'\wps_files\'
specs = [
    'é', 'è', 'à', 'ù', 'ô', 'â', 'ê',
    'û', 'î', 'ç', ' ', '
', '	'
]

filename = input('Nom du fichier (sans extension) : ')
filename = files_dir + filename + '.wps'

try:
    with open(filename, 'rb') as ofi:
        block = ofi.read()

one_row = '
'
    for k in range(len(block)):
        if (
            chr(block[k]) in string.digits
            or chr(block[k]) in string.ascii_letters
            or chr(block[k]) in specs
            or chr(block[k]) in string.punctuation
        ):
            one_row += chr(block[k])
            if chr(block[k]) == '
':
                print(one_row, end = '')
                one_row = ''
except:
    print('''
Erreur :''', sys.exc_info()[1])

Ça fonctionne, dans l'ensemble, mais je voudrais ne pas afficher les codes de début et de fin de document (qui sont en principe des indications pour MS Works, fontes de caractères, tailles, etc...).

J'ai essayé de voir si il y a un ou des caractères particuliers juste avant le début du texte et juste après la fin, mais sans résultats probants

Si quelqu'un à une idée (à part appeler Bill Gates pour lui demander la doc du format de fichier .wps :-) )

Exemple de début de fichier:

mamiemando · Answer

Bonjour,

Peux-tu partager quelques fichier wps afin que l'on comprenne mieux et puisse tester ton code ? Je suspecte que les informations sont organisées comme suit :

un header de taille variable, contenant la taille dudit header et les meta données
	le segment de donnée (ce que tu cherches à afficher) et qui visiblement contient des caractères spéciaux servant pour la mise en forme (ceux que tu filtres dans ton code)
	un footer -- je ne vois pas trop à quoi il sert, mais d'après ce que tu dis il existe ; quoi qu'il en soit, cela laisse penser que la taille du segment de données est spécifiées dans le header.

Bref, ce ne sont que des conjectures, sans voir dans le détail un tel fichier, difficile d'en dire plus puisque comme tu l'indique (ainsi que ce lien), les spécifications du format wps ne sont pas publiques.

Bonne chance

brucine · Answer

Bonjour,

Comme à l'école polytechnique, pour la Patrie, les Sciences et la Gloire?

https://archive.org/details/works-8_fr

Phil_1857 · Answer

Bonjour Brucine,

Bah, ça m'amuse de faire ce genre de trucs ...

Bonjour Mamiemando,

Comment faire pour partager des fichiers ?

Phil_1857 · Answer

J'ai testé le code sur un de mes .wps

erreur: Not a valid Ole Storage Document

Forcément, je pense que c'est une ancienne version de Python

(il y a un print sans () à la fin), et il faut écrire

if sig != b'\xd0\xcf\x11\xe0\xa1\xb1\x1a\xe1':
    raise ReaderError("Not a valid Ole Storage Document")

au lieu de

if sig != "\xD0\xCF\x11\xE0\xA1\xB1\x1A\xE1"
    raise ReaderError("Not a valid Ole Storage Document")

avec fd.read() on obtient un format byte

Après correction, évidemment, on a une autre erreur

buff += fd.read(self.sector_size)
TypeError: can only concatenate str (not "bytes") to str

puisqu'on ne manipule plus des strings

Après, il faut examiner le code en détails pour essayer de comprendre

ce qu'il fait et corriger les erreurs au fur et à mesure : vaste tache

J'ai même du corriger ça:

for i in range(int(self.sector_size / 4)):

au lieu de :

for i in range(self.sector_size / 4):

Phil_1857 · Answer

Bonjour Mamiemando,

Ci-dessous 2 liens vers 2 fichiers .wps, comme tu me le demandais

hier

https://www.cjoint.com/c/MIxpyFYDoTr

https://www.cjoint.com/c/MIxpzZkhkEr

Dis-moi ce que l'on peut en tirer ....

mamiemando · Answer

Hello, J'ai commencé à retaper le script (en incluant certaines des modifications dont tu as parlé), mais ça n'est pas encore fonctionnel. #!/usr/bin/env python3 import os import sys import struct import re from collections import namedtuple WPSSTRIPPATTERN = re.compile(r" ") def unicode(s: str, fmt: str) -> str: return s.decode(fmt, "strict") class ReaderError(Exception): pass class OleDocument(object): def __init__(self, file_name): self.file_name = file_name self.sectors = [] self.directories = {} self._parse_contents() def _read_fat_sector(self, fat_sector, fd): fd.seek(self.sector_size * (fat_sector + 1), os.SEEK_SET) for i in range(self.sector_size // 4): sector = struct.unpack(" {sector, size}") def _get_sectors(self, sector): while True: if sector == 0xFFFFFFFE: #Last directory break yield sector sector = self.sectors[sector] def read_stream(self, name): #name = unicode(name) if name not in self.directories: raise ReaderError(f"No stream called {name}: known streams are {list(self.directories.keys())}") start, size = self.directories[name] buff = bytes() with open(self.file_name, "rb") as fd: for sector in self._get_sectors(start): fd.seek(self.sector_size * sector + self.sector_size, os.SEEK_SET) buff += fd.read(self.sector_size) size -= self.sector_size if size <= 0: break return buff class WPSReader(object): def __init__(self, file_name): self.document = OleDocument(file_name) self.strip_pattern = WPSSTRIPPATTERN def _process_entries(self, entry_buff): magic, local, next_offset = struct.unpack("

[Dal] · Answer

Salut Phil_1857,

En dehors du défi de réaliser cela en Python, si tu cherches juste à lire le contenu avec un logiciel actuel et libre supportant ce format, tu peux télécharger LibreOffice et lire les fichiers .wps avec LibreOffice Writer.

(testé avec succès sur les 2 fichiers que tu as mis à disposition)

mamiemando · Answer

En poursuivant la piste amorcée dans #9, on aboutit à :

#!/usr/bin/env python3
import sys  
import string

def main(filename):
    with open(filename, "rb") as fd:
        data = fd.read()
        specs = str([
            'â', 'à', 'Â', 'À',
            'ç', 'Ç',
            'é', 'ê', 'è', 'É', 'Ê', 'È',
            'î', 'Î',
            'ô', 'Ô',
            'û', 'ù', 'Û', 'Ù',
        ])
        valids = set(specs + string.digits + string.ascii_letters + string.punctuation)
        i = j = None
        segments = list()
        for (k, byte) in enumerate(data):
            if chr(byte) in valids or byte in {9, 10, 13}:
                if i is None:
                    i = j = k
                j += 1
            else:
                if (i, j) != (None, None):
                    segments.append((i, j))
                    i = j = None
        assert segments
        (start, end) = sorted(
            segments,
            key=lambda segment: segment[1] - segment[0],
            reverse=True
        )[0]        
        return data[start:end].decode("iso-8859-1")

if __name__ == '__main__':
    print(main(sys.argv[1]))

L'idée est de reconstruire les segments contenant des séquences de caractères ASCII valides et de prendre le segment le plus long (les autres correspondent par exemple aux noms des polices impliquées dans le document). Puis on décode les octets associés à ce segment de données...

On peut probablement améliorer la manière dont sont définis les caractères valides, notamment dans certaines langues, d'autres caractères spéciaux peuvent apparaître.

Bonne chance

Phil_1857 · Answer

Bonjour Mamiemando,

Merci d'avoir passé un peu de temps là-dessus

Ca à l'air de marcher sur plusieurs fichiers testés !

Je vais maintenant analyser ton code en détails ...

mamiemando · Answer

Hello,

Bon j'ai trouvé 10 minutes pour peaufiner le code proposé dans #11, et qui maintenant est agnostique sur les caractères (latins) impliqués dans le document.

#!/usr/bin/env python3
import sys

def find_longest_segment(data: bytes) -> tuple:
    i = j = None
    segments = list()
    for (k, byte) in enumerate(data):
        a = chr(byte)
        if a.isprintable() or a.isspace():
            if i is None:
                i = j = k
            j += 1
        else:
            if (i, j) != (None, None):
                segments.append((i, j))
                i = j = None
    if (i, j) != (None, None):
        segments.append((i, j)) 
        i = j = None
    assert segments
    return max(
        segments,
        key=lambda segment: segment[1] - segment[0]
    )

def decode_wps_data(
    data: bytes,
    encoding: str = "iso-8859-1"
) -> str:
    (start, end) = find_longest_segment(data)
    return data[start:end].decode(encoding)

def decode_wps_file(
    filename: str,
    encoding: str = "iso-8859-1"
) -> str:
    with open(filename, "rb") as fd:
        data = fd.read()
        return decode_wps_data(data, encoding)
             
if __name__ == "__main__":
    text = decode_wps_file(sys.argv[1], "iso-8859-1")
    print(text)

Note que si tu as des documents qui reposent sur un autre alphabet (genre du cyrillique, des caractères chinois, etc...), ceux-ci ne sont pas supportés par un encodage iso-8859-1 (qui est l'encodage traditionnellement utilisé sous Windows pour un document écrit en français). Bref, si on veut être perfectionniste, il faudrait sans doute permettre à l'utilisateur de préciser l'encodage et envisager d'utiliser argparse.

Bonne continuation

[Dal] · Answer

Avec un éditeur hexadécimal on peut voir, sur les deux fichiers que Phil_1857   a mis en ligne, que les données afférentes au texte commencent au déplacement 940 en hexa (2368 en décimal) et que les données de texte se terminent par une série de 00.

Du coup, le programme suivant utilisant les regex Python pour capturer les données à partir du byte 2368 et jusqu'à rencontrer le premier caractère null fonctionne chez moi sur les deux fichiers d'exemple, la regex faisant le travail de capture en une ligne (ligne 11 ci-dessous) :

#!/usr/bin/env python3
import sys
import re

def decode_wps_file(
    filename: str,
    encoding: str = "iso-8859-1"
) -> str:
    with open(filename, "rb") as fd:
        data = fd.read()
        result = re.search(b"([^\x00]+)", data[2368:])
        return result.group(1).decode(encoding)

if __name__ == "__main__":
    text = decode_wps_file(sys.argv[1], "iso-8859-1")
    print(text)

Cela devrait fonctionner à condition que l'entête ait une taille fixe, comme sur les deux exemples que Phil_1857 a donné et quelle que soit la taille du texte, même s'il ne fait que quelques caractères, à condition que le format supposé soit exact et que le texte se termine bien par le caractère null.

Phil_1857 · Answer

il me faut surement une autre paire de lunettes, je ne vois pas de bouton

"marquer comme résolu"   :-)

Phil_1857 · Answer

?????????????????????????

Lire un fichier généré par le (vieux !) logiciel MS Works

13 réponses

Votre réponse

Newsletters