Décoder de l'utf8 bizarre
Bonjour,
je cherche à convertir un pdf en texte, sans utiliser de librairie
j'arrive à avoir un code qui ressemble à ça (c'est un extrait)
b'-\xcd\xb0\xa7\x8f\xcf\x1d;.g\x8c\x182\x08\xd5\'z\x81\x84\x7f%\xd5\xe6\xc6\x08\xf7H]\xf1j\xed{i\xd6\xf4\x1b\x87M\x91\x89\x1c\xd2\x83\xe2\xd1~\xb6\xe77w4\xcd\x99Yxs\xaa\xd5\xed\x8dt\x1el9\xf4\xd1\x99u\xad\xf1n\x97\x01\x7f\xe1\xc4\xebo\xd4\xae,s\x14"@5\xc1\xba\x10\x8dH\x888%{\x87\xe1O\x94\xd9\xdc\xbe{\xfb\xe6\xcf\xec\xc4j03\xc9\xa9B\xc6Y\xd8\x8cH\xf4B"0&d\x8d\xcdpdd82\xc6\xe4tmQ6&g\xd4/\x1d\xff\xfc\xf5u\x8fS`2\x92~y\xcb\x8f\xd3\xed\xe9\x00`P\xc3\xa0\x86M\xb1\xe5\xa5\xe4\xfe\xf3\xd4\'\xfe~\xc3\xf7(\xa7b\xe3v\xce\xb9\x8ad\x03\x0caOSF1\xc1\xc2E\xd4}\xc5\xd7\xdf>{\xf5\xfd\xfaOr-\x99\xa9\x8a\xfb\xa0\xaf\xaa\xbb$\xa7\xa3M\xcfV\xbd4\xad\xe8F@\xe0\x8f\xf8\xd66mf\xc0e$\t\xb5\xb3\xbf\xe1\xc0\xf6\xf6\xbd\x8c\xb3O[w\xde\xddqGa\xda\xf04[\xaa\x9d\xd8\x02fP\x84\x8fw\xdf\xecIhB\x84\x90\x98\xb4\xa9\xeflH\xb5\xba]\x16\xd7\x8d\x85\xd7\xebT\x07\x0e7\x1bS\'4\xec\xfdK\xf5k\xc9\xd4,\xe5L\x06p\xc5-\xba\x98\xb5\x89\xc0*uM\xf5\x8a_\x0e\x01\xb2K6\x10\xd6\x17\x00F(1P\xe90\xfd\xc2\xdf(f\x14\x08"<\xaejD\x01\x0e<jF\x1d\xc4\x11\xd2\xc3\x1d\xa1\x8e\x14kJ{\xc8[\xd5Z]\xd5q\xfcd\xf0t\xa3\xe69[0Q\xab\xa2\xcf\xc5\x802\xac\xe9B\xbc\xa8\x11%XR\x88\xacJ\xaa0G\x11\xee=l}_\xe7ao\xc8\x9b\xe1\xc8@\x80t\xaaol\xee\xea\x16\xc56\x92\x82\x84\x8c\xb3\x95G?Z>q\xa9M\xb1ID\x8a\xe8Q\xa7\xea\xc8p\xa4#@S\x0bn\xd8\xd0\xb2\xcd\xe0f\xaa\xd5\x8d\x10r\xaa\x0e\tK&\xfd\\\xadb@\xa2\x1a\xfc\xd1\x80I\x8d4{\x9a\xb8f\x9d\xf7\xd4o\xf7?\xcd\x803n\xfe|\xeb\xbf}\xa7\xe2\x9b\x99\xce\x0c\xc4Q\x94jU-U\x12\x91K\xd2\x8a\xaa\xdbj\xc4c~P\xf5q\x89\xbb\xf0@\xcb\xa1^\x18\xce\xe9\xff\x1c\xfe\x93|\xe4\x85\xeef\x08\x03\xfe~\xc3\x9aU\x8d\x1b\xc4\x9aC\x8d\xe9g\x0f\xd0B4\\\xe9;\x9a\xf8\xa8s\xb3\xdd\xe897frz\xa1KI\x82ZP\x12VM\x92\x10\xbeZ\x00\xd0\xa9\xfe\xd1\xb1O\x9aC-w\x8d\\\x94\xeb\xca\xc9td,\xcc\xbfme\xc3\xda;\xf2\xe7\x08\x06\xee8\xb5\xfbx\xfb\t\xb7\x9a26{tiFq\x963sz\xc6\xf5\x1b[wD\xf4\x08\x00 \x84p\xdc\xd1\x04gmj-\x8e\xfa"\xbe\xf7\xeaW\x9b\x9c\x9e\x8e4\x9d\x8e4\x9d-\x8cN5q\x8aM\xb1\x89K\xa9X\x11\xcd\xa89\xd0"\xb4\n'
visiblement ça ressemble à de l'utf 8 mais ça n'en est pas
merci de votre aide
Linux / Firefox 110.0
A voir également:
- Décoder de l'utf8 bizarre
- Comment decoder un telephone - Guide
- Dvd decoder - Télécharger - Conversion & Codecs
- Comment décoder un code ascii - Guide
- Digisat decoder installation - Forum TNT / Satellite / Réception
- Decoder off ampli yamaha - Forum Cinéma / Télé
1 réponse
Bonjour,
Ce que tu récupères est un flux binaire, et pas spécialement une chaîne UTF-8. Sans regarder les spécifications du format PDF, tu ne pourras pas faire grand chose de cette chaîne. Pour décoder un flux PDF, le plus simple serait d'utiliser (ou de t'inspirer) de pdfminer.
Bonne chance