Décoder de l'utf8 bizarre

cs_perrierbertrand Messages postés 36 Date d'inscription   Statut Membre Dernière intervention   -  
mamiemando Messages postés 33772 Date d'inscription   Statut Modérateur Dernière intervention   -

Bonjour,

je cherche à convertir un pdf en texte, sans utiliser de librairie

j'arrive à avoir un code qui ressemble à ça (c'est un extrait)

b'-\xcd\xb0\xa7\x8f\xcf\x1d;.g\x8c\x182\x08\xd5\'z\x81\x84\x7f%\xd5\xe6\xc6\x08\xf7H]\xf1j\xed{i\xd6\xf4\x1b\x87M\x91\x89\x1c\xd2\x83\xe2\xd1~\xb6\xe77w4\xcd\x99Yxs\xaa\xd5\xed\x8dt\x1el9\xf4\xd1\x99u\xad\xf1n\x97\x01\x7f\xe1\xc4\xebo\xd4\xae,s\x14"@5\xc1\xba\x10\x8dH\x888%{\x87\xe1O\x94\xd9\xdc\xbe{\xfb\xe6\xcf\xec\xc4j03\xc9\xa9B\xc6Y\xd8\x8cH\xf4B"0&d\x8d\xcdpdd82\xc6\xe4tmQ6&g\xd4/\x1d\xff\xfc\xf5u\x8fS`2\x92~y\xcb\x8f\xd3\xed\xe9\x00`P\xc3\xa0\x86M\xb1\xe5\xa5\xe4\xfe\xf3\xd4\'\xfe~\xc3\xf7(\xa7b\xe3v\xce\xb9\x8ad\x03\x0caOSF1\xc1\xc2E\xd4}\xc5\xd7\xdf>{\xf5\xfd\xfaOr-\x99\xa9\x8a\xfb\xa0\xaf\xaa\xbb$\xa7\xa3M\xcfV\xbd4\xad\xe8F@\xe0\x8f\xf8\xd66mf\xc0e$\t\xb5\xb3\xbf\xe1\xc0\xf6\xf6\xbd\x8c\xb3O[w\xde\xddqGa\xda\xf04[\xaa\x9d\xd8\x02fP\x84\x8fw\xdf\xecIhB\x84\x90\x98\xb4\xa9\xeflH\xb5\xba]\x16\xd7\x8d\x85\xd7\xebT\x07\x0e7\x1bS\'4\xec\xfdK\xf5k\xc9\xd4,\xe5L\x06p\xc5-\xba\x98\xb5\x89\xc0*uM\xf5\x8a_\x0e\x01\xb2K6\x10\xd6\x17\x00F(1P\xe90\xfd\xc2\xdf(f\x14\x08"<\xaejD\x01\x0e<jF\x1d\xc4\x11\xd2\xc3\x1d\xa1\x8e\x14kJ{\xc8[\xd5Z]\xd5q\xfcd\xf0t\xa3\xe69[0Q\xab\xa2\xcf\xc5\x802\xac\xe9B\xbc\xa8\x11%XR\x88\xacJ\xaa0G\x11\xee=l}_\xe7ao\xc8\x9b\xe1\xc8@\x80t\xaaol\xee\xea\x16\xc56\x92\x82\x84\x8c\xb3\x95G?Z>q\xa9M\xb1ID\x8a\xe8Q\xa7\xea\xc8p\xa4#@S\x0bn\xd8\xd0\xb2\xcd\xe0f\xaa\xd5\x8d\x10r\xaa\x0e\tK&\xfd\\\xadb@\xa2\x1a\xfc\xd1\x80I\x8d4{\x9a\xb8f\x9d\xf7\xd4o\xf7?\xcd\x803n\xfe|\xeb\xbf}\xa7\xe2\x9b\x99\xce\x0c\xc4Q\x94jU-U\x12\x91K\xd2\x8a\xaa\xdbj\xc4c~P\xf5q\x89\xbb\xf0@\xcb\xa1^\x18\xce\xe9\xff\x1c\xfe\x93|\xe4\x85\xeef\x08\x03\xfe~\xc3\x9aU\x8d\x1b\xc4\x9aC\x8d\xe9g\x0f\xd0B4\\\xe9;\x9a\xf8\xa8s\xb3\xdd\xe897frz\xa1KI\x82ZP\x12VM\x92\x10\xbeZ\x00\xd0\xa9\xfe\xd1\xb1O\x9aC-w\x8d\\\x94\xeb\xca\xc9td,\xcc\xbfme\xc3\xda;\xf2\xe7\x08\x06\xee8\xb5\xfbx\xfb\t\xb7\x9a26{tiFq\x963sz\xc6\xf5\x1b[wD\xf4\x08\x00 \x84p\xdc\xd1\x04gmj-\x8e\xfa"\xbe\xf7\xeaW\x9b\x9c\x9e\x8e4\x9d\x8e4\x9d-\x8cN5q\x8aM\xb1\x89K\xa9X\x11\xcd\xa89\xd0"\xb4\n'

visiblement ça ressemble à de l'utf 8 mais ça n'en est pas

merci de votre aide
Linux / Firefox 110.0


1 réponse

mamiemando Messages postés 33772 Date d'inscription   Statut Modérateur Dernière intervention   7 882
 

Bonjour,

Ce que tu récupères est un flux binaire, et pas spécialement une chaîne UTF-8. Sans regarder les spécifications du format PDF, tu ne pourras pas faire grand chose de cette chaîne. Pour décoder un flux PDF, le plus simple serait d'utiliser (ou de t'inspirer) de pdfminer.

Bonne chance

0