Décoder de l'utf8 bizarre

Fermé
cs_perrierbertrand Messages postés 36 Date d'inscription lundi 25 août 2003 Statut Membre Dernière intervention 21 juillet 2024 - 15 mars 2023 à 19:47
mamiemando Messages postés 33346 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 8 novembre 2024 - 15 mars 2023 à 20:20

Bonjour,

je cherche à convertir un pdf en texte, sans utiliser de librairie

j'arrive à avoir un code qui ressemble à ça (c'est un extrait)

b'-\xcd\xb0\xa7\x8f\xcf\x1d;.g\x8c\x182\x08\xd5\'z\x81\x84\x7f%\xd5\xe6\xc6\x08\xf7H]\xf1j\xed{i\xd6\xf4\x1b\x87M\x91\x89\x1c\xd2\x83\xe2\xd1~\xb6\xe77w4\xcd\x99Yxs\xaa\xd5\xed\x8dt\x1el9\xf4\xd1\x99u\xad\xf1n\x97\x01\x7f\xe1\xc4\xebo\xd4\xae,s\x14"@5\xc1\xba\x10\x8dH\x888%{\x87\xe1O\x94\xd9\xdc\xbe{\xfb\xe6\xcf\xec\xc4j03\xc9\xa9B\xc6Y\xd8\x8cH\xf4B"0&d\x8d\xcdpdd82\xc6\xe4tmQ6&g\xd4/\x1d\xff\xfc\xf5u\x8fS`2\x92~y\xcb\x8f\xd3\xed\xe9\x00`P\xc3\xa0\x86M\xb1\xe5\xa5\xe4\xfe\xf3\xd4\'\xfe~\xc3\xf7(\xa7b\xe3v\xce\xb9\x8ad\x03\x0caOSF1\xc1\xc2E\xd4}\xc5\xd7\xdf>{\xf5\xfd\xfaOr-\x99\xa9\x8a\xfb\xa0\xaf\xaa\xbb$\xa7\xa3M\xcfV\xbd4\xad\xe8F@\xe0\x8f\xf8\xd66mf\xc0e$\t\xb5\xb3\xbf\xe1\xc0\xf6\xf6\xbd\x8c\xb3O[w\xde\xddqGa\xda\xf04[\xaa\x9d\xd8\x02fP\x84\x8fw\xdf\xecIhB\x84\x90\x98\xb4\xa9\xeflH\xb5\xba]\x16\xd7\x8d\x85\xd7\xebT\x07\x0e7\x1bS\'4\xec\xfdK\xf5k\xc9\xd4,\xe5L\x06p\xc5-\xba\x98\xb5\x89\xc0*uM\xf5\x8a_\x0e\x01\xb2K6\x10\xd6\x17\x00F(1P\xe90\xfd\xc2\xdf(f\x14\x08"<\xaejD\x01\x0e<jF\x1d\xc4\x11\xd2\xc3\x1d\xa1\x8e\x14kJ{\xc8[\xd5Z]\xd5q\xfcd\xf0t\xa3\xe69[0Q\xab\xa2\xcf\xc5\x802\xac\xe9B\xbc\xa8\x11%XR\x88\xacJ\xaa0G\x11\xee=l}_\xe7ao\xc8\x9b\xe1\xc8@\x80t\xaaol\xee\xea\x16\xc56\x92\x82\x84\x8c\xb3\x95G?Z>q\xa9M\xb1ID\x8a\xe8Q\xa7\xea\xc8p\xa4#@S\x0bn\xd8\xd0\xb2\xcd\xe0f\xaa\xd5\x8d\x10r\xaa\x0e\tK&\xfd\\\xadb@\xa2\x1a\xfc\xd1\x80I\x8d4{\x9a\xb8f\x9d\xf7\xd4o\xf7?\xcd\x803n\xfe|\xeb\xbf}\xa7\xe2\x9b\x99\xce\x0c\xc4Q\x94jU-U\x12\x91K\xd2\x8a\xaa\xdbj\xc4c~P\xf5q\x89\xbb\xf0@\xcb\xa1^\x18\xce\xe9\xff\x1c\xfe\x93|\xe4\x85\xeef\x08\x03\xfe~\xc3\x9aU\x8d\x1b\xc4\x9aC\x8d\xe9g\x0f\xd0B4\\\xe9;\x9a\xf8\xa8s\xb3\xdd\xe897frz\xa1KI\x82ZP\x12VM\x92\x10\xbeZ\x00\xd0\xa9\xfe\xd1\xb1O\x9aC-w\x8d\\\x94\xeb\xca\xc9td,\xcc\xbfme\xc3\xda;\xf2\xe7\x08\x06\xee8\xb5\xfbx\xfb\t\xb7\x9a26{tiFq\x963sz\xc6\xf5\x1b[wD\xf4\x08\x00 \x84p\xdc\xd1\x04gmj-\x8e\xfa"\xbe\xf7\xeaW\x9b\x9c\x9e\x8e4\x9d\x8e4\x9d-\x8cN5q\x8aM\xb1\x89K\xa9X\x11\xcd\xa89\xd0"\xb4\n'

visiblement ça ressemble à de l'utf 8 mais ça n'en est pas

merci de votre aide
Linux / Firefox 110.0


1 réponse

mamiemando Messages postés 33346 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 8 novembre 2024 7 803
15 mars 2023 à 20:20

Bonjour,

Ce que tu récupères est un flux binaire, et pas spécialement une chaîne UTF-8. Sans regarder les spécifications du format PDF, tu ne pourras pas faire grand chose de cette chaîne. Pour décoder un flux PDF, le plus simple serait d'utiliser (ou de t'inspirer) de pdfminer.

Bonne chance

0