Extraction pdf en python avec pypdf2

Fermé
hannachoum Messages postés 1 Date d'inscription mercredi 19 février 2020 Statut Membre Dernière intervention 19 février 2020 - 19 févr. 2020 à 00:42
 trifou - 19 févr. 2020 à 20:23
Bonjour,

Je suis débutante en python.
Dans le cadre d'un projet je dois extraire un fichier pdf dans python pour pouvoir ensuite le tokenizer et faire des stat dessus (à l'aide de nltk)
J'ai un problème car mon fichier pdf s'ouvre , mais la dèrnière lettre de chaque phrase est découpé et va à la ligne.
Je vous joins mon code :


import PyPDF2 as module

Filename= "TestOuvrir.pdf"
PDFfile = open(Filename,"rb")

pdfread = module.PdfFileReader(PDFfile)

var = pdfread.getPage(0)
txtacompter = var.extractText()

totalpages=pdfread.getNumPages()

text = " "
i=0
while (i<totalpages):
vartext = pdfread.getPage(i)
i = i + 1
text += vartext.extractText()


print (text)






Merci pour votre aide !!!


Configuration: Windows / Chrome 80.0.3987.106

1 réponse

Bonsoir,

Dans la doc https://pythonhosted.org/PyPDF2/PageObject.html#PyPDF2.pdf.PageObject.extractText il est précisé que cette fonction peut fonctionner plus ou moins correctement selon le générateur du pdf utilisé lors de sa création, bref c'est un peu au p'tit bonheur la chance.

En ce cas, il faudrait peut-être essayer une autre bibliothèque comme pdfminer.six ou encore reportlab.
1