Extraction pdf en python avec pypdf2

Question

Bonjour, 

Je suis débutante en python. 
Dans le cadre d'un projet je dois extraire un fichier pdf dans python pour pouvoir ensuite le tokenizer et faire des stat dessus (à l'aide de nltk) 
J'ai un problème car mon fichier pdf s'ouvre , mais la dèrnière lettre de chaque phrase est découpé et va à la ligne. 
Je vous joins mon code : 


import PyPDF2 as module

Filename= "TestOuvrir.pdf" 
PDFfile = open(Filename,"rb")

pdfread = module.PdfFileReader(PDFfile)

var = pdfread.getPage(0)
txtacompter = var.extractText()

totalpages=pdfread.getNumPages()

text = " "  
i=0
while (i<totalpages):
     vartext = pdfread.getPage(i)
     i = i + 1
     text += vartext.extractText()

    
print (text)






Merci pour votre aide !!! 


Configuration: Windows / Chrome 80.0.3987.106

trifou · Answer

Bonsoir,

Dans la doc https://pythonhosted.org/PyPDF2/PageObject.html#PyPDF2.pdf.PageObject.extractText il est précisé que cette fonction peut fonctionner plus ou moins correctement selon le générateur du pdf utilisé lors de sa création, bref c'est un peu au p'tit bonheur la chance.

En ce cas, il faudrait peut-être essayer une autre bibliothèque comme pdfminer.six ou encore reportlab.

Extraction pdf en python avec pypdf2

1 réponse

Discussions similaires

Newsletters