Convertir un pdf en fichier client excel
Résolusylvier68 Messages postés 85 Date d'inscription Statut Membre Dernière intervention -
bonjour,
Depuis un annuaire qui sera scanné, je dois effectuer un publipostage. Comment ne pas saisir les adresses manuellement ? J'ai essayé avec google docs mais les adresses sont dans tous les sens.
Je vous remercie d'avance pour votre aide
- Transformer pdf en excel
- Lire le coran en français pdf - Télécharger - Histoire & Religion
- Liste déroulante excel - Guide
- Mise en forme conditionnelle excel - Guide
- Word et excel gratuit - Guide
- Save as pdf office 2007 - Télécharger - Bureautique
15 réponses
Bonjour,
Quand on scanne un document, il faut utiliser un logiciel OCR, parfois inclus dans le logiciel de scan. On peut alors obtenir un fichier texte beaucoup plus utilisable qu'un pdf qui contient une image.
Il y a fort longtemps que je n'ai pas utilisé l'OCR (en anglais, optical character recognition, ROC en français pour reconnaissance optique de caractères). Mais dans le contexte présent il convient d'abord de revenir sur les fichiers PDF.
Un fichier PDF peut contenir différents types de données, principalement pour un utilisateur ordinaire :
- un PDF qui contient du texte, il va être généré par un éditeur PDF, Word, Excel, ou même l'imprimante PDF de Windows quand elle est utilisée sur du texte. Sur un PDF de ce type, on peut faire de la recherche de texte, on peut sélectionner et copier du texte pour l'insérer dans un autre logiciel.
- un PDF qui contient une image, c'est le cas d'un PDF généré en scanant un document papier. On ne peut pas faire de recherche sur le contenu de ce fichier PDF, ni sélectionner une partie du texte. On peut seulement sélectionner l'image complète et la copier vers un autre logiciel.
Avec un PDF texte, on peut donc copier/coller le texte vers Excel, voir même l'incorporer directement, par exemple sous Excel 2021, Données/Obtenir des données/A partir d'un fichier/A partir d'un fichier PDF
Exemple avec ce fichier PDF texte : https://cijoint.org/r/yED74ANT#fQoE+anXTHnVGQIsbN/BGh7KTtC6CLjZchOeStJ98KE= Annuaire paroisse pdf texte.pdf
Avec un copier/coller vers Excel on obtient : https://cijoint.org/r/rqQ0fhTY#Mzs0yUxohrO2ru/jJas1Zh/ySgiHU6aJXH7dZu/MXrA= Annuaire paroisse pdf texte copier coller.xlsx
Et en récupérant directement le texte du PDF dans Excel : https://cijoint.org/r/dv0Q6nTJ#6WL8Mxs5f9YelX2v7raMyOu74FkeDCMBZR1zCQKX6Ko= Annuaire paroisse pdf texte chargé dans Excel.xlsx
Les données s'intègrent donc bien dans un tableau Excel.
Mais avec un PDF obtenu en scanant un document papier, ce n'est pas possible. Il faut convertir l'image en texte en utilisant un logiciel OCR. Plusieurs logiciels de scan founis avec des scanners ou imprimantes, proposent une fonction OCR. Si ce n'est pas le cas, il faut utiliser un logiciel spécialisé. Il me semble que les meilleurs sont tous payants. Il y a assez longtemps j'avais utilisé un logiciel déjà ancien, http://www.boxoft.com/free-ocr/ avec un certain succès, sans être parfait, sur un livre et des corrigés d'exercices de programmation. Mais là sur le PDF contenant une image du tableau, il ne s'en sort pas du tout. Je viens d'essayer 3 OCR en ligne, le meilleur https://www.onlineocr.net/fr/pdftoexcel
Partant du PDF texte j'ai créé un PDF image, équivalent d'un scan : https://cijoint.org/r/8X2NCS2S#CntrkU2Qs8qE1ycJdczjRnSBojkwPpbX8BbrPhKWdLk= Annuaire paroisse pdf scanné image.pdf
Avec onlineocr on obtient le fichier Excel : https://cijoint.org/r/DQoyF_en#3ZdiZhqvx54dX4tNqLeFm8vH5A0ofYd0EoS9sTKq8tU= Annuaire paroisse onlineocr pdf.xlsx c'est pas mal, l'@ de l'email lui posant soucis.
@sylvier68, tu devrais tester ce site enligne. voila un exemple sur ton fichier https://cijoint.org/r/HupZuQ2R#gS4/hh+h5itFnoeNZaqEPMT/IpFnv4OM9LxgfE7iSug=
Bonjour,
Excellent ! je vais prendre un abonnement onlineocr
Au sujet de " Avec onlineocr on obtient le fichier Excel : https://cijoint.org/r/DQoyF_en#3ZdiZhqvx54dX4tNqLeFm8vH5A0ofYd0EoS9sTKq8tU= Annuaire paroisse onlineocr pdf.xlsx c'est pas mal, l'@ de l'email lui posant soucis."
voici une page de l'annuaire pour voir si cela peut se faire avec votre procédure.
Pourriez-vous me transmettre comment vous avez procédé pour arriver à ce tableau excel ? je n'aurai que des pages en pdf, dois-je les transformer en word d'abord ?
https://cijoint.org/r/7WaM3K1u#W9Iy3hsseaV8aYOV5GkBQ/92kpcxB9L8nob4aGl1bVE=
merci beaucoup pour votre réponse,
Sylvie
Comme tes données ne semblent pas confidentielles, tu pourrais utiliser le site :
Conversion de PDF en Excel
J'ai testé une conversion de ton fichier en Word :
https://www.swisstransfer.com/d/7e0c95bb-46d7-486a-b88c-0c3e2c05dc19
Tu as droit à un essai gratuit et ensuite, c'est 7 € par mois.
Daniel
Il est preferable d'optimier le document avant de le passer en OCR.
Comme il est en colonnes, coupez le fichier image PDF en bandes verticales avant de le passer en OCR.
Pour l'OCR, verifier le langage. Si il est en anglais vous allez avoir beaucoup d'erreur car la transformation ne peut pas verifier l'orthographe avec un dico français.
Une fois copier dans Word, nettoyez et rajouter les séparateurs.
C'est faisable,
Il m'est deja arrive de recuperer des adresses dans un fichier PDF.
L'OCR est indispensable pour les doccuments PDF scannés.. Pour cela il y a Google avec la limitation du nombre de page. ou Acrobat Pro qui fait cela pas trop mal.
Ensuite, je prefere faire du copier-coller dans Word.
Word permet de nettoyer le fichier, et d'inclure des separateurs (virgule ou tab, etc.) avec les fonctions de "rechercher-remplacer" et qui seront récupérés par Excel pour remplir les cellules.
C'est peut-etre un peu plus long mais le fichier est beaucoup plus propre
Vous n’avez pas trouvé la réponse que vous recherchez ?
Posez votre questionAvec https://www.onlineocr.net/ en créant un docx. Sur ce docx faire un minimum de ménage en haut et en bas, puis un copier/coller vers un .txt (Bloc notes) cela va supprimer les petites images des icônes, puis un copier/coller vers Excel. cela donne https://cijoint.org/r/dTa9akXQ#eZGKkwoN/z2iQ7JXCRbazEMlXOZSwvuRCOA8CRYSi90=
Il semble assez facile de faire du ménage sur les lignes, en consultant à coté le .pdf original.
Bonjour Jee pee,
J'ai bien suivi vos conseils,
Maintenant j'ai un excel à transformer en ficher client avec colonnes "nom" "prénom" "adresse 1" "adresse 2" "CP " "ville" "tel".
voici le lien https://www.transfernow.net/dl/20250723rVkFjJuv
existe- t- il un moyen plus rapide que de faire des copier-coller ?
merci pour votre réponse,
Sylvie
Bonjour,
Pour info : un vieux logiciel OCR qui fonctionne toujours, même sous Windows 11
FreeOCR à télécharger sur le site de l'éditeur http://www.paperfile.net/
Bonjour,
La version 365 d'Excel (Microsoft 365) sait lire les tableaux inclus dans les fichiers PDF et sait aussi lire le texte présent sur des images. Si le scanner peut produire des images au lieu d'un PDF, il peut être intéressant d'essayer. La fiabilité du résultat dépend de la police utilisée. Celle-ci n'a pas besoin d'être une police OCR.
Onglet Données / Récupérer et transformer des données / A partir de l'image / Image à partir d'un fichier.
Pour un PDF :
Onglet Données / Récupérer et transformer des données / Obtenir des données / A partir d'un fichier / A partir d'un fichier PDF.
Daniel
Bonsoir,
Je n'ai que Excel 2013 et il ne propose pas de récupérer et transformer des données.
On me propose de passer par un logiciel OCR (lequel ?) mais ensuite je dois effectuer des "copier-coller" dans chaque cellule pour préparer mon fichier excel de publipostage. J'ai 2000 adresses, est-ce que vous connaissez un moyen plus rapide ?
Sylvie
A partir d'un annuaire papier, il faut bien scanner et passer par une transformation en texte par ocr. Si on n'a pas une version office qui le fait. Google doc fait peut être la même chose même si les adresses "sont dans tous les sens"
Il faut regarder le logiciel du scanner pour voir s'il fait de l'OCR.
Quand on a un fichier texte, il est possible de le charger dans excel, sans faire du copier coller.
AVez vous un fichier pdf exemple ?
bonjour,
Je n'ai pas le logiciel du scanner puisque c'est la personne qui m'envoie les pdf.
mon scanner est un petit epson M75P et il n'a pas la fonction OCR
Ma version office excel/word est de 2013.
J'ai 2000 adresses à reporter sur un tableau excel et ensuite je dois engager un publipostage sur courrier.
Je ne peux pas envoyer le fichier pdf sur le forum, pourriez vous me donner votre email ?, le mien est ***@***
merci
Bonjour,
Je vais avoir environ 80 pages scannées à transformer en word, quel logiciel OCR me conseillez-vous car les gratuits seront limités. Ensuite depuis la page word, je vais devoir effectuer des copier-coller ligne par ligne sur excel pour construire un fichier client et effectuer un publipostage.
merci pour votre aide
Sylvie
Déjà pourquoi le transformer en Word pour le mettre dans Excel afin, je suppose, de faire une base de données pour un publipostage
Récuperer en OCR 2000 adresses sur 80 pages Pdf me semble totalement irréaliste
Il vient d'où cet annuaire ?
Il existe en format électronique sur un site ? (Pages jaunes par exemple ?)
Bonsoir,
Je n'ai que Excel 2013 et il ne propose pas de récupérer et transformer des données.
Sylvie
Bonjour,
Que faut-il entendre par "annuaire", des pages d'un document qui serait déjà à ce format ou le choix du format par l'expéditeur? Dans la deuxième hypothèse, il n'y a pas de sens à ce choix alors qu'il sait que la base de données devra être traitée.
Dès lors que le pdf serait assimilable à du texte, un certain nombre de sites en ligne se flattent de pouvoir convertir vers au moins CSV mais il est probable qu'il y a des limites de taille.
Un certain nombre cette fois-ci de logiciels font de même, la plupart payants mais avec des essais gratuits qui peuvent suffire à la cause si elle est ponctuelle, quitte à ensuite y faire un rechercher-remplacer des délimiteurs qui seraient défaillants.
https://updf.com/fr/convert-pdf/pdf-to-csv-converters/?srsltid=AfmBOopXztZnuphij8Im5lM1yy99cULbHRkFMFUpHc-eZq-WCfWNRW2o
Bonjour,
J'ai en effet fait le cobaye en sélectionnant à la souris un tableau PDF entier et en le copiant sous Excel.
La colonne de titres passe à la trappe, mais c'est un détail; le souci est que je n'ai aucun délimiteur à part des espaces mais qui existent aussi dans les titres, on va alors selon la structure du fichier d'origine avoir du sport à séparer les données quand bien même auraient-elles été dans un premier temps copiées dans un fichier txt ou csv puis importées.
Bonjour à tous,
Crdlmt
bonjour,
merci pour votre réponse, en fait je vais avoir environ 80 pages scannées à transformer en word, quel logiciel OCR me conseillez-vous car les gratuits seront limités.
Ensuite depuis la page word, je vais devoir effectuer des copier-coller ligne par ligne sur excel pour construire un fichier client et effectuer un publipostage.
Est-ce que le module que vous proposez effectue ce transfert ?
merci pour votre aide
Sylvie
bonjour DjiDji59430
merci pour votre réponse, en fait je vais avoir environ 80 pages scannées à transformer en word, quel logiciel OCR me conseillez-vous car les gratuits seront limités.
Ensuite depuis la page word, je vais devoir effectuer des copier-coller ligne par ligne sur excel pour construire un fichier client et effectuer un publipostage.
Est-ce que le module que vous proposez effectue ce transfert ?
merci pour votre aide
Sylvie
voici une page de l'annuaire que je dois traiter, cad en faire un fichier client excel et effectuer un publipostage
https://www.swisstransfer.com/d/a0e11dec-bdc2-40d5-b04c-44d548d9b3b9
voila ce que ça donne, traité par un ocr
https://www.swisstransfer.com/d/50a93b43-1f8a-4e09-8d90-3e197fc982f7
Crdlmt
Bonjour,
C'est vrai, mais, quelle que soit la solution, tu auras toujours des corrections à apporter, surtout que, si j'en juge par le fichier que tu as partagé, la qualité de l'impression n'est pas extra.
Daniel
Vous pouvez faire ce que vous voulez, mais ce ne sera jamais parfait.
Dans un premier temps il faut couper le fichier image PDF pour n'avoir qu'une seule colonne et ensuite passer le fichier de cette unique colonne en OCR
De cette facon vous n'avez plus la selection parasite des autres colonnes.
Ensuite, apres un copier coller (a faire de preference page par page) dans Word, il faut nettoyez les caracteres inconnus et les remplacer, et placer des separateurs pour que la copie dans Excel soit possible.
Pour avoir un resultat relativement bon, la qualite du scan est importante et bien droite ! (si vous avez un travers vous aurez plus d'erreur). Au moins 300 dpi et en niveau de gris. Ensuite, le logiciel d'OCR doit avoir son dictionnaire en francais ou specifique au fichier si c'est technique.
Avec cela on peux se simplifier la tache mais c'est quand meme du travail
Bonjour,
Ce n'est pas nécessaire de découper le pdf en colonnes au moins pour le pdf proposé.
Sous windows j'ai utilisé le logiciel open source tesseract-ocr
https://sourceforge.net/projects/tesseract-ocr.mirror/
dans un script python qui:
transforme le pdf en image (niveau de gris)
lance tesseract-ocr
puis met en forme le fichier obtenu.
Ca donne un fichier .csv séparateur: Tabulation
ELU AUVERGNE RHÔNE-ALPES Savoie @) (PPNC) + Abondance (@) + Emmental + Affinage seul S$° + Reblochon fermier @) Fromagerie du Mont Chéry 137 Les Perrières - 74260 Les Gets - Tél: 04 50 79 70 04 / 06 33 92 39 86 - www.fruitiere-lesgets.com D Montagne de Savoie + Raclette de Savoie @) + Tomme de Savoie @) (PPNC) + Abondance @ Fromagerie l’Alpage 337 route de La Plagne - 74110 Morzine-Avoriaz - Tél.: 04 50 79 12 39 - www.alpage-morzine.com Ÿ + romme de Morzine (PPNC) SŸ° + Fromage de Morzine (PPNC) Fromagerie Peguet 1542 route du Chef-Lieu - 74250 Fillinges - Tél.: 04 50 36 42 27 - www.fromagerie-pequet.fr SY 4 Raclette + Raclette FT} + Reblochon @) + Reblochon Fi @ + Tomme Peguet + Tomme Peguet Fj (PPNC) + Abondance @) Fromagerie Pochat & Fils 9 av. du Pré Felin - ZAE Les Glaisins - BP 119 - 74941 Annecy-le-Vieux cedex - Tél: 04 50 64 00 58 - www.pochatetfils. fr SŸ + Beaumont (PPNO) Fromageries Masson 20 rue de la Résistance - ZI du Mont- blanc - 74100 Annemasse - Tél.: 04 50 37 51 76 - www.fromagerie-masson.fr # + Reblochon @ + Reblochon FE @ + Tomme de Savoie © (PPNC) + Emmental de Savoie ©) Fruitière de Bogève 275 Roule de Plaine Joux - Chef-Lieu - 74250 Bogève - Tél.: 04 50 36 60 32 ÿ + Lactique de vache frais + Raclette de Savoie @ + Reblochon @ + Tomme de Savoie @) (PPNC) + Abondance @) + Pâte pressée cuite (PPC) Gaec de Vercot 1340 roule de la Roche-sur-Foron - 74930 Pers-Jussy - Tél.: 04 50 94 46 15 - Fbk: gaec de vercot S$ + Reblochon © Gaec La Louisa 2766 toule de la Chapelle Rambaud - 14930 Pers-Jussy - Tél.: 04 50 94 42 83 SŸ + Reblochon @ Gaec Le Combasseron 820 Route des Crozats - 74420 Villard sur Boege - Tél.: 04 50 39 16 63 SŸ + Abondance @ La Fruitière des Moises 277 Route du pré nouveau - 74550 Cervens - Tél.: 04 50 72 45 71 S$° + Reblochon Et © Le de Thônes - Coop. du Reblochon 40 av. d'Annecy - BP 38 - 74230 Thônes - Tél.: 04 50 02 05 60 - www.reblochon-thones.com S$° + Raclette de Savoie © + Reblochon @ + Reblochon F4 @ + Roche de Thônes + Tomme de Savoie &) (PPNC) Nos Paysans des Savoie 1420 Avenue André Lasquin - 74700 Sallanches - Tél.: 04 79 31 70 91 - Fbk: CoopValdArly S$° + Raclette de Savoie € + Tomme de Savoie (@) (PPNC) Pochat Fromages Chemin du Mont - Allée Chateau Machet - 74230 Thônes SŸ° + Reblochon © + Emmental de Savoie @) + Affinage seul SŸ° + Royal Savoie + Tomme ancestrale (PPNC) Schmidhauser Fromagers et affineurs 375 route du Fier - ZA d'Alex - 74290 Alex - Tél.: 04 50 02 82 36 - www.schmidhauser.fr SŸ° + Moelleux du Revard + Raclette aromatisée + Raclette de Savoie © + Tome des Bauges @ + Tomme de Saint-Ours + Tomme de Savoie ©) (PPNC) + Abondance ©) + Affinage seul Ÿ + chevrotin @ Ÿ + Persillé de Tignes SŸ + Reblochon fermier @ + Reblochon laitier @ + Tomme fermière (PPNC) + Abondance fermier @ + Beaufort @) + Beaufort chalet d'alpage @ + Le Cousin (PPC) Affineurs Cave d’Affinage Paccard 225 Route de Chalmont - Les Bréviaires - 74230 Manigod - Tél.: 04 50 44 07 50 - www.reblochon-paccard.fr Ÿ + Tommette de brebis fermière 4 Chevrotin @ + Tommette de chèvre fermière (PPNC) YS + Persillé de Tignes SŸ + Persillé des Aravis + Bleu de Termignon + Manigodine + Raclette de Savoie laitier @) + Reblochon fermier @} + Reblochon fermier Et} @) + Reblochon laitier @) + Tomme de Savoie laitière @) + Tomme fermière Hors-série n°23 - Janvier 2025 Et (PPNC) + Abondance fermier [4j @ + Abondance laitier @) (PPDC) + Beaufort chalet d'alpage @) Edelmont ZA sur les Iles - 74230 La Balme de Thuy - Tél.: 04 50 02 88 33 - www.brezain.com SŸ° + Reblochon fermier @ + Reblochon laitier (> (PPNC) Ets Christophe Lalliard 566 route de Toisinges - 74800 Saint-Pierre en Faucigny - Tél.: 04 50 97 05 36 - www.fromagerie-lalliard.com S$° + Reblochon fermier © + Reblochon laitier @> (PPNC) Fromagerie Annecienne Chemin des Rutys - 74370 Pringy - Tél.: 04 50 27 20 09 YY + Persillé de Tignes S + Bleu de Termignon + Raclette fermier + Tomme de Savoie laitière © (PPNC) Fromagerie Bouchet ZA du Juge Guérin - 74160 Beaumont - Tél.: 04 50 04 58 02 - www.fromageriebouchet.com Ÿ + Chevraillon fermier (PPNC) S$° « Moelleux des Alpes à la truffe + Moelleux des Alpes ail des ours + Moelleux des Alpes nature (PMCF) + Bleu de Gex @> + Morbier laitier @ + Raclette à l'ail des ours + Raclette à la truffe + Raclette au poivre + Raclette de Savoie laitier © + Raclette laitier FF + Raclette laitier fumée FX + Raclette moutarde + Reblochon Fi @ + Reblochon fermier @ + Reblochon laitier Ef @) + Tomme de Savoie fermière @) + Tomme de Savoie laitière ©) + Vacherin genevois (PPNC) $ Abondance fermier @) + Abondance laitier @ + Abondance laitier F4 @ + Terramont + Toupin des Alpes 5 baies + Toupin des Alpes ail des ours + Toupin des Alpes sariette (PPDC) * Beaufort @ + Comté @) (PPC) fromagerie-la-tournette.fr Fromagerie Edouard Conus 136 route de Reignier - ZAE Les Contamines - 74930 Pers-Jussy - Tél.: 04 50 94 49 49 - www.conus.fr Ÿ + Tommette de brebis fermière (PPNC) Ÿ + Tommette de chèvre fermière (PPNC) *Ÿ + Raclette de Savoie laitier @) 4 Reblochon fermier @) + Reblochon laitier @ + Reblochon laitier Xj @ + Tomme de Savoie fermière @ (PPNC) + Abondance fermier @ + Abondance laitier @) (PDC) + Beaufort @) Fromagerie Père et fils 358 chemin de Volland - 74910Challonges - Tél.: 04 50 59 23 10 S$ 4 comté @ Fromagerie Pochat & Fils 9 av. du Pré Felin - ZAE Les Glaisins - BP 119 - 74941 Annecy-le-Vieux cedex - Tél.: 04 50 64 00 58 - k www.pochatetfils.fr Ÿ Chevrotin @ S$° + Raclette fermier + Reblochon fermier @ + Reblochon laitier @ + Tomme fermière (PPNC) Fromages Jean-Pierre Missillier 167 route des Frasses Jacquiers - 74450 Le Grand-Bornand - Tél.: 04 50 02 31 47 Ÿ + chevrotin © # + Persillé des Aravis + Double Bornandin + Reblochon fermier @ + Tomme fermière Missillier + Tommette Missillier (PPNC) Gédéon Fromages - Pochat fromages Chemin du Mont - 74230 Thônes - Tél.: 04 50 02 00 70 Y + Persillé de chèvre des Aravis + Chevrotin @) SŸ° + Reblochon fermier © + Reblochon laitier @) + Royal Savoie + Tomme ancestrale (PPNC) + Beaufort (@ La Cave d’Azélie 303 Route de Vonnes - 74390 Châtel - Tél.: 06 47 16 78 99 + Abondance fermier @> La Ferme du Noyer 35 route de Coppy - 74500 Saint-Paul- en-Chablais - Tél.: 04 50 75 66 57 / 06 82 60 68 56 - www.alpagedeneuvaz.fr SŸ° + Raclette de Savoie laitier @) + Tomme de Savoie fermière @) + Tomme de Savoie laitière @ Le Farto de Thônes - Coop. du Reblochon 40 av. d'Annecy - BP 38 - 74230 Thônes - Tél.: 04 50 02 05 60 - www.reblochon-thones.com Ÿ, Chevrotin @ + Tomme de chèvre fermière Farto (PPNC) Sÿ° + Raclette de Savoie laitier @) $ Reblochon fermier @ + Reblochon fermier Ffj @ + Tomme de Savoie fermière @) + Tomme de Savoie laitière @) (PPNC) + Abondance fermier @) + Abondance fermier fx @ (PPDC) Page 1-1 - Copie ELU AUVERGNE RHÔNE-ALPES Savoie @) (PPNC) + Abondance (@) + Emmental + Affinage seul S$° + Reblochon fermier @)
il reste des erreurs que volontairement je n'ai pas corrigé exemple::
- en haut à droite du pdf le (27) entouré provoque une erreur de tesseract
il détecte Fromagerie Père et fils au lieu de Fromagerie Gojon Père et fils
- les adresses qui ne commencent pas par un numéro causent problème a mon script
Pochat Fromages Chemin du Mont - Allée Chateau Machet - 7423
manque la tabulation après Pochat Fromages
De toutes manières une correction manuelle est indispensable.
Si vous êtes intéressée je peux détailler.
bonsoir,
Quel logiciel OCR me conseillez-vous ? merci pour votre réponse.