OCR grands PDF

Résolu/Fermé
Signaler
Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
-
Messages postés
16930
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
29 novembre 2021
-
Bonjour,
je cherche mais sans trouver un programme OCR pour mac ou PC qui permette de travailler sur des fichiers lourds (300Mo etc).
En général, c'est limité à 100Mo ou moins. Ce qui est loin de ce qu'il me faut. JE scanne en effet des archives, souvent en couleur, et ça donne des livres de 1000 pages.
une idée ? merci!

2 réponses

Messages postés
16930
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
29 novembre 2021
5 646
Le logiciel d'OCR travaille page par page.. c'est la qualite du scan de la page qui est importante... le nombre de page beaucoup moins sauf si vous travaillez en batch, mais ce n'est pas une obligation...

Vous avez Acrobat "Pro" qui possede un module de reconnaissance.... Le PDF reste intacte, le texte est ajoute par dessus et devient donc selectionnable.
1
Merci

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

CCM 41989 internautes nous ont dit merci ce mois-ci

Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
95
le truc c'est que j'ai testé pas mal de logiciels pour ordi. AUCUN n'arrive à avoir un niveau de qualité aussi bon que l'app iPhone OCR Pro (qui permet que de scanner des images) que Abbyy online, qui permet de ocr que des fichiers de < 100 Mo... Ils arrivent pas à la cheville de ça

même acrobat pro, que j'ai testé sur l'ordi d'un ami
Messages postés
16930
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
29 novembre 2021
5 646
Pour votre cas, il y a 2 parametres a prendre en consideration :
Le scanner et le logiciel de conversion en texte

Entre un scanner "photo" et en scanner d'archive il y a de tres grandes differences. Un scanner d'archive destiner a scanner des pages de texte ou de documents, est principalement axe sur la vitesse de scan avec une resolution optimum pour l'archivage.
C'est le genre de scanner capable de traiter 15 a 20 pages a la minute et ce en recto-verso... et pour un petit modele de base, les gros modeles allant encore plus vite.

Un scanner photo sera plus axe sur la qualite de l'image, les couleurs, la profondeur des noirs etc...

Si ce sont des pages a scanner, un scanner d'archive est l'ideal (enfin si c'est un livre ca pose un probleme quand meme !)...

Le logiciel d'OCR est un autre parametre, car le principe est d'analyser la forme d'un caractere et de le comparer a une bibliotheque de forme contenue dans le logiciel. A cela est associe un dictionnaire qui bien entendu soit etre configure pour la langue dans laquelle le texte a ete ecrit.

Les scanner d'archive sont generalement livres avec un logiciel d'OCR car cela permet de realiser l'indexation des pages scannees.
1
Merci

Quelques mots de remerciements seront grandement appréciés. Ajouter un commentaire

CCM 41989 internautes nous ont dit merci ce mois-ci

Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
95
Merci de votre réponse. Malheureusement pour scanner les pages, je n'ai qu'une solution: photos au téléphone ou à l'appareil photo, car toute autre méthode m'est interdite pas les détenteurs de l'archive. Au téléphone c'est mieux: photos plus légères.

Là j'ai donc 2000 PDFs (scanés, non pas par moi mais par une bibli, au scanner) + environ 6000 pages d'archives photographiées à l'iphone (plutôt droit et de bonne qualité).

Dans ces conditions, que conseillez vous ?
La taille est fichiers est souvent délirante: 150Mo, 500Mo...
Messages postés
16930
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
29 novembre 2021
5 646
Vous n'avez pas trop le choix..

Il faut les traiter dans un logiciel de retouche d'image une par une !..

Comme ce sont des images, le PDF est une enveloppe dans laquelle est une image sous un format qui peut etre recupere.
Photoshop ouvre les PDF directement (il suffit de demander l'ouverture par Photoshop au lieu d'Acrobat).

Ensuite il faut optimiser l'image sachant que vous devez garder la meilleur definition mais sans etre oblige de garder une tres grande resolution..! Pour cela vous banissez la compression JPG dans les PDF, et comme format d'image.. remplacez cela par le TIF avec une compression LZH/LHA ou ZIP.
Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
95
voilà qui semble fastidieux :/

si de mes images je fais un JPEG, je peux utiliser un logiciel OCR directement
Messages postés
16930
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
29 novembre 2021
5 646
Oui assez.. ca peut demander qq heures voir qq semaines de travail pour un resultat correct (car le retour d'OCR n'est jamais parfait, il faut relire ensuite).

C'est pour cela qu'un professionnel ne vous en ferait surement pas cadeau !