OCR grands PDF

Résolu/Fermé
TOT127 Messages postés 898 Date d'inscription mercredi 8 avril 2009 Statut Membre Dernière intervention 7 août 2018 - 14 févr. 2017 à 11:21
contrariness Messages postés 19433 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 26 avril 2024 - 14 févr. 2017 à 18:33
Bonjour,
je cherche mais sans trouver un programme OCR pour mac ou PC qui permette de travailler sur des fichiers lourds (300Mo etc).
En général, c'est limité à 100Mo ou moins. Ce qui est loin de ce qu'il me faut. JE scanne en effet des archives, souvent en couleur, et ça donne des livres de 1000 pages.
une idée ? merci!
A voir également:

2 réponses

contrariness Messages postés 19433 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 26 avril 2024 6 052
14 févr. 2017 à 13:16
Le logiciel d'OCR travaille page par page.. c'est la qualite du scan de la page qui est importante... le nombre de page beaucoup moins sauf si vous travaillez en batch, mais ce n'est pas une obligation...

Vous avez Acrobat "Pro" qui possede un module de reconnaissance.... Le PDF reste intacte, le texte est ajoute par dessus et devient donc selectionnable.
1
TOT127 Messages postés 898 Date d'inscription mercredi 8 avril 2009 Statut Membre Dernière intervention 7 août 2018 95
14 févr. 2017 à 14:23
le truc c'est que j'ai testé pas mal de logiciels pour ordi. AUCUN n'arrive à avoir un niveau de qualité aussi bon que l'app iPhone OCR Pro (qui permet que de scanner des images) que Abbyy online, qui permet de ocr que des fichiers de < 100 Mo... Ils arrivent pas à la cheville de ça

même acrobat pro, que j'ai testé sur l'ordi d'un ami
0
contrariness Messages postés 19433 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 26 avril 2024 6 052
14 févr. 2017 à 16:51
Pour votre cas, il y a 2 parametres a prendre en consideration :
Le scanner et le logiciel de conversion en texte

Entre un scanner "photo" et en scanner d'archive il y a de tres grandes differences. Un scanner d'archive destiner a scanner des pages de texte ou de documents, est principalement axe sur la vitesse de scan avec une resolution optimum pour l'archivage.
C'est le genre de scanner capable de traiter 15 a 20 pages a la minute et ce en recto-verso... et pour un petit modele de base, les gros modeles allant encore plus vite.

Un scanner photo sera plus axe sur la qualite de l'image, les couleurs, la profondeur des noirs etc...

Si ce sont des pages a scanner, un scanner d'archive est l'ideal (enfin si c'est un livre ca pose un probleme quand meme !)...

Le logiciel d'OCR est un autre parametre, car le principe est d'analyser la forme d'un caractere et de le comparer a une bibliotheque de forme contenue dans le logiciel. A cela est associe un dictionnaire qui bien entendu soit etre configure pour la langue dans laquelle le texte a ete ecrit.

Les scanner d'archive sont generalement livres avec un logiciel d'OCR car cela permet de realiser l'indexation des pages scannees.
1
TOT127 Messages postés 898 Date d'inscription mercredi 8 avril 2009 Statut Membre Dernière intervention 7 août 2018 95
Modifié par TOT127 le 14/02/2017 à 16:56
Merci de votre réponse. Malheureusement pour scanner les pages, je n'ai qu'une solution: photos au téléphone ou à l'appareil photo, car toute autre méthode m'est interdite pas les détenteurs de l'archive. Au téléphone c'est mieux: photos plus légères.

Là j'ai donc 2000 PDFs (scanés, non pas par moi mais par une bibli, au scanner) + environ 6000 pages d'archives photographiées à l'iphone (plutôt droit et de bonne qualité).

Dans ces conditions, que conseillez vous ?
La taille est fichiers est souvent délirante: 150Mo, 500Mo...
0
contrariness Messages postés 19433 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 26 avril 2024 6 052
Modifié par contrariness le 14/02/2017 à 17:06
Vous n'avez pas trop le choix..

Il faut les traiter dans un logiciel de retouche d'image une par une !..

Comme ce sont des images, le PDF est une enveloppe dans laquelle est une image sous un format qui peut etre recupere.
Photoshop ouvre les PDF directement (il suffit de demander l'ouverture par Photoshop au lieu d'Acrobat).

Ensuite il faut optimiser l'image sachant que vous devez garder la meilleur definition mais sans etre oblige de garder une tres grande resolution..! Pour cela vous banissez la compression JPG dans les PDF, et comme format d'image.. remplacez cela par le TIF avec une compression LZH/LHA ou ZIP.
0
TOT127 Messages postés 898 Date d'inscription mercredi 8 avril 2009 Statut Membre Dernière intervention 7 août 2018 95
14 févr. 2017 à 17:40
voilà qui semble fastidieux :/

si de mes images je fais un JPEG, je peux utiliser un logiciel OCR directement
0
contrariness Messages postés 19433 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 26 avril 2024 6 052
14 févr. 2017 à 18:33
Oui assez.. ca peut demander qq heures voir qq semaines de travail pour un resultat correct (car le retour d'OCR n'est jamais parfait, il faut relire ensuite).

C'est pour cela qu'un professionnel ne vous en ferait surement pas cadeau !
0