OCR grands PDF
Résolu/Fermé
TOT127
Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
-
14 févr. 2017 à 11:21
contrariness Messages postés 20040 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 1 janvier 2025 - 14 févr. 2017 à 18:33
contrariness Messages postés 20040 Date d'inscription samedi 10 juillet 2010 Statut Membre Dernière intervention 1 janvier 2025 - 14 févr. 2017 à 18:33
A voir également:
- OCR grands PDF
- Lire le coran en français pdf - Télécharger - Histoire & Religion
- Free ocr - Télécharger - Divers Bureautique
- Comment faire un pdf - Guide
- Save as pdf - Télécharger - Bureautique
- Télécharger dictionnaire larousse pdf gratuit - Télécharger - Dictionnaires & Langues
2 réponses
contrariness
Messages postés
20040
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
1 janvier 2025
6 125
14 févr. 2017 à 13:16
14 févr. 2017 à 13:16
Le logiciel d'OCR travaille page par page.. c'est la qualite du scan de la page qui est importante... le nombre de page beaucoup moins sauf si vous travaillez en batch, mais ce n'est pas une obligation...
Vous avez Acrobat "Pro" qui possede un module de reconnaissance.... Le PDF reste intacte, le texte est ajoute par dessus et devient donc selectionnable.
Vous avez Acrobat "Pro" qui possede un module de reconnaissance.... Le PDF reste intacte, le texte est ajoute par dessus et devient donc selectionnable.
contrariness
Messages postés
20040
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
1 janvier 2025
6 125
14 févr. 2017 à 16:51
14 févr. 2017 à 16:51
Pour votre cas, il y a 2 parametres a prendre en consideration :
Le scanner et le logiciel de conversion en texte
Entre un scanner "photo" et en scanner d'archive il y a de tres grandes differences. Un scanner d'archive destiner a scanner des pages de texte ou de documents, est principalement axe sur la vitesse de scan avec une resolution optimum pour l'archivage.
C'est le genre de scanner capable de traiter 15 a 20 pages a la minute et ce en recto-verso... et pour un petit modele de base, les gros modeles allant encore plus vite.
Un scanner photo sera plus axe sur la qualite de l'image, les couleurs, la profondeur des noirs etc...
Si ce sont des pages a scanner, un scanner d'archive est l'ideal (enfin si c'est un livre ca pose un probleme quand meme !)...
Le logiciel d'OCR est un autre parametre, car le principe est d'analyser la forme d'un caractere et de le comparer a une bibliotheque de forme contenue dans le logiciel. A cela est associe un dictionnaire qui bien entendu soit etre configure pour la langue dans laquelle le texte a ete ecrit.
Les scanner d'archive sont generalement livres avec un logiciel d'OCR car cela permet de realiser l'indexation des pages scannees.
Le scanner et le logiciel de conversion en texte
Entre un scanner "photo" et en scanner d'archive il y a de tres grandes differences. Un scanner d'archive destiner a scanner des pages de texte ou de documents, est principalement axe sur la vitesse de scan avec une resolution optimum pour l'archivage.
C'est le genre de scanner capable de traiter 15 a 20 pages a la minute et ce en recto-verso... et pour un petit modele de base, les gros modeles allant encore plus vite.
Un scanner photo sera plus axe sur la qualite de l'image, les couleurs, la profondeur des noirs etc...
Si ce sont des pages a scanner, un scanner d'archive est l'ideal (enfin si c'est un livre ca pose un probleme quand meme !)...
Le logiciel d'OCR est un autre parametre, car le principe est d'analyser la forme d'un caractere et de le comparer a une bibliotheque de forme contenue dans le logiciel. A cela est associe un dictionnaire qui bien entendu soit etre configure pour la langue dans laquelle le texte a ete ecrit.
Les scanner d'archive sont generalement livres avec un logiciel d'OCR car cela permet de realiser l'indexation des pages scannees.
TOT127
Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
96
Modifié par TOT127 le 14/02/2017 à 16:56
Modifié par TOT127 le 14/02/2017 à 16:56
Merci de votre réponse. Malheureusement pour scanner les pages, je n'ai qu'une solution: photos au téléphone ou à l'appareil photo, car toute autre méthode m'est interdite pas les détenteurs de l'archive. Au téléphone c'est mieux: photos plus légères.
Là j'ai donc 2000 PDFs (scanés, non pas par moi mais par une bibli, au scanner) + environ 6000 pages d'archives photographiées à l'iphone (plutôt droit et de bonne qualité).
Dans ces conditions, que conseillez vous ?
La taille est fichiers est souvent délirante: 150Mo, 500Mo...
Là j'ai donc 2000 PDFs (scanés, non pas par moi mais par une bibli, au scanner) + environ 6000 pages d'archives photographiées à l'iphone (plutôt droit et de bonne qualité).
Dans ces conditions, que conseillez vous ?
La taille est fichiers est souvent délirante: 150Mo, 500Mo...
contrariness
Messages postés
20040
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
1 janvier 2025
6 125
Modifié par contrariness le 14/02/2017 à 17:06
Modifié par contrariness le 14/02/2017 à 17:06
Vous n'avez pas trop le choix..
Il faut les traiter dans un logiciel de retouche d'image une par une !..
Comme ce sont des images, le PDF est une enveloppe dans laquelle est une image sous un format qui peut etre recupere.
Photoshop ouvre les PDF directement (il suffit de demander l'ouverture par Photoshop au lieu d'Acrobat).
Ensuite il faut optimiser l'image sachant que vous devez garder la meilleur definition mais sans etre oblige de garder une tres grande resolution..! Pour cela vous banissez la compression JPG dans les PDF, et comme format d'image.. remplacez cela par le TIF avec une compression LZH/LHA ou ZIP.
Il faut les traiter dans un logiciel de retouche d'image une par une !..
Comme ce sont des images, le PDF est une enveloppe dans laquelle est une image sous un format qui peut etre recupere.
Photoshop ouvre les PDF directement (il suffit de demander l'ouverture par Photoshop au lieu d'Acrobat).
Ensuite il faut optimiser l'image sachant que vous devez garder la meilleur definition mais sans etre oblige de garder une tres grande resolution..! Pour cela vous banissez la compression JPG dans les PDF, et comme format d'image.. remplacez cela par le TIF avec une compression LZH/LHA ou ZIP.
TOT127
Messages postés
898
Date d'inscription
mercredi 8 avril 2009
Statut
Membre
Dernière intervention
7 août 2018
96
14 févr. 2017 à 17:40
14 févr. 2017 à 17:40
voilà qui semble fastidieux :/
si de mes images je fais un JPEG, je peux utiliser un logiciel OCR directement
si de mes images je fais un JPEG, je peux utiliser un logiciel OCR directement
contrariness
Messages postés
20040
Date d'inscription
samedi 10 juillet 2010
Statut
Membre
Dernière intervention
1 janvier 2025
6 125
14 févr. 2017 à 18:33
14 févr. 2017 à 18:33
Oui assez.. ca peut demander qq heures voir qq semaines de travail pour un resultat correct (car le retour d'OCR n'est jamais parfait, il faut relire ensuite).
C'est pour cela qu'un professionnel ne vous en ferait surement pas cadeau !
C'est pour cela qu'un professionnel ne vous en ferait surement pas cadeau !
14 févr. 2017 à 14:23
même acrobat pro, que j'ai testé sur l'ordi d'un ami