Transformer PDF de qualité moyenne en texte ?

Fermé
Sabrinella - 24 févr. 2011 à 19:16
leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 - 12 mars 2011 à 18:28
Bonjour,

Je suis étudiante, dans le cadre de mon mémoire je dois m'appuyer sur un corpus de textes (scannés en format PDF) parus dans la presse féminine.

J'ai 16 dossiers (de 1995 à 2010) à analyser sur ALCESTE (un logiciel statistique de données textuelles) qui ne prend que des formats texte.

Les PDF :

- de 2001 à 2010 sont en format texte (environ 400 pages).

- de 1995 à 2000 sont en format image (environ 250 pages), mais le texte est bien visible pour la lecture de l'oeil humain.

J'ai transféré ces derniers (de 1995 à 2000) sur l'OCR OMNIPAGE 15 (un logiciel de reconnaissance de caractères) afin d'en retirer le texte...

Soucis : les mots sont pas assez visibles pour OMNIPAGE...

Question : peut-on faire des réglages OU installer un filtre pour faciliter la reconnaissance d'Omnipage OU existe t'il un logiciel spécial "PDF pourris" ?

Je suis un peu (beaucoup) stressée car si je ne trouve pas de solutions, je devrais...
Ecrire au clavier ces 250 pages !!!

Aaaaaahhhhh : je n'ai pas le temps !!!

Je vous remercie d'avance.



A voir également:

5 réponses

leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 26
24 févr. 2011 à 19:36
Bonjour Sabrinella,

Effectivement il y a des réglages dans Omnipage, excellent produit d'OCR.

Il faut essayer d'augmenter ta résolution qui de mémoire est par défaut réglée sur 300 pixels (300 ppp)
Attention augmenter cette résolution va augmenter la taille de la page si tu la scannes en tant qu'image pour la lire dans un traitement de texte.

Il faut que tu fasses des tests avec différentes résolutions en envoyant le résultat directement dans ton traitement de texte.

Ensuite tout excellent qu'il soit il a quand même besoin de corrections c'est son apprentissage.


Cordialement,
Leph
0
Je précise que je n'ai pas accès aux magazines "papier". La rédaction de Elle m'a envoyé ses revues scanées sur un CD gravé... Et voilà : débrouille-toi avec nos PDF de l'âge de pierre...
0
Bonsoir Leph.
Comment fait-on pour augmenter la résolution ?...
L'ocr est vraiment naze...
0
leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 26
8 mars 2011 à 14:57
Bonjour Sabrinella,

Il va falloir que tu fouines il y a bien longtemps que j'ai utilisé Omnipage c'était je crois sous Win98...!!!
Le programme a des assistants qui te permettent de régler ton scanner.
Il faut aussi que ton scanner soit correctement réglé.

Tu peux aussi agrandir les zones à scanner avant de lancer le scan ce qui apporte une meilleure lisibilité.

Je regarde si dans mes cartons j'aurai gardé un manuel.

Cordialement,
Leph
0
Bonsoir Leph.

Scanner ?
Je n'ai pas de scanner...
ELLE m'a envoyé des fichiers de magazines déjà scannés.
Je n'ai pas accès au "magazines papier".

Bonne soirée.
0
leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 26
12 mars 2011 à 18:28
Bonsoir Sabrinella,

Désolé, je me suis mal exprimé.

Omnipage permet, en plus d'un scan matériel, de scanner du texte enregistré sous un format image.
Donc tes "images-texte" sont sur les CD
Tu les ouvres depuis Omnipage pour les scanner et retranscrire le texte dans un traitement de texte.

Est-ce plus clair ?

Cordialement,
Leph
0
zorroestarrivé Messages postés 1847 Date d'inscription mercredi 2 juillet 2008 Statut Membre Dernière intervention 27 juin 2015 518
Modifié par zorroestarrivé le 24/02/2011 à 21:12
Bonsoir Sabrinella,

A tout hasard, peux-tu poster ici en utilisant cijoint.fr (http://www.cijoint.fr ) une image de page de texte afin que je vois si avec Adobe Acrobat cela est correctement exploitable?

Bonne soirée
Il est bien plus beau de savoir quelque chose de tout que de savoir tout d'une chose - Blaise PASCAL
0
Bonsoir Zorro.

Voici le lien : http://www.cijoint.fr/cjlink.php?file=cj201102/cijPt1KHu7.pdf

Bonne soirée.
0
zorroestarrivé Messages postés 1847 Date d'inscription mercredi 2 juillet 2008 Statut Membre Dernière intervention 27 juin 2015 518
25 févr. 2011 à 11:32
Bonjour,

J'ai donc utilisé Adobe Acrobat et fait "enregistrer sous doc word".
Voici le résultat...
Pas de miracle mais...
http://www.cijoint.fr/cjlink.php?file=cj201102/cijBcX9DeY.doc

Bonne journée!
0
J'ai Adobe Reader 9... Il ne fait pas "l'acrobate" ?
Je n'arrive pas à "enregistrer sous word"...
0
zorroestarrivé Messages postés 1847 Date d'inscription mercredi 2 juillet 2008 Statut Membre Dernière intervention 27 juin 2015 518
3 mars 2011 à 23:00
Adobe Reader est la version "light" donc tu n'as pas accès aux fonctions spéciales telles que celle que j'ai utilisée.

Pour faire l'acrobate totalement il faut la version complète.
Tu peux la télécharger ici: https://acrobat.adobe.com/fr/fr/free-trial-download.html
et t'en servir durant la période d'essai de 30j.

Voili

Bonne soirée!
0
leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 26
24 févr. 2011 à 21:19
Bonsoir Sabrinella,

Je n'ai pas Omnipage sur mon PC ce ne sont que des souvenirs

Testes en changeant ta résolution

Pourquoi veux-tu absolument passer par Acrobat ?
Je ne comprends pas puisque tu scannes en OCR des documents qui proviennent de Acrobat ?
C'est bien pour les transformer en texte afin de ne pas connaître la douloureuse saisie au kilomètre.

Quelque chose m'échappe...

Cordialement,
Leph
0
leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 26
24 févr. 2011 à 21:26
Bonsoir

Je n'avais pas vu que ce n'était pas Sabrinella qui avait répondu mais Henri Cording
Désolé

Cordialement,
Leph
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
leph Messages postés 673 Date d'inscription mardi 22 novembre 2005 Statut Membre Dernière intervention 18 mai 2016 26
25 févr. 2011 à 13:22
Bonjour Sabrinella,

J'ai vu les liens ci-dessus l'image originelle ne semble pas si mauvaise.

Avec Omnipage soit depuis le scanner tu envoies directement dans Word
Mais tu peux également ouvrir un fichier texte enregistré en image et toujours l'envoyer dans Word

Je t'assure, fais des tests de résolution le résultat devrait s'améliorer.

Cordialement,
Leph

La citation
Biiinn, euuuh, j'sais pas moi...
0