Novice dans la programmation

Question

Bonjour,

Je suis doctorant en langues étrangères et pour m’aider dans ma thèse, j’aimerais créer un logiciel qui recherche et pointe des mots de vocabulaire en rentrant trois nombres qui constituent ensemble des coordonnées.
 
Je m’explique, je suis en train d’apprendre le grec moderne, et j’ai eu l’idée de numéroter les mots de vocabulaire faisant parti d’un énorme fichier pdf : prenons par exemple le verbe « ξεδιψω » (Ksedipso) qui siginie « étancher sa soif ». 

Il porte les coordonnées 14;86;16 ou 148616 puisque chaque mot a son propre « « Serial Number ».  Et je voudrais, quand je rentre ces trois nombres dans mon futur logiciel ou même le nombre entier, directement avoir le mot qui apparaît sans m’embêter à le chercher dans le fichier pdf et le noter dans Excel.

Donc ma question, c’est comment m’y prendre ? Je suis prêt à tout programmer moi-même, j’ai également le code source du fichier pdf mais je ne sais vraiment pas par où commencer.

Merci pour votre attention

Configuration: Windows / Chrome 65.0.3325.162

Utilisateur anonyme · Answer

Bonjour

Elle correspondent à quoi ces coordonnées?
Numéro de page, numéro de ligne numéro de mot?

Utilisateur anonyme · Answer

Numéro de lettre?
Ça ne représente pas un mot alors, mais une lettre?

Utilisateur anonyme · Answer

Bien

il te faut choisir un langage, cet article peut t'y aider
https://www.commentcamarche.net/faq/457-programmation-comment-debuter-quel-langage

La plupart dispose d'outils (API ou bibliothèque) permettant de lire un pdf et d'autre pour écrire dans excel.

Une fois choisi, suis un cours en ligne pour apprendre les bases.
Fais le bien du début à la fin (même si ça te parrait simple, parfois on rate une notion qui s'avère cruciale par la suite). Ceux de developpez.com sont généralement bien


Après passe à ton programme, y'a plusieurs approches,
option 1

tu tapes tes coordonnées (peu importe le format)
le programme vérifie dans le stock (à définir) que tu l'as pas déjà.
si tu l'as message d'erreur et arrêt de la recherche
le programme va lire le pdf,
vérifie que la page contient des mots qui commence par la bonne lettre,
si oui cherche le mot
écrit dans excel
stocke les coordonnées
si non message d'erreur
option 2

une fois pour toute tu transferts tous tes mots dans une base de données (qui peut être un fichier excel, mais aussi un csv, un xml un json, Access, sql ,etc.... )
chaque mot possède une clé unique qui est la coordonnée.
chaque mot possède son orthographe
chaque mot possède sa définition
chaque mot possède son type (verbe, nom, article etc...)
chaque mot possède son genre (si ça existe en grec)
bref chaque mot possède tout ce qui le définit.
dans ton programme,
tu tapes la coordonnées
le programme vérifie qu'elle existe
si oui écrit dans excel et strocke
si non message d'erreur
option 3
je n'y ai pas réfléchi


Je pense que l'option 2 sera plus rapide à l'exécution.

Realness · Answer

Ok, je vais me pencher sur le sujet du coup! Le truc c'est que je suis en train d'apprendre le langage C mais je sais même pas si c'est ce langage qui est utilisé pour le code source du fichier pdf. Il commence comme cela : %PDF-1.5 %âãÏÓ 500 0 obj <> endobj xref 500 5 0000000016 00000 n 0000005890 00000 n 0000006011 00000 n 0000006259 00000 n 0000000396 00000 n trailer <<6E0118A2EF1E5641B29160F0379DD859>]/Prev 1282021>> startxref 0 %%EOF Il suffit que je copie-colle ce morceau dans Code::Blocks et il plante systématiquement, il n'y a plus rien à faire...

Realness · Answer

Ce qui veut dire? Même sans copier-coller le texte juste au-dessus et en essayant un tout à fait différent Code::Blocks plante

Realness · Answer

Re de nouveau, j'ai un début prometteur avec cette formule, qui consiste en la première coordonnées : #include #include #include #include int Random (int _iMin, int _iMax) { return (_iMin + (rand () % (_iMax-_iMin+1))); } int main (void) { int iRandom; srand (time (NULL)); iRandom = Random (1,24); printf ("Random : %d", iRandom); getch(); return 0; } #include #include #include #include #include #include #include #include Reste à savoir comment succéder les deux autres coordonnées et à ce que le programme ne me redonne pas deux fois la même

[Dal] · Answer

Salut  Realness,

Ta source de données n'est pas facile à utiliser. En extraire les mots de façon automatisée va nécessiter beaucoup d'efforts.

Est-ce qu'une autre source de mots de grec moderne pourrait te convenir ?

Si oui, tu pourrais utiliser le fichier Hunspell (correcteur orthographique libre, notamment utilisé sur Libre Office) réalisé pour cette langue :

https://github.com/titoBouzout/Dictionaries

télécharge Greek.dic (sous licence MPL 1.1/GPL 2.0/LGPL 2.1)

c'est un fichier texte, avec 575133 mots.

Comme il pèse 13 Mo, tu peux le charger en mémoire dans ton programme C (après avoir passé la première ligne, qui indique le nombre de mots du fichier), découper le contenu en mémoire en mots avec strtok sur le caractère de retour à la ligne, indexer dans un tableau les adresses mémoire des mots, et utiliser une fonction générant aléatoirement des nombres de 0 à 575132 pour récupérer l'adresse mémoire du mot correspondant.

Pour gérer l'absence de répétition, il suffit d'écraser l'adresse mémoire contenue à l'index utilisé en y mettant NULL, ou, si tu veux réutiliser les données en mémoire dans le cadre du même lancement du programme, gérer une deuxième liste, jetable après tes tirages, des numéros d'index utilisés.

Comme toujours, ce genre de choses est plus facile à faire dans d'autres langages, comme Perl ou Python.

En Perl, cela se fait en quelques lignes :

#!/usr/bin/perl
use strict;
use warnings;
use Data::Dumper;

# chargement
open my $handle, '<', "Greek.dic";
chomp(my @words = <$handle>);
close $handle;

# tirage de 10 mots sans répétition
my @list;
my %idx_used;
my $idx;

do {
    do {
        $idx = rand @words;
    } while ($idx == 0 || exists $idx_used{$idx});
    push @list, $words[$idx];
    $idx_used{$idx} = 1;
} while (@list < 10);
print Dumper(@list);
$ ./realness.pl $VAR1 = 'πρωιμοθεριζόσασταν';$VAR2 = 'δραχμοβίωτης';$VAR3 = 'θεόληπτη';$VAR4 = 'σαραβαλιασμένων';$VAR5 = 'δηλούντες';$VAR6 = 'ασπρίζουμε';$VAR7 = 'καταστρεφόμαστε';$VAR8 = 'ξεκρεμαζόντουσαν';$VAR9 = 'επιπλατινωνόμασταν';$VAR10 = 'δημοσιονομίες';
Dal

Realness · Answer

Salut Dal,


Avant tout, je te remercie pour ta réponse super détaillée, les codages que tu y as inclus et également pour le site web https://github.com/titoBouzout/Dictionaries qui représente une mine d’or à mes yeux! Vraiment, merci 1000 fois, je connaissais pas du tout !


Écoute, je veux surtout pas paraître impoli ou perçu comme quelqu’un qui crache dans la soupe, mais une ressource de plus de 550.000 mots pour le grec moderne c’est ingérable...


Le prend surtout pas mal, mais ce que je veux dire, c’est que ta ressource est extrêmement complète, voire trop… Prenons par exemple le mot αγγλικανικός qui est présent dans ta base de données. J’ai seulement besoin de ce mot pour pouvoir le décliner ensuite moi-même dans toutes les formes possibles.


Ce qui se passe avec le fichier que tu m’as communiqué, c’est qu’il mentionne le mot de base mais également TOUTES les déclinaisons possibles et dont je n’ai pas besoin et qui augmentent le volume de données à traiter (αγγλικανικοί, αγγλικανικό, αγγλικανικού…). 


Tu es sûr qu’on peut pas faire quelque chose avec ma base de données comme la convertir en fichier texte plus facile à exploiter qu’un pdf? Tu as dit que ça représenterait beaucoup d’efforts, mais je suis prêt à y mettre le temps nécessaire voire même coder en langage autre que le C comme Perl ou Python que tu me recommandes! Car je peux me baser sur ce programme pour d’autres projets à venir!


Alors oui, après ma base de données comporte seulement que 3000 mots, ce qui n’est rien à côté de la tienne qui en représente environ 200 fois plus, mais ce qui est bien avec celle que j’utilise, c’est qu’elle est précise, avec des définitions, des exemples, l’article à utiliser devant le mot (το/η/ο) etc.


J’espère que tu peux comprendre. Merci encore,


Realness

Utilisateur anonyme · Answer

Pour convertir du PDF en txt, il y a ça (gratuit et efficace)
https://www.colorpilot.com/products.html

Realness · Answer

Parfait,


Alors du coup entre-temps j’ai opté pour l’option d’extraire toutes les données du fichier pdf manuellement et de les disposer selon la seconde méthode dont tu parles :


###### ;mot ;catégorie [] 1. Sens  + Définition 2. Sens + Définition


J’ai également essayé d’extraire le fichier PDF en format TXT, et j’ai été confronté aux problèmes dont tu parles. Après pour la phonétique ce n’est pas très grave, je connais de base comment lire tout ce charabia donc je peux m’en dispenser. 


Comme ça, je suis sûr d’avoir toutes les données que je souhaite dans le bon ordre, comme je veux, et de ne pas tomber sur une coquille plus tard dans le programme.


Je pense que ça devrait prendre entre 3 semaines et 1 mois le temps que je m’y consacre à fond en parallèle de mes études, mais au pire des cas il n’y a pas forcément d’urgence : le mémoire est pour la fin de l’été 2019, et je veux prendre de l’avance pour qu’il soit complet.


D’ailleurs, j’avais deux questions à te poser. Toi et moi avons le même raisonnement de code de localisation que je souhaite inclure dans mon programme : c’est-à-dire 24 lettres (2 digits) plus d'une centaine de pages (3 digits) et moins de 100 définitions par pages (2 digits). Ça nous donne donc 1 ;14 ;1 ou 1141 sans les « ; ».


Étant donné que la coordonnée minimale est de l’ordre de 1141 et la maximale de 2413613, est-ce que, lors de la saisie manuelle des coordonnées en même temp que du fichier pdf dans Word, il est nécessaire que je saisisse 001141 (six chiffres, comme la coordonnée maximale est d’elle-même de six chiffres) ? Ou je peux la laisser en tant que 1141 ? Le programme va-t-il reconnaître la coordonnée quand même ?


D’autre part, le caractère « ; » est utilisé dans la langue moderne grecque, il représente leur « ? » à eux. Par contre, le « * » est utilisé nulle part dans le fichier. Tu penses que c’est jouable d’utiliser « * » au lieu de « ; » comme caractère séparateur? Je veux dire, je veux pas que ça crée des problèmes d’encodage étant donné que « * » peut être considéré comme un caractère spécial et possible qu’il ne soit pas reconnu par la console.


Merci,


Realness

Realness · Answer

Bonsoir à tous, et merci beaucoup pour toutes vos réponses et l’aide apportée !

Dal, en fait, ce que je voudrais, ce serait d’utiliser ce code de localisation comme constante dans l’exemple de programme expliqué par une réponse ci-dessus et dont l’auteur est Whismeril :

« option 2
• une fois pour toute tu transferts tous tes mots dans une base de données (qui peut être un fichier excel, mais aussi un csv, un xml un json, Access, sql ,etc.... )
• chaque mot possède une clé unique qui est la coordonnée.
• chaque mot possède son orthographe
• chaque mot possède sa définition
• chaque mot possède son type (verbe, nom, article etc...)
• chaque mot possède son genre (si ça existe en grec)
• bref chaque mot possède tout ce qui le définit.
• dans ton programme,
• tu tapes la coordonnées
• le programme vérifie qu'elle existe
• si oui écrit dans excel et strocke
• si non message d'erreur »

Ce programme me conviendrait parfaitement comme base, et je pourrai toujours y apporter des modifications moi-même une fois la programmation d’un langage donné assimilé et/ou vous consulter ici.

En attendant, il y’a eu une évolution dans mon projet, puisque j’ai réussi à extraire le document pdf de base en « texte » (il fallait tout simplement passer par une fonction payante d’Adobe Acrobat qui permet de transposer le fichier pdf en fichier Excel et qui distribue les mots avec définitions verticalement dans les lignes du tableur).

J’ai aussi essayé comme tu l’a dit d’enregistrer le fichier en format CSV (Windows) et ça m’a sorti un autre fichier avec que des « ? » à la place des caractères grecs… Je sais pas du tout si c’est un problème d’encodage ou autre.

De toutes façons, je viens de finir d’apposer les codes de localisation pour la lettre A (Α, α) (0101401 etc.) dans le fichier Excel, donc tu penses que je peux commencer à faire un essai moi-même avec toutes les coordonnées de cette lettre (333) pour voir ce que le programme donne ? Comme une sorte de « premier jet » ? Je sais, je suis pressé !

Parce que même si le document pdf à l’heure qu’il est est devenu un tableur qui s’étale sur plus de 3500 lignes (ce qui m’a beaucoup mâché le boulot dans un sens et toujours plus pratique que de travailler en permanence ses capacités de copiages-collages du fichier pdf à Bloc Notes comme je le faisais avant), il a toujours besoin de corrections manuelles pour les définitions qui ont sautées et qui se retrouvent sur deux lignes (je voulais mettre des images mais ma connexion est laborieuse en ce moment), donc je voudrais pas tout coder pour qu’au final rien ne fonctionne et qu’il faille tout revoir.

Novice dans la programmation

11 réponses

option 1

option 2

option 3

Discussions similaires

Newsletters