Création d'algorithme qui modifie un fichier texte grace a la langue

Question

Bonjour,

Je suis un débutant (qui part presque de 0) mais j'ai une idée bien précise de ce que je veux faire et je me demande surtout si cet algorithme est vraiment réalisable.

Je souhaite créer un algorithme qui me permettrait de modifier un fichier texte sur la base de la reconnaissance de langues. Je m'explique :

J'ai à la base deux fichiers textes : un traduit en français, l'autre est l'orignal en anglais. Prenons l'exemple :

1 Voilà que je parle à une personne imaginaire.
2 Ce que je vais te raconter est top secret.
3 Une conspiration plus forte que nous tous.

1 It's actually happened, I'm talking to an imaginary person.
2 What I'm about to tell you is top secret, a conspiracy bigger than all of us.

Comme vous pouvez le voir, j'ai mon texte original qui est plus court que celui traduit, qui découpe la ligne 2 en deux. Imaginons que j'applique un algorithme de reconnaissance de langue (avec un dictionnaire par exemple ou la fréquence des lettres. Ce post a l'air vraiment cool : https://forum.ubuntu-fr.org/viewtopic.php?id=381099 mais je suis pas certaine que ça m'aide), est-il possible d'enlever le retour à la ligne sur le fichier traduit ? En gros l'idée c'est que le programme reconnaisse par exemple les mots "a conspiracy" et "Une conspiration", pour que mon résultat final soit donc : 

1 Voilà que je parle à une personne imaginaire.
2 Ce que je vais te raconter est top secret. Une conspiration plus forte que nous tous.

Sachant que mon fichier original, lui, ne changera jamais.

Pensez-vous que c'est réalisable sans que l'algo fasse d'erreurs ? Merci d'avance en tout cas !


Configuration: Windows / Firefox 76.0

yg_be · Answer

bonjour,
si tu es motivé, je suis persuadé que tu pourras arriver à créer cet algorithme, probablement en moins de deux ans de travail.

assange337 · Answer

Haha bon ok cool ! J"ai commencé à chercher un peu j'ai cru comprendre qu'il fallait passer par le ntlk. Et donc installer les packages pip, ce que je n'arrive pas à faire depuis deux heures haha. J'ai lancé mon fichier get-pip.py, ça s'installe mais me dit que les scripts ne sont pas sur le PATH, et avec les tutos que j'ai suivi, j'ai pas les mêmes trucs... Je suis sous Windows 7. Une idée pour m'aider ?

Utilisateur anonyme · Answer

Si les mots à reconnaître sont pré-determinés (stockés quelque part) c'est faisable.
Sinon: Un lexique (dictionnaire) c'est en moyenne 65000 entrées (sans les conjugaisons) et en fonction du langage (compilé ou interprété) le traitement peut être long, voire très long.

Utilisateur anonyme · Answer

Pour éliminer le retour ligne ça doit pas être bien compliqué; il faut créer une chaine vide, lire le texte, remplir la chaine, détecter le "caractère" de retour, le sauter et continuer de remplir. Mais ça ne marche que pour un texte unique; si plusieurs textes se suivent, tous les retours seront supprimés.

Création d'algorithme qui modifie un fichier texte grace a la langue

4 réponses

Discussions similaires

Newsletters