Extraire des sous-titres d'une vidéo mp4
Ferméhypothetix Messages postés 197 Date d'inscription dimanche 19 janvier 2020 Statut Membre Dernière intervention 24 octobre 2024 - 23 août 2023 à 18:19
- Extraire les sous titres d'une vidéo mp4
- Extraire une video youtube - Guide
- Extraire son video - Guide
- Montage video windows - Guide
- Couper une video mp4 - Guide
- Comment mettre une vidéo sur powerpoint - Guide
4 réponses
23 août 2023 à 11:06
Bonjour,
Pour les sous-titres incrustés dans la video
Il y a https://sourceforge.net/projects/videosubfinder/
(vu sur https://korben.info/extraire-sous-titre-video.html )
23 août 2023 à 11:04
Bonjour,
Si les sous-titres sont incrustés dans la vidéo alors il ne sera pas possible de les extraire.
S'ils sont séparés, voir la réponse de jee pee ci-dessus ;-)
Cordialement
Modifié le 23 août 2023 à 10:40
Bonjour,
Je n'ai jamais essayé de faire cela. Il faudrait commencer par étudier les flux de la vidéo, voir si effectivement elle comporte des flux séparés.
Par exemple avec VLC sur Outils/Information sur les codecs, on voit en 5,6 et 7, des sous-titres malentendants, français et allemand.
Car il y a plusieurs possibilités. La vidéo peut contenir des sous-tires de type teletext, format ancien en texte, des sous-titre DVB qui sont des images, ou des sous-titres intégrés dans le flux vidéo. Ces derniers doivent être impossible à extraire.
Les sous-titres DVB étant des images, le logiciel d'extraction pour en faire un .srt devra inclure une fonction OCR, de reconnaissance des caractères, pour transformer l'image en texte.
23 août 2023 à 13:30
En voyant https://trac.ffmpeg.org/wiki/ExtractSubtitles
et https://linuxfr.org/users/mac_is_mac/journaux/extraire-les-sous-titres-des-enregistrements-de-la-tnt-hd
j'ai regardé les possibilités sur ce sujet de FFmpeg. C'est un outil en mode ligne de commande, ardu, car il y a des dizaines de paramétrages. Je l'utilise pour extraire un mp3 d'une vidéo, remplacer l'audio d'une vidéo, fusionner des vidéos, changer le type des flux, ...
Si les sous-titres sont de type texte, un simple
ffmpeg.exe -i sugar.mp4 -map 0:5 sugar.srt suffit, on obtient un fichier texte
00:01:12,080 --> 00:01:14,480
<font size="0">{\an7}<font size="9">Je m'appelle Damon Gameau.</font></font>
2 00:01:14,960 --> 00:01:16,600
<font size="0">{\an7}<font size="9">Voici ma maison.</font></font>
3 00:01:17,240 --> 00:01:19,720
<font size="0">{\an7}<font size="9">Un time-lapse de la grossesse de ma femme.</font></font>
4 00:01:20,160 --> 00:01:21,720
<font size="0">{\an7}<font size="9">Là, il reste trois mois.</font></font>
5 00:01:22,520 --> 00:01:24,920
<font size="0">{\an7}<font size="9">Et voici une photo de moi à 10 ans.</font></font>
Pour un sous-titre en mode image, il faut extraire le flux, mais je n'ai réussi qu'à le faire sur le flux malentendant (#0:5) de mon fichier, pas les flux français ou allemand :
ffmpeg.exe -i foudre.ts -map 0:5 -scodec copy foudre_5.ts
et après utiliser SubtitleEdit qui semble un OCR intéressant, il s’arrête sur un caractère non reconnu, demande sa transcription, et ainsi apprends à traduire les caractères qu'il reconnait mal : SubtitleEdit.exe foudre_5.ts , et voilà le srt
1 00:00:01,480 --> 00:00:02,815
Mus ique de N oël
2 00:00:03,080 --> 00:00:11,080
<i>...</i>
3 00:00:12,800 --> 00:00:15,375
-Ce n' est pas de la corru ption,
C' est ...
4 00:00:15,680 --> 00:00:17,415
u n plan qu ' on garde
5 00:00:17,720 --> 00:00:19,375
pou r que Belli ng ham
6 00:00:19,680 --> 00:00:21,735
reste u n promoteu r essentiel.
7 00:00:22,000 --> 00:00:23,695
-Je ne su is pas à l' aise.
Cela reste de l'exploration des possibilités de différents logiciels, il faut accepter de faire de nombreux essais, tests. Avec le lien d' @hypothetix, tu as aussi une solution à voir si les sous titre sont directement dans le flux vidéo.
23 août 2023 à 15:56
Merci à tous pour votre aide ! Les sous-titres n'étaient pas repris dans les infos sur les codecs, malheureusement, mais VideoSubFinder m'a bien aidée. Je n'ai pas réussi à extraire de fichier texte avec les sous-titres, mais j'ai un fichier texte avec l'horodatage, deux grandes images qui reprennent tous les sous-titres sous formes de bandelettes, et puis toute une série de bandelettes au format jpg qui reprennent chacune un sous-titre et ont pour titres son horodatage (ce qui me permettra de vérifier).
23 août 2023 à 18:19
La prochaine étape c'est de convertir tes images en text par OCR
Reconnaissance Optique de Caractères
Tu peux essayer ici:
https://www.freeconvert.com/convert/image-to-text
Il y a souvent des corrections a apporter en fonction de la qualité des images.
Bon courage