Comment transformer un site en format MDX!

Fermé
mootaroo - 6 mars 2011 à 17:56
 mootaroo - 6 mars 2011 à 17:58
Bonjour,

est-il possible de transformer n'importe quel site en format MDX??

comme c'est le cas pour le site wikipedia qui devient exploitable sur PC Pocket via le logiciel Mdict.

merciiiiiiiii!
A voir également:

1 réponse


j'ai besoin d'un tuto comme celui ci si possible :


Tutoriel pour créer votre base WIKIPEDIA en .mdx pour MDict :
L'encyclopédie dans la poche, hors connexion mais sans les images bien sûr.


La base française que l'on rencontre sur internet est sérieusement tronquée (env 260Mo), et commence à dater, c'est l'occasion de vous mouliner la dernière à votre sauce.

Pré requis : Pour ce tuto, un pc sous WinXP avec environ 6Go libres sur le disque minimum. Plus il est puissant, plus ce sera rapide ! Installer Java, Mysql, télécharger le dump de wikipedia (1,3Go - C'est le fichier compressé disponible sur wikipedia.org qui contient la liste des articles et le contenu des pages correspondantes) et divers autres utilitaires décrits ci-dessous.

1 : Télécharger la dernière version de Java (>v5) par exemple sur :
https://www.commentcamarche.net/telecharger/developpement/12917-java-runtime-environment/
et l'installer.

2 : Télécharger le serveur communautaire de base de donnée MySQL 5.1 sur :
https://dev.mysql.com/downloads/mysql/
Choisir version Windows (x86, 32-bit), MSI Installer de 39Mo
Lors de l'installation, respecter les options suivantes :
-Detailed configuration
-Dedicated MySQL Server Machine (elle moulinera la nuit)
-Multifunctional Database
-Decision Support
-Cocher Enable strict mode , Enable TCP/IP, et add Firewall exception pour le port proposé par défaut. (les scripts se lancent depuis une fenêtre MsDos, en boucle locale)
-Best support for multilingualism UTF8 (au cas où vous souhaitiez convertir une base étrangère par la suite)
-Cocher Include Bin directory in Windows Path (Pour pouvoir lancer des commandes depuis l'invite MsDos)
-Définisez un mot de passe ROOT : Monmotdepasse (Les scripts s'exécutent en Root)
C'est fini pour le serveur MySQL qui démarre.

Il faut maintenant créer une base de donnée vide (nom arbitraire : Mabasewiki), que les scripts se chargeront de remplir (heureusement !), depuis l'invite de commande MySQL :
Démarrer, programmes, MySQL, MySQL Serveur, MySQL Command Line Client
Enter password : Monmotdepasse (+ entrée et l'invite Mysql> apparaît)
Mysql>CREATE DATABASE Mabasewiki ; (point-virgule pour terminer la commande)
Doit répondre: Query OK, et redonner l'invite Mysql>
Mysql>SHOW DATABASES ; (pour voir la liste des bases existantes)
Mysql>USE Mabasewiki ; (Curieux mais le script ne semble trouver que la dernière base utilisée)
Mysql>EXIT pour quitter

3 : vérifier que MySQL fonctionne sous dos, d'où seront lancés les scripts :
Ouvrir une console msdos (démarrer, exécuter, cmd) et taper :
Mysql -u root -p (entrée)
Enter password : Monmotdepasse (entrée)
A ce stade, on doit avoir l'invite Mysql>
Dans le cas contraire, vérifier son mot de passe ou désactiver son firewall pour vérifier qu'il n'est pas responsable.
Mysql>exit (pour retourner a l'invite msdos) puis exit pour quitter.
4 : Télécharger les scripts (Wikiparser) sur :
http://sh0dan.blogspot.com/2009/05/wikiparser-v11.html
Il s'agit d'un fichier zip à décompresser directement sur c:\
Vous devez vous retrouver avec :
c:\wikiparser\lib\...
c:\wikiparser\src\...
c:\wikiparser\run.bat
c:\wikiparser\wikiparser.jar
c:\wikiparser\readme.txt

Il va falloir modifier le fichier run.bat, qui n'est pas adapté à notre base française, beaucoup plus petite que la base internationale en anglais :
Ouvrir le bloc-notes, puis : fichier>ouvrir (tous les fichiers) ... run.bat

Il faut le modifier de la manière suivante pour obtenir une base mdx de 850Mo:
java -jar "WikiParser.jar" --password=Monmotdepasse --databaseurl="127.0.0.1/Mabasewiki" --minlinks 2 --maxlength 50000 --maxlengthtrim=47000 --noredirects --noexternal --skiptables --simple c:\pages-articles.xml.bz2 e:\fr-wiki-850.txt

--minlinks 2 : les articles retenus seront ceux qui possèdent au moins deux liens
--maxlength X : tronquage du texte après X caractères
--maxlengthtrim Y : recherche d'une séparation de paragraphe depuis Y pour tronquage
c:\pages-articles.xml.bz2 : le chemin complet du fichier dump wikipedia d'entrée
e:\fr-wiki-850.txt : le chemin complet du fichier txt à obtenir (au format dict qui sera environ 3 à 4 fois plus gros que le mdx final, 3,2Go ici pour un mdx de 850Mo), le nom est arbitraire, et le fichier sera créé par le script.

Nota : le détails des autres paramètres se trouve dans le fichier readme.txt de wikiparser, vous pourrez jouer avec ceux-ci pour obtenir ce que vous voulez.

Pour info, pour obtenir une base mdx de 330Mo, il faut le modifier comme suit :
java -jar "WikiParser.jar" --password=Monmotdepasse --databaseurl="127.0.0.1/Mabasewiki" --minlinks 9 --maxlength 5500 --maxlengthtrim=4500 --noredirects --noexternal --skiptables
--simple c:\ pages-articles.xml.bz2 e:\fr-wiki-330.txt

Enregistrer les modifications. Tout est prêt, il ne manque plus que les données.

4- Télécharger le fichier « pages-articles.xml.bz2 » d'environ 1,3Go actuellement sur :
https://dumps.wikimedia.org/frwiki/ dans l'avant dernier répertoire en général, correspondant à la date d'un dump terminé. Bien faire correspondre son emplacement dans le fichier run.bat

5-Lancer l'EXECUTION, de préférence avant de vous coucher pour avoir le fichier txt au petit matin (4 à 5h sur un bon core2duo occupé à 100%),et sur un Pentium II lancer l'exe avant de partir en vacance...
Ouvrir de nouveau une console MsDos, placez vous sur le répertoire wikiparser
(tapez cd\wikiparser)
C:\>wikiparser\run et validez !
Les commandes défilent. Il n'y a plus qu'à attendre que l'invite msdos soit de retour. (C'est écrit quand le traitement est fini !). Le fichier txt obtenu est prêt à être transformé en mdx.

6 : Transformation de la base au format .txt (dict) en .mdx avec MdxBuilder à télécharger sur :
http://www.octopus-studio.com/download.en.htm et à décompresser dans c:\mdx\
Dans l'explorateur, lancer MdxBuilder.exe (Appli win32)
Source : e:\fr-wiki-850.txt <-le fichier texte créé
Target : C:\Mdx\ConvStar\ Monwikienfrancais.mdx <-le nom que vous voulez
Format : C:\Mdx\ConvStar\ star_style.txt
Original Format: MDict(Compact HTML)
Encoding: UTF-8(Unicode)
Titre : Mon Wikipedia
Description: <font size=5 color=red> Mon Wikipedia </font>

Cliquer sur Start, et comptez encore 2h de moulinette (sur core2duo...)

7 : Sur le PDA :
Aller au répertoire d'installation de MDict :
\Storage Card\Program Files\Octopus Studio\MDict
Y créer un sous répertoire Library dans lequel vous copiez par ActiveSync le fichier Monwikienfrancais.mdx créé.
Lancez MDict, library, library manager, import library, et voilà.
Notez que comme le mdx est une base de données, il n'est pas chargé en mémoire principale, où il n'occupe pas plus de 6Mo quelque soit la taille de la base, et la navigation est très fluide.
0