Compresser plusieurs milions de fichiers

zigobas -  
Corentin29 Messages postés 60 Statut Membre -
Bonjour à tous !

Suite à un article, j'ai trouvé intéressant de stocker l'archive française que wikipedia a mis en ligne sur son site. En gros, c'est une archive de la totalité des articles (juin 2008). Le problème est que l'archive 7z contient une autre archive tar qui elle contient les fichiers (3 millions environ).

Le problème est bien entendu que pour consulter un article, il est nécessaire d'ouvrir l'archive 7z, puis le .tar (15 bonnes minutes), puis le programme (7zip) parcourt l'archive à la recherche de l'article.

La solution que j'ai trouvé est donc de décompresser directement les 3 millions de fichiers dans un répertoire (40Go).

Mais mon problème est maintenant de les recompresser en une unique archive afin d'accéder directement aux fichiers sans temps de parcours, ni de lecture de tous les fichiers présents. Donc, avec le logiciel 7zip :

- Quel est le meilleur format ? (je n'obtiens que 80% c.a.d un 7z de 8Go avec le PPMD en mode "ultra", meilleur que le rar), c'est pire avec bzip2 ou rar....

- Quel est le meilleur mode pour un bon ratio temps/compression : 24h avec un 3Ghz et 1,5Go de RAM, le temps pour le mode "bonne compression"....et finit par planter par manque de mémoire.

-Quelle serait la taille adéquate du dictionnaire (influence apparemment le temps de compression) pour des fichiers html : 150Ko, 2Mb, 128MB ?

-Quelle est la bonne taille de mot ? (8 à 258) : celle moyenne des mots français ou cela n'a rien à voir ?

Et enfin : peut-on avoir un genre d'index afin de ne pas parcourir tous les fichiers avant l'ouverture de l'archive (même en non solide).

Merci pour votre aide !!!
A voir également:

3 réponses

Corentin29 Messages postés 60 Statut Membre 6
 
Pourquoi n'utilise pas tu WIKITAXI
0
zigobas
 
Merci ! Cela résout un bon bout du problème au sujet de wiki !
Mais quant à la compression, il m'arrive d'archiver des millions de fichiers, Des solutions ?
0
Corentin29 Messages postés 60 Statut Membre 6
 
Peut être que que je n'est pas bien compris la suite de ta question mais je pense que tu peut utiliser Alzip qui lui est plus rapide.
0