Représentation d'un fragment d'ADN (String ou StringBuffer ?) Résolu

Question

Bonjour tout le monde, Je travaille sur un projet qui consiste à aligner correctement (selon l'alignement semi-global) deux fragments d'ADN (dans mon fichier, j'ai 130 fragments à comparer). Dans mon projet, je considère un fragment d'ADN comme un string (il a en moyenne une taille de 500).. En gros dans mon programme, je vais parcourir ces fragments et y insérer (si les conditions sont satisfaites) des "-" (gaps).. Je manipule donc l'objet String en comparant les caractères à une position donnée des deux fragments, puis j'insère des "-". Le truc c'est que je dois faire ça un bon nombre de fois : - je compare le fragment 1 avec le 2, 3, 4, ..., 131 - je compare le fragment 2 avec le 3, 4, 5, ..., 131 .... et ainsi de suite pour arriver au dernier ... - je compare le fragment 130 avec le 131 Je me suis donc renseigné sur la classe qui permet d'avoir des performances rapides pour ces manipulations et sur internet on dit bien que les StringBuffer sont beaucoup plus rapides que les String.. Or, dans mes résultats je n'obtiens pas cela du tout Je fais les comparaisons de tous les fragments en 53 secondes avec des Strings et en 141 secondes avec des StringsBuffer.. Quel est votre avis à vous ? String ou StringBuffer ? Je met également le code pour que vous voyez comment j'utilise le StringBuffer : for(int i = 0; i < f1.substring(ligne).length(); i++) { f2.append("_"); } while(colonne > 0 && ligne > 0) { if(m[ligne][colonne] == m[ligne - 1][colonne - 1] + match(f1.charAt(ligne - 1), f2.charAt(colonne - 1))) { score += match(f1.charAt(ligne - 1), f2.charAt(colonne - 1)); ligne--; } else if(m[ligne][colonne] == m[ligne][colonne - 1] + GAP) { f1.insert(ligne, "-"); score += GAP; } else if(m[ligne][colonne] == m[ligne - 1][colonne] + GAP) { f2.insert(colonne, "-"); score += GAP; ligne--; colonne++; } colonne--; } if(ligne == 0 && colonne != 0) { for(int i = 0; i < colonne; i++) { f1.insert(0, "_"); } } if(colonne == 0 && ligne != 0) { for(int i = 0; i < ligne; i++) { f2.insert(0, "_"); } } (Où f1 et f2 sont deux variables globales déclarées en StringBuffer) Merci pour vos réponses, Mikis

KX · Accepted Answer

Bonjour,

La différence :

String est immuable, une fois que tu lui as donné une valeur tu ne peux plus le modifier, car le tableau de caractères utilisé en interne est de taille fixe, égal à la taille du String. Pour ajouter des caractères Java est obligé de créer un nouveau tableau de taille égale au nouveau String résultat, copier le contenu du String précédent ainsi que le contenu du String ajouté.

StringBuffer repose aussi sur un tableau de caractères mais avec une capacité dynamique, ce qui signifie que si ton StringBuffer a une taille de 5 caractères avec une capacité de 10 caractères, tu peux lui ajouter jusqu'à 5 caractères sans problème, en revanche au delà, le tableau devra être redimensionné on se retrouve donc avec le même problème de recopie des caractères, mais cela arrive moins souvent, surtout si tu sais à peu près combien de caractères va contenir le StringBuffer final, dans ce cas on peut le préciser dans le constructeur afin d'avoir tout de suite un tableau de caractères suffisamment grand pour ne jamais avoir à faire de recopie.

Il y a également StringBuilder, qui est encore plus rapide.
En effet StringBuffer est synchronisé, donc dans un contexte multithread il supportera des modifications concurrentes sans problème, mais au prix d'un mécanisme relativement lourd. StringBuilder n'ayant pas ce mécanisme il ne pourra être utilisé que dans un contexte monothread mais sera plus rapide.

Par contre, ce qui est rapide, c'est l'ajout à la fin (méthode append), mais toi tu fais des insert, c'est à dire que tu veux mettre les caractères au début, et pour faire ça on est obligé à chaque insertion de décaler tous les caractères dans le tableau, même s'il est suffisamment grand.

Le mieux pour toi serait d'une part d'utiliser un StringBuilder vu que tu n'es pas dans un contexte multithread, lui donner une taille initiale suffisante (tu parles de 500 caractères "en moyenne", est-ce que tu as la taille maximale ?) et t'assurer de toujours faire des append, pas des insert, quitte à faire un reverse() de ton résultat final pour avoir les caractères dans le bon ordre.

Remarque : f1.substring(ligne).length() c'est inutilement coûteux, tu construis un nouveau String (donc un nouveau tableau avec des recopies de caractères etc.) juste pour en connaître sa taille.
À +/- 1 près (à vérifier) cette valeur vaut f1.length() - ligne.length(), donc tu as directement le résultat par le calcul.

Utilisateur anonyme · Answer

Si tu veux de la performance tu peux aussi passer par un langage plus bas niveau (C, C++)

KX · Answer

Ci-dessous un petit programme de test pour comparer les différentes méthodes de concaténation. Dans le détail, je compte le temps qu'il faut pour ajouter 2000 caractères dans différents cas de figures. Et je recommence 1000 fois pour avoir une moyenne des temps calculé (plus précis qu'un seul lancé). Comme indiqué ci-dessus avec les explications théoriques, les meilleurs temps sont ceux obtenus avec StringBuilder, sous réserve de l’initialiser à la bonne taille et d'utiliser append. J'ai cependant ajouté un reverse à la fin, pour obtenir le même résultat que celui obtenu avec des insert, mais même avec ça c'est 3 ou 4 fois mieux. Quant aux += de String ils sont très loin derrière, 25 fois plus lent. import java.util.function.*; public class Test { private static final int NB_CHARS = 2000, NB_LOOP = 1000; public static void test(String s, Supplier init, BiFunction appender, Function finish) { long time = 0; for (int retry = 0; retry < NB_LOOP; retry++) { E chars = init.get(); time -= System.nanoTime(); for (char c = 0; c < NB_CHARS; c++) { chars = appender.apply(chars, c); } chars = finish.apply(chars); time += System.nanoTime(); } System.out.printf("%s %.0f µs ", s, time * 1e-3 / NB_LOOP); } public static void main(String[] args) { test("String +=", () -> "", (s, c) -> s += c, s -> s); test("StringBuffer().insert", () -> new StringBuffer(), (s, c) -> s.insert(0, c), s -> s); test("StringBuffer(size).insert", () -> new StringBuffer(NB_CHARS), (s, c) -> s.insert(0, c), s -> s); test("StringBuffer().append+reverse", () -> new StringBuffer(), (s, c) -> s.append(c), s -> s.reverse()); test("StringBuffer(size).append+reverse", () -> new StringBuffer(NB_CHARS), (s, c) -> s.append(c), s -> s.reverse()); test("StringBuilder().insert", () -> new StringBuilder(), (s, c) -> s.insert(0, c), s -> s); test("StringBuilder(size).insert", () -> new StringBuilder(NB_CHARS), (s, c) -> s.insert(0, c), s -> s); test("StringBuilder.append+reverse", () -> new StringBuilder(), (s, c) -> s.append(c), s -> s.reverse()); test("StringBuilder(size).append+reverse", () -> new StringBuilder(NB_CHARS), (s, c) -> s.append(c), s -> s.reverse()); } } Exemple de résultats : String += 1149 µsStringBuffer().insert 233 µsStringBuffer(size).insert 224 µsStringBuffer().append+reverse 86 µsStringBuffer(size).append+reverse 78 µsStringBuilder().insert 211 µsStringBuilder(size).insert 192 µsStringBuilder.append+reverse 47 µsStringBuilder(size).append+reverse 44 µsLa confiance n'exclut pas le contrôle

mikis69 · Answer

Euuuuh.. En vrai un fragment d adn est représenté par un string et comme j'ai plusieurs fragments j'utilise une list de string.. 
Pour représenter un fragment utiliser une liste de char reviendrai à utiliser un string non ?

Représentation d'un fragment d'ADN (String ou StringBuffer ?)

4 réponses

Discussions similaires

Newsletters