Code de chat gpt très lent sur gros volume de fichier

Question

Bonjour à tous,

Je suis sur un gros projet et je vous avoue que c'est chat gpt qui m'a créé mes script python.

J'aimerais savoir si vous connaissez un site ou des personnes qui comprenne les code python de Chat gpt.

Le chat GPT m'a créé beaucoup de code python (tous ce que j'ai besoin) le problème c'est que c'est pas rapide du tout, très très lent sur des centaines de dossiers qui contiennent environ 100 000 fichiers csv...

Est ce que vous connaissez quelque chose ou quelqu'un qui peut m'aider svp?

Je vous en remercie d'avance ????
Android / Chrome 137.0.0.0

mariam-j · Answer

Bonjour,

Python n'est pas rapide (langage interprété)

Pour de la rapidité: C, C++ et autres langages compilés.

PierrotLeFou · Answer

Les IA ne sont pas Intelligentes comme on le pense. J'ai fait des tests avec Google Gemini. Certains résultats étaient extraordinaires et d'autres affreux.
Ça dépend de ce qu'elles ont dans leur base de données.
Les codes Python de ChatGPT ne sont pas plus difficiles (ou faciles) à comprendre que les codes Python générés par un humain.
Et tu t'attends à quoi comme performance avec des "centaines" de fichiers contenant plus de 100000 éléments?
Comme l'a dit @mariam-j, il te faudrait un langage compilé tel que C, C++ ou Rust (à condition de les connaître).
Et ça dépend de la complexité de la méthode utilisée. Peut-être qu'un cours en algorithmique pourrait aider.

Lilie3887 · Answer

Merci pour ces infos PierrotLeFou, je vais me renseigner sur ce que c'est que le C,C++ et le Rust, car j'en ai déja entendu parler. mon disque dur externe sur laquel se trouve tous les fichier est un HDD donc encore plus lent.

Mais les code que le chat gpt me propose, m'effectue 100000 fichiers en 9h, j'aurais pu accepter en 3h ou 4h mais 9h ça fait beaucoup beaucoup.

En tout cas merci, je vais me renseigner.

mariam-j · Answer

ça dépend aussi de ce que tu fais dans tes fichiers

100 000 ce n'est pas si énorme.

PierrotLeFou · Answer

Je n'ai pas analysé ton code mais j'ai des doutes sur la pertinence du threading.
Tous tes fichiers sont sur le même HDD et, à ce que je sache, il n'y a qu'un seul accès au disque.
J'ai déjà travaillé sur un système multi-users où le système gérait de façon spéciale les accès au disque.
Il savait où se trouvaient les têtes de  lecture et essayais de satisfaire la requête la plus proche de la position courante.
Il y avait un système de priorité qui empêchait qu'une requête reste prise dans la file d'attente.
Mais dans ton cas, sur les nouveaux systèmes, on ne fait plus ça.
On peut supposer (...) que les secteurs associés à un fichier donné sont assez proches les uns des autres.
Je me demande donc si un traitement séquenciel (un fichier après l'autre) ne serait pas plus rapide.
Ne sachant pas exactement ce que veut dire "des centaines" de fichiers, j'ai supposé qu'il y en avait 500.
J'ai supposé qu'il y avait bien 100000 entrées sur chaque fichier.
Et 9 heures donnent 32400 secondes.
J'arrive à la conclusion qu'il faut 648 microsecondes par entrée. Même en Python on fait mieux.

mamiemando · Answer

Bonjour,

Pour traiter efficacement ton problème (voir #6), tu devrais oublier C/C++/Rust qui ne t'apporteront pas grand chose et t'intéresser plutôt à pandas.

Ensuite je pense que tu n'apprendras rien avec ChatGPT et que ce n'est pas la bonne approche. ChatGPT doit être vu comme un moteur de recherche amélioré. Selon mon expérience ChatGPT répond à peu près correctement sur des problèmes simples (comprendre : des choses que tu aurais pu retrouver avec une recherche google ou sur stackoverflow) mais pas sur des problèmes plus avancé. Combien de fois j'ai vu ChatGPT me raconter des aneries. Et le plus drôle, c'est que quand tu pointes l'erreur à ChatGPT, celui-ci fait son mea culpa. Rapidement il tourne en rond et ne te permet plus d'avancer.

Comme le dit Pierrot une IA n'est PAS intelligente (et j'en sais quelque chose, je bosse en IA). Les spécialistes te diraient que ce n'est qu'un perroquet stochastique, ce qui en langage de tout les jours, signifie que ça ne renvoie qu'une "moyenne" de tout ce que ça a vu en fonction de ce que tu lui demandes et du contexte actuel.

Mon conseil si tu veux progresser et surtout réussir serait :

renseigne-toi sur les bonnes approches pour résoudre un problème, éventuellement à l'aide de chatGPT,
	apprends à utiliser les solutions techniques qui paraissent pertinente : il y a de nombreuses documentations et tutoriels sur Internet, et dans tous les formats,
	sois critique sur ce que tu lis (en particulier quand c'est quelque chose de généré par une IA)
	
		Dans ton cas chatGPT t'oriente vers python. Pourquoi ? c'est effectivement le langage communément employé par les data scientists pour des volume de données pas trop astronomiques (ce qui est ton cas).
		Ensuite chatGPT t'oriente vers polars. Pourquoi ?Pour accélerer le chargement des CSV.
		
			En général "on" utilise pandas (et donc on peut trouver de nombreuses ressources sur Internet qui montrent comment l'utiliser).
			Je n'ai jamais utilisé polars donc je n'ai pas d'avis, c'est peut-être bien mais si j'avais à le faire, je commencerais par vérifier que polars offre bien toutes les primitives dont j'ai besoin.
			D'après ce lien, polars semble plus performant que pandas. Ceci dit ça n'est pas le plus rapide, alors pourquoi polars ?

essaye toujours de comprendre ce que tu écris (quitte à lire la documentation de chaque fonction appelée dans ton code).

Ensuite spécifie ton problème. Ton message initial et #6 sont trop vagues pour qu'on sache ce que tu veuilles faire.

Quel est la structure des fichiers csv ?
	Quels sont les paramètres de ton programme ?
	
		On ne sait même pas ce qu'on est supposés passer en paramètre à ton programme !

Quel est le résultat attendu ? Comment l'obtient-on ?
	
		Donner un exemple minimal aiderait à mieux comprendre.

Quel est le contexte ? As-tu besoin d'interroger plusieurs fois cet ensemble de fichiers, avec des requêtes différents ?
	
		Si oui, sérialiser les fichiers (voir pickle), voire la dataframe qui en résulte, serait sans doute une bonne idée (tu n'aurais pas à payer le parsing des fichiers csv à chaque fois que tu dois en charger un).

Concernant la remarque de Pierrot #9 sur le threading, je pense que ça se discute. Paralléliser le chargement des données fichier n'a sans doute pas grand intérêt, mais les traiter en a. Si le temps de chargement est relativement négligeable, à mon avis ça ne pose pas vraiment de problème. De plus, gérer plusieurs accès concurrent à un disque dur, c'est le problème du système d'exploitation.

Ensuite, le traitement proposé (lignes 60 à 80) proposé par chatGPT me paraît catastrophique.Sur des dataframe, si on veut un traitement performant, on évite autant que possible les boucles for, sinon on paye le coût "python est un langage interprété" dont il était question dans #1. C'est pourquoi on essaye autant que possible de passer par des opérations vectorisées. Je n'ai jamais utilisé polars (personnellement j'utilise plutôt pandas en général) et jamais on ne ferait une boucle sur chaque case pour sommer une colonne d'une dataframe (voir par exemple pd.sum).

Du coup, certes d'un côté c'est bien d'utiliser polars pour charger des csv plus rapidement, mais si derrière traite le fichier ainsi, ce n'est pas surprenant que ce soit horriblement lent. Le problème, c'est que je n'ai pas personnellement pas compris ce que tu voulais extraire/agréger/calculer donc je ne peux pas te dire quoi regarder.

Bonne chance

Utilisateur anonyme · Answer

Bonjour,

Cette question commence à dater, mais bon.

Le jour où IA répondra correctement à la question "quelle était la couleur du cheval Blanc d'Henry IV", je commencerai à lui faire entièrement confiance.

Quand tu poses un question à une IA, assure-toi de la bonne formulation, une IA  reste basique.

Si lui demandes un code, précise le langage souhaité.

Si tu ne connais pas les bases de ce langage, commence par lui demander les bases.

Si tu veux du code précis dis-lui de factoriser le code afin d'avoir un résultat plus concis.

N'oublie pas qu'une IA ne voit pas plus loin que le bouton de son nez, elle n'est pas capable d'aller au delà de la troisième question.

Une IA reste stupéfiante dans sa faculté de production. Je lui confie la documentation de mes codes en lui précisant de surtout pas les modifier.

Pour conclure, une IA t'apportera toutes les réponses dont tu as besoin mais encore faut il ne pas aller trop vite en besogne.

Pour chaque tâche, demande-lui quel langage de programmation est le plus apte à répondre à ton problème, quelle base de vocabulaire du langage retenu, et de te fournir une trame des tâches que ton programme devra accomplir.

Il faut que IA reste une aide à l'analyse, et non un pur générateur de code. Le code qu'une IA produit est à terme inexploitable.

Code de chat gpt très lent sur gros volume de fichier

7 réponses

Votre réponse

Discussions similaires

Newsletters