Avec quoi Ouvrir Un gros csv sans perte

Fermé
Pyvoudelet Messages postés 166 Date d'inscription jeudi 11 février 2010 Statut Membre Dernière intervention 18 mai 2020 - 16 mai 2020 à 12:06
jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024 - 21 juin 2020 à 17:14
Bonjour à tous,

J’aimerais exploiter une BD ouverte en csv qui comprend près de 8millions de lignes (véhicules en circulation au Qc).
J’aimerais avoir vos recommendations pour savoir quel logiciel utiliser (à bas coût de préférence) pour pouvoir en faire l’analyse sans perte de données. En effet lorsque je tente de l’ouvrir dans Excel (dernière version Office 360 sur Mac), j’ai l’impression que c’est tronqué car trop de lignes.

Merci
A voir également:

7 réponses

yg_be Messages postés 22714 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 22 avril 2024 1 474
Modifié le 16 mai 2020 à 15:22
bonjour,
tu peux enregistrer ces données dans Excel, si tu ne les mets pas toutes dans le même onglet.
tu n'indiques pas ce que tu souhaites faire comme analyse: est-ce vraiment nécessaire de tout enregistrer dans Excel?
0
Pyvoudelet Messages postés 166 Date d'inscription jeudi 11 février 2010 Statut Membre Dernière intervention 18 mai 2020 12
16 mai 2020 à 17:21
En fait c'est une base de données ouvertes csv avec la liste des 8M de véhicules immatriculés au Qc. Je veux pouvoir faire des analyses pour en interprétés par exemple le nombre de véhicule par catégorie et par région, etc. qui sont tous des champts (colonnes).
https://www.donneesquebec.ca/recherche/fr/dataset/vehicules-en-circulation/resource/4bb416f3-8aea-4f8e-8e07-562f73629003?view_id=306c43c3-dd5a-42d2-b47b-70edcd6cc7a9

Donc ça ne m'arrange pas trop d'importer la BD sur 8 onglets, car je sent que ce sera compliquer après pour faire de l'analyse.

J'ai découvert sur l'aide la fonction Get&transforme dans Excel. Cela semble permettre au fichier de se connecter à une BD sans l'importer. Cependant, quand j'essaye, ça ne fait que l'importer justement, et là, même problème de taille....

0
jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024 9 230
Modifié le 16 mai 2020 à 18:08
Bonjour,

Excel c'est max 1 million et quelques de lignes.

8 millions de lignes et 850 MO c'est hors cadre.

La solution c'est charger les données dans une (vraie) base de données, par exemple mysql (moi j'utiliserais Oracle) et l'interroger avec en langage sql (ou installer un outil d'interrogation plus convivial, style PowerBi)

Mais cela requiert un minimum de technicité en informatique.

0
yg_be Messages postés 22714 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 22 avril 2024 1 474
16 mai 2020 à 18:13
Alors Access est probablement un bon candidat.
0
jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024 9 230 > yg_be Messages postés 22714 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 22 avril 2024
Modifié le 16 mai 2020 à 18:32
Oui probablement. Je ne suis pas utilisateur d'access mais j'ai téléchargé le CSV et il s'ouvre dans access qui semble faire un lien avec le csv sans l'importer. Mais même sur mon pc plutot puissant, access se retrouve vite en statut windows "ne répond pas" quand on essaie de juste faire défiler les lignes, il y en a 6 608 227. Un éditeur texte comme notepad++ semble plus efficient sur ce fichier texte qu'access ;-)
0
yg_be Messages postés 22714 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 22 avril 2024 1 474 > jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024
16 mai 2020 à 19:18
probablement préférable de l'importer pour avoir des performances parfaites, comme notepad++.
0
bonjour
excel peut recevoir plus d'un million de lignes
les versions recentes d'avantage
0
jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024 9 230
16 mai 2020 à 19:56
avec mon excel 2016 on ne lit que 1 048 576 lignes du fichier .csv (2 puissance 20)
0
Pyvoudelet Messages postés 166 Date d'inscription jeudi 11 février 2010 Statut Membre Dernière intervention 18 mai 2020 12 > jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024
16 mai 2020 à 20:41
Exact. Excel ne suffit pas
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
sqlite serait un bon candidat pour lire toute ses données sans perte.
Trauq
0
Pyvoudelet Messages postés 166 Date d'inscription jeudi 11 février 2010 Statut Membre Dernière intervention 18 mai 2020 12
16 mai 2020 à 20:44
Bonjour tout le monde. Merci pour vos suggestions, mais tel que discuté je suis sur un mac malheureusement. Avez vous des suggestions adaptées ?
Merci
0
yg_be Messages postés 22714 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 22 avril 2024 1 474
16 mai 2020 à 20:51
Tu n'as pas Microsoft Access?
0
yg_be Messages postés 22714 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 22 avril 2024 1 474
16 mai 2020 à 21:23
En quoi MySQL n'est-il pas adapté?
0
Bonjour,
Je pense que le travail que tu demandes n'est pas adapté pour un tableur(excel, calc ou autre).
Il faut pour cela avoir un outil qui correspond plus à ta demande.
Dans ton cas un base de données correspondrait (postgresql, mysql,sqlite3, ...)
Ton soucis est qu'il faut apprendre la syntaxe pour exécuter ce travail.
Ce qui demandera du temps au début. mais qui sera rentabiliser par la suite.
De quel outil disposes-tu sur mac? pour réaliser la besogne ?
Et, es-tu prêt à perdre du temps pour en gagner (ce qui s'accompagne, aussi, de te rendre les choses plus simple).
Trauq
0
Pyvoudelet Messages postés 166 Date d'inscription jeudi 11 février 2010 Statut Membre Dernière intervention 18 mai 2020 12 > trauqnej
18 mai 2020 à 21:10
Pour l’instant je n’ai pas d’outil particulier et s il faut que j apprennes le sql alors j’apprendrais :) comme tu dis ça va me faire gagner du temps. Par contre je peux pas me permettre de payer cher pour un SGBD
0
Pierrecastor Messages postés 41466 Date d'inscription mercredi 5 novembre 2003 Statut Modérateur Dernière intervention 5 avril 2024 4 130 > Pyvoudelet Messages postés 166 Date d'inscription jeudi 11 février 2010 Statut Membre Dernière intervention 18 mai 2020
18 mai 2020 à 21:13
Pas mal de SGBD sont gratos, vous pouvez partir sur mariaDB, une très bonne alternative à mysql qui à la même syntaxe et le même fonctionnement.
0
jee pee Messages postés 39602 Date d'inscription mercredi 2 mai 2007 Statut Modérateur Dernière intervention 22 avril 2024 9 230
21 juin 2020 à 17:14
Je relance cette discussion suite à une demande de même type : https://forums.commentcamarche.net/forum/affich-36718337-ouvrir-un-csv-trop-volumineux-faire-des-requetes où j'ai découvert l'importation dans Excel avec Power Query.

J'ai voulu tester cela sur le fichier issu de cette discussion.

Voilà ce que j'ai appliqué dans Excel 2016 : Données/Nouvelle requete/A partir d'un fichier/fichier CSV, donner emplacement fichier csv
Une fois le fichier présenté cliquer Modifier

Dans la barre de menu "Regrouper par" / Marque + Type + Région /Nombre/Compter

Attendre, ... Puis fermer et charger, on a alors le résultat dans excel, un fichier de 8500 lignes :



J'ai un pc plutot puissant et il bien du être saturé pendant 2/3 minutes. Mais on a le résultat d'une requête sur un fichier de plusieurs millions de lignes.
0