Mise scrapping beautifull soup en data frame: problème pour formater

Résolu/Fermé
charlemdl Messages postés 3 Date d'inscription lundi 20 avril 2020 Statut Membre Dernière intervention 23 avril 2020 - 20 avril 2020 à 20:56
charlemdl Messages postés 3 Date d'inscription lundi 20 avril 2020 Statut Membre Dernière intervention 23 avril 2020 - 23 avril 2020 à 17:26
Bonjour,

Débutant en python mais avec de bonnes bases en orienté objet, j'ai un souci pour formater un extract de wikipedia extrait avec Beautifull soup dans un data frame.
Si une bonne âme parmi vous pouvait m'aider.

Mon extrait final beautifull soup est de la forme


<tr>
<td>M1A
</td>
<td>Not assigned
</td>
<td>
</td></tr>


J'aimerai avoir ce résultat sous forme de ligne


M1A , Not assigned ,



J'applique le code


table1=""
for trs in My_table.find_all('tr'):
row1=""
for tds in trs.find_all('td'):
row1=row1+','+tds.text
table1=table1+row1[1:]
print(table1)



et le résultat est


M1A
,Not assigned
,


Il y a un saut de ligne à chaque 'td'. Comment puis je faire pour avoir le tout sur une ligne. Ensuite, je devrais pouvoir mettre tout ça dans un dataframe Panda.

C'est probablement une bêtise que je n'arrive pas à voir tellement j'ai les yeux dans le guidon.

Merci d'avance pour votre aide précieuse et à charge de revanche.

Joyeuse soirée

Charlem
A voir également:

2 réponses

yg_be Messages postés 23309 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 2 novembre 2024 Ambassadeur 1 550
21 avril 2020 à 09:49
bonjour, peu-tu veiller à utiliser les balises de code quand tu postes du code? https://codes-sources.commentcamarche.net/faq/11288-les-balises-de-code

si j'étais toi, j'essaierais une de ces deux techniques:
- laisser tomber un ou deux caractères à la fin de chaque tdb
- éliminer les caractères "saut de ligne"
0
charlemdl Messages postés 3 Date d'inscription lundi 20 avril 2020 Statut Membre Dernière intervention 23 avril 2020
23 avril 2020 à 17:26
Bonjour,

Merci pour ta réponse.

désolé pour les balises code, je pensais l'avoir fait.

Eliminer les saut de ligne fonctionne
0