Aide python deep renforcement learning

Fermé

timoT34 - Modifié le 19 juil. 2023 à 17:41
mamiemando Messages postés 33650 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 30 avril 2025 - 19 juil. 2023 à 17:45

Bonjour

J'aimerais mettre mon code de renforcement learning au deep renforcement learning facilement car les tutoriels que j'ai regardé n'étaient pas très clairs pour moi

Merci

import numpy as np
from random import randint
import random

class EnvGrid(object):
    """
        docstring forEnvGrid.
    """
    def __init__(self):
        super(EnvGrid, self).__init__()

        self.grid = [
            [0, -1, 1],
            [0, 0, 0],
            [0, 0, -1]
        ]
        # Starting position
        self.y = 2
        self.x = 0

        self.actions = [
            [-1, 0], # Up
            [1, 0], #Down
            [0, -1], # Left
            [0, 1] # Right
        ]

    def reset(self):
        """
            Reset world
        """
        self.y = 2
        self.x = 0
        return (self.y*3+self.x+1)

    def step(self, action):
        """
            Action: 0, 1, 2, 3
        """
        self.y = max(0, min(self.y + self.actions[action][0],2))
        self.x = max(0, min(self.x + self.actions[action][1],2))

        return (self.y*3+self.x+1) , self.grid[self.y][self.x]

    def show(self):
        """
            Show the grid
        """
        print("---------------------")
        y = 0
        for line in self.grid:
            x = 0
            for pt in line:
                print("%s\t" % (pt if y != self.y or x != self.x else "X"), end="")
                x += 1
            y += 1
            print("")

    def is_finished(self):
        return self.grid[self.y][self.x] == 1

def take_action(st, Q, eps):
    # Take an action
    if random.uniform(0, 1) < eps:
        action = randint(0, 3)
    else: # Or greedy action
        action = np.argmax(Q[st])
    eps += 0.1
    return action

if __name__ == '__main__':
    env = EnvGrid()
    st = env.reset()

    Q = [
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]
    ]

    for _ in range(500):
        # Reset the game
        st = env.reset()
        while not env.is_finished():
            env.show()
            #at = int(input("$>"))
            at = take_action(st, Q, 0.4)

            stp1, r = env.step(at)
            #print("s", stp1)
            #print("r", r)

            # Update Q function
            atp1 = take_action(stp1, Q, 0.1)
            Q[st][at] = Q[st][at] + 0.1*(r + 0.9*Q[stp1][atp1] - Q[st][at])
            st = stp1

    for s in range(1, 10):
        print(s, Q[s])

A voir également:

Aide python deep renforcement learning
Deep freeze windows 10 - Télécharger - Sécurité
Citizen code python avis - Accueil - Outils
Python generator - Télécharger - Sécurité
Deep power off mode - Forum Matériel & Système
Python est introuvable. exúcutez sans argument pour procúder ó l ✓ - Forum Python

2 réponses

Réponse 1 / 2

yg_be Messages postés 23535 Date d'inscription lundi 9 juin 2008 Statut Contributeur Dernière intervention 27 avril 2025 Ambassadeur 1 579
9 juil. 2023 à 15:37

bonjour,

as-tu une question?

timoT34
9 juil. 2023 à 16:18

comment puis je le faire passer en deep renforcement learning

Réponse 2 / 2

mamiemando Messages postés 33650 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 30 avril 2025 7 846
19 juil. 2023 à 17:45

Bonjour,

Si j'ai bien compris la question et si je m'en tiens aux définitions données par Wikipedia, ta question serait : comment adapter ton code pour utiliser un réseau de neurones ? Si oui, tu peux regarder un tutoriel sur pytorch, keras, ou tensorflow, qui mettent à disposition le nécessaire pour entraîner des réseaux de neurones.

Bonne chance

Discussions similaires

Python introuvable

Bonjour,

Je suis débutant dans le domaine de la programmation et j'essaye de m’entraîner en utilisant visual studio code. J'ai écrit quelques ligne de programme pour voir si ça marchait après avoir installé l'extension python. J'ai lu qu'il me fallait aussi l'extension code runner pour que mon programme fonctionne, et après l'avoir installé le terminal m'affiche "python est introuvable", alors que ça fonctionnait avant d'installer code runner.

Si quelqu'un pouvait m'aider, ce serait génial !

Merci d'avance

[Python] différence entre \r et \n

Bonjour,

En Python, quelle est la différence entre \r et \n ?
Je parle ici de deux éléments que l'on glisse parfois dans des strings.

Merci par avance

Configuration: Windows Vista / Internet Explorer 8.0

[PyCharm] Pas d'interpréteur python

Bonjour, Quand je lance mon script python, PyCharm me dit que je n'ai pas d'interpréteur python valide. Comment dois-je faire pour un sélectionner un, étant donné qu'il ne me propose aucune alternative :(

Explication sur le BIOS ! Help

Bonjour à tous ,

Je voudrais avoir quelques explications sur ce qui va suivre car je ne trouve pas ma réponse sur le net ...
Tous d'abors je voudrais savoir ce que sert le menu ' Power managment Setup ' et en locurence l'option ' Deep Power off mode ' puis ce que veut dire l'option ' chasis opened warning ' qui se trouve dans le menu ' Bios security Features ' et ma dernière question est lorsqu'on est dans les proprieté de la carte réseau ( proprieté , avancé ) , on peut modifier la valeur ' Wake up capabilities ' en ' Magic Packet ' , je voudrais savoir ce que cela veut dire ...

J'ai vraiment besoin d'aide car j'aurais besoin de savoir sa pour mon ora...

Programme python

Bonjour, Je dois faire ce programme en math pour lundi mais je galère quelqu'un peut m'aider ? Merci beaucoup