Mieszkania Rzeszów :))

To wszystko! Właśnie utworzyłeś agenta, który uczy się gry Sonic the Hedgehog. To cudownie! Widzimy, że za 10 godzin szkolenia nasz agent nie rozumie pętli, na przykład, więc musimy użyć bardziej stabilnej architektury: PPO.

Poświęć trochę czasu na rozważenie wszystkich osiągnięć, jakie osiągnąłeś od pierwszego rozdziału tego kursu : przeszliśmy od prostych gier tekstowych (OpenAI taxi-v2) do skomplikowanych gier, takich jak Doom i Sonic the Hedgehog, używając coraz to potężniejszych architektur. I to jest fantastyczne!

Następnym razem dowiemy się o Proximal Policy Gradients, architekturze, która wygrała konkurs Retro OpenAI . Wyszkolimy naszego agenta, aby zagrał w Sonic the Hedgehog 2 i 3 i tym razem, a on ukończy wszystkie poziomy!

Nie zapomnij zaimplementować każdej części kodu samodzielnie. Naprawdę ważne jest, aby spróbować zmodyfikować kod, który ci dałem. Spróbuj dodać epoki, zmienić architekturę, zmienić szybkość uczenia się i tak dalej. Eksperymentowanie to najlepszy sposób na naukę, więc baw się dobrze!

PRZEJDŹ NA FORUM