Daniel Marino
22 d’octubre 2024
Correcció d'errors de remodelació per a l'aprenentatge de reforç multiagent en xarxes de polítiques personalitzades
En aquest tutorial es tracten els problemes habituals amb la remodelació de matrius en xarxes de polítiques a mida per a l'aprenentatge de reforç. Quan les dimensions de l'espai d'acció no es gestionen adequadament durant l'entrenament, es produeix un desajust, que és una falla específica. Aquests problemes es poden superar utilitzant tècniques de gestió d'errors i especificant amb precisió l'espai d'observació.