강건한 멀티-스텝 부트스트래핑

Journal of Advanced Technology Research, Vol. 5, No. 1, pp. 6-11, 6월. 2020
10.11111/JATR.2020.5.1.006, Full Text:
Keywords: 강화 학습, 몬테카를로 방법, 시간차 학습, 1-스텝 시간차 방법, n-스텝 시간차 방법, Ω-return, Q-learning
Abstract

n-스텝 시간차(temporal-difference) 학습은 몬테카를로 방법과 1-스텝 시간차 방법을 통합한 것이다. 몬테카를로 방법은 완전 누적 보상을, 1-스텝 시간차 방법은 1-스텝 누적 보상을 학습의 타겟으로 활용하며 n-스텝 시간차 학습은 n-스텝 누적 보상을 활용한다. 그러나 최적의 n값은 학습 환경과 다른 하이퍼-파라미터에 따라 달라지기 때문에 최적의 n값을 찾는 것은 어렵다. 본 논문에서는 Ω-return이라는 새로운 타겟을 제안하며, Ω-return을 Q-learning에 적용하여 다양한 환경에서의 실험을 통해 제안하는 방식의 강건성에대한 성능 평가를 진행한다.


Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from September 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
G. Hwang, J. Kim, Y. Han, "Robust Multi-Step Bootstrapping," Journal of Advanced Technology Research, vol. 5, no. 1, pp. 6-11, 2020. DOI: 10.11111/JATR.2020.5.1.006.

[ACM Style]
Gyu-Young Hwang, Ju-Bong Kim, and Youn-Hee Han. 2020. Robust Multi-Step Bootstrapping. Journal of Advanced Technology Research, 5, 1, (2020), 6-11. DOI: 10.11111/JATR.2020.5.1.006.