Study on Control Performance for Rotary Double Inverted Pendulum

Journal of Advanced Technology Research, Vol. 6, No. 1, pp. 7-10, Jun. 2021
10.11111/JATR.2021.6.1.007, Full Text:
Keywords: Double Rotary Inverted Pendulum, Reinforcement Learning, DDPG, TD3
Abstract

강화 학습의 환경은 action space를 기준으로 discrete action space를 가진 환경과 continuous action space를 가진 환경으로 나눌 수 있다. continuous action space를 가진 환경을 학습시키는 강화 학습의 대표적인 알고리즘으로 Deep Deterministic Policy Gradient(DDPG)와 DDPG의 단점을 보완한 Twin Delayed Deep Deterministic Policy(TD3)가 있다. 본 논문에서는 전통적인 제어 시스템 분야에서 controller의 성능을 검증하는데 사용되는 Rotary Double Inverted Pendulum(RDIP)시뮬레이션을 활용하여 DDPG와 TD3의 실험을 진행한다. 그 후 DDPG와 TD3의 성능을 비교 분석하여 RDIP 시뮬레이션 환경 내에서 TD3가 DDPG보다 좋은 성능을 보여주고 있음을 확인한다.


Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from September 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
C. Ji, H. Lim, J. Heo, Y. Han, "Study on Control Performance for Rotary Double Inverted Pendulum," Journal of Advanced Technology Research, vol. 6, no. 1, pp. 7-10, 2021. DOI: 10.11111/JATR.2021.6.1.007.

[ACM Style]
Chanhun Ji, Hyun-Kyo Lim, Joo-Seong Heo, and Youn-Hee Han. 2021. Study on Control Performance for Rotary Double Inverted Pendulum. Journal of Advanced Technology Research, 6, 1, (2021), 7-10. DOI: 10.11111/JATR.2021.6.1.007.