[Deep RL Course] Huggy 작동 방식

728x90

이 글은 Deep RL Course를 학습하고 정리한 글입니다.

Huggy 작동 방식

Huggy가 우리가 던진 막대기를 가져오는 법을 학습하는 것입니다.

즉, Huggy가 올바르게 움직여 막대기 쪽으로 이동하도록 훈련해야 합니다.

상태 공간 (State Space)

Huggy는 환경을 눈으로 본다기보다는 다음과 같은 환경 정보를 데이터 형태로 제공받습니다.

Huggy는 이 정보를 바탕으로 정책을 사용하여 목표를 달성하기 위해 어떤 행동을 할 지 결정합니다.

행동 공간 (Action Space)

Huggy의 다리는 관절 모터로 구동됩니다. 즉, Huggy는 목표를 향해 이동하기 위해 각 다리 관절 모터를 적절히 회전시키는 방법을 학습해야 합니다.

보상 함수 (Reward Function)

보상 함수는 Huggy가 막대기를 가져오는 목표를 달성하도록 설계되어 있습니다. 이 환경에서 목표는 Huggy가 막대기를 향해 가되 너무 많이 회전하지 않도록 하는 것입니다. 따라서 보상 함수는 다음과 같이 설정됩니다.

Huggy 학습 루프

Huggy는 올바르고 신속하게 목표를 향해 달리는 방법을 학습해야 합니다. 이를 위해 매 스텝마다 주어진 환경의 관찰을 기반으로 과도한 회전 없이 목표를 향해 움직이기 위해 각 다리 관절 모터를 어떻게 회전시킬지 결정합니다.

728x90

[Deep RL Course] 가치 기반 강화학습 (0)	2025.01.03
[Deep RL Course] Huggy 훈련하기 (1)	2025.01.03
[Deep RL Course] 심층 강화학습 에이전트 훈련하기 (0)	2024.12.30
[Deep RL Course] 심층강화학습 (1)	2024.12.26
[Deep RL Course] 강화학습 알고리즘 분류 (0)	2024.12.26