[Deep RL Course] Huggy 작동 방식

2024. 12. 31. 16:00·강화학습
728x90

이 글은 Deep RL Course를 학습하고 정리한 글입니다.

 

 

 

 

 

 

Huggy 작동 방식

 

목표 🎯

Huggy가 우리가 던진 막대기를 가져오는 법을 학습하는 것입니다.

즉, Huggy가 올바르게 움직여 막대기 쪽으로 이동하도록 훈련해야 합니다.

 

 

 

 

 

 

상태 공간 (State Space)

 

Huggy는 환경을 눈으로 본다기보다는 다음과 같은 환경 정보를 데이터 형태로 제공받습니다. 

 

  • 막대기(목표) 위치
  • Huggy와 막대기 사이의 상대적 위치
  • Huggy의 다리 방향(orientation)

 

Huggy는 이 정보를 바탕으로 정책을 사용하여 목표를 달성하기 위해 어떤 행동을 할 지 결정합니다. 

 

 

 

 

 

 

행동 공간 (Action Space)

 

Huggy의 다리는 관절 모터로 구동됩니다. 즉, Huggy는 목표를 향해 이동하기 위해 각 다리 관절 모터를 적절히 회전시키는 방법을 학습해야 합니다. 

 

 

 

 

 

 

 

보상 함수 (Reward Function)

 

보상 함수는 Huggy가 막대기를 가져오는 목표를 달성하도록 설계되어 있습니다. 이 환경에서 목표는 Huggy가 막대기를 향해 가되 너무 많이 회전하지 않도록 하는 것입니다. 따라서 보상 함수는 다음과 같이 설정됩니다. 

 

  • 방향 보너스: 목표에 가까워질수록 보상을 부여
  • 시간 페널티: 매 행동마다 고정 시간 페널티를 부여하여 빠르게 목표에 도달하도록 유도
  • 회전 페널티: 과도한 회전 및 빠른 방향 전환에 대한 페널티 부여
  • 목표 도달 보상: Huggy가 목표에 도달하면 보상

 

 

 

 

 

 

Huggy 학습 루프

Huggy는 올바르고 신속하게 목표를 향해 달리는 방법을 학습해야 합니다. 이를 위해 매 스텝마다 주어진 환경의 관찰을 기반으로 과도한 회전 없이 목표를 향해 움직이기 위해 각 다리 관절 모터를 어떻게 회전시킬지 결정합니다. 

 

 

 

 

 

 

 

 

728x90

'강화학습' 카테고리의 다른 글

[Deep RL Course] 가치 기반 강화학습  (0) 2025.01.03
[Deep RL Course] Huggy 훈련하기  (1) 2025.01.03
[Deep RL Course] 심층 강화학습 에이전트 훈련하기  (0) 2024.12.30
[Deep RL Course] 심층강화학습  (1) 2024.12.26
[Deep RL Course] 강화학습 알고리즘 분류  (0) 2024.12.26
'강화학습' 카테고리의 다른 글
  • [Deep RL Course] 가치 기반 강화학습
  • [Deep RL Course] Huggy 훈련하기
  • [Deep RL Course] 심층 강화학습 에이전트 훈련하기
  • [Deep RL Course] 심층강화학습
랑뎁
랑뎁
  • 랑뎁
    RangDev.
    랑뎁
  • 전체
    오늘
    어제
    • 분류 전체보기 (270)
      • 취준 (59)
        • 경제신문스크랩 (59)
      • 파이썬 (2)
      • 코딩테스트 대비 (168)
      • 수학 (2)
      • 머신러닝 (0)
      • 컴퓨터비전 (1)
      • 강화학습 (33)
      • Git (3)
      • 자격증 (1)
        • 한국사 능력 검정 1급 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 글쓰기
  • 인기 글

  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.2
랑뎁
[Deep RL Course] Huggy 작동 방식
상단으로

티스토리툴바