
[강화학습/심층강화학습 특강] Q-러닝 실습 - 물류 로봇 최적화
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🎯 문제 상황 및 목표 한 창고 안에 A부터 L까지 총 12개의 위치가 있습니다. 고객이 상품을 주문하면 창고 로봇이 이 12개의 위치 중에서 특정 위치에 보관된 상품을 찾아 배송합니다. 📦 목표로봇이 최우선 순위로 가야 하는 위치에 항상 빠르고 효율적으로 도착하도록 AI를 학습시키는 것단순히 최우선 위치로 가는 것뿐만 아니라 중간에 우선순위가 높은 다른 위치를 거쳐 가는 옵션도 제공하는 것 우선순위위치1G2K3L4J5A6I7H8C9B10D11F12E 🏭 환경 구성 📕 상태(State) 정의 각 위치를 AI가 이해할 수 있도록 숫자로 인코딩합니다. 위치상태A0B1C2D3E4F5G6H7I8J..