[강화학습/심층강화학습 특강] Q-러닝 실습 - 물류 로봇 최적화
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다.      🎯 문제 상황 및 목표   한 창고 안에 A부터 L까지 총 12개의 위치가 있습니다. 고객이 상품을 주문하면 창고 로봇이 이 12개의 위치 중에서 특정 위치에 보관된 상품을 찾아 배송합니다.      📦 목표로봇이 최우선 순위로 가야 하는 위치에 항상 빠르고 효율적으로 도착하도록 AI를 학습시키는 것단순히 최우선 위치로 가는 것뿐만 아니라 중간에 우선순위가 높은 다른 위치를 거쳐 가는 옵션도 제공하는 것  우선순위위치1G2K3L4J5A6I7H8C9B10D11F12E          🏭 환경 구성   📕 상태(State) 정의 각 위치를 AI가 이해할 수 있도록 숫자로 인코딩합니다.  위치상태A0B1C2D3E4F5G6H7I8J..
[강화학습/심층강화학습 특강] Q-러닝 기초
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다.     🌍 Q-러닝의 기본 원칙  Q-러닝(Q-Learning)은 강화학습(Reinforcement Learning)의 대표적인 알고리즘으로 환경과 상호작용하며 최적의 행동을 학습하는 방식입니다. AI가 보상을 최대화하는 방향으로 학습하며 이를 위해 몇 가지 기본 원칙이 존재합니다.    1️⃣ 입력(상태)과 출력(행동) 원칙AI는 현재 상태(State, ss)를 입력으로 받고 어떤 행동(Action, aa)을 수행할지 결정합니다.  2️⃣ 환경 정의AI가 학습하는 환경은 상태(State), 행동(Action), 보상(Reward) 3가지 요소로 구성됩니다.   3️⃣ 마르코프 결정 프로세스(MDP) 기반Q-러닝은 현재 상태만을 고려하..
[강화학습/심층강화학습 특강] 영업과 광고를 위한 AI
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다.     🎯 문제 정의: 최적의 마케팅 전략 찾기   📌 상황 설정 전자상거래 회사는 1억 명의 고객을 보유하고 있으며 프리미엄 회원제(연 200달러 가입비)를 운영 중입니다.    ✅ 회사 목표고객이 프리미엄 회원제로 가입하도록 유도하는 최적의 마케팅 전략 찾기가장 적은 비용과 빠른 시간 내에 최고의 전략을 찾아 매출을 극대화   ✅ 마켓팅팀의 접근법9가지 마케팅 전략을 설계 ← 각 전략은 팝업 광고, 특별 할인, 패키지 혜택 등 다양한 방식 포함각 전략의 전환율(가입 확률)은 사전에 알 수 없음온라인 학습(A/B 테스트 방식)으로 최적의 전략을 실험하면서 찾아야 함    ✅ 문제점1억 명의 고객을 대상으로 모든 전략을 실험하는 것은 비..
[강화학습/심층강화학습 특강] 다중 슬롯머신 - 톰슨 샘플링 모델 (2)
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다.        🎰 다중 슬롯머신 문제 (Multi-armed Bandit Problem)⭐ 다중 슬롯머신 문제와 코드 구현에 관한 글을 먼저 읽어주세요     🎯 톰슨 샘플링을 이해하기 위한 예제 라스베이거스 카지노에 있다고 상상해봅시다. 우리 앞에는 5개의 슬롯머신이 있고 매번 한 개의 슬롯머신을 선택해서 손잡이를 당길 수 있습니다. 보상을 받으면 +1 (승리)보상을 받지 못하면 0 (패배)        🎲 초기 5번의 게임 결과 초반 5번의 게임을 진행한 결과를 살펴봅시다. 라운드선택한 슬롯머신보상 (0=패배, 1=승리)1 라운드슬롯머신 102 라운드슬롯머신 213 라운드슬롯머신 304 라운드슬롯머신 405 라운드슬롯머신 51    ..
[강화학습/심층강화학습 특강] 다중 슬롯머신 - 톰슨 샘플링 모델 (1)
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다.     🎰 다중 슬롯머신 문제 (Multi-armed Bandit Problem)  라이베이거스 카지노에 있다고 상상해보세요. 우리 앞에는 5개의 슬롯머신이 있습니다. 각 슬롯머신은 동일한 방식으로 작동합니다.🎲 1달러를 넣고 손잡이를 당기면 슬롯머신이 판돈을 가져가거나 판돈의 두 배를 돌려줍니다.🎯 판돈을 잃으면 보상 -1, 두 배를 얻으면 보상 +1이 됩니다.  그런데 이 5개의 슬롯머신 중 어떤 슬롯머신은 보상을 줄 확률이 더 높습니다. 예를 들어, 특정 슬롯머신이 다른 슬롯머신보다 더 자주 +1 보상을 준다면 우리는 그 슬롯머신을 최대한 빨리 찾아야 합니다.       🎯 목표: 보상을 최대로 받는 전략 찾기 우리는 1,000..
[강화학습/심층강화학습 특강] 강화학습의 5가지 원칙
·
강화학습
이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다.     🚀 강화학습의 5가지 원칙  1️⃣ 원칙 1: 입출력 시스템🎯 모든 AI 모델은 입력(Input)과 출력(Output) 개념에 기반합니다.   예시: 자율주행 자동차 🚗입력(State)컴퓨터 비전 시스템이 관찰한 이미지현재 속도, 탱크에 남아 있는 연료량 등출력(Action)자동차의 다음 움직임으로 가속 또는 감속, 좌회전 또는 우회전, 브레이크 밟기 등속도를 올리면서 좌회전하는 등 동시에 수행될 수 있는 여러 행동이 될 수 있음    AI는 입력(상태, State)을 받아 출력(행동, Action)을 결정하는 시스템입니다.  이때 AI가 어떤 행동을 할지 결정하는 전략을 정책(Policy)라고 합니다.          2️⃣ ..
[Deep RL Course] 정책 그래디언트 (Policy Gradient) 심화
·
강화학습
이 글은 Deep RL Course를 학습하고 정리한 글입니다.     정책 그래디언트 더 깊이 파헤치기   🖼 큰 그림 그리기  정책 그래디언트(Policy-Gradient) 방법은 기대 보상을 최대화하는 파라미터 θθ 를 찾는 것을 목표로 합니다. 파라미터화된 확률론적 정책을 사용합니다. 즉, 신경망이 각 행동에 대한 확률 분포를 출력합니다. 특정 행동을 선택할 확률을 행동 선호도(Action Preference)라고 합니다.   CartPole-v1 예제입력: 환경의 상태출력: 해당 상태에 대한 행동 확률 분포    정책 그래디언트의 목표 정책 그래디언트의 목표는 행동의 확률 분포를 제어하는 것입니다. 즉, 보상을 최대화하는 좋은 행동이 미래에 더 자주 샘플링되도록 정책을 조정하는 것입..
[Deep RL Course] 정책 기반 (Policy-based) 강화 학습
·
강화학습
이 글은 Deep RL Course를 학습하고 정리한 글입니다.       정책 기반(Policy-based) 방법   강화학습의 주요 목표는 최적 정책(Optimal Policy) ππ를 찾아 기대 누적 보상(Expected Cumulative Reward)을 최대화하는 것입니다. 이는 보상 가설(Reward Hypothesis)에 기반하는데, 보상 가설이란 모든 목표는 기대 누적 보상의 극대화로 설명할 수 있다는 개념입니다.    예를 들어, 축구 게임에서 두 개의 에이전트를 훈련한다고 가정해봅시다. 이 게임의 목표는 승리하는 것입니다. 강화학습에서는 이 목표를 상대 팀의 골대에 최대한 많은 골을 넣어 보상 극대화하고, 동시에 우리 팀의 골대에 들어오는 골을 최소화하여 패널티 최소화하는 것으..
[Deep RL Course] 하이퍼파라미터 최적화 - Optuna
·
강화학습
이 글은 Deep RL Course를 학습하고 정리한 글입니다.     Optuna  심층 강화학습에서 가장 중요한 과제 중 하나는 최적의 학습 하이퍼파라미터(Hyperparameter)를 찾는 것입니다. Optuna는 이러한 하이퍼파라미터 탐색을 자동화하여 최적의 설정을 효율적으로 찾아주는 라이브러리입니다.           튜토리얼이 튜토리얼에서는 Stable-Baselines3를 활용하여 RL 에이전트를 학습하고 Optuna로 하이퍼파라미터를 최적화하는 방법을 배웁니다.        필수 라이브러리 설치튜토리얼을 실행하기 위해 Stable-Baselines3 및 Optuna를 포함한 필수 패키지를 설치합니다.!pip install stable-baselines3!pip install sb3-cont..
[Deep RL Course] DQN 실습 - Atari 게임
·
강화학습
이 글은 Deep RL Course를 학습하고 정리한 글입니다.     Deep Q-Learning과 Atari 게임 👾  이번 실습에서는 RL Baselines3 Zoo라는 훈련 프레임워크를 사용하여 Space Invaders를 플레이하는 Deep Q-Learning 에이전트를 훈련합니다. RL Baselines3 Zoo는 Stable-Baselines3를 기반으로 하며, 에이전트 훈련, 평가, 하이퍼파라미터 튜닝, 결과 시각화, 비디오 녹화 등의 스크립트를 제공합니다. 이번 실습에서는 기본 Deep Q-Learning을 사용합니다.     🎮 사용 환경SpacesInvaderNoFrameSkip-v4 📚 RL 라이브러리RL-Baselines3-Zoo 실습 목표 🏆RL Baselines3 Zoo..