'강화학습' 카테고리의 글 목록

이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🎯 문제 상황 및 목표 한 창고 안에 A부터 L까지 총 12개의 위치가 있습니다. 고객이 상품을 주문하면 창고 로봇이 이 12개의 위치 중에서 특정 위치에 보관된 상품을 찾아 배송합니다. 📦 목표로봇이 최우선 순위로 가야 하는 위치에 항상 빠르고 효율적으로 도착하도록 AI를 학습시키는 것단순히 최우선 위치로 가는 것뿐만 아니라 중간에 우선순위가 높은 다른 위치를 거쳐 가는 옵션도 제공하는 것 우선순위위치1G2K3L4J5A6I7H8C9B10D11F12E 🏭 환경 구성 📕 상태(State) 정의 각 위치를 AI가 이해할 수 있도록 숫자로 인코딩합니다. 위치상태A0B1C2D3E4F5G6H7I8J..

이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🌍 Q-러닝의 기본 원칙 Q-러닝(Q-Learning)은 강화학습(Reinforcement Learning)의 대표적인 알고리즘으로 환경과 상호작용하며 최적의 행동을 학습하는 방식입니다. AI가 보상을 최대화하는 방향으로 학습하며 이를 위해 몇 가지 기본 원칙이 존재합니다. 1️⃣ 입력(상태)과 출력(행동) 원칙AI는 현재 상태(State, $s$)를 입력으로 받고 어떤 행동(Action, $a$)을 수행할지 결정합니다. 2️⃣ 환경 정의AI가 학습하는 환경은 상태(State), 행동(Action), 보상(Reward) 3가지 요소로 구성됩니다. 3️⃣ 마르코프 결정 프로세스(MDP) 기반Q-러닝은 현재 상태만을 고려하..

이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🎯 문제 정의: 최적의 마케팅 전략 찾기 📌 상황 설정 전자상거래 회사는 1억 명의 고객을 보유하고 있으며 프리미엄 회원제(연 200달러 가입비)를 운영 중입니다. ✅ 회사 목표고객이 프리미엄 회원제로 가입하도록 유도하는 최적의 마케팅 전략 찾기가장 적은 비용과 빠른 시간 내에 최고의 전략을 찾아 매출을 극대화 ✅ 마켓팅팀의 접근법9가지 마케팅 전략을 설계 ← 각 전략은 팝업 광고, 특별 할인, 패키지 혜택 등 다양한 방식 포함각 전략의 전환율(가입 확률)은 사전에 알 수 없음온라인 학습(A/B 테스트 방식)으로 최적의 전략을 실험하면서 찾아야 함 ✅ 문제점1억 명의 고객을 대상으로 모든 전략을 실험하는 것은 비..

이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🎰 다중 슬롯머신 문제 (Multi-armed Bandit Problem)⭐ 다중 슬롯머신 문제와 코드 구현에 관한 글을 먼저 읽어주세요 🎯 톰슨 샘플링을 이해하기 위한 예제 라스베이거스 카지노에 있다고 상상해봅시다. 우리 앞에는 5개의 슬롯머신이 있고 매번 한 개의 슬롯머신을 선택해서 손잡이를 당길 수 있습니다. 보상을 받으면 +1 (승리)보상을 받지 못하면 0 (패배) 🎲 초기 5번의 게임 결과 초반 5번의 게임을 진행한 결과를 살펴봅시다. 라운드선택한 슬롯머신보상 (0=패배, 1=승리)1 라운드슬롯머신 102 라운드슬롯머신 213 라운드슬롯머신 304 라운드슬롯머신 405 라운드슬롯머신 51 ..

이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🎰 다중 슬롯머신 문제 (Multi-armed Bandit Problem) 라이베이거스 카지노에 있다고 상상해보세요. 우리 앞에는 5개의 슬롯머신이 있습니다. 각 슬롯머신은 동일한 방식으로 작동합니다.🎲 1달러를 넣고 손잡이를 당기면 슬롯머신이 판돈을 가져가거나 판돈의 두 배를 돌려줍니다.🎯 판돈을 잃으면 보상 -1, 두 배를 얻으면 보상 +1이 됩니다. 그런데 이 5개의 슬롯머신 중 어떤 슬롯머신은 보상을 줄 확률이 더 높습니다. 예를 들어, 특정 슬롯머신이 다른 슬롯머신보다 더 자주 +1 보상을 준다면 우리는 그 슬롯머신을 최대한 빨리 찾아야 합니다. 🎯 목표: 보상을 최대로 받는 전략 찾기 우리는 1,000..

이 글은 강화학습/심층강화학습 특강을 학습하고 정리한 글입니다. 🚀 강화학습의 5가지 원칙 1️⃣ 원칙 1: 입출력 시스템🎯 모든 AI 모델은 입력(Input)과 출력(Output) 개념에 기반합니다. 예시: 자율주행 자동차 🚗입력(State)컴퓨터 비전 시스템이 관찰한 이미지현재 속도, 탱크에 남아 있는 연료량 등출력(Action)자동차의 다음 움직임으로 가속 또는 감속, 좌회전 또는 우회전, 브레이크 밟기 등속도를 올리면서 좌회전하는 등 동시에 수행될 수 있는 여러 행동이 될 수 있음 AI는 입력(상태, State)을 받아 출력(행동, Action)을 결정하는 시스템입니다. 이때 AI가 어떤 행동을 할지 결정하는 전략을 정책(Policy)라고 합니다. 2️⃣ ..

이 글은 Deep RL Course를 학습하고 정리한 글입니다. 정책 그래디언트 더 깊이 파헤치기 🖼 큰 그림 그리기 정책 그래디언트(Policy-Gradient) 방법은 기대 보상을 최대화하는 파라미터 $\theta$ 를 찾는 것을 목표로 합니다. 파라미터화된 확률론적 정책을 사용합니다. 즉, 신경망이 각 행동에 대한 확률 분포를 출력합니다. 특정 행동을 선택할 확률을 행동 선호도(Action Preference)라고 합니다. CartPole-v1 예제입력: 환경의 상태출력: 해당 상태에 대한 행동 확률 분포 정책 그래디언트의 목표 정책 그래디언트의 목표는 행동의 확률 분포를 제어하는 것입니다. 즉, 보상을 최대화하는 좋은 행동이 미래에 더 자주 샘플링되도록 정책을 조정하는 것입..

이 글은 Deep RL Course를 학습하고 정리한 글입니다. 정책 기반(Policy-based) 방법 강화학습의 주요 목표는 최적 정책(Optimal Policy) $\pi^*$를 찾아 기대 누적 보상(Expected Cumulative Reward)을 최대화하는 것입니다. 이는 보상 가설(Reward Hypothesis)에 기반하는데, 보상 가설이란 모든 목표는 기대 누적 보상의 극대화로 설명할 수 있다는 개념입니다. 예를 들어, 축구 게임에서 두 개의 에이전트를 훈련한다고 가정해봅시다. 이 게임의 목표는 승리하는 것입니다. 강화학습에서는 이 목표를 상대 팀의 골대에 최대한 많은 골을 넣어 보상 극대화하고, 동시에 우리 팀의 골대에 들어오는 골을 최소화하여 패널티 최소화하는 것으..

이 글은 Deep RL Course를 학습하고 정리한 글입니다. Optuna 심층 강화학습에서 가장 중요한 과제 중 하나는 최적의 학습 하이퍼파라미터(Hyperparameter)를 찾는 것입니다. Optuna는 이러한 하이퍼파라미터 탐색을 자동화하여 최적의 설정을 효율적으로 찾아주는 라이브러리입니다. 튜토리얼이 튜토리얼에서는 Stable-Baselines3를 활용하여 RL 에이전트를 학습하고 Optuna로 하이퍼파라미터를 최적화하는 방법을 배웁니다. 필수 라이브러리 설치튜토리얼을 실행하기 위해 Stable-Baselines3 및 Optuna를 포함한 필수 패키지를 설치합니다.!pip install stable-baselines3!pip install sb3-cont..

이 글은 Deep RL Course를 학습하고 정리한 글입니다. Deep Q-Learning과 Atari 게임 👾 이번 실습에서는 RL Baselines3 Zoo라는 훈련 프레임워크를 사용하여 Space Invaders를 플레이하는 Deep Q-Learning 에이전트를 훈련합니다. RL Baselines3 Zoo는 Stable-Baselines3를 기반으로 하며, 에이전트 훈련, 평가, 하이퍼파라미터 튜닝, 결과 시각화, 비디오 녹화 등의 스크립트를 제공합니다. 이번 실습에서는 기본 Deep Q-Learning을 사용합니다. 🎮 사용 환경SpacesInvaderNoFrameSkip-v4 📚 RL 라이브러리RL-Baselines3-Zoo 실습 목표 🏆RL Baselines3 Zoo..

티스토리툴바