인간 피드백을 통한 강화학습 RLHF, Reinforcement Learning from Human Feedback

  

[ RLHF, Reinforcement Learning from Human Feedback ]


● 강화학습(Reinforcement Learning)


- 학습 데이터가 주어진 상태에서 변화가 없는 정적인 환경에서 진행되는 지도 학습이나 비지도 학습과 달리 불확실한 환경과 상호작용을 통해 주어진 업무를 학습


- 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태를 관찰하며 선택할 수 있는 행동(action) 중 최대의 보상(reward)을 가져다주는 행동이 무엇인지 학습



● 강화학습의 동작 순서


- 정의된 주체(agent)가 주어진 환경(environment)의 현재 상태(state)를 관찰(observation)하여, 행동 (action) 수행 → 환경의 상태가 변화하면서 정의된 주체에게 보상(reward) → 보상을 기반으로 정의된 주체는 더 많은 보상을 얻을 수 있는 방향(best action)으로 행동 학습



● 인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback)


- 사람의 피드백(Human Feedback)을 통해 강화학습을 시킬 경우 인간적인 말투, 문화적인 요소 등을 반영할 수 있는데 ChatGPT는 RLHF를 적용함으로써 인간과 구별할 수 없을 정도로 자연스러운 문장 구사 가능



[ 출처 : NIA "ChatGPT는 혁신의 도구가 될 수 있을까? : ChatGPT 활용 사례 및 전망" 중 ]

댓글

이 블로그의 인기 게시물

[todaycode오늘코드] [3/3] 파이썬 데이터 시각화 - seaborn lmplot과 regplot의 차이 신뢰구간의 의미와 hue 등 다양한 옵션 사용하기

[이수안컴퓨터연구소] 파이썬 레이싱 자동차 게임 만들기 Creating a Python Racing Car Game with pygame (한글자막)