인간 피드백을 통한 강화 학습

인간 피드백을 통한 강화 학습(Reinforcement learning from human feedback, RLHF)은 인간의 선호도를 기반으로 한 강화 학습(reinforcement learning from human preferences)을 포함하는 것으로, 기계 학습에서 인간의 피드백으로부터 직접 '보상 모델'을 학습시키고, 해당 모델을 보상 함수로 사용하여 근거리 정책 최적화(Proximal Policy Optimization)와 같은 최적화 알고리즘을 통해 강화 학습(RL)을 사용하여 에이전트의 정책을 최적화하는 기술이다. 보상 모델은 주어진 출력이 좋은지(높은 보상) 또는 나쁜지(낮은 보상)를 예측하기 위해 최적화되는 정책에 대해 미리 학습된다. RLHF는 특히 보상 함수가 희박하거나 시끄러울 때 강화 학습 에이전트의 견고성과 탐색을 향상시킬 수 있다.

인간 피드백은 가장 일반적으로 인간에게 에이전트 행동의 인스턴스 순위를 매기도록 요청하여 수집된다. 그런 다음 이러한 순위를 사용하여 엘로 평점 시스템 등을 통해 출력 점수를 매길 수 있다. 선호 판단이 널리 채택되고 있지만 수치 피드백, 자연어 피드백, 편집 속도 등 더 풍부한 정보를 제공하는 다른 유형의 인간 피드백도 있다.

표준 RLHF는 인간 선호도가 쌍 비교를 위한 브래들리-테리(Bradley-Terry) 모델(또는 다중 비교를 위한 플래킷-루스/Plackket-Luce)을 따르고 보상 모델을 학습하기 위해 교차 엔트로피 손실을 최소화한다고 가정한다. 보상 모델을 학습한 후 RLHF는 학습된 보상 모델에 따라 언어 모델을 더욱 미세 조정하여 모델을 인간 선호도에 맞춘다.

RLHF는 명확한 알고리즘 솔루션을 정의하기는 어렵지만 인간이 모델 출력의 품질을 쉽게 판단할 수 있는 작업에 사용된다. 예를 들어 매력적인 스토리를 생성하는 것이 과제라면 인간은 AI가 생성한 다양한 스토리의 품질을 평가할 수 있으며 모델은 피드백을 사용하여 스토리 생성 기술을 향상시킬 수 있다.

RLHF는 대화 에이전트, 텍스트 요약, 자연어 이해 등 자연어 처리의 다양한 도메인에 적용되었다. 에이전트가 "보상 함수"를 기반으로 자신의 행동에서 학습하는 일반적인 강화 학습은 특히 인간 가치와 관련된 복잡한 작업을 처리할 때 보상을 정의하거나 측정하기가 쉽지 않기 때문에 자연어 처리 작업에 적용하기 어렵다. 또는 선호도. RLHF를 사용하면 언어 모델이 이러한 복잡한 값에 맞는 답변을 제공하고, 보다 자세한 응답을 생성하고, 부적절하거나 모델의 지식 공간을 벗어나는 질문을 거부할 수 있다. RLHF 훈련 언어 모델의 몇 가지 예로는 OpenAI의 ChatGPT와 그 전신인 InstructGPT, 딥마인드의 스패로(Sparrow)가 있다.

RLHF는 비디오 게임 봇 개발 등 다른 분야에도 적용됐다. 예를 들어 OpenAI와 딥마인드는 인간의 선호도에 따라 아타리 게임을 플레이하도록 에이전트를 교육했다. 에이전트는 테스트된 많은 환경에서 강력한 성능을 달성했으며 종종 인간의 성능을 능가했다.

같이 보기