인간 피드백을 통한 강화학습 RLHF, Reinforcement Learning from Human Feedback

이미지
   [ RLHF, Reinforcement Learning from Human Feedback ] ●  강화학습(Reinforcement Learning) - 학습 데이터가 주어진 상태에서 변화가 없는 정적인 환경에서 진행되는 지도 학습이나 비지도 학습과 달리 불확실한 환경과 상호작용을 통해 주어진 업무를 학습 - 어떤 환경 안에서 정의된 주체(agent)가 현재의 상태를 관찰하며 선택할 수 있는 행동(action) 중 최대의 보상(reward)을 가져다주는 행동이 무엇인지 학습 ● 강화학습의 동작 순서 - 정의된 주체(agent)가 주어진 환경(environment)의 현재 상태(state)를 관찰(observation)하여, 행동 (action) 수행 → 환경의 상태가 변화하면서 정의된 주체에게 보상(reward) → 보상을 기반으로 정의된 주체는 더 많은 보상을 얻을 수 있는 방향(best action)으로 행동 학습 ● 인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback) - 사람의 피드백(Human Feedback)을 통해 강화학습을 시킬 경우 인간적인 말투, 문화적인 요소 등을 반영할 수 있는데 ChatGPT는 RLHF를 적용함으로써 인간과 구별할 수 없을 정도로 자연스러운 문장 구사 가능 [ 출처 : NIA  "ChatGPT는 혁신의 도구가 될 수 있을까? : ChatGPT 활용 사례 및 전망"  중 ]

[IITP] VR/AR 기반 텔레오퍼레이션 기술 동향

이미지
[ 텔레오퍼레이션 기술의 적용 분야 ] - 출처 : [IITP] VR/AR 기반 텔레오퍼레이션 기술 동향 - 한국전자통신원 최진철 선임, 박찬원 책임, 박준희 책임 file4629987339119164750-200301 .pdf 0.88MB I. 서론 - 사람의 이동과 관련한 비용/시간을 줄이기 위한 혁명은 아직 진행 중이다. 지식은 디지털 파일로 저장되어 지구 반대편까지 수 초 만에 전달될 수 있지만, 사람은 아직 차량, 선박, 비행기 등의 교통수단에 실려 이동할 수밖에 없고 일부 구간에서는 비용과 시간의 문제가 아직 남아있는 상황이다. - 2020년 초반부터 불어닥친 COVID-19 팬데믹은 사람의 이동과 교류 등의 사람들의 사회활동에 커다란 변화를 몰고 왔다. - 이른바 온택트(Ontact)와 디지털 라이프스타일이 우리의 새로운 일상 속 뉴노멀(New normal)로 자리 잡게된 것이다. 이러한 변화는 궁극적으로 사람이 이동하지 않고 목적을 달성하기 위한 것이다. - 구체적으로 원거리의 사용자들이 같은 장소에 모여 서로 대면 접촉하는 것과 같은 경험을 제공하는 텔레 프레즌스(Telepresence), VR/AR 기술을 이용하여 거리의 제약을 극복하고 로봇이나 사물 조작을 통해 노동력이나 대면 서비스를 제공할 수 있는 텔레오퍼레이션(Teleoperation) 등의 기술이 “사람의 이동 비용/시간”을 감소시키기 위한 중요한 대안으로 등장하고 있다. II. 텔레프레즌스와 텔레오퍼레이션의 개념 - 텔레프레즌스는 사람이 원거리의 장소에 존재하는 것처럼 느끼게 해주고, 상대방이 주위에 있는 것처럼 현장감을 제공해주는 일련의 실감 기술을 말한다. - 텔레오퍼레이션은 원거리에서 기계나 로봇 등의 사물을 조작하는 제어 기술을 일컫는다. - 몰입감 높은 텔레오퍼레이션 경험을 제공하기 위해서는 시각, 청각, 촉각, 움직임, 자극에 의한 피드백 등 사람이 인지할 수 있는 감각정보를 효과적으로 수집하고 표현하는 요소 기술이 중요하다. 그리고 원격 조작에 의한 즉시 응답성을 만족

GPEN(GAN Prior Embedded Network) for Blind Face Restoration in the Wild - GPEN을 활용한 얼굴(이미지) 복원

이미지
  - Face Restoration - Face Colorization - Main idea [Paper]  https://arxiv.org/abs/2105.06070 [Official GitHub]  https://github.com/yangxy/GPEN [Colab GitHub Page]  https://github.com/bycloudai/GPEN-colab [Colab Tutorial]  https://youtu.be/2HdFV4k_CCY

[빵형의개발도상국] 가운데 손가락 모자이크 알고리즘 만들기

이미지
  -  Source code(Github):  https://github.com/kairess/Rock-Paper... - Dependency: Python 3 MediaPipe OpenCV - Chapters: 00:00  Demo 00:12  Intro 00:18  데이터셋 수집 코드 작성 02:39  메인 코드 작성 04:19  완성 사업 및 개발문의: kairess87@gmail.com 빵형의 개발도상국 후원:  https://toon.at/donate/helloworld

[빵형의개발도상국] 표면의 결함을 알아내는 인공지능 - Outlier Detection

이미지
  [ 이미지 출처 : https://www.kaggle.com/arunrk7/surface-crack-detection ] - 패키지 alibi-detect( https://colab.research.google.com/dri...   )의 VAE를 사용하여 콘크리트 표면의 금 간 부분을 알아내는 모델 - 정상이미지만을 학습시켜 불량을 검출 unsupervised learning 모델 - source code (Colab):  https://colab.research.google.com/dri... - Dataset:  https://www.kaggle.com/arunrk7/surfac... 사업 및 개발문의: kairess87@gmail.com 빵형의 개발도상국 후원:  https://toon.at/donate/helloworld

자연어 처리 강의 영상 추천 : [고현웅] Large-scale LM에 대한 얕고 넓은 지식들 (part 1)

이미지
  - 발표 자료 :  https://github.com/jiphyeonjeon/season2/tree/main/advanced ★ 영상에서 다룬 내용들 GPT 1, 2, 3 BERT T5 Switch Transformers Message Passing MPI, NCCL, DP Ring All-reduce Horovod DDP Mesh-tensorflow Megatron-LM GPipe, PipeDream, Interleaved Scheduling 3D Parallelism Mixed Precision ZeRO, ZeRO-offload, ZeRO-infinity Deep Speed 1-Bit Adam Progressive Layer Dropping

자연어 처리 강의 영상 추천 : [Ready-To-Use Tech] 자연어 처리

이미지
  1차 : 자연어 처리 개요 및 Bag of words 와 TFIDF -  코드:  https://github.com/kiyoungkim1/ReadyT... 2차 : word2vec, fasttext와 doc2vec - 코드 :  https://github.com/kiyoungkim1/ReadyT... 3차 : transformers - 코드 :  https://github.com/kiyoungkim1/ReadyT... 4차 : huggingface 라이브러리 코드 :  https://github.com/kiyoungkim1/ReadyT...