본문 바로가기

LangChain&LangGraph

(31)
Language Models are Few-Shot Learners 리뷰 https://programmerk.tistory.com/110 Improving Language Understanding by Generative Pre-Training 리뷰배경 : 기존 지도학습 방식은 라벨링, 어노테이션등 노동력이 필요하고, 이에 따른 적용 한계가 존재한다. 이러한 한계점 (시간적, 비용적) 극복하기 위하여 비지도 학습 방안을 고려하기 시작함programmerk.tistory.com https://programmerk.tistory.com/111 Language Models are Unsupervised Multitask Learners 리뷰https://programmerk.tistory.com/110 Improving Language Understandingby Generativ..
Language Models are Unsupervised Multitask Learners 리뷰 https://programmerk.tistory.com/110 Improving Language Understandingby Generative Pre-Training 리뷰배경 : 기존 지도학습 방식은 라벨링, 어노테이션등 노동력이 필요하고, 이에 따른 적용 한계가 존재한다. 이러한 한계점 (시간적, 비용적) 극복하기 위하여 비지도 학습 방안을 고려하기 시작함programmerk.tistory.com 배경 아직도 지도학습 방법이 많이 사용되고, 이로 인해 데이터의 분포가 잘못될 경우 성능에 취약하다는 단점이 존재한다.이러한 방식은 특정 분야 ( narrow experts ) 에서 잘 동작한다. 그 이유로는 단일 도메인 데이터셋과 단일 작업 학습이(single task training on singl..
Improving Language Understanding by Generative Pre-Training 리뷰 배경 : 기존 지도학습 방식은 라벨링, 어노테이션등 노동력이 필요하고, 이에 따른 적용 한계가 존재한다. 이러한 한계점 (시간적, 비용적) 극복하기 위하여 비지도 학습 방안을 고려하기 시작함. 제시하는 방안 : 1. 비지도 학습으로 사전학습 2. 지도학습으로 파인튜닝하여 성능향상3. Transformer 의 decoder 구조 사용 구조 :1. Unsupervised pre-training bookcorpus 를 사용하여 likelihood 최대화 학습 트랜스포머의 디코더만 사용 이유> 다음 토큰을 순차적으로 예측하는 생성적 사전 학습(generative pre-training) 목적에 잘 맞기 때문입니다.디코더는 이전 토큰들만 참고해서 다음 토큰을 예측하는 autoregressive 구조를 갖고 있습..
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://programmerk.tistory.com/101 Attention Is All You Need이전 문제 :이전 hidden state를 기반으로 다음 step의 hidden state를 순차적 생성 특성 인한 병렬 처리 불가 (기존에도 순환 구조에 Attention 메커니즘 사용하고는 있음.) 해결 방안 :순환 구조를 배제하programmerk.tistory.com이전 문제기존 단방향성 모델들의 한계 (left-to-right 학습 방법)downstream task 별도 모델 필요 아키텍처의 불편함 해결 방안BERT 는 양방향 self attention 활용 , GPT 는 제한된 self attention 활용Masted Langauge Model(MLM) 사용 : 기존에는 다음 단어나..
neural machine translation by jointly learning to align and translate https://programmerk.tistory.com/100 seq2seq (Sequence to Sequence Learning with Neural Networks)https://programmerk.tistory.com/98 LSTM ( long short term memory )https://programmerk.tistory.com/97 RNNRNN : RNN의 은닉층에 과거 정보를 압축해 저장하는 역할을 하고, 이 정보가 다음 시간 단계로 다시 입력되어 순환되programmerk.tistory.com 정의 :신경망 기계 번역의 인코더 디코더 구조에서 고정된 컨텍스트를 만드는 과정에서의 병목 현상 해결위해 정렬과 번역을 동시에 학습하는 attention machanism 적용하여 성능 향상 ..
Attention Is All You Need 이전 문제 :이전 hidden state를 기반으로 다음 step의 hidden state를 순차적 생성 특성 인한 병렬 처리 불가 (기존에도 순환 구조에 Attention 메커니즘 사용하고는 있음.) 해결 방안 :순환 구조를 배제하고 입력과 출력 사이 전역적 의존성을 온전히 어텐션 메커니즘에 의존하는 Transformer 제안,셀프 어텐션 레이어 사용하여 병렬 처리 가능하도록 지원 어떻게 ?Q : 이전 문맥을 유지하면서 병렬성을 어떻게 높일 것인가?A :인코더와 디코더로 구성, 인코더에서는 입력 신퀀스를 벡터로 변환, 디코더는 이를 바탕으로 출력 시퀀스를 생성한다.이때 어텐션 메커니즘을 활용함 Scaled Dot-Product Attention : 주어진 Query, key, Value 이용 각 단..
seq2seq (Sequence to Sequence Learning with Neural Networks) https://programmerk.tistory.com/98 LSTM ( long short term memory )https://programmerk.tistory.com/97 RNNRNN : RNN의 은닉층에 과거 정보를 압축해 저장하는 역할을 하고, 이 정보가 다음 시간 단계로 다시 입력되어 순환되므로 연속된 데이터를 통해 음성, 텍스트, 시계열programmerk.tistory.com 개념기존의 입력과 출력을 고정된 차원의 벡터로 표현할 수 있는 제한을 LSTM(Long Short-Term Memory) 구조를 단순하게 적용하여 해결 하는 모델 이전 번역 형태: 규칙 기반 기계번역(Rule-Based Machine Translation, RBMT) : 언어학자가 직접 문법, 구문, 형태소 등 ..
LSTM ( long short term memory ) https://programmerk.tistory.com/97 RNNRNN : RNN의 은닉층에 과거 정보를 압축해 저장하는 역할을 하고, 이 정보가 다음 시간 단계로 다시 입력되어 순환되므로 연속된 데이터를 통해 음성, 텍스트, 시계열과 같이 순서가 중요한 데이터programmerk.tistory.com RNN 의 한계를 극복하기위하여 Cell State, Input Gate, Output Gate, Forget Gate 를 추가한 모델 LSTM 구조기존 RNN 에서 Input, hidden State, Output 구조에서 Cell State, Forget Gate, Input Gate, Output Gate를 추가하여 불필요한 데이터 최소화, 핵심 내용 Cell State에 저장하여 기울기 소실,..