본문 바로가기

RAG 연습

Embedding

정의 : 

splitter 된 text등의 문서 내용을 고차원으로 변환 하는 역할

 

목적 : 

변환된 고 차원 데이터간 유사도를 비교하여 근접한 chunk 색출

 

유형: 

  • Sparse  : 단어 기반 전통적 기법
    • BM25
    • TF-IDF
  • Dense :  의미적 관계를 파악
    • FastText 
    • Word2Vec 

 

MTEB : 허깅페이스 MTEB(Massive Text Embedding Benchmark) 리더보드는 전 세계 인공지능(AI) 개발자들이 텍스트 임베딩 모델의 성능을 객관적으로 비교하고 평가하는 핵심 지표로 활용되고 있다.

https://huggingface.co/spaces/mteb/leaderboard

 

MTEB Leaderboard - a Hugging Face Space by mteb

 

huggingface.co

 

OpenAIEmbedding

HuggingFaceEmbedding

UpstageEmbedding

OllamaEmbedding

등 활용 가능

 

핵심 : 

코사인 유사도 기반의 측

Pair Classification (쌍 분류: 문장 쌍 관계 판단)

의미적 텍스트 유사도 (Semantic Textual Similarity, STS)

등등등