정의 :
splitter 된 text등의 문서 내용을 고차원으로 변환 하는 역할
목적 :
변환된 고 차원 데이터간 유사도를 비교하여 근접한 chunk 색출
유형:
- Sparse : 단어 기반 전통적 기법
- BM25
- TF-IDF
- Dense : 의미적 관계를 파악
- FastText
- Word2Vec
MTEB : 허깅페이스 MTEB(Massive Text Embedding Benchmark) 리더보드는 전 세계 인공지능(AI) 개발자들이 텍스트 임베딩 모델의 성능을 객관적으로 비교하고 평가하는 핵심 지표로 활용되고 있다.
https://huggingface.co/spaces/mteb/leaderboard
MTEB Leaderboard - a Hugging Face Space by mteb
huggingface.co
OpenAIEmbedding
HuggingFaceEmbedding
UpstageEmbedding
OllamaEmbedding
등 활용 가능
핵심 :
코사인 유사도 기반의 측
Pair Classification (쌍 분류: 문장 쌍 관계 판단)
의미적 텍스트 유사도 (Semantic Textual Similarity, STS)
등등등