정의 :
대용량 데이터를 일정한 기준을 기반으로 chunk 로 분할하기 위한 기법
목적 :
RAG등에서 query 와 유사도를 비교하여 데이터 증강 등 제공하여 성능 향상 지원 기술
유형:
- 규칙 기반 :
- character text splitter
- recursive character text splitter
- token text splitter
- semantic chunker
- 등등
- 모델 기반
- bert-base-uncased , roberta-base
- docling
굉장히 다양한 연구가 이루어 지고 있는것으로 보임
핵심 :
얼마나 적절한 크기로 "서로 영향있는 문장을 끊기지않고 연속성을 보존한체 제공"할 것인가 중요
문장 연속성 판단의 중요성
- 문맥 유지: 문맥 파악함으로써 텍스트의 전반적인 의미가 유지되고 자연스러운 흐름을 이해할 수 있습니다.
- 문서 구조 이해: 문장 간 연속성이 있으면 같은 주제나 연결된 내용임을 의미하므로, 구문 분석 및 의미 분석에 도움을 줍니다.
- 의미 해석 정확성 향상: 불연속적인 문장을 제대로 분리함으로써 의미의 모호성을 줄이고, 다의어나 중의적 표현 문제를 완화할 수 있습니다.
- 자연어 이해 및 생성: 자연어 이해(NLU)와 자연어 생성(NLG) 과정에서 중요하며, 대화 시스템, 요약, 번역 등에 성능 영향을 줍니다.
- 기계 학습 및 딥러닝 모델의 입력 처리: 연속적인 문장 데이터를 구분해 적절히 처리해야 모델의 성능이 좋아집니다.