"Chunk size"는 하나의 청크에 허용되는 문자 또는 토큰의 최대 수를 의미하며, 이는 큰 텍스트를 처리하고 분석하기 쉽게 만듭니다. 예를 들어, 청크 크기가 40자라면 텍스트는 40자씩 청크로 나뉩니다. "Chunk overlap"은 연속된 청크 사이에서 공유되는 문자 또는 토큰의 수를 의미하며, 중요한 맥락이 손실되지 않도록 합니다. 중복되는 청크는 문장이 의미를 잃지 않도록 분할되고, 임베딩 또는 검색과 같은 작업을 위해 맥락을 보존합니다. 텍스트를 프로그래밍 방식으로 청크로 나누려면 Langchain과 같은 라이브러리를 사용할 수 있습니다. 여기서 청크 크기와 중복을 설정할 수 있습니다. 청크 크기는 일반적으로 임베딩 작업을 위해 청크당 200~500 토큰의 모델 토큰 제한에 맞게 설정해야 합니다. 청크 중복은 연속성을 보장하기 위해 청크 크기의 10%~20%로 설정해야 합니다. 청크는 임베딩 모델에 중요합니다. 왜냐하면 텍스트가 모델의 토큰 제한에 맞게 조정되고, 텍스트를 더 정확하게 캡처하여 검색을 개선하기 때문입니다. 청크는 또한 큰 텍스트를 효율적인 처리를 위해 작은 조각으로 나누어 확장성도 제공합니다. 청크 크기와 중복을 올바르게 설정하면 텍스트가 효율적이고 정확하게 처리됨을 보장할 수 있습니다.
dev.to
What is Chunk Size and Chunk Overlap
Create attached notes ...
