Communauté RSS DEV

Quelle est la taille du fragment et la superposition de fragments ?

La taille de bloc (ou chunk size) fait référence au nombre maximum de caractères ou de jetons autorisés dans un seul bloc, ce qui facilite le traitement et l'analyse de grands morceaux de texte. Par exemple, si la taille de bloc est de 40 caractères, le texte sera divisé en blocs de jusqu'à 40 caractères chacun. Le chevauchement de blocs (ou chunk overlap) fait référence au nombre de caractères ou de jetons partagés entre les blocs consécutifs, garantissant que le contexte important ne soit pas perdu. Les blocs chevauchants empêchent les phrases d'être coupées de manière à perdre leur sens et préservent le contexte pour des tâches comme l'intégration ou la recherche. Pour découper du texte de manière programmatique, vous pouvez utiliser une bibliothèque comme Langchain, qui vous permet de définir la taille de bloc et le chevauchement. La taille de bloc doit être définie pour tenir dans la limite de jetons du modèle, généralement comprise entre 200 et 500 jetons par bloc pour les tâches d'intégration. Le chevauchement de blocs doit être défini à 10 % à 20 % de la taille de bloc pour assurer la continuité. La découpe est importante pour les modèles d'intégration, car elle garantit que le texte tient dans la limite de jetons du modèle et améliore la récupération en capturant le texte de manière plus précise. La découpe permet également une scalabilité en décomposant les grands textes en morceaux plus petits pour un traitement efficace. En définissant correctement la taille de bloc et le chevauchement, vous pouvez vous assurer que votre texte est traité de manière efficace et précise.
favicon
dev.to
What is Chunk Size and Chunk Overlap
Create attached notes ...