미스트랄 7B는 파리 기반 스타트업 미스트랄 AI가 개발한 강력하고 효율적인 대규모 언어 모델입니다. 미스트랄 AI는 전 메타 및 구글 딥마인드 직원들이 설립했습니다. 이 모델은 디코더 전용 아키텍처를 사용하여 자연어 생성 작업에 적합합니다. 기본 및 지시 형태로 제공되며, 기본 버전은 채팅 변형과 유사하여 대화 및 지시 기반 작업에 모두 적합합니다. 미스트랄 7B의 성능은 더 큰 모델에 비해 강력하여 Llama 2 13B를 초월하고 Llama 1 34B와 대부분의 벤치마크에서 동등하거나 초월합니다. 모델의 효율성은 트랜스포머 아키텍처의 개선, 즉 RMS 정규화(RMS Norm), 로테리 포지션 임베딩(RoPE), 그룹 쿼리 어텐션(GQA), 슬라이딩 윈도우 어텐션(SWA), 롤링 버퍼 KV 캐시, SwiGLU 활성화 함수 등을 통해 달성됩니다. 이러한 구성 요소는 다음 섹션에서 자세히 살펴보겠습니다.
towardsdatascience.com
Mistral 7B Explained: Towards More Efficient Language Models
Create attached notes ...
