Smilegate Blog

Mixtral 8x7B, 인공지능도 협업이 대세!

- Mistral AI는 Mixtral 8x7B 모델을 최근 오픈 소스로 출시했다. 이 모델은 32k, 3만 2천개의 토큰을 처리할 수 있으며 다국어를 지원한다.
- Mixtral은 sparse mixture-of-expoerts(MoE) 네트워크를 가지고 있다. 이는 파라미터를 효율적으로 사용하여 작동하며, 130억개 파라미터만 사용하면서도 470억개 파라미터와 유사한 성능을 보인다.
- MoE는 transformer 구조에서 FFN을 구성하는 전문가들로 이루어진 레이어이다. 입력이 어떤 전문가로 전달될지를 결정하는 Router가 있다고 설명되었다.
- Mixtral은 지도 학습과 direct preference optimisation (DPO) 방법을 사용해 훈련되었다. 현재 이 모델은 가장 높은 성능을 보이는 오픈 소스 모델 중 하나이다.