LLM(대형 언어 모델)의 경우 규모는 모델이 실행되는 위치에 영향을 미치기 때문에 확실히 중요합니다. 안정적인 확산 텍스트-이미지 생성 인공 지능 기술로 유명한 제조업체인 StabilityAI는 오늘 현재까지 가장 작은 모델 중 하나인 StableLM21.6B를 출시했습니다.
StableLM은 Stable AI가 2023년 4월 30억, 70억 개의 매개변수 모델로 처음 출시한 텍스트 콘텐츠 생성 LLM입니다. 새로운 StableLM 모델은 실제로 StabilityAI가 이번 주 초 StableCode3B를 출시한 이후 2024년에 출시한 두 번째 모델입니다.
새로운 StableLM 모델은 더 많은 개발자가 생성 AI 생태계에 참여할 수 있도록 진입 장벽을 낮추고 영어, 스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어, 네덜란드어의 7개 언어로 다국어 데이터를 통합하도록 설계되어 컴팩트하고 강력합니다. 이 모델은 StabilityAI가 원하는 속도와 성능의 최상의 균형을 달성하기 위해 언어 모델링의 최신 알고리즘 발전을 활용합니다.
StabilityAI의 언어 팀 책임자인 Carlos Riquelme는 VentureBeat에 다음과 같이 말했습니다. "일반적으로 유사한 데이터에 대해 유사한 훈련 레시피로 훈련된 대규모 모델은 작은 모델보다 성능이 더 좋은 경향이 있습니다. 그러나 시간이 지남에 따라 새로운 모델이 더 나은 알고리즘을 구현하고 더 많은 고품질 데이터에 대해 훈련할 수 있게 되면서 최근의 작은 모델이 이전의 대형 모델보다 성능이 뛰어난 경우가 있습니다."
StabilityAI에 따르면 이 모델은 Microsoft의 Phi-2(27억), TinyLlama1.1B 및 Falcon1B를 포함한 대부분의 벤치마크에서 매개변수가 20억 미만인 다른 소규모 언어 모델보다 성능이 뛰어납니다. 새롭고 더 작은 StableLM은 StabilityAI의 이전 StableLM3B 모델을 포함하여 일부 대형 모델보다 성능이 더 뛰어납니다.
Riquelme은 "StableLM21.6B. 몇 달 전에 훈련된 일부 대형 모델보다 더 나은 성능을 발휘합니다. 시간이 지남에 따라 더 작고 얇아지고 더 좋아지는 컴퓨터, TV 또는 마이크로칩의 유사한 추세를 고려하십시오."라고 말했습니다.
분명히 말하면 더 작은 StableLM21.6B는 작은 크기로 인해 몇 가지 단점이 있습니다. 작고 저용량 언어 모델의 특성으로 인해 StableLM21.6B는 높은 환각 비율이나 잠재적으로 독성이 있는 언어와 같은 몇 가지 일반적인 문제를 나타낼 수도 있습니다.
지난 몇 달 동안 StabilityAI는 더 작고 더 강력한 LLM 옵션을 개발해 왔습니다. 2023년 12월에는 StableLMZephyr3B 모델이 출시되었는데, 이는 4월 출시된 초기 모델보다 크기는 작지만 더 강력해졌습니다.
새로운 StableLM2 모델은 영어 외에 6개 언어(스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어, 네덜란드어)의 다국어 문서를 포함하여 더 많은 데이터에 대해 학습됩니다. Riquelme이 강조한 또 다른 흥미로운 측면은 훈련 중에 데이터가 모델에 표시되는 순서입니다. 그는 다양한 훈련 단계에서 다양한 유형의 데이터에 집중하는 것이 보람을 느낄 수 있다고 지적합니다.
한 단계 더 나아가 StabilityAI는 사전 훈련 및 미세 조정 옵션을 갖춘 새로운 모델과 연구원들이 "...사전 훈련 쿨다운 전 마지막 모델 체크포인트"라고 부르는 형식을 제공하고 있습니다.
"우리의 목표는 개별 개발자에게 기존 모델을 혁신하고 적용하고 구축할 수 있는 더 많은 도구와 아티팩트를 제공하는 것입니다. 여기서 우리는 사람들이 사용할 수 있는 구체적이고 반제품적인 모델을 제공합니다."라고 Riquelme은 말했습니다.
훈련 과정에서 모델은 순차적으로 업데이트되고 성능이 향상됩니다. 이 경우 첫 번째 모델은 아무것도 모르는 반면, 마지막 모델은 대부분의 데이터를 소비하고 이를 학습할 것으로 예상됩니다. 동시에 모델은 학습을 종료해야 하기 때문에 훈련이 끝날 무렵 유연성이 떨어질 수 있습니다.
"우리는 훈련의 마지막 단계를 시작하기 전에 모델을 현재 형태로 제공하기로 결정했습니다. 그래서 사람들이 사용하고 싶어할 수 있는 다른 작업이나 데이터 세트에 대해 모델을 전문화하는 것이 더 쉬울 것입니다."라고 그는 말했습니다. "이것이 잘 작동할지는 확신할 수 없지만 새로운 도구와 모델을 놀라운 방식으로 활용할 수 있는 사람들의 능력을 정말로 믿습니다."