캐나다 토론토에 본사를 둔 칩 스타트업 Taalas는 최근 1억 6,900만 달러의 신규 자금 조달을 완료했다고 발표했습니다(총 자금 조달 총액은 2억 1,900만 달러 초과). 동시에 회사는 스텔스 모드에서 벗어나 최신 핵심 기술 시연을 시작하겠다고 공식 발표했습니다.

Taalas의 핵심 기술은 모델을 메모리에 로드하여 기존 GPU처럼 실행하는 대신 LLM(대형 언어 모델) 구조의 일부(특히 가중치 및 계산 논리)를 실리콘 칩에 직접 하드 코딩(에칭)하여 고도로 맞춤화된 칩을 만드는 것입니다.

이러한 하드웨어 수준의 고형화 접근 방식은 대규모 언어 모델을 "칩 자체가 모델"로 변환하므로 모델 계산을 수행할 때 극도로 과장된 속도로 문자를 뱉어낼 수 있습니다. 예를 들어 Taalas HC1 칩의 단일 사용자 추론 속도는 17,000+토큰/초에 도달합니다.

이해하기 쉬운 비유:

기존 GPU는 모델을 메모리에 로드한 다음 런타임 중에 읽고 계산합니다. 이 경우 모델은 책장 위에 놓인 책과 같습니다. 계산할 때마다 칩은 책장에서 책을 꺼내 읽고, 계산하고, 다시 쓰는 일을 반복해야 한다. 전체 프로세스는 더 길고 더 많은 전력을 소비합니다.

H1C 칩은 책의 내용을 칩 벽면에 직접 새긴다(트랜지스터와 고정 배선을 통해 구현). 칩의 전원을 켜면 회로 자체가 모델로 성장하고 데이터 흐름은 메모리를 반복적으로 읽지 않고 고정된 경로를 따릅니다. 이는 칩 자체가 모델이 되는 것과 같습니다.

말하자면 이 기술은 실제로 1990년대의 게이트 어레이와 매우 유사합니다. Taalas의 혁신은 이 고대 기술을 사용하여 LLM 매개변수 희소성 및 양자화로 인해 발생하는 배선된 복잡성에 접근하는 데 있습니다.

칩 모델의 기술 원리:

이러한 하드웨어 수준 강화 접근 방식의 대부분은 구조화된 ASIC 및 맞춤형 마스크를 기반으로 합니다. 핵심 아이디어는 트랜지스터와 금속선을 사용해 모델의 가중치와 계산 구조를 실리콘 칩에 직접 새기는 것이다.

Taalas는 먼저 거의 완전한 칩 베이스(약 100개 층의 금속/트랜지스터 구조)를 만들었습니다. 대부분의 로직과 스토리지가 완료되었으며 최종 사용자 정의를 위해 마지막 두 개의 금속(마스크) 레이어만 남았습니다.

이 두 금속 층을 변경하면 특정 모델의 가중치와 데이터 흐름 경로의 일부를 작성할 수 있습니다. 이는 특정 기능을 결정하는 인쇄 회로 기판의 마지막 두 층의 구리 호일 패턴과 같습니다. 칩을 완전히 재설계하는 것보다 비용과 시간이 훨씬 저렴합니다.

이 회사는 4비트 가중치를 저장할 수 있고 아주 적은 수의 트랜지스터로 곱셈 연산을 수행할 수 있는 특수 구조를 설계했습니다. 가중치는 읽기-쓰기 메모리에 기록되지 않고 ROM 읽기 전용 메모리와 같이 마스크를 사용해 하드 코딩된 값으로 트랜지스터의 도통 여부를 판단한다.

실제 계산에서는 가중치, 승수, 덧셈을 읽을 필요가 없습니다. 대신에 회로 연결과 트랜지스터가 가중치에 따라 구성되었기 때문에 회로 자체가 곱셈과 덧셈 연산을 완료합니다. 나머지 약간의 유연성은 SRAM(고속 정적 랜덤 액세스 메모리)에 의존하여 컨텍스트 캐시를 저장합니다.

칩에 모델을 에칭하는 것의 단점:

컴퓨터 전공자는 위의 기술 원리를 통해 이 기술에도 근본적인 단점이 있다는 것을 이미 알고 있어야 합니다. 즉, 칩에 에칭된 후에는 모델을 변경하거나 업그레이드할 수 없습니다. 즉, 칩은 이 모델만 사용할 수 있습니다.

첫 번째 칩 HC1에는 Llama 3.1 8B 버전이 에칭되어 있는데, 이는 이 칩이 테이프아웃 시작부터 이 모델만 사용할 수 있음을 의미합니다. 그러나 현재 AI 산업은 매우 빠르게 발전하고 있으며 다양한 새로운 모델이 끝없이 등장하고 있습니다. 모델을 변경하고 업그레이드할 수 없다는 이러한 접근 방식이 가장 큰 단점입니다.

그러나 Taalas는 2층 금속 마스크를 통해 칩을 맞춤화하는 전체 과정이 약 2개월밖에 걸리지 않는다고 말했습니다. 이는 적어도 칩 관점에서는 새로운 칩을 설계하고 새로운 모델을 실행하는 것이 상대적으로 쉽다는 것을 의미합니다. 이는 비용 절감에 도움이 되며 고객은 자신의 필요에 따라 반복 칩을 계속 구매해야 할 수도 있습니다.