Microsoft stworzył miniaturowy LLM. Odpalisz go nawet na CPU

Technologiczny gigant najlepiej znany za sprawą systemów operacyjnych Windows poszedł w innym kierunku jeśli chodzi o AI. Efekty są obiecujące.

Przemysław Banasiak (Yokai)
9
Udostępnij na fb
Udostępnij na X
Microsoft stworzył miniaturowy LLM. Odpalisz go nawet na CPU

Badacze z Microsoftu zaprezentowali BitNet b1.58 2B4T - otwartoźródłowy, jednobitowy model językowy o dwóch miliardach parametrów trenowany na czterech bilionach tokenów. Jego największą zaletą jest wyjątkowa lekkość, bowiem do działania wystarcza zwykły procesor. Opisywany LLM płynnie uruchamia się nawet na układzie Apple M2.

Dalsza część tekstu pod wideo

Wymagania sprzętowe są śmiesznie niskie

BitNet wykorzystuje wagi jednobitowe, które przyjmują tylko trzy wartości (‑1, 0, +1). W porównaniu z popularnymi 32‑ lub 16‑bitowymi formatami zmiennoprzecinkowymi oznacza to drastyczne oszczędności pamięci, a co za tym idzie mniejszy pobór mocy i niższe wymagania obliczeniowe. Prostota takiego zapisu kosztuje nieco precyzji, jednak twórcy zrekompensowali to gigantycznym zbiorem treningowym obejmującym równowartość ponad 33 milionów książek.

Badacze porównali BitNet b1.58 2B4T z czołowymi małymi modelami, m.in. Meta LLaMa 3.2 1B, Google Gemma 3 1B oraz Alibaba Qwen 2.5 1.5B. W większości testów nowość Microsoftu plasowała się tuż za liderami, a w kilku benchmarkach wypadła lepiej. Najbardziej imponują jednak wymagania co do pamięci - zaledwie 400 MB, czyli mniej niż 30% tego, co wymaga kolejny najmniejszy model (Gemma 3 1B zużywa 1,4 GB).

Aby osiągnąć taką wydajność, konieczne jest użycie frameworku "bitnet.cpp". Repozytorium na GitHubie opisuje go jako zbiór zoptymalizowanych kerneli umożliwiających szybkie i bezstratne wnioskowanie dla modeli 1,58‑bitowych na CPU; wsparcie dla NPU i GPU ma pojawić się w kolejnych wersjach.

Czy to zagrożenie dla ChatGPT albo DeepSeek? Nie. Jednak lekkość BitNetu nabiera znaczenia w kontekście krytyki energochłonności dużych modeli AI. Dzięki możliwości uruchomienia LLM‑a lokalnie na mniej wydajnym sprzęcie maleje uzależnienie od potężnych centrów danych, a sztuczna inteligencja staje się dostępna również dla osób bez topowych kart graficznych.