ChatGPT, odsuń się. Naukowcy ujawnili, jaka technologia jest na topie
Modele LLM używane w rozwiązaniach sztucznej inteligencji stają się coraz bardziej rozbudowane. Jednak jak pokazują najnowsze odkrycia naukowców, niekoniecznie więcej znaczy lepiej.

Przyszłość to nie tylko duże modele, SLM-y też mają swoje miejsce
Duże modele językowe (Large Language Models, w skrócie LLM) stosowane np. w ChatGPT, Copilocie, Gemini od Google i innych mają coraz większe możliwości. Potrafią już z nami rozmawiać głosowo w czasie rzeczywistym, przetwarzać obrazy itp. Jednak trenowanie ich oraz obsługa zapytań użytkowników mają ogromny koszt - tak pieniężny, jak i energetyczny. Dla przykładu Google wydało na trening Gemini 1.0 Ultra aż 191 milionów dolarów. Z kolei jeśli chodzi o zużycie energii, jedno zapytanie użytkownika do ChatGPT potrzebuje 10x więcej prądu niż pojedyncze wyszukanie przez Google - podaje Electric Power Research Institute.



Te dane dają do myślenia i coraz częściej mamy do czynienia z trendem rozwijania małych wyspecjalizowanych modeli językowych (SLM), używających np. 8 miliardów parametrów, zamiast 1,76 biliona parametrów z GPT-4. Takie modele mogą świetnie się sprawdzać w wąskich, wyspecjalizowanych zadaniach, jak pobieranie i magazynowanie danych z urządzeń, odpowiadanie na pytania jako chatbot (np. w służbie zdrowia) albo do podsumowania konwersacji. Profesor i szef Wydziału Uczenia Maszynowego w Carnegie Mellon University w wypowiedzi dla Quanta Magazine powiedział, że przy wielu z tych zastosowań taki mały model językowy jest wystarczający i można go uruchomić na laptopie albo smartfonie i wcale nie jest potrzebne ogromne centrum danych.
Aby jednak małe modele językowe (SLM) były odpowiednio wytrenowane, potrzebne są pewne sztuczki. Zanim zostaną one wytrenowane, najpierw duże modele językowe (LLM) pobierają suche dane treningowe z internetu - mogą one być niezorganizowane, poszatkowane i trudne do przetworzenia. Jednak LLM-y potem "wygładzają" pozyskany materiał treningowy i tworzą wysokiej jakości zestawy danych, które są odpowiednie dla SLM-ów. Proces ten nazywa się "destylowaniem wiedzy" i przypomina to nauczyciela udzielającego lekcji studentom. W ten sposób SLM-y mogą pomieścić dość dobrze zorganizowaną wiedzę w obrębie swoich ograniczeń.
Co ciekawe, wiele mniejszych modeli językowych powstało poprzez skalowanie w dół ich większych odpowiedników. Proces ten był zainspirowany działaniem ludzkiego mózgu, który wraz z wiekiem nadrabia na swojej efektywności poprzez tzw. przycinanie synaptyczne, gdy mózg pozbywa się zbędnych lub słabych połączeń między neuronami. Proces przycinania ma swoje korzenie w badaniu naukowym z 1989 opracowanym przez Yanna LeCuna (obecnego pracownika Mety), który twierdził, że można usunąć do 90 procent parametrów w wytrenowanej sieci neuronowej bez straty efektywności. Swoją metodę nazwał "optymalizowanym uszkodzeniem mózgu".
Gdzie indziej małe modele mogą się przydać jako tanie narzędzia do eksperymentowania z nowymi pomysłami, gdzie podstawy rozumowania danego modelu mogą wydać się o wiele bardziej oczywiste, a przez to szybciej można zauważyć zmiany przy aktualizowaniu danego modelu.
Reasumując, przyszłość niekoniecznie będzie należeć do masywnych dużych modeli językowych, a to właśnie w obrębie tych mniejszych może mieć miejsce wiele istotnych innowacji.