DAJ CYNK

Polacy nie gęsi i swojego Bielika mają

Marian Szutiak

Aplikacje

Polacy nie gęsi i swojego Bielika mają

Akademickie Centrum Komputerowe Cyfronet AGH udostępniło zasoby obliczeniowe dwóch najszybszych superkomputerów w Polsce – Heliosa i Atheny – do stworzenia Bielika, nowego polskiego modelu językowego.

Bielik to efekt współpracy zespołu fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH. Jest to duży model językowy (LLM) z 11 miliardami parametrów, stworzony z myślą o języku polskim.

Fundacja SpeakLeash zrzesza ludzi z różnych profesji, którzy postawili sobie za cel stworzenie największego polskiego zbioru danych tekstowych, wzorując się na zagranicznych inicjatywach jak The Pile. Zespół projektowy składa się z pracowników polskich przedsiębiorstw, badaczy oraz studentów związanych z obszarami sztucznej inteligencji. Prace nad modelem trwały ponad rok i obejmowały zbieranie, przetwarzanie oraz klasyfikację danych.

Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie.

– powiedział Sebastian Kondracki ze SpeakLeash,pomysłodawca Bielika

Kluczową rolę w rozwoju Bielika odegrały superkomputery Helios i Athena z Akademickiego Centrum Komputerowego Cyfronet AGH. Współpraca z AGH umożliwiła wykorzystanie odpowiednich mocy obliczeniowych oraz wsparcie eksperckie, co gwarantowało sukces projektu. Zespół ACK Cyfronet wspierał optymalizację i skalowanie procesów treningowych, rozwój metod generowania danych syntetycznych oraz testowanie modeli.

Zasoby Heliosa, najszybszej aktualnie maszyny w Polsce, wykorzystaliśmy do uczenia modeli językowych. Nasza rola polega na wsparciu wiedzą ekspercką, doświadczeniem i przede wszystkim mocą obliczeniową procesu katalogowania, zbierania, przetwarzania danych oraz na wspólnym przeprowadzeniu procesu uczenia modeli językowych. Dzięki pracy zespołu SpeakLeash i AGH udało nam się stworzyć Bielika, model LLM, który doskonale radzi sobie z naszym językiem oraz kontekstem kulturowym i który może być kluczowym elementem łańcuchów przetwarzania danych tekstowych dla naszego języka w zastosowaniach naukowych i biznesowych. Potwierdzeniem jakości Bielika są wysokie lokaty uzyskane przez model na listach rankingowych dla języka polskiego.

– powiedział Marek Magryś, zastępca Dyrektora ACK Cyfronet AGH ds. Komputerów Dużej Mocy

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych to łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji to aż 2 EFLOPS.

Jeśli operujemy tak dużymi danymi jak w przypadku projektu Bielik to oczywiście infrastruktura potrzebna do pracy przekracza zdolności zwykłego komputera. Musimy dysponować mocą obliczeniową potrzebną tylko do tego żeby przygotowywać dane, porównywać je ze sobą, trenować modele. Bariera dostępności tego typu superkomputerów powoduje, że mało która firma jest w stanie takie prace prowadzić samodzielnie. Szczęśliwie AGH dysponuje takim zapleczem.

– dodał prof. Kazimierz Wiatr, Dyrektor ACK Cyfronet AGH

Różnice między Bielikiem a ChatGPT

Choć ChatGPT potrafi mówić po polsku, jest nasycony treściami w języku angielskim, co ogranicza jego zrozumienie polskiej kultury i literatury. Bielik, stworzony z myślą o języku polskim, lepiej radzi sobie z polskimi tekstami, w tym prawnymi i medycznymi.

Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w Internecie, która funkcjonuje w języku polskim jest znacznie mniejsza niż w angielskim.

– wyjaśnili twórcy Bielika

Bieli AI

Wersja, którą mogę testować użytkownicy, jest utrzymywana nieodpłatnie w domenie publicznej i jest wciąż udoskonalana. Autorzy udostępnili, oprócz pełnych wersji opracowanych modeli, także całą gamę wersji skwantyzowanych w najpopularniejszych dostępnych formatach, które umożliwiają uruchomienie modelu na własnym komputerze.

Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się  w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym, może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku.

– powiedział Szymon Mazurek z ACK Cyfronet AGH

Korzyści z polskich modeli językowych

Twórcy Bielika podkreślają, że rozwijanie modeli językowych w językach innych niż angielski jest kluczowe dla zrozumienia różnorodności językowej, poprawy jakości tłumaczeń oraz wsparcia społeczności językowych. Modele takie jak Bielik mogą również wzmocnić pozycję Polski w sektorze AI i uniezależnić kraj od zewnętrznych firm technologicznych.

Intensywne działania nad rozwojem AI, modelami językowymi typu Bielik czy innymi narzędziami opartymi o sztuczną inteligencję są w interesie wszystkich dobrze działających gospodarek. Obserwujemy wzmożone prace nad tego typu rozwiązaniami w wielu krajach.

– dodał Jan Maria Kowalski z Fundacji Speakleash

Zobacz: ChatGPT będzie mądrzejszy. Koniec z głupimi żartami
Zobacz: Google przyspiesza - darmowe Gemini to teraz rakieta

Chcesz być na bieżąco? Obserwuj nas na Google News

Źródło zdjęć: Shutterstock, AGH

Źródło tekstu: AGH