Tysiące widzów śledzi, jak komputer gra w Pokemony
Tysiące widzów śledzi transmisję na żywo, podczas której sztuczna inteligencja Claude 3.7 Sonnet samodzielnie gra w grę Pokemon Red na Gameboyu. Co więcej, radzi sobie znacznie lepiej niż jej poprzednik, co firma Anthropic, twórca Claude'a, uważa za bardziej efektywny sposób mierzenia postępu w rozwoju AI.

Najnowszy model AI od Anthropic, Claude 3.7 Sonnet, bez wcześniejszego treningu, przemierza wirtualny świat Pokemonów. Chociaż strona transmisji sugeruje, że eksperyment jest "projektem pasjonata Claude'a i Pokemonów", to w rzeczywistości został on zorganizowany przez firmę Anthropic. Pomysł na "wpuszczenie" Claude'a do gry Pokémon Red narodził się wewnątrz firmy już w 2024 roku, z udziałem wcześniejszego modelu, Claude 3.5 Sonnet. Projekt szybko zyskał popularność wśród pracowników, więc kolejny, naturalnym krokiem, była transmisja na żywo.
AI gra w Pokemony. Radzi sobie nieźle
Claude 3.7 radzi sobie znacznie lepiej niż poprzednik. O ile Claude 3.5 potrafił łapać Pokémony i opuścić początkowe miasto Pallet Town, o tyle "prawdziwym przełomem" w przypadku Claude 3.7 Sonnet jest zdolność do pokonywania różnych wyzwań. Warto wspomnieć, że AI udało się między innymi zdobyć trzy odznaki od liderów sal Pokemon. Zdaniem twórców AI to świetny sposób na mierzenie postępów w rozwoju sztucznej inteligencji.



Powoli odchodzimy od tradycyjnych benchmarków na rzecz bardziej 'dostępnych' testów, które mogą być zrozumiałe dla szerszej grupy ludzi. Jesteśmy w punkcie, w którym standardowe oceny nie oddają pełnego obrazu tego, jak bardzo zdolna jest każda kolejna wersja tych modeli.
Mierzenie niuansów postępu modelu AI jest trudnym zadaniem. W tym tygodniu OpenAI przyznało, że miało trudności z pomiarem ulepszeń swojego najnowszego modelu, GPT-4.5. W związku z tym firma musiała opracować własną skalę testową.
Podczas gry w Pokemon Red, Claude może wykonywać akcje za pomocą głównych przycisków gry (A, B, Góra, Dół, Lewo, Prawo, Start i Select), a także nawigować do określonych współrzędnych na ekranie. Robi zrzuty ekranu i przetwarza obrazy, aby zrozumieć swoje otoczenie. W miarę postępów w grze AI aktualizuje swoją bazę o nowe informacje.
Claude nie jest idealny i czasami myli się w nawigacji, ale z pewnością zapewnia widzom nowy rodzaj rozrywki.