
Тестирование ИИ-моделей происходит в том числе благодаря сравнительному процессу производительности. Конечно, такие тесты дают крайне мало информации, так как реальные возможности конкретной модели можно понять только в «полевых условиях». Тем не менее, «заставляя» играть нейросети в разные игры, можно получить больше данных. Так и сделали компании Google и Anthropic, «заставив» играть Gemini 2.5 Pro в Pokémon.
Такие тесты можно посмотреть в режиме реального времени на некоторых стриминговых площадках, в том числе Twitch. Однако, с последним тестом произошло нечто необычное — Gemini 2.5 Pro буквально запаниковала при игре.
Примечательно, что Google DeepMind отметил: «возможно, паника произошла из-за «старости» игры — она выпущена более 25 лет назад». Однако точная причина неизвестна.