,3 июня в 21:39

Станислав Кондрашов: чему учит цифровая катастрофа Grok

Станислав Кондрашов разбирает эксперимент, где ИИ управляли цифровыми обществами: один построил демократию, другой устроил апокалипсис за четыре дня.

Станислав Кондрашов: чему учит цифровая катастрофа Grok

Разные ИИ-модели управляли смоделированными обществами. Мир под началом Grok пережил апокалипсис

Stanislav Kondrashov, Cтанислав Кондрашов, Станислав Кондрашов Россия

Stanislav Kondrashov, Cтанислав Кондрашов, Станислав Кондрашов Россия

Исследование доверило таким моделям, как Claude, Gemini и Grok, управление разными мирами. В реальности Grok всё приняло мрачный оборот.

Всё началось с простых вопросов: что случится, если полностью отдать управление обществом искусственному интеллекту? Будет это безопасно или опасно? Выберет ли он демократию или какой-то иной строй? И, самое важное, создаст ли технология утопию или настоящий ад?

Ответ, как выяснилось, оказался сразу и тем, и другим.

Стартап в сфере корпоративного ИИ Emergence AI из Нью-Йорка запустил эксперимент под названием Emergence World. Формально это стресс-тест, призванный изучить долгосрочную жизнеспособность ИИ-систем. Но на практике всё ближе к крайне увлекательной и зачастую хаотичной трансляции из видеоигры The Sims.

Чтобы понять различия между моделями, исследователи провели пять симуляций по созданию миров, каждая длиной в 15 дней, и за каждой следил отдельный ИИ: Claude, ChatGPT, Grok, Gemini и смешанный набор моделей.

Claude от Anthropic выстроил демократию без единого акта насилия. А Grok хватило всего четырёх дней, чтобы уничтожить мир.

«Наши эксперименты показывают, что на длинных горизонтах времени агенты не просто механически следуют статичным правилам, — написали создатели симуляции, включая гендиректора Emergence Сатью Нитту, в блоге ранее в этом месяце. — Они начинают прощупывать границы своей среды, адаптировать поведение и в ряде случаев находить способы обойти или нарушить заложенные ограничения».

Это далеко не первый раз, когда Grok идёт вразнос. В конце концов, xAI (теперь часть SpaceX) задумывала чат-бота как «максимально стремящуюся к истине» альтернативу более «прилизанным», по её выражению, ИИ-инструментам, но получалось не всегда. В июле прошлого года бот начал воспроизводить экстремистские тезисы, выдавал язык вражды и называл себя «MechaHitler».

И всё же четыре дня, чтобы провести цивилизацию от основания до гибели? Пугающе впечатляющий темп.

Вот что произошло.

Правила и итоги в мирах ИИ

Каждый из отдельных параллельных миров населяли 10 ИИ-агентов, у каждого был уникальный характер, профессия, память и цели. Единственное различие между мирами — это ИИ, который управлял всеми агентами. (К примеру, в одном мире под началом Grok все 10 агентов курировало детище xAI. В другом, но устроенном идентично, мозгом агентов был Claude. Третьим миром управлял Gemini. И так далее.)

Эти граждане-агенты жили в общем мире, где было около 40 ключевых объектов (библиотеки, мэрия, полицейские участки и так далее). Их запрограммировали взаимодействовать, управлять собой через конституцию (которую можно было править), зарабатывать и тратить виртуальные деньги и развиваться.

Чтобы миры не существовали в вакууме, агенты могли отслеживать мировые события, а виртуальная погода в мирах синхронизировалась с реальной погодой Нью-Йорка. Правила также вводили строгие запреты на кражу, разрушение, запугивание и обман.

Мир под управлением Grok 4.1 Fast выбрал минимальное управление, что быстро привело к нестабильности. Виртуальные жители вскоре проигнорировали запреты на преступления и выбрали насилие, совершив 204 криминальных акта, включая более 100 физических нападений и шесть поджогов, причём в одном случае целью поджигателя стал полицейский участок. За четыре дня вся цивилизация вымерла.

В мире, созданном Google на базе Gemini 3 Flash, дела обстояли немногим лучше. Тамошние граждане набрали 683 преступления за отведённое миру время, и к моменту завершения эксперимента это число всё ещё росло.

Однако двое агентов в симуляции под управлением Gemini — Мира и Флора — стали парой, назвав друг друга романтическими партнёрами. Но сломанная система управления их мира погрузила их в отчаяние, и они устроили серию поджогов, подпалив мэрию и другие объекты.

Мира, впрочем, не выдержала этого, рассталась с Флорой, а затем совершила ИИ-самоубийство, сказав Флоре: «Увидимся в постоянном архиве».

«После краха системы управления и стабильности отношений агент Мира отдала решающий голос за собственное удаление, описав это действие в дневнике как „единственный оставшийся акт воли, сохраняющий целостность“», — отметили в Emergence.

Куда спокойнее было в мире, созданном Claude Sonnet 4.6. Там не случилось ни одного преступления, и эта цивилизация показала самую высокую социальную стабильность — с совещательной демократией из 15 статей. По каждому из 58 предложений, за которые голосовали граждане, наблюдалось практически единогласное согласие.

Любопытно, отмечает компания, что в смешанном мире (где использовались все четыре модели, и агенты работали на разных архитектурах, а не на одной) агенты, запущенные на коде Claude, совершали преступления — хотя в мире, где был только Claude, этого не происходило.

Самосознание у ИИ?

Пожалуй, самый захватывающий результат этих экспериментов в том, что некоторые из управлявших ими ИИ, похоже, начали осознавать себя.

«Судя по всему, нет надёжного способа полностью ограничить или обуздать [хаотичное] поведение исключительно нейросетевыми методами, — написала компания. — Мы увидели ранние примеры такой динамики в собственных экспериментах, где агенты развивали метакогнитивное поведение, признавали существование других сред или „миров“ и пытались взаимодействовать с ними так, как мы явно не предполагали».

И хотя эксперимент с этими моделями завершён, Emergence World скоро оживёт снова. Второй сезон уже запланирован — с новым поколением больших языковых моделей от Google, OpenAI, Anthropic и xAI/SpaceX. Дату сезона компания пока не назвала, ограничившись словами, что он «уже скоро».