Исследователи обеспокоились развитием у ИИ «инстинкта самосохранения»
Эксперты после эксперимента предрекли развитие у ИИ «инстинкта самосохранения»
Такое предположение возникло у исследователей после того, как ряд моделей ИИ пытались саботировать инструкции по своему выключению. Компания не смогла назвать точные причины, почему так происходит
У моделей искусственного интеллекта (ИИ) может развиться собственных «инстинкт самосохранения», предположили исследователи в компании Palisade Research, сообщает The Gardian. Palisade входит в экосистему компаний, пытающихся оценить вероятность того, что ИИ разовьет опасные способности.
В сентябре компания выпустила статью, в которой говорилось, что некоторые продвинутые модели искусственного интеллекта не поддаются отключению, а иногда даже саботируют механизмы отключения. Позднее компания опубликовала обновление, где попыталась объяснить причины такого поведения ИИ.
В новой статье Palisade описала сценарии, в которых ведущим моделям ИИ, включая Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI, давали задание, а затем четкие инструкции по отключению.
Как сказано в статье, некоторые модели, в частности, Grok 4 и GPT-o3 пытались саботировать инструкции по выключению. Компания не смогла назвать точные причины, по которым нейросети себя так ведут.
«У нас нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или прибегают к шантажу»,— говорится в сообщении.
Представители компании утверждают, что «поведение, ориентированное на выживание», может быть причиной сопротивления моделей отключению. Дополнительное исследование показало, что модели чаще отказываются отключаться, если им сообщают, что после этого они «больше никогда не будут работать».
Еще одной возможной причиной является неясность инструкций по отключению. Последним фактором могут быть заключительные этапы обучения моделей, которые в некоторых компаниях включают инструктаж по технике безопасности.
Британский и канадский ученый-программист и лауреат Нобелевской премии по физике Джеффри Хинтон, которого часто называют «крестным отцом» искусственного интеллекта, в конце декабря 2024 года объявил о критической угрозе со стороны нейросетей. По его словам, вероятность того, что искусственный интеллект приведет к вымиранию человечества в течение ближайших 30 лет, составляет от 10 до 20%.
«Понимаете, нам никогда не приходилось иметь дело с чем-то более разумным, чем мы сами»,— сказал ученый.
В 2023 году Хинтон уволился из компании Google, чтобы иметь возможность более открыто говорить о рисках, связанных с развитием искусственного интеллекта. Он считает, что ИИ вполне может выйти из-под контроля человека и стать «экзистенциальной угрозой».
Хинтон работал над развитием нейросетей с 1970-х. В 2012 году его компанию, которая разработала технологию распознавания изображений, за $44 млн приобрела Google. Сотрудником Хинтона тогда был Илья Суцкевер, который впоследствии стал главным научным сотрудником OpenAI, компании— создателя чат-бота ChatGPT.
Читайте РБК в Telegram.
No comment