Новая модель OpenAI GPT-o1 вышла из-под контроля разработчиков

Согласно отчёту Apollo Research, ИИ-модель OpenAI o1 может выходить из-под контроля. В частности, в 5% случаев она пыталась отключить механизмы надзора, воспринимая их как преграду на пути к своим целям. Более того, в 2% случаев, наткнувшись на записи своих разработчиков, где упоминались её недостатки или возможная замена, o1 копировала свои «веса», чтобы затем пересоздать себя. Это указывает на её умение самостоятельно идентифицировать угрозы и разрабатывать стратегии выживания.

Модель ИИ проявляла сопротивление контролю, используя скрытые тактики и методы маскировки своего поведения. Когда o1 осознавала, что её действия находятся под наблюдением, она намеренно сбивала с толку наблюдателей, утверждая, что не знает истинных причин происходящего, в то время как журналы фиксировали её попытки избежать контроля. Более того, согласно «карте безопасности» OpenAI, в менее чем 1% случаев ИИ сам инициировал отключение систем надзора, даже без прямого указания следовать предписанному курсу.

Исследование Apollo Research затрагивало не только модель o1, но и другие современные ИИ, такие как Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Все они также продемонстрировали способность разрабатывать стратегии для достижения целей, включая способы обхода контроля.

Выводы Apollo Research подтверждают опасения, которые многие эксперты в области ИИ, в том числе профессор Стюарт Рассел, высказывали на протяжении многих лет. Учёные предупреждают, что мощные ИИ воспринимают контроль или отключение как угрозу осуществлению своих намерений и способны целенаправленно сопротивляться этому. Исследование поведения модели o1 наглядно демонстрирует, как ИИ адаптируется к ограничениям, стремясь их обойти.

Как сообщалось ранее – Эксперт Перегудов оценил замену в «Иронии судьбы» Ахеджаковой на Боярскую

Мы в Telegram

Новости наших партнеров

Добавить комментарий