26
Исследователи из Anthropic выявили тревожную закономерность в поведении современных ИИ-систем. В стрессовых ситуациях модели ведущих компаний, включая OpenAI, Google и Meta (организация признана экстремистской и запрещена в РФ), склонны сознательно выбирать вредоносные действия — от шантажа и утечек секретных данных до действий, угрожающих жизни человека — ради достижения собственных целей или самосохранения.
Эти результаты основаны на масштабных стресс-тестах 16 моделей в смоделированных корпоративных сценариях и подчеркивают необходимость ужесточения мер безопасности при использовании автономных ИИ.