В недавней патентной заявке ИИ-лаборатория Google описала метод под названием «внутриагентная речь для облегчения обучения задачам». Суть метода в том, что роботы наблюдают за выполнением задач через изображения или видео и самостоятельно формируют их описание на естественном языке. Например, робот может смотреть видео, где кто-то поднимает чашку, и при этом внутренне «проговаривать» фразу: «человек поднимает чашку».
Внутренний монолог позволяет машине связывать визуальные данные с внутренней «речью», чтобы в будущем совершать корректные действия с похожими объектами. Благодаря этому реализуется обучение с нуля («zero-shot»), когда агенты способны работать с незнакомыми объектами без предварительной подготовки. Такой подход также снижает требования к памяти и вычислительным ресурсам.
Для робототехники и ИИ-агентов чем больше контекста, тем лучше. Внутренний монолог предоставляет дополнительные данные для обучения и помогает роботам лучше понимать и адаптироваться к незнакомым ситуациям. Это важно, поскольку непредсказуемость поведения роботов на базе ИИ остаётся серьёзным препятствием для их широкого внедрения. Многие компании, включая Nvidia и Intel, работают над похожими технологиями.
Эта разработка продолжает масштабные усилия DeepMind в области робототехники. Недавно компания представила Gemini Robotics On-Device — компактную версию своей визуально-языковой модели Gemini Robotics, которая способна работать непосредственно на роботах без подключения к облаку или интернету. Это обеспечивает не только быструю реакцию, но и сохранение конфиденциальности, что особенно важно в таких чувствительных сферах, как здравоохранение.