[Перевод] An Interactive Agent Foundation Model — краткий обзор статьи ученых Майкрософт16.02.2024 20:15

Эта статья описывает разработку Базисной модели интерактивного агента.

Интерактивные агенты описываются как: «интеллектуальный агент, способный автономно принимать подходящие действия на основе сенсорной информации, будь то в физическом мире или в виртуальной или смешанной реальности, представляющей физический мир». Для примера приведен робот, которого вытащили из коробки и он может сразу адаптироваться к выполнению бытовых задач в домашней среде.

Новый подход включает обучение одной нейронной модели на множестве задач и модальностей данных, используя достижения в области универсальных основных моделей. Она представляет собой переход от статичных, специфичных для задач систем ИИ к более адаптируемым и универсальным агентам.

Модель работает с тремя типами данных — текст, визуальные данные и действия. Таким образом, каждый входной образец содержит текстовые инструкции, видео и токены действий. Они обозначают каждый образец как последовательность S = (W, V1, A1, V2, A2,…, VT, AT), где W — это последовательность токенов, соответствующих текстовой инструкции, Vi — это последовательность патчей изображений, соответствующих кадру i, а Ai — это последовательность токенов действий, соответствующих кадру i видеопоследовательности из T кадров.

Базисная модель обучена на 13,4 миллионах видеокадров под несколько типов сред, может эффективно работать в интерактивных мультимодальных настройках, используя текст, видео, изображения, диалоги, подписи, визуальное ответ на вопросы и воплощенные действия в четырех различных виртуальных средах. Всего модель имеет 277 миллионов параметров.

Парадигма обучения объединяет различные стратегии обучения, такие как визуальные маскируемые автоэнкодеры, моделирование языка и предсказание следующего действия, чтобы позволить ИИ эффективно работать в разнообразных средах. Архитектура модели использует предварительно обученные подмодули для языковых и визуальных входов, которые затем совместно обучаются в единой системе для предсказания маскированных токенов по всем модальностям.

Приведены результаты модели в трех различных доменах: (1) Робототехника, (2) Игровой ИИ и (3) Здравоохранение. Для тестирования модели в каждом домене базисная модель была подвержена файнтюнингу на соответствующих данных. Каждому домену так же соответствуют свои токены возможных действий. Во всех доменах дообученная модель показывает себя эффективнее чем модели обученные только на данных специфичных для одного этого домена.

В заключение, Базисная модель Интерактивного Агента представляет собой значительный прогресс в исследованиях ИИ, предлагая многообещающий путь для разработки универсальных, действующих, мультимодальных систем. Ее способность работать в различных доменах имеет потенциал радикально изменить способ разработки и применения ИИ-систем в реальных условиях. Эти агенты представляют собой значительный шаг вперед к практическим приложениям ИИ в неопределенных средах, способны автономно выполнять задачи на основе сенсорного ввода как в физическом, так и в виртуальном мирах. Потенциальный спектр применения огромен — начиная от роботов и дронов до автономных автомобилей и самолетов.