Компании Alibaba представила мультимодальную модель машинного обучения mPLUG-Owl3, предназначенную для анализа текста, изображений и видео. Основной упор разработчики сделали на скорость работы нейросети: так, на обработку двухчасового видео уйдет всего 4 секунды.
В основе mPLUG-Owl3 лежит доработанная и оптимизированная модель Qwen2. Благодаря этому в 6 раз сократилось время ожидания первого токена, а на одной видеокарте A100 можно обрабатывать до 400 изображений в секунду. Также в модели используется специальный блок HATB (Hyper Attention Transformer Block), который интегрирует визуальные и текстовые признаки, позволяя искать визуальные образы на основе текстовых запросов.
Код проекта открыт и опубликован на GitHub. Также разработчики поделились необходимыми материалами для работы на платформах Hugging Face и его китайском аналоге Model Scope.