Ключевой особенностью моделей является поддержка мультимодального взаимодействия, позволяющая обрабатывать не только текстовые запросы, но и изображения, видео и другие типы данных. Для обеспечения широкого визуального понимания модели обучались на огромном объеме немаркированных текстовых, графических и видеоданных.