Китайская компания Tencent объявила о запуске открытой модели машинного обучения Hunyuan3D, которая предназначена для создания 3D-моделей. В качестве входных данных можно использовать как текстовые запросы, так и изображения.
Команда разработчиков проекта сообщила, что востребованные модели для генерации действуют медленно и недостаточно хорошо улавливают свои задачи. Это одна из причин, по которой их до сих пор не применяют широко в рамках реальных проектов. Tencent решила эту проблему, разбив процесс создания 3D-моделей на несколько этапов.
На начальном этапе разработчики прибегают к использованию диффузионной модели, которая создает несколько RGB-изображений объекта с различных ракурсов. Это делается для того, чтобы зафиксировать детали предмета и определить, каким должно быть финальное представление модели. По информации авторов проекта, на выполнение этого этапа требуется всего четыре секунды при использовании соответствующего оборудования.
Второй этап необходим для объединения нескольких созданных изображений в единый трёхмерный объект. Нейросеть, выполняющая эту задачу, принимает во внимание искажения и шумы, возникающие в процессе работы диффузионной модели. Примечательно, что в качестве запросов к нейросети можно использовать как изображения, так и текстовые подсказки. Запросы могут быть составлены как на английском, так и на китайском языках.