OpenAI открыл исходный код системы машинного обучения Point-E, которая создаёт 3D-объекты по текстовым подсказкам. ИИ может генерировать 3D-модели за одну-две минуты на одном графическом процессоре Nvidia V100.
Point-E не создаёт 3D-объекты в традиционном понимании, а генерирует облака точек или дискретные наборы точек данных в пространстве, которые представляют трёхмерную форму. Облака точек легче синтезировать с вычислительной точки зрения, но они не охватывают детали объекта.
Чтобы обойти это ограничение, команда Point-E обучила дополнительную систему ИИ для преобразования облаков точек Point-E в сетки (наборы вершин, рёбер и граней, которые определяют объект). Однако иногда модель может пропускать определённые детали, что приводит к искажениям.
Сама Point-E состоит из двух моделей: преобразования текста в изображение и преобразования изображения в 3D. Модель преобразования текста в изображение, аналогичная системам генеративного искусства, таким как DALL-E 2 и Stable Diffusion, была обучена на помеченных картинках, чтобы понять ассоциации между словами и визуальными понятиями. Модель преобразования изображения в 3D обучали на наборе изображений, соединённых метками с объёмными объектами.
При получении текстовой подсказки Point-E генерирует синтетический визуализированный объект, который подаётся на устройство преобразования, и оно создаёт облако точек. По словам исследователей OpenAI, после обучения моделей на наборе данных из «нескольких миллионов» 3D-объектов и связанных с ними метаданных Point-E может создавать цветные облака точек, которые часто соответствуют текстовым подсказкам.
Исследователи отмечают, что облака точек Point-E можно использовать при изготовлении объектов для реального мира, например, с помощью 3D-печати, а также в рабочих процессах разработки игр и анимации.
Горячие темы