Новини - OpenAI Point E: створюйте тривимірну хмару точок зі складних сигналів за лічені хвилини на одному GPU

У новій статті Point-E: система для створення 3D-хмари точок із складних сигналів дослідницька група OpenAI представляє Point E, систему умовного синтезу тексту в 3D-хмарі точок, яка використовує дифузійні моделі для створення різноманітних і складних 3D-фігур, керованих складним текстом. репліки.за лічені хвилини на одному GPU.
Дивовижна продуктивність сучасних найсучасніших моделей генерації зображень стимулювала дослідження генерації 3D-текстових об’єктів.Однак, на відміну від 2D-моделей, які можуть генерувати вихідні дані за лічені хвилини або навіть секунди, генеративні моделі об’єктів зазвичай потребують кількох годин роботи графічного процесора, щоб створити один зразок.
У новій статті Point-E: система для створення 3D-хмар точок зі складних сигналів дослідницька група OpenAI представляє Point·E, текстову систему умовного синтезу для 3D-хмар точок.Цей новий підхід використовує модель розповсюдження для створення різноманітних і складних тривимірних форм із складних текстових сигналів лише за хвилину-дві на одному GPU.
Команда зосереджена на проблемі перетворення тексту в 3D, що має вирішальне значення для демократизації створення 3D-контенту для додатків реального світу, починаючи від віртуальної реальності та ігор до промислового дизайну.Існуючі методи перетворення тексту в 3D поділяються на дві категорії, кожна з яких має свої недоліки: 1) генеративні моделі можна використовувати для ефективного створення зразків, але не можуть ефективно масштабувати різноманітні та складні текстові сигнали;2) попередньо навчена модель текст-зображення для обробки складних і різноманітних текстових підказок, але цей підхід потребує інтенсивних обчислень, і модель може легко застрягти в локальних мінімумах, які не відповідають значущим або когерентним 3D-об’єктам.
Тому команда дослідила альтернативний підхід, який має на меті поєднати сильні сторони двох вищезгаданих підходів, використовуючи модель дифузії тексту в зображення, навчену на великому наборі пар текст-зображення (що дозволяє обробляти різноманітні та складні сигнали) та модель дифузії 3D-зображення, навчена на меншому наборі пар текст-зображення.набір даних пари зображення-3D.Модель перетворення тексту в зображення спочатку робить вибірку вхідного зображення для створення єдиного синтетичного представлення, а модель перетворення зображення в 3D створює тривимірну хмару точок на основі вибраного зображення.
Генеративний стек команди базується на нещодавно запропонованих генеративних структурах для умовного генерування зображень із тексту (Sohl-Dickstein та ін., 2015; Song & Ermon, 2020b; Хо та ін., 2020).Вони використовують модель GLIDE із 3 мільярдами параметрів GLIDE (Nichol et al., 2021), точно налаштовану на візуалізованих 3D-моделях, як модель перетворення тексту в зображення, а також набір дифузійних моделей, які генерують хмари точок RGB. модель трансформації.зображення до зображення.3D моделі.
У той час як у попередній роботі використовувалися тривимірні архітектури для обробки хмар точок, дослідники використали просту модель на основі перетворювача (Vaswani та ін., 2017) для підвищення ефективності.У їхній архітектурі дифузійної моделі зображення хмари точок спочатку надходять у попередньо підготовлену модель ViT-L/14 CLIP, а потім вихідні сітки подаються в конвертер як маркери.
У своєму емпіричному дослідженні команда порівняла запропонований метод Point·E з іншими генеративними 3D-моделями щодо оцінювання сигналів від виявлення об’єктів COCO, сегментації та наборів даних сигнатур.Результати підтверджують, що Point·E здатний генерувати різноманітні та складні тривимірні форми зі складних текстових сигналів і пришвидшувати час висновку на один-два порядки.Команда сподівається, що їхня робота надихне на подальші дослідження тривимірного синтезу тексту.
Попередньо підготовлена модель розповсюдження хмари точок і код оцінки доступні на GitHub проекту.Document Point-E: система для створення тривимірних хмар точок зі складних підказок є на arXiv.
Ми знаємо, що ви не хочете пропустити жодної новини чи наукового відкриття.Підпишіться на нашу популярну щотижневу розсилку Synced Global AI Weekly, щоб отримувати щотижневі оновлення AI.

Час публікації: 28 грудня 2022 р

OpenAI Point E: створюйте 3D-хмару точок зі складних форм хвилі за лічені хвилини на одному GPU