Что означает новый Text-To-3D от Nvidia для проектирования и дизайна продуктов

ТЛ; др: Генеративный ИИ развивается стремительными темпами. Последний алгоритм от Nvidia преобразует текст в 3D-сетку в два раза быстрее, чем проекты, опубликованные всего 2 месяца назад. Это означает, что технические возможности сейчас уже превосходят наши возможности по работе с ними.

На прошлой неделе бумаги Ученые Nvidia продемонстрировали экспоненциальную скорость, с которой развивается пространство генеративного ИИ. Этот всплеск активности, особенно заметный за последние 9 месяцев, окажет влияние на все сферы жизни, не в последнюю очередь на дизайн продукции, разработку и производство. Эти изменения освободят отрасль от структурных ограничений в способах передачи идей, ускорят циклы инноваций и, в конечном итоге, позволят ей выполнить обещания в области устойчивого развития.

Когда в течение многих лет говорили, что ИИ коренным образом изменит то, как мы работаем, мало кто ожидал, что творческий сектор окажется среди его первых жертв. Появление в 3 году человекоподобного текстового генератора GPT-2020 сделало возможности более четкими. С тех пор это был дикий скачок: DALL-E (преобразование текста в изображение), Whisper (распознавание речи) и совсем недавно Stable Diffusion (преобразование текста в изображение) не только расширили возможности речевых и визуальных инструментов ИИ, но и уменьшены ресурсы, необходимые для их использования (со 175млн параметров для GPT-3 до 900млн для стабильной диффузии).

Стабильный размер Diffusion означает менее 5 ГБ дискового пространства, поэтому его можно запускать на любом ноутбуке. Не только это; в отличие от OpenAI (который в основном финансируется Microsoft и публикует GPT-3, DALL-E и Whisper), Stable Diffusion имеет открытый исходный код, а это означает, что другие могут с большей готовностью использовать его знания. Это означает, что мы наблюдаем только начало инновационного цикла — как показано в статье Nvidia, впереди еще много всего.

Сторонники Stable Diffusion (stability.ai) еще больше усиливают эту тенденцию, предоставляя технологические и финансовые гранты другим командам, направляющим исследования в новых направлениях. Кроме того, множество проектов делают инструменты доступными для все более широкого круга пользователей. Среди них плагины для Blender, инструмента дизайна с открытым исходным кодом, и собственный эквивалент Adobe Photoshop. Полный API-доступ к инструментам финансируется за счет крупных долларов венчурного капитала, а это означает, что сотни миллионов разработчиков программного обеспечения, а не только несколько сотен тысяч специалистов по данным, теперь будут создавать свои собственные инструменты на основе этих алгоритмов.

Речь, изображения и текст являются одними из первых вертикалей, которые будут разрушены этими технологиями. Но и 3D не отстает. Помимо нишевого генеративного искусства, мультфильмы — очевидная первая точка приложения. Уже есть генератор покемонов на основе Stable Diffusion. Визуальные эффекты и фильмы на очереди. Но многие другие секторы, вероятно, будут разрушены, в том числе дизайн интерьера, в котором главную роль играет Interiorai.com.

Во всем этом волнении применение инноваций в дизайне и проектировании кажется второстепенным. Тем не менее, вероятно, именно эта область в конечном итоге подвергнется наибольшему воздействию. Конечно, есть первоначальные проблемы: во-первых, Stable Diffusion и его соотечественники еще не очень точны. Это не проблема для мультфильмов, но это серьезная проблема для любой попытки преобразовать текст в полноценную трехмерную геометрию, используемую в промышленном контексте. Интерес к этой области только зарождается (в 3 году в Израиле был запущен проект под названием Bits101). Это может быть святой Грааль отрасли, но есть много промежуточных задач, которые решить гораздо проще. К ним относятся улучшенное распознавание объектов (алгоритм Yolo уже используется с большим успехом), что приведет к улучшению цитирования и аннотирования, что повысит качество и уменьшит количество ошибок. Плагины также должны упрощать использование генеративного ИИ для разработки базовых конструкций (примитивов), которые затем можно редактировать в инструментах проектирования для повышения устойчивости в соответствии с требованиями. Этот подход уже использовался в Inspire от Altair, который использовал анализ конечных элементов, чтобы сделать то же самое. Эти примитивы также могут служить синтетической базой данных аннотированных моделей, которых не хватает в индустрии 2015D CAD. Генеральный директор и основатель Physna указывает на это в статье подробно описывая свои собственные попытки использовать эти новые методы для создания подробных 3D-проектов, что также подчеркивает ряд подводных камней при использовании синтетических данных для управления этими алгоритмами. Создание 3D-проектов на основе 2D-чертежей является еще одной потенциальной библиотека износа инструмента для определения наилучших стратегий обработки.

Эти проблемы важны и прибыльны для решения самих по себе. Тем не менее, их основное влияние будет заключаться в том, чтобы помочь развить путь от идеи к дизайну, в конечном итоге уменьшив зависимость от 3D-проектов для передачи намерений. Проекты, будь то 2D или 3D, служили основным средством преобразования потребностей клиентов в конечные продукты. Это сдерживает отрасль, потому что эти проекты служат черным ящиком, в котором хранятся все эти ценные сведения о клиентах, производственные ограничения и цели компании, которые невозможно распутать, но которые можно идентифицировать отдельно. Это означает, что когда что-то меняется, просто изменить дизайн практически невозможно. Именно по этой причине производственные инновации, такие как 3D-печать, требуют так много времени для внедрения и постоянно разочаровывают краткосрочных инвесторов. Компоненты, из которых состоит самолет, «устанавливаются» с момента их проектирования, несмотря на то, что срок службы составляет более 20 лет. Инноваций практически нет – они должны дождаться запуска следующего поколения.

Возможность изменить одно ограничение и позволить такому алгоритму, как Stable Diffusion, восстановить параметры конструкции и производства, значительно ускорит внедрение новых инноваций и позволит нам быстрее создавать более легкие и эффективные продукты. Как и в «Формуле-1» или «Системном проектировании», будущие инженеры будут действовать как менеджеры по ограничениям, способные выразить словами и со ссылкой на источники данных, каковы цели и ограничения продукта.

Без ускорения процесса разработки новых и существующих продуктов у нас почти нет средств для достижения амбициозных целей в области устойчивого развития, которые мы должны поставить перед собой. Чтобы сделать это, мы должны сначала договориться о языке, который мы можем использовать для общения помимо дизайна. Эта новая семантическая модель является очевидным пробелом в изложенных выше новшествах. Ряд компаний уже начали экспериментировать с ним, например, nTopology с ее концепциями полей. И все же темп изменений медленный, в отличие от алгоритмов, которыми будет питаться семантическая модель. Сообщается, что новый алгоритм Nvidia более чем в два раза быстрее, чем ДримФьюжн, опубликовано менее 2 месяцев назад. Производственные и инженерные компании должны работать над воплощением своих идей новыми, ориентированными на будущее способами уже сейчас, чтобы максимально использовать возможности, которые открывает этот взрыв генеративного ИИ. Скорость изменения алгоритмов еще раз показала, что закон Морзе применяется везде, где оцифровываются инструменты. Проблемой остается наша человеческая неспособность принять эти изменения и внедрить новые методы коммуникации, способные раскрыть их потенциал, несмотря на безотлагательность задачи.

Источник: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering-product-design/