OpenAI и Microsoft внедряют Vall-E

OpenAI и Майкрософт продолжить битву с Google в области искусственного интеллекта, внедрив Долина, новый голосовой чат-бот. Это программное обеспечение для синтеза речи, которое может имитировать человеческий голос всего за три секунды прослушивания.

Другими словами, это новейшая часть системы генеративного искусственного интеллекта, разработанная Microsoft и OpenAI, с которой с 2019 года колосс Билл Гейтс связана многолетней, многомиллиардное партнерство.

Vall-E: все подробности о новом чат-боте от OpenAI и Microsoft

Valle-E — это инструмент AGI, Искусственный общий интеллект, то есть «общий» или «сильный» искусственный интеллект, способный имитировать человеческий интеллект. Таким образом, в отличие от того, что мы знали до сих пор, что является «узким» или «слабым» ИИ.

Последний способен реагировать предустановленными действиями на конкретные задачи, но не реагировать на незапланированное действие. В последние годы чат-боты с искусственным интеллектом работали не так, как ожидали их создатели, потому что они были ограничены небольшими задачами и имели высокий уровень ошибок.

Valle-E был разработан для использования с высококачественный инструменты синтеза речи и для создания оригинального звука из примера образца. OpenAI определяет Valle-E как «модель языка естественного кодека», так как его работа основана на технологии, называемой ИнКодек.

Стартап, финансируемый Elon Musk и Сэм Альтман, среди прочего, также может похвастаться созданием ChatGPT, чат-бота, который может поддерживать интерактивный разговор с пользователями, запоминая и извлекая уроки из предыдущих действий и прецедентов.

Следовательно, так же, как ChatGPT Может генерировать коды автономно, Valle-E также предназначен для создания дискретных аудиокодеков на основе прослушивания аудиосэмпла.

Ведет себя именно по-человечески.

Вместе с GPT-3 программа для текста и Dall-E/Стабильная диффузия для изображений аудиосистема Valle-E завершает триптих ChatGPT и нацелена на революцию в области генеративный ИИ.

Подсказка говорящего, истина на земле, базовая линия и Vall-E.

Сложность нового инструмента, запущенного OpenAI и Microsoft, заключается в способности Valle-E распознавать тембр, интонация и эмоциональный тон человека, который говорит, и воспроизвести его всего через три секунды после прослушивания.

Приложения в редактирование аудио их много, как и критика возможностей программного обеспечения для манипулирования и неправильного использования. Неудивительно, что в отличие от того, что произошло с ChatGPT, Microsoft не предоставила код Vall-E для экспериментов другим.

Образцы речи, уже синтезированные программой, также можно найти на сайте Valle-E. В частности, можно услышать несколько вариантов сэмплирования, в том числе: Подсказка говорящего, истина на земле, базовая линия и Vall-E.

Первый вариант — это аудиоклип, речевые коннотации которого должны быть воспроизведены ИИ; во втором произносится предложение, для которого ИИ должен предложить сравнение. Третий, с другой стороны, представляет собой пример, созданный с помощью доступных в настоящее время технологий синтеза речи. Наконец, Vall-E — это исходная речь, созданная программным обеспечением Microsoft.

Возможности и опасности OpenAI и искусственного интеллекта Microsoft.

Похоже, что исследователи Microsoft и OpenAI осознают потенциальный вред этой технологии. Фактически, они сообщили в публичной газете следующее:

«Поскольку Vall-E может синтезировать речь, сохраняющую личность говорящего, такая технология может представлять потенциальные риски, связанные с ненадлежащим использованием модели, например, подделкой голосовой идентификации или выдачей себя за кого-то».

Поэтому Microsoft добавляет, что для снижения таких рисков можно построить модель обнаружения, чтобы определить, был ли аудиоклип синтезирован Vall-E. В связи с этим два гиганта также будут реализовывать принципы искусственного интеллекта Microsoft при дальнейшей разработке модели.

Однако риск подражания — не единственный фактор, порождающий скептицизм и страх. Валл-И обучался с использованием аудиобиблиотеки LibriLight, созданной Мета, который содержит 60 тыс часов выступлений на английском языке, извлеченных в основном из общедоступных аудиокниг, записанных и прочитанных добровольцами.

В любом случае, чтобы увеличить свои возможности синтеза, Vall-E потребуется расширить свой пул обучения на весь Интернет. Этот следующий шаг позволил GPT-3, предшественнику ChatGPT, достичь впечатляющая обработка предложений, записи и возможности сборки.

Несмотря на это, программное обеспечение также было склонно формулировать жестокий, сексистский и расистский контент именно потому, что оно работало на примерах, взятых без разбора из всей сети. То же самое может случиться и с новым Vall-E.

В этом случае операции фильтрации потребуют использования большого числа людей, что в настоящее время крупные цифровые гиганты, похоже, не предвидят, учитывая волну увольнений, которая затрагивает крупные технологии.

Google представляет Bard, чтобы конкурировать с OpenAI и Microsoft

Как и ожидалось, конкурировать с Microsoft и OpenAI будет Google, который собирается представить Bard, чат-бот из DeepMind, компания, приобретенная Google Алфавит. Бард выглядит как точная копия ChatGPT, но без изъяна в обновлениях.

Сундар Пичаи, генеральный директор Google, представил новое программное обеспечение как инструмент, который извлекает информацию из Интернета для предоставления свежих и качественных ответов. Под «свежим» он подразумевает постоянное обновление, чего ИИ Microsoft до сих пор не может сделать.

Короче говоря, Бард стремится давать подробные ответы на простые вопросы. Его действие основано на ЛаМДА, языковая модель для диалоговых приложений, которую один из инженеров Google ранее назвал «разумной».

Нельзя отрицать, что объявление Google о запуске Bard было ожидаемо энтузиастами технологий. Ведь по сообщениям в Wall Street Journal, Alphabet, материнская компания Google, инвестировала более 31 млрд долларов США в области искусственного интеллекта в 2021 году больше, чем у любого другого конкурента.

Поэтому после успеха ChatGPT компания решила призвать самых лучших: основателей Ларри Пейдж и Сергей Брин. В любом случае нет сомнений в том, что программное обеспечение искусственного интеллекта является бесценным ресурсом в области инноваций.

Действительно, даже Амазон, Мета и Apple определенно не собираются сидеть сложа руки и смотреть, что делают другие, не предпринимая никаких действий. Однако, несмотря на то, что конкуренция является большим ускорителем с точки зрения исследований, существует риск того, что в гонке за лучший искусственный интеллект будут использоваться несовершенные системы с ошибками, ограничениями и рисками, не уделяя слишком много внимания общей картине.

Источник: https://en.cryptonomist.ch/2023/02/14/openai-microsoft-implement-vall-e/