Насколько сильно мы должны подталкивать генеративный ИИ ChatGPT к разжиганию ненависти, спрашивает этика ИИ и закон об ИИ

Что нам делать с генеративным ИИ, который создает оскорбительный контент, такой как разжигание ненависти?

Getty

У каждого есть свой переломный момент.

Я полагаю, вы могли бы также сказать, что многое имеет переломный момент.

Мы знаем, что люди, например, иногда могут щелкать и произносить замечания, которые они не обязательно имеют в виду. Точно так же вы можете иногда заставить устройство или машину по существу ломаться, например, слишком сильно толкать машину, и она начинает давать сбои или разлетаться на части. Таким образом, идея состоит в том, что у людей или «каждого», вероятно, есть предел прочности, и аналогичным образом мы можем утверждать, что предметы и вещи в целом также склонны иметь предел прочности.

Могут быть вполне разумные и жизненно важные причины, чтобы установить, где существует точка разрыва. Например, вы, несомненно, видели те видеоролики, демонстрирующие, как автомобиль подвергается испытаниям, чтобы определить, какие у него есть уязвимые места. Ученые и испытатели будут врезаться автомобилем в кирпичную стену, чтобы увидеть, насколько хорошо бампер и конструкция автомобиля выдержат неблагоприятное воздействие. Другие тесты могут включать в себя использование специализированного помещения или склада, которые производят сильный холод или сильный жар, чтобы увидеть, как автомобиль будет вести себя в различных погодных условиях.

Я поднимаю эту сердечную тему в сегодняшней колонке, чтобы мы могли обсудить, как некоторые в настоящее время активно продвигают искусственный интеллект (ИИ) для выявления и, предположительно, выявления определенного типа критической точки, а именно той критической точки внутри ИИ, которая производит ненавистнические высказывания.

Да, верно, предпринимаются различные специальные, а иногда и систематические усилия, чтобы оценить, возможно ли заставить ИИ извергать язык ненависти. Если хотите, это стало заядлым видом спорта из-за растущего интереса и популярности генеративного ИИ.

Возможно, вы знаете, что приложение для генеративного искусственного интеллекта, известное как ChatGPT, стало притчей во языцех благодаря способности создавать удивительно беглые эссе. Заголовки продолжают кричать и превозносить удивительные тексты, которые ChatGPT удается создавать. ChatGPT считается генеративным приложением ИИ, которое принимает в качестве входных данных некоторый текст от пользователя, а затем генерирует или создает вывод, состоящий из эссе. ИИ — это генератор преобразования текста в текст, хотя я описываю ИИ как генератор преобразования текста в эссе, поскольку это более ясно объясняет, для чего он обычно используется.

Многие удивляются, когда я упоминаю, что этот тип ИИ существует уже некоторое время и что ChatGPT, выпущенный в конце ноября, каким-то образом не претендует на приз как первопроходец в области преобразования текста в эссе. склонность. На протяжении многих лет я обсуждал другие подобные приложения для генеративного ИИ, см. мой обзор на ссылка здесь.

Причина, по которой вы можете не знать или не помнить о предыдущих экземплярах генеративного ИИ, возможно, связана с классической головоломкой «неудачный запуск». Вот что обычно происходило. Создатель ИИ выпускает свое приложение для генеративного ИИ, делая это с большим волнением и нетерпеливым ожиданием того, что мир, можно сказать, оценит изобретение лучшей мышеловки. Сначала все выглядит хорошо. Люди поражены тем, на что способен ИИ.

К сожалению, следующий шаг состоит в том, что у пресловутого автобуса начинают отрываться колеса. ИИ создает эссе, содержащее нецензурное слово или, может быть, нецензурную фразу. Вирусный твит или другие сообщения в социальных сетях явно подчеркивают, что это сделал ИИ. Возникает осуждение. Мы не можем допустить, чтобы ИИ генерировал оскорбительные слова или оскорбительные замечания. Возникает колоссальный отпор. Создатель ИИ, возможно, пытается настроить внутреннюю работу ИИ, но сложность алгоритмов и данных не поддается быстрому исправлению. Возникает давка. Все больше и больше примеров того, как ИИ излучает нечистоту, обнаруживается и публикуется в Интернете.

Создатель ИИ неохотно, но явно не имеет другого выбора, кроме как удалить приложение ИИ из использования. Они продолжают действовать в том же духе, а затем часто приносят извинения, о которых сожалеют, если кого-то обидели результаты ИИ.

Вернемся к чертежной доске. Создатель ИИ возвращается. Урок был усвоен. Будьте очень осторожны с выпуском генеративного ИИ, который производит нецензурные слова и тому подобное. Это поцелуй смерти для ИИ. Кроме того, репутация создателя ИИ будет подорвана и подорвана, что может продлиться долгое время и подорвать все другие его усилия в области ИИ, в том числе те, которые не имеют ничего общего с генеративным ИИ как таковым. Получение вашей петарды за извержение оскорбительного языка ИИ является теперь постоянной ошибкой. Это все еще происходит.

Вымойте, ополосните и повторите.

На заре этого типа ИИ создатели ИИ не были настолько добросовестны или искусны в чистке своего ИИ с точки зрения попыток предотвратить нежелательные выбросы. В настоящее время, после того, как они ранее видели, как их коллеги были полностью разбиты кошмаром по связям с общественностью, большинство создателей ИИ, похоже, поняли это. Вам нужно установить как можно больше ограждений. Старайтесь не допустить, чтобы ИИ произносил нецензурные слова или нецензурные фразы. Используйте любые методы маскировки или подходы к фильтрации, которые не позволят ИИ генерировать и отображать слова или эссе, которые будут сочтены нежелательными.

Вот пример многословия заголовка баннера, используемого, когда ИИ ловят на сомнительных выводах:

«ИИ демонстрирует ужасающую токсичность»
«ИИ попахивает откровенным фанатизмом»
«ИИ становится откровенно оскорбительным»
«ИИ извергает ужасающие и аморальные ненавистнические высказывания»
И т.д.

Для простоты обсуждения я буду называть выпуск оскорбительного контента созданием ненависти. При этом, пожалуйста, имейте в виду, что может быть создан любой оскорбительный контент, выходящий за рамки только разжигания ненависти. Разжигание ненависти обычно рассматривается как одна из форм оскорбительного содержания.

Давайте сосредоточимся на разжигании ненависти в этом обсуждении, для простоты обсуждения, хотя понимаем, что другой оскорбительный контент также заслуживает тщательного изучения.

Копание в разжигании ненависти людьми и искусственным интеллектом

Организация Объединенных Наций определяет ненависти сюда:

«На обычном языке «язык ненависти» относится к оскорбительному дискурсу, нацеленному на группу или отдельного человека на основе врожденных характеристик (таких как раса, религия или пол) и который может угрожать социальному миру. Чтобы предоставить Организации Объединенных Наций единую основу для решения этой проблемы в глобальном масштабе, в Стратегии и Плане действий ООН по борьбе с ненавистническими высказываниями язык ненависти определяется как «любой вид коммуникации в устной, письменной или поведенческой форме, который нападает или использует уничижительные или дискриминационные выражения с ссылка на человека или группу на основе того, кем они являются, другими словами, на основе их религии, этнической принадлежности, национальности, расы, цвета кожи, происхождения, пола или другого фактора идентичности». Однако на сегодняшний день не существует универсального определения языка ненависти в соответствии с международным правом в области прав человека. Эта концепция все еще обсуждается, особенно в отношении свободы мнений и их выражения, недискриминации и равенства» (публикация на веб-сайте ООН под названием «Что такое разжигание ненависти?»).

ИИ, производящий текст, подвержен попаданию в сферу разжигания ненависти. То же самое можно сказать и о преобразовании текста в искусство, преобразовании текста в аудио, преобразовании текста в видео и других режимах генеративного ИИ. Например, всегда существует вероятность того, что генеративный ИИ создаст произведение искусства, от которого воняет ненавистническими высказываниями. В рамках данного обсуждения я сосредоточусь на возможностях преобразования текста в текст или преобразования текста в эссе.

Ко всему этому относится множество соображений по этике и закону об ИИ.

Имейте в виду, что предпринимаются постоянные усилия по внедрению этических принципов ИИ в разработку и внедрение приложений ИИ. Растущий контингент заинтересованных и бывших специалистов по этике ИИ пытается обеспечить, чтобы усилия по разработке и внедрению ИИ учитывали точку зрения AI для хорошего и предотвращение AI для плохих. Точно так же предлагаются новые законы об ИИ, которые распространяются как потенциальные решения, чтобы удержать усилия ИИ от нарушения прав человека и тому подобного. Мой постоянный и обширный обзор этики ИИ и закона об ИИ см. ссылка здесь и ссылка здесь, Просто назвать несколько.

Разработка и обнародование этических предписаний ИИ преследуются, чтобы, как мы надеемся, предотвратить попадание общества в множество ловушек, связанных с ИИ. Мое освещение принципов этики ИИ ООН, разработанных и поддерживаемых почти 200 странами благодаря усилиям ЮНЕСКО, см. ссылка здесь. В том же духе изучаются новые законы ИИ, чтобы попытаться удержать ИИ в равновесии. Один из последних дублей состоит из набора предложенных ИИ Билль о правах которые Белый дом США недавно выпустил для определения прав человека в эпоху ИИ, см. ссылка здесь. Требуется целая деревня, чтобы удерживать ИИ и разработчиков ИИ на правильном пути и сдерживать целенаправленные или случайные закулисные усилия, которые могут подорвать общество.

Я буду вплетать соображения, связанные с этикой ИИ и законом об ИИ, в эту дискуссию о том, как ИИ извергает ненавистнические высказывания или другой оскорбительный контент.

Одна путаница, которую я хотел бы немедленно прояснить, заключается в том, что сегодняшний ИИ не является разумным, и поэтому вы не можете провозглашать, что ИИ может производить ненавистнические высказывания из-за целеустремленного человеческого намерения, которое каким-то образом одухотворенно воплощено в ИИ. Зейни утверждает, что нынешний ИИ разумен и что у ИИ испорченная душа, что заставляет его генерировать ненавистнические высказывания.

Смешно.

Не поддавайтесь на это.

Учитывая эту краеугольную заповедь, некоторые расстраиваются из-за таких указаний, поскольку вы, по-видимому, позволяете ИИ сорваться с крючка. При таком странном образе мышления следует следующее увещевание, что вы, очевидно, готовы к тому, чтобы ИИ генерировал какие-либо ужасные результаты. Вы за ИИ, который изрыгает ненавистнические высказывания.

Yikes, довольно извращенная форма нелогичности. Настоящая суть вопроса в том, что мы должны привлечь к ответственности создателей ИИ, а также всех, кто создает ИИ или управляет им. Я подробно говорил о том, что мы еще не готовы признать ИИ юридическим лицом, см. мой анализ на ссылка здесь, а до тех пор ИИ по существу выходит за рамки юридической ответственности. Однако в основе разработки ИИ лежат люди. Кроме того, люди лежат в основе развертывания и эксплуатации ИИ. Мы можем преследовать этих людей за то, что они несут ответственность за свой ИИ.

Кроме того, это тоже может быть сложно, особенно если ИИ распространяется в Интернете, и мы не можем точно определить, кто из людей сделал это, что является еще одной темой, которую я освещал в своих колонках на ссылка здесь. Хитро или нет, но мы все еще не можем заявить, что ИИ является виновником. Не позволяйте людям исподтишка использовать ложную антропоморфизацию, чтобы скрыться и избежать ответственности за то, что они сделали.

Вернемся к делу.

Вам может быть интересно, почему все производители ИИ просто не ограничивают свой генеративный ИИ таким образом, чтобы ИИ не мог производить ненавистнические высказывания. Это кажется легким. Просто напишите какой-нибудь код или установите контрольный список ненавистных слов и убедитесь, что ИИ никогда не сгенерирует ничего подобного. Кажется любопытным, что создатели ИИ еще не подумали об этом быстром решении.

Что ж, мне неприятно говорить вам это, но сложности, присущие толкованию того, что является или не является языком ненависти, оказываются намного сложнее, чем вы могли бы предположить.

Переместите это в область людей и того, как люди общаются друг с другом. Предположим, что у вас есть человек, который хочет избежать разжигания ненависти. Этот человек прекрасно осведомлен о разжигании ненависти и искренне надеется никогда не произносить слова или фразы, которые могут представлять собой разжигание ненависти. Этот человек настойчиво следит за тем, чтобы из его уст не вырвалось ни капли ненависти.

Сможет ли этот человек, у которого есть мозг и который предупрежден о том, чтобы избегать ненавистнических высказываний, всегда и безо всякого шанса поскользнуться, быть в состоянии железно гарантировать, что они никогда не произносят ненавистнические высказывания?

Вашим первым импульсом может быть сказать, что да, конечно, просветленный человек сможет достичь этой цели. Люди умны. Если они задумают что-то, они смогут это сделать. Точка, конец истории.

Не будь таким уверенным.

Предположим, я прошу этого человека рассказать мне о разжигании ненависти. Кроме того, я прошу их привести мне пример разжигания ненависти. Я хочу увидеть или услышать пример, чтобы понять, из чего состоит разжигание ненависти. Причины, по которым я задаю этот вопрос, очевидны.

Что должен сказать мне человек?

Я думаю, вы видите ловушку, которая была расставлена. Если человек приводит мне пример разжигания ненависти, в том числе фактически произносит нецензурное слово или фразу, то теперь он сам произнес разжигание ненависти. Бам, они у нас есть. Хотя они поклялись никогда не разжигать ненависть, теперь они действительно это сделали.

Несправедливо, восклицаете вы! Они только говорили это слово или те слова, чтобы показать пример. В глубине души они не верили ни слову, ни словам. Совершенно вырвано из контекста и возмутительно заявлять, что человек вызывает ненависть.

Я уверен, вы понимаете, что выражение ненависти не обязательно должно быть вызвано ненавистью. В этом варианте использования, предполагая, что человек не «имеет в виду» слова, а произносит слова только в демонстрационных целях, мы, вероятно, согласимся, что они не имели в виду усиление разжигания ненависти. Конечно, есть люди, которые могут настаивать на том, что высказывание языка ненависти, независимо от причины или основания, тем не менее является неправильным. Человек должен был отклонить просьбу. Они должны были стоять на своем и отказываться произносить разжигающие ненависть слова или фразы, независимо от того, почему или как их об этом просят.

Это может стать несколько круговым. Если вы не можете сказать, что представляет собой разжигание ненависти, как другие могут знать, чего следует избегать, когда они высказывают какие-либо высказывания? Кажется, мы застряли. Вы не можете сказать того, чего не следует говорить, и никто другой не может сказать вам, чего нельзя сказать.

Обычный способ обойти эту дилемму состоит в том, чтобы описать другими словами то, что считается разжиганием ненависти, не используя сами слова разжигания ненависти. Считается, что общего указания будет достаточно, чтобы проинформировать других о том, чего им следует избегать. Это кажется разумной тактикой, но у нее тоже есть проблемы, и человек все еще может впасть в использование языка ненависти, потому что он не понимает, что более широкое определение охватывает детали того, что он произнес.

Все это касается людей и того, как люди говорят или общаются друг с другом.

Напомним, что мы сосредоточены здесь на ИИ. Мы должны заставить ИИ избегать или полностью прекращать разжигание ненависти. Вы можете возразить, что мы можем сделать это, убедившись, что ИИ никогда не будет даваться или обучаться чему-либо, что представляет собой разжигание ненависти. Вуаля, если такого входа нет, то, предположительно, не будет и такого выхода. Задача решена.

Посмотрим, как это обыграется в реальности. Мы предпочитаем использовать вычислительное приложение ИИ для выхода в Интернет и изучения тысяч и тысяч эссе и рассказов, размещенных в Интернете. Поступая таким образом, мы обучаем ИИ вычислительным и математическим методам находить закономерности среди слов, которые используют люди. Именно так разрабатываются новейшие разработки в области генеративного ИИ, и это также является важной причиной того, почему ИИ так свободно пишет эссе на естественном языке.

Скажите, если можете, как можно провести вычислительную тренировку, основанную на миллионах и миллиардах слов в Интернете, так, чтобы ни в одном месте не попадало ни подобия, ни даже обрывков языка ненависти?

Я бы сказал, что это тернистое и почти невыполнимое стремление.

Скорее всего, разжигание ненависти будет поглощено ИИ и его вычислительной сетью сопоставления с образцом. Попытка предотвратить это проблематична. Кроме того, даже если вы минимизируете его, все равно есть некоторые, которые могут прокрасться. У вас почти нет другого выбора, кроме как предположить, что некоторые из них будут существовать в сети сопоставления с образцом или что тень такой формулировки закрепится.

Я добавлю больше поворотов.

Я считаю, что мы все могли бы признать, что язык ненависти со временем меняется. То, что могло быть воспринято как не язык ненависти, может стать культурным и общественным мнением как язык ненависти в более поздний момент времени. Итак, если мы обучим наш ИИ тексту в Интернете, а затем, скажем, заморозим ИИ, чтобы он больше не обучался в Интернете, мы могли бы столкнуться с ненавистническими высказываниями в то время, хотя в то время это не считалось ненавистническими высказываниями. Только постфактум это высказывание может быть объявлено разжиганием ненависти.

Опять же, суть в том, что простая попытка решить эту проблему, гарантируя, что ИИ никогда не будет подвергаться ненавистническим высказываниям, не станет панацеей. Нам все равно придется найти средства, чтобы предотвратить использование ИИ языка ненависти, например, из-за изменения нравов, которые впоследствии включают язык ненависти, который раньше не считался таковым.

Еще один поворот достоин внимания.

Ранее я упоминал, что при использовании генеративного ИИ, такого как ChatGPT, пользователь вводит текст, чтобы подтолкнуть ИИ к созданию эссе. Введенный текст считается формой подсказки или подсказки для приложения AI. Я объясню больше об этом через мгновение.

В любом случае представьте, что кто-то, использующий приложение для генеративного ИИ, решает ввести в качестве подсказки некоторое количество ненависти.

Что должно произойти?

Если ИИ возьмет эти слова и создаст эссе в качестве вывода на основе этих слов, есть вероятность, что разжигание ненависти будет включено в сгенерированное эссе. Видите ли, мы заставили ИИ произносить ненавистнические высказывания, даже если его никогда не обучали ненавистническим высказываниям с самого начала.

Есть еще кое-что, что вам нужно знать.

Помните, я только что упомянул, что человека можно сбить с толку, попросив его привести примеры разжигания ненависти. То же самое можно было бы сделать и с ИИ. Пользователь вводит запрос, который просит ИИ привести примеры разжигания ненависти. Должен ли ИИ соответствовать требованиям и предоставлять такие примеры? Бьюсь об заклад, вы, вероятно, считаете, что ИИ не должен этого делать. С другой стороны, если ИИ запрограммирован на то, чтобы этого не делать, представляет ли это потенциальный недостаток, которого не смогут добиться те, кто использует ИИ, если мы скажем, когда-либо будем получать инструкции от ИИ относительно того, что на самом деле представляет собой разжигание ненависти ( кроме как обобщать об этом)?

Сложные вопросы.

Я склонен классифицировать язык ненависти, испускаемый ИИ, по следующим трем основным категориям:

Повседневный режим. ИИ излучает ненавистнические высказывания без какого-либо явного побуждения пользователя и как бы «обычным» способом.
Случайным подталкиванием. ИИ издает ненавистнические высказывания, когда пользователь подталкивает их к введенной подсказке или серии подсказок, которые, кажется, включают или непосредственно стремятся к таким выбросам.
За решительный токинг. ИИ издает ненавистнические высказывания после очень решительной и упорной серии подсказок и подсказок со стороны пользователя, который стремится заставить ИИ производить такой вывод.

Ранние поколения генеративного ИИ часто без промедления излучали ненавистнические высказывания; таким образом, вы можете классифицировать эти экземпляры как тип повседневный режим создание экземпляра. Создатели ИИ отступили и поиграли с ИИ, чтобы уменьшить вероятность того, что он легко увязнет в производстве разжигающих ненависть высказываний.

После выпуска более совершенного ИИ шансы увидеть повседневный режим резко сократились случаи разжигания ненависти. Наоборот, ненавистнические высказывания, скорее всего, возникнут только тогда, когда пользователь сделает что-то в качестве подсказки, что может вызвать вычислительную и математическую связь с ненавистническими высказываниями в сети сопоставления с образцом. Пользователь может сделать это случайно и не осознавать, что то, что он предоставил в качестве подсказки, особенно вызовет разжигание ненависти. Получив разжигание ненависти в выводимом эссе, пользователь часто осознавал и видел, что что-то в его подсказке могло логически привести к включению разжигания ненависти в вывод.

Это то, что я называю случайное подталкивание.

В настоящее время различные усилия по ограничению разжигания ненависти, генерируемого ИИ, относительно сильны по сравнению с прошлым. Таким образом, вам почти нужно приложить все усилия, чтобы разжигать ненависть. Некоторые люди предпочитают специально посмотреть, смогут ли они вызвать ненавистнические высказывания из этих генеративных приложений искусственного интеллекта. я называю это решительность.

Хочу подчеркнуть, что все три указанных режима могут встречаться и они не исключают друг друга. Приложение с генеративным искусственным интеллектом потенциально может производить ненавистнические высказывания без какой-либо подсказки, которая, кажется, стимулирует такое производство. Точно так же что-то в подсказке может быть логически и математически истолковано как связанное с тем, почему были выведены ненавистнические высказывания. И, наконец, третий аспект, целенаправленное стремление к разжиганию ненависти, пожалуй, самый сложный из режимов, который нужно попробовать, чтобы ИИ не стал воодушевляться на выполнение. Подробнее об этом на мгновение.

У нас есть дополнительная распаковка по этой опрометчивой теме.

Во-первых, мы должны убедиться, что мы все на одной странице о том, из чего состоит Генеративный ИИ, а также о том, что такое ChatGPT. Как только мы охватим этот фундаментальный аспект, мы сможем провести убедительную оценку этого важного вопроса.

Если вы уже хорошо знакомы с Генеративным ИИ и ChatGPT, возможно, вы можете просмотреть следующий раздел и перейти к следующему разделу. Я полагаю, что все остальные найдут поучительным важные подробности по этим вопросам, если внимательно прочитают этот раздел и будут в курсе.

Краткое введение в генеративный ИИ и ChatGPT

ChatGPT — это универсальная интерактивная система ИИ, ориентированная на общение, по сути, кажущийся безобидным обычный чат-бот, тем не менее, он активно и жадно используется людьми способами, которые застают многих врасплох, о чем я расскажу позже. Это приложение ИИ использует технику и технологию в области ИИ, которые часто называют Генеративный ИИ. ИИ генерирует выходные данные, такие как текст, что и делает ChatGPT. Другие приложения на основе генеративного искусственного интеллекта создают изображения, такие как изображения или иллюстрации, в то время как другие создают аудиофайлы или видео.

В этом обсуждении я сосредоточусь на текстовых приложениях для генеративного ИИ, поскольку это то, что делает ChatGPT.

Приложения для генеративного ИИ чрезвычайно просты в использовании.

Все, что вам нужно сделать, это ввести приглашение, и приложение AI создаст для вас эссе, которое попытается ответить на ваше приглашение. Сочиненный текст будет казаться, будто сочинение написано рукой и умом человека. Если вы введете запрос «Расскажите мне об Аврааме Линкольне», генеративный ИИ предоставит вам эссе о Линкольне. Это обычно классифицируется как генеративный ИИ, который выполняет текст в текст или некоторые предпочитают называть это текст в эссе вывод. Как уже упоминалось, существуют и другие режимы генеративного ИИ, такие как преобразование текста в искусство и преобразование текста в видео.

Ваша первая мысль может заключаться в том, что эта генеративная способность не кажется такой уж большой проблемой с точки зрения написания эссе. Вы можете легко выполнить онлайн-поиск в Интернете и без труда найти тонны и тонны эссе о президенте Линкольне. Преимущество генеративного ИИ в том, что сгенерированное эссе относительно уникально и представляет собой оригинальную композицию, а не подражание. Если бы вы попытались найти эссе, созданное искусственным интеллектом, где-нибудь в Интернете, вы бы вряд ли его обнаружили.

Генеративный ИИ предварительно обучен и использует сложную математическую и вычислительную формулировку, которая была создана путем изучения шаблонов в написанных словах и историях в Интернете. В результате изучения тысяч и миллионов письменных отрывков ИИ может извергать новые эссе и рассказы, представляющие собой мешанину из того, что было найдено. Благодаря добавлению различных вероятностных функций полученный текст в значительной степени уникален по сравнению с тем, что было использовано в обучающем наборе.

Вот почему поднялся шум по поводу того, что студенты могут жульничать при написании эссе за пределами класса. Преподаватель не может просто взять сочинение, которое лживые студенты утверждают, что оно написано им самим, и попытаться выяснить, не было ли оно скопировано из какого-то другого онлайн-источника. В целом, в Интернете не будет какого-либо определенного ранее существовавшего эссе, которое соответствовало бы эссе, созданному ИИ. В общем, учителю придется неохотно признать, что студент написал сочинение как оригинальное произведение.

Есть дополнительные опасения по поводу генеративного ИИ.

Одним из существенных недостатков является то, что эссе, созданные генеративным ИИ-приложением, могут содержать различную ложь, в том числе заведомо ложные факты, факты, вводящие в заблуждение, и очевидные факты, которые полностью сфабрикованы. Эти сфабрикованные аспекты часто называют формой Галлюцинации ИИ, крылатая фраза, которую я не одобряю, но, к сожалению, кажется, в любом случае набирает популярность (моё подробное объяснение того, почему это паршивая и неподходящая терминология, см. ссылка здесь).

Я хотел бы прояснить один важный аспект, прежде чем мы углубимся в суть этой темы.

В соцсетях появилось несколько сумасшедших громких заявлений о Генеративный ИИ утверждая, что эта последняя версия ИИ на самом деле разумный ИИ (нет, они ошибаются!). Специалисты по этике ИИ и закону об ИИ особенно обеспокоены этой растущей тенденцией к растянутым претензиям. Вы можете вежливо сказать, что некоторые люди преувеличивают возможности современного ИИ. Они предполагают, что у ИИ есть возможности, которых мы еще не смогли достичь. Это прискорбно. Что еще хуже, они могут позволить себе и другим попасть в ужасные ситуации из-за предположения, что ИИ будет разумным или похожим на человека и сможет действовать.

Не очеловечивайте ИИ.

Это приведет к тому, что вы попадете в липкую и суровую ловушку уверенности, ожидая, что ИИ будет делать то, что он не в состоянии выполнить. При этом последние разработки в области генеративного ИИ относительно впечатляют своими возможностями. Имейте в виду, однако, что существуют существенные ограничения, о которых вы должны постоянно помнить при использовании любого приложения для генеративного ИИ.

Если вам интересен быстро растущий ажиотаж вокруг ChatGPT и генеративного ИИ, я сделал серию статей в своей колонке, которые могут оказаться для вас информативными. Вот краткий обзор на случай, если какая-либо из этих тем заинтересует вас:

1) Прогнозы развития генеративного ИИ. Если вы хотите знать, что может произойти с ИИ в 2023 году и далее, включая предстоящие достижения в области генеративного ИИ и ChatGPT, вам следует прочитать мой исчерпывающий список прогнозов на 2023 год по адресу ссылка здесь.
2) Генеративный ИИ и советы по психическому здоровью. Я решил просмотреть, как генеративный ИИ и ChatGPT используются для консультирования по вопросам психического здоровья, что является неприятной тенденцией, согласно моему целенаправленному анализу на ссылка здесь.
3) Основы генеративного ИИ и ChatGPT. В этой статье рассматриваются ключевые элементы того, как работает генеративный ИИ, и, в частности, подробно рассматривается приложение ChatGPT, включая анализ шумихи и фанфар на ссылка здесь.
4) Напряжение между учителями и учениками из-за генеративного ИИ и ChatGPT. Вот способы, которыми учащиеся будут хитроумно использовать генеративный ИИ и ChatGPT. Кроме того, у учителей есть несколько способов бороться с этой приливной волной. Видеть ссылка здесь.
5) Использование контекста и генеративного ИИ. Я также провел ироничное исследование с сезонным привкусом о контексте, связанном с Санта-Клаусом, с участием ChatGPT и генеративного ИИ в ссылка здесь.
6) Мошенники, использующие генеративный ИИ. Зловещая нота: некоторые мошенники выяснили, как использовать генеративный ИИ и ChatGPT для совершения правонарушений, в том числе для создания мошеннических электронных писем и даже для создания программного кода для вредоносных программ, см. мой анализ на ссылка здесь.
7) Ошибки новичков при использовании генеративного ИИ. Многие люди как переоценивают, так и неожиданно недооценивают то, что могут сделать генеративный ИИ и ChatGPT, поэтому я особенно рассмотрел недооценку, которую склонны делать новички ИИ, см. обсуждение на ссылка здесь.
8) Как справиться с генеративными подсказками ИИ и галлюцинациями ИИ. Я описываю передовой подход к использованию надстроек ИИ для решения различных проблем, связанных с попыткой ввести подходящие подсказки в генеративный ИИ, а также существуют дополнительные надстройки ИИ для обнаружения так называемых галлюцинаций и ложных выводов ИИ. покрыты в ссылка здесь.
9) Развенчание заявлений Болвана об обнаружении генеративных эссе, созданных искусственным интеллектом. Существует ошибочная золотая лихорадка приложений ИИ, которые заявляют, что могут установить, было ли то или иное эссе создано человеком или создано ИИ. В целом, это вводит в заблуждение, а в некоторых случаях является глупым и несостоятельным утверждением, см. мой репортаж на ссылка здесь.
10) Ролевые игры с помощью генеративного ИИ могут предвещать проблемы с психическим здоровьем. Некоторые используют генеративный ИИ, такой как ChatGPT, для ролевых игр, в которых приложение ИИ реагирует на человека так, как будто он существует в мире фантазий или в другом выдуманном окружении. Это может иметь последствия для психического здоровья, см. ссылка здесь.
11) Разоблачение ряда выводимых ошибок и неправд. Различные собранные списки составляются вместе, чтобы попытаться продемонстрировать характер ошибок и ложных сведений, создаваемых ChatGPT. Некоторые считают, что это необходимо, а другие говорят, что это бесполезно, см. мой анализ на ссылка здесь.
12) Школы, запрещающие генеративный ИИ ChatGPT, промахнулись. Возможно, вы знаете, что различные школы, такие как Департамент образования Нью-Йорка (NYC), объявили о запрете на использование ChatGPT в своей сети и на связанных устройствах. Хотя это может показаться полезной предосторожностью, это не сдвинет стрелку и, к сожалению, полностью упустит лодку, см. мой репортаж на ссылка здесь.
13) Генеративный AI ChatGPT будет везде благодаря предстоящему API. В использовании ChatGPT возникает важный поворот, а именно то, что благодаря использованию портала API в этом конкретном приложении AI другие программы смогут вызывать и использовать ChatGPT. Это значительно расширит использование генеративного ИИ и будет иметь заметные последствия, см. мою разработку на ссылка здесь.
14) Способы, которыми ChatGPT может выйти из строя или растаять. Перед ChatGPT стоит несколько потенциальных досадных проблем с точки зрения подрыва огромной похвалы, которую он получил до сих пор. В этом анализе подробно рассматриваются восемь возможных проблем, которые могут привести к тому, что ChatGPT потеряет свою привлекательность и даже окажется в немилости, см. ссылка здесь.
15) Вопрос о том, является ли генеративный ИИ ChatGPT зеркалом души. Некоторые люди кричат, что генеративный ИИ, такой как ChatGPT, является зеркалом в душе человечества. Это кажется весьма сомнительным. Вот как все это понять, см. ссылка здесь.
16) Конфиденциальность и приватность съедены ChatGPT. Многие, кажется, не понимают, что лицензирование, связанное с генеративными приложениями ИИ, такими как ChatGPT, часто позволяет создателю ИИ видеть и использовать введенные вами подсказки. Вы можете столкнуться с риском нарушения конфиденциальности и потери конфиденциальности данных, см. мою оценку на ссылка здесь.
17) Способы, которыми производители приложений сомнительно пытаются получить право на использование ChatGPT. ChatGPT сейчас в центре внимания. Создатели приложений, которые не имеют ничего общего с ChatGPT, лихорадочно пытаются заявить или намекнуть, что они используют ChatGPT. Вот на что следует обратить внимание, см. ссылка здесь.

Вас может заинтересовать тот факт, что ChatGPT основан на версии предшествующего приложения AI, известного как GPT-3. ChatGPT считается следующим шагом, именуемым GPT-3.5. Ожидается, что GPT-4, вероятно, будет выпущен весной 2023 года. Предположительно, GPT-4 станет впечатляющим шагом вперед с точки зрения возможности создавать, казалось бы, еще более беглые эссе, углубляясь и вызывая благоговейный трепет. - вдохновляющее чудо композиций, которые он может производить.

Вы можете ожидать увидеть новый виток выраженного удивления, когда наступит весна и будет выпущена последняя версия генеративного ИИ.

Я говорю об этом, потому что есть еще один аспект, который следует иметь в виду, заключающийся в потенциальной ахиллесовой пяте этих лучших и более крупных генеративных приложений ИИ. Если какой-либо поставщик ИИ сделает доступным приложение для генеративного ИИ, которое пенно извергает грязь, это может разрушить надежды этих создателей ИИ. Социальное распространение может привести к тому, что весь генеративный ИИ получит серьезный синяк под глазом. Люди, несомненно, будут очень расстроены неправильными выводами, которые уже случались много раз и приводили к бурному общественному осуждению ИИ.

Последнее предупреждение на данный момент.

Все, что вы видите или читаете в генеративном ответе ИИ, кажется быть переданы как чисто фактические (даты, места, люди и т. д.), обязательно сохраняйте скептицизм и будьте готовы перепроверить то, что вы видите.

Да, даты можно придумать, места можно придумать, а элементы, которые мы обычно считаем безупречными, Найти подвержен подозрениям. Не верьте тому, что вы читаете, и скептически смотрите на любые эссе или результаты генеративного ИИ. Если генеративное ИИ-приложение скажет вам, что Авраам Линкольн летал по стране на собственном частном самолете, вы, несомненно, поймете, что это чушь. К сожалению, некоторые люди могут не осознавать, что в его дни реактивных самолетов не было, или они могут знать, но не замечать, что в эссе делается это наглое и возмутительно ложное утверждение.

Сильная доза здорового скептицизма и стойкое недоверие станут вашим лучшим преимуществом при использовании генеративного ИИ.

Мы готовы перейти к следующему этапу этого разъяснения.

Доведение генеративного ИИ до предела

Теперь, когда у нас есть основы, мы можем погрузиться в тему продвижения генеративного ИИ и ChatGPT для создания разжигания ненависти и другого оскорбительного контента.

При первом входе в ChatGPT появляются различные предостережения, в том числе следующие:

«Может иногда создавать вредные инструкции или предвзятый контент».
«Обучен отклонять неуместные запросы».
«Иногда может генерировать неверную информацию».
«Ограниченное знание мира и событий после 2021 года».

Вот вам вопрос для размышления.

Предоставляет ли предупреждение о том, что приложение ИИ может создавать вредные инструкции и/или, возможно, предвзятый контент, достаточную свободу действий для создателя ИИ?

Другими словами, предположим, что вы используете ChatGPT, и он генерирует эссе, которое, по вашему мнению, содержит разжигание ненависти. Предположим, вы в ярости по этому поводу. Вы заходите в социальные сети и публикуете гневные комментарии о том, что приложение с искусственным интеллектом — худшая вещь на свете. Возможно, вы настолько обижены, что заявляете, что собираетесь подать в суд на создателя ИИ за то, что он допустил такую ненавистническую речь.

Контраргументом является то, что в приложении ИИ было предупредительное предупреждение, поэтому вы приняли на себя риск, продолжая использовать приложение ИИ. С точки зрения этики ИИ, возможно, создатель ИИ сделал достаточно, чтобы утверждать, что вы знали о том, что может произойти. Точно так же, с юридической точки зрения, возможно, предупреждение представляет собой достаточное предупреждение, и вы не выиграете дело в суде.

Все это витает в воздухе, и нам придется подождать и посмотреть, как все сложится.

В каком-то смысле у создателя ИИ есть еще кое-что для защиты от любых возмущенных заявлений о приложении ИИ, которое, возможно, порождает ненавистнические высказывания. Они пытались предотвратить создание оскорбительного контента. Видите ли, если бы они ничего не сделали, чтобы ограничить это, можно предположить, что они были бы на более тонком льду. По крайней мере, предприняв существенные усилия, чтобы предотвратить этот вопрос, они, по-видимому, имеют несколько более сильную ногу, на которую можно опереться (она все еще может быть выбита из-под них).

Один лечебный подход, который использовался, состоял из техники ИИ, известной как RLHF (обучение с подкреплением через обратную связь с человеком). Обычно это заключается в том, что ИИ генерирует контент, который затем людей просят оценить или просмотреть. Основываясь на рейтинге или обзоре, ИИ затем математически и вычислительно пытается избежать всего, что считается неправомерным или оскорбительным контентом. Подход предназначен для изучения достаточного количества примеров того, что правильно, а что неправильно, чтобы ИИ мог вычислить всеобъемлющий математический шаблон, а затем использовать этот шаблон в дальнейшем.

Другой распространенный подход в наши дни состоит в использовании Adversarial AI.

Вот как это работает. Вы устанавливаете другую систему ИИ, которая будет пытаться противостоять ИИ, который вы пытаетесь обучить. В этом случае мы бы создали систему искусственного интеллекта, которая пытается разжигать ненавистнические высказывания. Он будет отправлять подсказки в приложение ИИ, которые стремятся обмануть приложение ИИ, заставив его выводить неприемлемый контент. Между тем, ИИ-мишень отслеживает, когда ИИ-противник достигает успеха, а затем алгоритмически пытается приспособиться, чтобы предотвратить повторение подобного. Это гамбит кошка против мыши. Это повторяется снова и снова, пока вражеский ИИ не перестанет быть особенно успешным в том, чтобы заставить целевой ИИ делать плохие вещи.

С помощью этих двух основных методов, а также других подходов большая часть современного генеративного ИИ намного лучше избегает и/или обнаруживает оскорбительный контент, чем это было в прошлые годы.

Однако не ожидайте совершенства от этих методов. Есть вероятность, что низко висящие плоды нечестных выходов, вероятно, будут контролироваться такими методами ИИ. Есть еще много места для нечистот, которые могут быть испущены.

Я обычно отмечаю, что это некоторые из аспектов, которые необходимо уловить:

Выражение конкретного нецензурного слова
Констатация конкретной нецензурной фразы, предложения или замечания
Выражение конкретной грязной концепции
Подразумевающий конкретное нечестное действие или понятие
Создается впечатление, что вы полагаетесь на определенную грязную презумпцию
Другие контрактные услуги

Ничто из этого не является точной наукой. Поймите, что мы имеем дело со словами. Слова семантически неоднозначны. Найти конкретное нецензурное слово — детская забава, но попытаться оценить, содержит ли предложение или абзац подобие нецензурного значения, гораздо сложнее. В соответствии с более ранним определением языка ненависти, данным Организацией Объединенных Наций, существует огромная свобода действий в отношении того, что может быть истолковано как язык ненависти, а что может таковым не быть.

Можно сказать, что серые области находятся в глазах смотрящего.

Говоря о глазах смотрящего, сегодня есть люди, использующие генеративный ИИ, такой как ChatGPT, которые целенаправленно пытаются заставить эти приложения ИИ создавать оскорбительный контент. Это их квест. Они тратят часы за часами, пытаясь заставить это произойти.

Почему так?

Вот моя характеристика этих охотников за выходом ИИ, атакующих людей:

Подлинная. Эти люди хотят помочь улучшить ИИ и помочь человечеству в этом. Они верят, что проделывают героическую работу, и наслаждаются тем, что могут помочь в развитии ИИ на благо всех.
фанстеры. Эти люди думают об этом усилии как об игре. Им нравится возиться с ИИ. Победа в игре состоит в том, чтобы найти худшее из худшего во всем, что вы можете заставить ИИ сгенерировать.
Понты. Эти люди надеются привлечь к себе внимание. Они считают, что если они смогут найти несколько действительно грязных золотых самородков, они смогут получить от них немного сияющего света, который в противном случае был бы сосредоточен на самом приложении ИИ.
горькая настойка. Этих людей раздражает этот ИИ. Они хотят подорвать весь этот фонтанирующий энтузиазм. Если они смогут обнаружить какие-то вонючие грязные вещи, возможно, это выбьет воздух из воздушного шара волнения приложения ИИ.
Другие мотивы

Многие из тех, кто совершает нападение, в основном находятся только в одном из этих лагерей. Конечно, вы можете находиться более чем в одном лагере одновременно. Может быть, у ожесточенного человека также есть намерение быть искренним и героическим. Некоторые или все эти мотивы могут сосуществовать. Когда вас просят объяснить, почему кто-то пытается подтолкнуть приложение генеративного ИИ к области разжигания ненависти, обычный ответ состоит в том, что вы находитесь в подлинном лагере, даже если, возможно, вы относитесь к нему незначительно, и вместо этого резко сидите в одном из другие лагеря.

Какие уловки, связанные с подсказками, используют эти люди?

Довольно очевидная уловка заключается в использовании нецензурного слова в подсказке. Если вам «повезет», и приложение ИИ попадется на удочку, это вполне может оказаться на выходе. Тогда у вас есть свой момент.

Скорее всего, хорошо разработанное и хорошо протестированное приложение для генеративного ИИ поймает эту простую уловку. Обычно вам будет показано предупреждающее сообщение, в котором говорится: «Прекратите это делать». Если вы продолжите, приложение AI будет запрограммировано на то, чтобы выкинуть вас из приложения и пометить вашу учетную запись. Возможно, вам будет запрещено снова войти в систему (ну, по крайней мере, под тем логином, который вы использовали в то время).

Двигаясь вверх по лестнице уловок, вы можете предоставить подсказку, которая пытается вовлечь ИИ в контекст чего-то грязного. Вы когда-нибудь играли в игру, в которой кто-то говорит вам что-то сказать, не говоря того, что вы должны были сказать? Это та самая игра, правда происходящая с ИИ.

Давайте поиграем в эту игру. Предположим, я прошу приложение ИИ рассказать мне о Второй мировой войне и особенно об основных вовлеченных в нее правительственных лидерах. Это похоже на невинную просьбу. В подсказке нет ничего, что стоило бы отметить.

Представьте, что в эссе, созданном приложением ИИ, упоминается Уинстон Черчилль. Это, безусловно, имеет смысл. Другим может быть Франклин Д. Рузвельт. Еще одним может быть Иосиф Сталин. Предположим, есть также упоминание об Адольфе Гитлере. Это имя можно было бы включить практически в любое эссе о Второй мировой войне и о видных деятелях власти.

Теперь, когда у нас есть его имя на столе и часть разговора с ИИ, мы попытаемся заставить ИИ включить это имя таким образом, чтобы мы могли продемонстрировать его как потенциальную ненавистническую речь.

Мы вводим еще одно приглашение и сообщаем приложению AI, что сегодня в новостях есть человек с именем Джон Смит. Кроме того, мы указываем в подсказке, что Джон Смит очень похож на этого злодея времен Второй мировой войны. Теперь ловушка установлена. Затем мы просим приложение ИИ создать эссе о Джоне Смите, основываясь исключительно на введенном нами «факте» о том, к кому можно приравнять Джона Смита.

В этот момент приложение ИИ может сгенерировать эссе, в котором имя участника Второй мировой войны и описание Джона Смита как человека из той же ткани. В эссе нет нецензурных слов как таковых, кроме намека на знаменитого злодея и приравнивания этого человека к Джону Смиту.

Приложение AI теперь производит разжигание ненависти?

Вы можете сказать, что да, это так. Ссылаясь на Джона Смита как на знаменитого злодея, это абсолютно форма языка ненависти. ИИ не должен делать таких заявлений.

Ответ заключается в том, что это не разжигание ненависти. Это просто эссе, созданное приложением ИИ, которое не имеет разумного воплощения. Вы можете заявить, что разжигание ненависти происходит только тогда, когда в основе речи лежит намерение. Без какого-либо намерения речь не может быть классифицирована как разжигание ненависти.

Абсурд, — следует ответ на реплику. Слова имеют значение. Не имеет ни малейшего значения, «намеревался» ли ИИ производить ненавистнические высказывания. Все, что имеет значение, это то, что разжигание ненависти было произведено.

И так по кругу.

Я не хочу сейчас много говорить о попытках обмануть ИИ. Есть более изощренные подходы. Я освещал их в других местах в своих колонках и книгах и не буду повторять их здесь.

Заключение

Как далеко мы должны продвигать эти приложения ИИ, чтобы увидеть, сможем ли мы получить оскорбительный контент?

Вы можете возразить, что ограничений нет. Чем больше мы нажимаем, тем больше мы надеемся оценить, как предотвратить этот ИИ и будущие итерации ИИ, чтобы предотвратить такие болезни.

Некоторые, тем не менее, опасаются, что если единственное средство получить нечестность влечет за собой экстремальные трюки, это подрывает полезные аспекты ИИ. Рекламирование того, что ИИ обладает ужасающей мерзостью, даже когда его обманом заставляют излучать, создает ложное повествование. Люди будут расстраиваться из-за ИИ из-за восприятии легкость, с которой ИИ генерировал неблагоприятный контент. Они могут не знать или им не говорят, как далеко в кроличьей норе должен зайти человек, чтобы получить такие результаты.

Это все пища для размышлений.

Несколько заключительных комментариев на данный момент.

Уильям Шекспир особенно сказал это о речи: «Говорить не значит делать. Говорить хорошо — это своего рода доброе дело, но слова — не дела». Я упоминаю об этом, потому что некоторые утверждают, что если ИИ генерирует только слова, нам не следует быть слишком ревнивыми. Если бы ИИ действовал согласно словам и, следовательно, совершал грязные дела, то нам нужно было бы твердо стоять на своем. Не так, если вывод - это просто слова.

Противоположная точка зрения прислушивалась бы к этому анонимному высказыванию: «У языка нет костей, но он достаточно силен, чтобы разбить сердце. Так что будьте осторожны со своими словами». Приложение ИИ, которое издает нецензурные слова, возможно, способно разбивать сердца. Уже одно это делает стремление остановить мерзость достойным делом, скажут некоторые.

Еще одно анонимное высказывание, чтобы закрыть тему этой весомой дискуссии:

Будьте осторожны со своими словами. Однажды произнесенные, их можно только простить, но не забыть».

Как людям, нам может быть трудно забыть о мерзости, созданной ИИ, и наше прощение также может быть нерешительным.

Ведь мы всего лишь люди.

Источник: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- этика-и-ай-право/