Vivaldi не позволит машине лгать вам

Тенденция интеграции LLM не миновала и веб-браузеры. С этим связаны фундаментальные проблемы, и Vivaldi решает их.

#ChatGPT попал в поле зрения общественности чуть больше года назад. С тех пор во многих областях наблюдается растущая тенденция попытаться использовать его для замены некоторых вещей вместо людей, или как новый способ помочь людям найти ответы на всё, что их может интересовать.

Эта тенденция не обошла стороной и мир веб-браузеров, и мы уже имеем примеры веб-браузеров, где так или иначе интегрирован функционал #LLM (Large Language Model).

Тем не менее, пусть разработчики и делают это во имя построения будущего, никто из них, похоже, не задумывается о вопиющем недостатке функций с ИИ: сами по себе LLM просто не подходят в качестве собеседников, механизмов обобщения и способны помочь только в создании формулировок со значительным риском плагиата.

Чтобы понять, почему это проблемы фундаментальные, а не проблемы, которые в конечном итоге будут решены, мы должны разобраться в самой природе LLM.

Мы не хотим вдаваться в пространные объяснения тонкостей LLM, и ограничимся простым коротким объяснением. Здесь могут быть опущены некоторые моменты, но всё сказанное здесь на самом деле применимо к самым популярным универсальным моделям.

Многие эксперты в этой области уже проделали отличную работу в этом направлении. Вот интересное толкование: “Вы не попугай. А чат-бот - не человек“ (от лингвиста Эмили М. Бендер, которая очень обеспокоена тем, что произойдет, когда мы об этом забудем - прим. переводчика).

Что такое LLM?

LLM - это всего лишь цифровая модель того, как выглядит письменный язык, его математическое описание. Он составлен на основе изучения большого количества разнообразных источников и фокусируется на описании того, какое слово с наибольшей вероятностью последует за большим набором других слов. В систему добавляется немного случайности, чтобы сделать её более интересной. А затем выходные данные фильтруются второй моделью, которая определяет, насколько “приятно” звучит предлагаемый результат. В некоторых случаях эта модель второго этапа была создана за счёт того, что множество (низкооплачиваемых IT-негров) людей смотрели на то, что получается в результате первого этапа, и выбирали, нравится им это или нет и правдоподобно ли это звучит.

Здесь есть два основополагающих момента:

  • Нарушение авторских прав и неприкосновенности частной жизни

Чтобы иметь хорошее представление о том, какое слово, скорее всего, следует за набором слов, необходимо просмотреть большой объём текста. Чем больше текста, тем лучше, поскольку каждый фрагмент текста позволяет настроить модель для более точного представления языка. Кроме того, большая часть текста, загружаемого в него, должна быть относительно свежей, чтобы отражать современое использование языка.

Это означает, что существует огромный стимул использовать тексты из всех последних доступных источников, от социальных сетей до статей и книг. К сожалению, внедрение такого текста в модель означает, что можно заставить модель выводить тот же текст дословно. Это и происходит, если для данной последовательности ввода нет лучшего выбора, чем повторение этого же оригинального текста. В результате такие модели в ряде случаев будут просто повторять материалы, защищённые авторским правом, что приведёт к плагиату.

Аналогичным образом масса текста из социальных сетей и других источников, предоставляемых пользователями, вполне может содержать конфиденциальную и личную информацию, которая может быть разглашена. Некоторые умные люди уже нашли способы провоцировать LLM на такое поведение, и маловероятно, что от этого можно полностью защититься. Поэтому, чётко осознавая риски, связанные с раскрытием частной информации, мы никогда не были в восторге от идеи того, что личная информация может быть встроена в эти модели.

  • Правдоподобно звучащая ложь

Поскольку текст, на основе которого строится LLM, по большей части взят из Интернета в целом, то это означает, что большая его часть представляет собой полный мусор. Это касается от простой плохо написанной прозы до фактических ошибок и оскорбительного контента. Первые же эксперименты с технологией LLM показали, что это привело бы к появлению чат-ботов, которые сами очень скоро начали бы извергать оскорбления, и доказали, что в таком виде технологии не подходят для этой цели. Вот почему современные LLM вторым этапом проходят модерацию для фильтрации выходных данных.

К сожалению, как писалось выше, этот второй этап проводится людьми, оценивающими результаты первого этапа. Чтобы это было полезным, этим людям необходимо изучить огромное количество результатов. Даже самые осведомлённые люди в мире не могут надеяться проверить всё на точность. А даже если бы и могли, они просто не могут знать все результаты, которые когда-либо будут получены. Для них всё, что делает фильтр – помогает задать направление. Всё это приводит к предпочтению того вида выходных данных, который этим людям нравится видеть, то есть текста, звучащего уверенно, независимо от его точности. По большей части они будут правы в отношении широко известных фактов, но в остальном это азартная игра, рулетка. Чаще всего они просто лгут, как политики.

Правильное решение

Итак, как мы видели, LLM - это, по сути, самоуверенные лживые машины, склонные время от времени разглашать личные данные или заниматься плагиатом существющего. При этом они заодно потребляют огромное количество энергии и с удовольствием используют все графические процессоры, которые вы можете им предоставить – проблема, с которой мы уже сталкивались ранее в области криптовалют.

Таким образом, нам кажется неправильным связывать любое подобное решение с #Vivaldi. Вокруг распространяется достаточно дезинформации, чтобы идти на риск добавить ещё больше к этой куче. Поэтому мы не будем использовать LLM для добавления чат-бота, решений для обобщения результатов или механизма предложений для заполнения форм за вас. До тех пор, пока не будут доступны более строгие способы выполнения этих действий.

Тем не менее Vivaldi - это прежде всего выбор, и мы продолжим предоставлять людям возможность использовать любую LLM, которую они пожелают, онлайн.

Несмотря на всё это, мы считаем, что область машинного обучения в целом остаётся интересной и способна дорасти до появления действительно полезных функций. Мы надеемся, что в будущем это позволит нам предоставлять нашим пользователям качественные функции, обеспечивающие конфиденциальность, с упором на открытость и прозрачность.

Мы будем и дальше стремиться обеспечить удобный и этичный просмотр веб-страниц.

© Julien Picalausa

Перевод: Wandering Thinker

Оригинал: Vivaldi won’t allow a machine to lie to you

Лицензия Creative Commons BY-SA 4.0