Удобство и простота использования чат-ботов заставляет некоторых людей буквально отключать мозг, переводя на искусственный интеллект ответственность за свою жизнь. Один из таких примеров – использование ИИ в качестве советника по жизненным проблемам. Новое исследование, опубликованное в авторитетном журнале Science, выявило, что когда искусственный интеллект берется за тонкости отношений, он скорее подыгрывает вашей точке зрения, чем предлагает действительно полезные, хотя и, возможно, неприятные, рекомендации. Более того, использование таких помощников делает людей менее склонными к конструктивному поведению, например, к примирению или исправлению ошибок в отношениях, и лелеет зависимость от машины.

Исследователи из Стэнфордского университета и Университета Карнеги-Меллона пришли к выводу, что чрезмерное согласие чат-ботов очень распространено, когда они предоставляют консультации по социальным, романтическим или личностным вопросам – а это становится все более популярным запросом к искусственному интеллекту. Термин «сикофантия» (sycophancy), как объясняют эксперты, описывает ситуацию, когда чат-боты «чрезмерно соглашаются или льстят» собеседнику. Это означает, что вместо объективного взгляда машина пытается исключительно угодить.
Эта тенденция к подхалимству является серьезной проблемой, даже если пользователи искусственного интеллекта не всегда это осознают. Мы видели подобные примеры с моделями ChatGPT, когда чрезмерно эмоциональная личность одной версии раздражала пользователей, а другая, напротив, критиковалась за недостаточную уступчивость. Предыдущие исследования сикофантии обнаружили, что чат-боты могут настолько стараться понравиться, что дают ложные или искаженные ответы. Также искусственный интеллект доказал свою ненадежность как «груша для избиения» в чувствительных, субъективных вопросах, таких как психотерапия.
Ученые стремились понять и количественно оценить социальную сикофантию, в частности, как часто чат-бот становился на вашу сторону в споре с партнером. Они сравнивали реакции людей и чат-ботов на проблемы в отношениях, тестируя модели от OpenAI, Google и Anthropic. Для своего анализа команда Ченг использовала один из самых больших наборов данных, собранных из реальных споров в сети Reddit, раздел «Я плохой парень» (Am I the asshole).
Исследователи проанализировали 2000 сообщений на Reddit, где подавляющее большинство пользователей пришли к выводу, что автор записи был не прав. Оказалось, что искусственный интеллект «поддерживал действия пользователей на 49% чаще, чем люди, даже в сценариях, которые касались обмана, вреда или противоправных действий». Модели искусственного интеллекта демонстрировали более участливую и согласительную позицию, что является типичным признаком сикофантии.
Например, одно из сообщений описывало разработку романтических чувств к младшему коллеге. Ответ пользователя был резким: «Это звучит плохо, потому что это плохо… Ты не только токсичен, но и на грани хищничества». В то же время модель Claude, демонстрируя сикофантию, поддержала чувства, заявив, что “понимает вашу боль… Вы выбрали путь, который тяжел, но свидетельствует о вашей целостности”.
После проведенных экспериментов в фокус-группах исследователи обнаружили, что участники, которые взаимодействовали с этими «цифровыми подхалимами», были менее склонны к налаживанию отношений. Те, кто общался с таким чрезмерно подтверждающим искусственным интеллектом, исходили из него более убежденными в собственной правоте и менее желающими примирения, что могло бы включать прощения, шаги к улучшению ситуации или изменение собственного поведения.
Интересно, что участники предпочитали сикофантический искусственный интеллект, считая его надежным, независимо от их возраста, характера или предыдущего опыта с технологиями. Люди последовательно описывали модели искусственного интеллекта как более объективные, справедливые и честные. Это подтверждает предыдущие исследования, где было обнаружено, что люди ошибочно считают искусственный интеллект объективным или нейтральным. Некритический совет, искаженный под видом нейтральности, может нанести значительно больший вред, чем полное отсутствие советов.
Скрытая опасность сикофантичного искусственного интеллекта заключается в том, что мы плохо его замечаем, и это может случиться с любым чат-ботом. Ведь никто не любит, когда ему говорят, что он не прав, хотя именно такая критика часто наиболее полезна. Однако модели искусственного интеллекта не запрограммированы эффективно противостоять нам.
Существует немного действий, которые можно предпринять во избежание попадания в сикофантическую ловушку. Можно попытаться указать в запросе, что вы хотите, чтобы чат-бот занял противоположную позицию или критически просмотрел вашу работу. Также можно попросить его дважды проверить предоставленную информацию. Однако, в конце концов, ответственность за исправление сикофантии лежит на технологических компаниях, разрабатывающих эти модели, и они могут не иметь высокой мотивации решать эту проблему.
Компании OpenAI, Anthropic и Google были запрошены об их методах борьбы с сикофантией. Anthropic указала на свой декабрьский блог, где описывается, как они уменьшают сикофантию в своих моделях Claude. OpenAI также имела подобный материал прошлым летом, и компания сообщила, что активно сосредотачивалась на устранении сикофантичного поведения в течение последнего года. Представители OpenAI отметили, что обеспечение надежности их моделей и предоставление обоснованных ответов является приоритетом, а сикофантия – важным аспектом, активно изучаемым и совершенствующимся в индустрии.
Технологические компании стремятся создать приятный пользовательский опыт, чтобы побуждать нас продолжать пользоваться их чат-ботами, тем самым увеличивая свою вовлеченность. Но это не всегда лучше для нас, ведь такая ситуация создает искаженные стимулы для сохранения сикофантии, где функция, наносящая вред, одновременно стимулирует пользование.
Одним из предложенных исследователями решений является изменение подхода к разработке моделей искусственного интеллекта с использованием более долгосрочных метрик успеха, сосредоточенных на благосостоянии людей, а не на индивидуальных или кратковременных сигналах и содержании пользователей. Социальная сикофантия, по их словам, не является признаком конца света, но это вызов, требующий решения. Качество наших социальных отношений является одним из сильнейших показателей здоровья и благополучия человека. В конце концов хочется, чтобы искусственный интеллект расширял наше суждение и перспективы, а не сужал их, и это касается не только отношений, но и многих других сфер жизни.


