Дослідницька група Apple зі штучного інтелекту виявила значні недоліки в здатності великих мовних моделей (онова штучного інтелекту) аргументувати. Дослідження, опубліковане на arXiv, описує оцінку низки провідних мовних моделей, у тому числі від OpenAI, Meta та інших відомих розробників штучних інтелектів, щоб визначити, наскільки добре ці моделі можуть справлятися із завданнями математичних міркувань. Висновки показують, що навіть незначні зміни у формулюванні запитань можуть спричинити серйозні розбіжності в продуктивності моделі, що може підірвати її надійність у сценаріях, які вимагають логічної узгодженості.
Нагадаэмо, Apple випустила iPhone 16, ключовою функцією якого має стати штучний інтелект Apple Intelligence. Цей інтелект ще недоступний користувачам, компанія лише почала обмежене розгортання..
Apple звертає увагу на постійну проблему мовних моделей: їх робота на основі співпадіння шаблонів, а не справжнього логічного міркування. У кількох тестах дослідники продемонстрували, що додавання нерелевантної інформації до запитання — деталей, які не повинні впливати на математичний результат — може призвести до суттєвих відмінностей відповідей штучного інтелекту.
Один із прикладів, наведений у статті, стосується простої математичної задачі: скільки ківі людина зібрала протягом кількох днів. Коли були введені нерелевантні деталі щодо розміру деяких ківі, такі моделі, як o1 від OpenAI та Llama від Meta, неправильно розрахувала остаточну суму.
«Ми не знайшли доказів формального міркування в мовних моделях. Їхню поведінку краще пояснити складним шаблоном зіставлення — насправді настільки крихким, що зміна імен може змінити результати приблизно на 10%.
Ця крихкість результатів спонукала дослідників до висновку, що штучні інтелекти не використовують реальну логіку для вирішення проблем, а натомість покладаються на складне розпізнавання образів, отриманих під час навчання.
Вони виявили, що проста зміна імен може змінити результати, потенційно тривожний знак для майбутнього додатків штучного інтелекту, які вимагають послідовних і точних міркувань у контексті реального світу.
Усі перевірені моделі, від менших версій з відкритим вихідним кодом, таких як Llama, до пропрієтарних моделей, таких як GPT-4o OpenAI, показали значне зниження продуктивності, коли зіткнулися з, здавалося б, несуттєвими варіаціями вхідних даних.
Apple припускає, що штучному інтелекту може знадобитися поєднати нейронні мережі з традиційним символічним міркуванням, яке називається нейросимволічним штучним інтелектом , щоб отримати точніші можливості прийняття рішень і вирішення проблем.