Исследование показало, что даже продвинутый ИИ не умеет рассуждать

22.10.2024
Источник: RB
Всем известно, что искусственный интеллект может ошибаться и галлюцинировать. Но недавнее исследование Apple выявило еще более существенные недостатки в математических моделях, с помощью которых ИИ «рассуждает».

Ученые несколько раз задавали модели один и тот же вопрос, немного меняя его формулировку. Вместе с этим менялись и ответы модели, особенно если в вопросах использовались числа.

Исследование, опубликованное arxiv.org, показало, что ответы модели значительно меняются, если формулировать по-разному один и тот же вопрос. По мнению ученых, «это ставит под сомнение надежность текущих результатов GSM8K, которые полагаются на одноточечные метрики точности». GSM8K — набор данных, который используется для тестирования моделей. Он включает более 8 тыс. вопросов и ответов по математике уровня начальной школы.

Исследователи Apple определили, что разница в производительности может достигать 10%. И даже незначительные изменения в промтах могут серьезно влиять на достоверность ответов модели.

Дело в том, что ИИ полагается не на логические рассуждения, а на распознавание паттернов. Исследование Apple показывает, что если изменить всего несколько неважных слов, это влияет на распознавание паттернов.

Один из примеров — задача по подсчету количества киви, собранных в течение нескольких дней. Исследователи Apple провели контрольный эксперимент, а затем добавили информацию о размере киви.

Llama от Meta* и o1 от OpenAI изменили свои ответы по сравнению с контрольным экспериментом, хотя данные о размере киви не влияли на результат. Проблемы возникли и у GPT-4o.

Большие языковые модели становятся частью нашей жизни, и эти выводы подчеркивают необходимость проверять информацию, которую они предоставляют.
  • CNY 71.41 -0.1%
  • EUR 550.69 -1.54%
  • RUB 6.41 -0.1%
  • USD 485.4 -1.62%
  • ADA 68.94 +0.32%
  • BNB 269573.2 +0.52%
  • BTC 28784944.17 -0.13%
  • DOGE 35.68 -0.55%
  • DOT 412.96 -0.96%
  • ETH 757328.5 -0.7%
  • SOL 31984.54 +0.03%
  • TRX 157.03 -0.53%
  • USDT 484.15 +0.01%
  • XRP 501.75 -2.65%