Исследование показало, что даже продвинутый ИИ не умеет рассуждать

22.10.2024
Источник: RB
Всем известно, что искусственный интеллект может ошибаться и галлюцинировать. Но недавнее исследование Apple выявило еще более существенные недостатки в математических моделях, с помощью которых ИИ «рассуждает».

Ученые несколько раз задавали модели один и тот же вопрос, немного меняя его формулировку. Вместе с этим менялись и ответы модели, особенно если в вопросах использовались числа.

Исследование, опубликованное arxiv.org, показало, что ответы модели значительно меняются, если формулировать по-разному один и тот же вопрос. По мнению ученых, «это ставит под сомнение надежность текущих результатов GSM8K, которые полагаются на одноточечные метрики точности». GSM8K — набор данных, который используется для тестирования моделей. Он включает более 8 тыс. вопросов и ответов по математике уровня начальной школы.

Исследователи Apple определили, что разница в производительности может достигать 10%. И даже незначительные изменения в промтах могут серьезно влиять на достоверность ответов модели.

Дело в том, что ИИ полагается не на логические рассуждения, а на распознавание паттернов. Исследование Apple показывает, что если изменить всего несколько неважных слов, это влияет на распознавание паттернов.

Один из примеров — задача по подсчету количества киви, собранных в течение нескольких дней. Исследователи Apple провели контрольный эксперимент, а затем добавили информацию о размере киви.

Llama от Meta* и o1 от OpenAI изменили свои ответы по сравнению с контрольным экспериментом, хотя данные о размере киви не влияли на результат. Проблемы возникли и у GPT-4o.

Большие языковые модели становятся частью нашей жизни, и эти выводы подчеркивают необходимость проверять информацию, которую они предоставляют.
  • CNY 68.18 -0.69%
  • EUR 546.57 -6.02%
  • RUB 6.19 -0.05%
  • USD 464.73 -4.76%
  • ADA 118.7 +1.92%
  • BNB 298387.43 +0.85%
  • BTC 36254655.61 +2.14%
  • DOGE 45.35 +2.01%
  • DOT 607.24 +1.81%
  • ETH 1109179.23 +2.63%
  • SOL 41019.37 +2.82%
  • TRX 154.71 +1.22%
  • USDT 464.7 -0.02%
  • XRP 674.29 +0.74%