22.10.2024
Источник:
RB
Всем известно, что искусственный интеллект может ошибаться и галлюцинировать. Но недавнее исследование Apple выявило еще более существенные недостатки в математических моделях, с помощью которых ИИ «рассуждает».
Ученые несколько раз задавали модели один и тот же вопрос, немного меняя его формулировку. Вместе с этим менялись и ответы модели, особенно если в вопросах использовались числа.
Исследование, опубликованное arxiv.org, показало, что ответы модели значительно меняются, если формулировать по-разному один и тот же вопрос. По мнению ученых, «это ставит под сомнение надежность текущих результатов GSM8K, которые полагаются на одноточечные метрики точности». GSM8K — набор данных, который используется для тестирования моделей. Он включает более 8 тыс. вопросов и ответов по математике уровня начальной школы.
Исследователи Apple определили, что разница в производительности может достигать 10%. И даже незначительные изменения в промтах могут серьезно влиять на достоверность ответов модели.
Дело в том, что ИИ полагается не на логические рассуждения, а на распознавание паттернов. Исследование Apple показывает, что если изменить всего несколько неважных слов, это влияет на распознавание паттернов.
Один из примеров — задача по подсчету количества киви, собранных в течение нескольких дней. Исследователи Apple провели контрольный эксперимент, а затем добавили информацию о размере киви.
Llama от Meta* и o1 от OpenAI изменили свои ответы по сравнению с контрольным экспериментом, хотя данные о размере киви не влияли на результат. Проблемы возникли и у GPT-4o.
Большие языковые модели становятся частью нашей жизни, и эти выводы подчеркивают необходимость проверять информацию, которую они предоставляют.