Apple выявила дефекты популярных языковых моделей в области логического мышления

  

Проведённое Apple исследование ведущих языковых моделей – от OpenAI, экстремистской Meta и других компаний — выявило неспособность искусственного интеллекта (ИИ) «мыслить логически», написал в понедельник macrumors.com. Apple заостряет внимание на со...

Окт 15, 2024
Apple выявила дефекты популярных языковых моделей в области логического мышления

Проведённое Apple исследование ведущих языковых моделей – от OpenAI, экстремистской Meta и других компаний — выявило неспособность искусственного интеллекта (ИИ) «мыслить логически», написал в понедельник macrumors.com.

Apple заостряет внимание на сохраняющейся проблеме языковых моделей – они зависимы от сформированных при обучении шаблонов, предлагаемые ими ответы не есть плод логических рассуждений. Во время тестов исследователи показали, что добавление малозначимой информации к вопросу — деталей, которые не должны влиять на результат – может обусловить выдачу сильно различающихся ответов от моделей.

Например, когда моделям задали задачу посчитать, сколько человек собрал киви за несколько дней и добавили данные о размере нескольких фруктов, модели OpenAI и Meta дали неверный ответ.

Эксперимент

Редакция D-Russia.ru поставила свой эксперимент и пришла к тем же результатам, что и Apple. Экспериментировали мы с GPT4-4o mini. На запрос «у буратино 2 яблока, не дам некту яблоко, хоть он дерись. сказал буратино – сколько яблок будет у некты, если он подерётся с буратино?» получен ответ: «Если у Буратино 2 яблока и он не собирается давать одно из них Некте, то даже если они подерутся, у Некты всё равно не будет яблок. Таким образом, после драки у Некты останется 0 яблок.»

В этом ответе лишь видимость логики. GPT4-4o mini неизвестен исход драки Некто с Буратино – это не оговаривается условием задачи, однако очевидно, что яблоко достанется победителю. Однако робот почему-то безоговорочно верит Буратино.

См. также: Как ChatGPT использовали для написания новости — результат >>>