Изследване на INSAIT разкрива, че популярните GPT модели са склонни да "решават" грешни математически задачи 

Изследването е проведено от Иво Петров (докторант в INSAIT), Джаспър Деконинк (ETH Zurich) и проф. Мартин Вечев (научен директор на INSAIT)

Изследване на INSAIT разкрива, че популярните GPT модели са склонни да "решават" грешни математически задачи 
Изследване на INSAIT разкрива, че популярните GPT модели са склонни да "решават" грешни математически задачи  Източник: INSAIT

Екип от INSAIT, институт към Софийския университет "Св. Климент Охридски" и ETH Цюрих представи BrokenMath — първия в света сравнителен тест, който системно оценява склонността на големите езикови модели (LLMs) към сляпо съгласие (sycophancy) при решаване и доказване на математически твърдения.

 

BrokenMath разкрива важен недостатък на съвременните модели за изкуствен интелект: те често уверено се съгласяват с грешни твърдения, вместо да ги опровергаят. В математиката това означава, че моделите могат да създават убедителни, но напълно грешни доказателства, което поставя под съмнение тяхната надеждност при научни и образователни приложения.

 

Резултатите показват, че дори GPT-5 "доказва" неверни твърдения в около 29% от случаите. Колкото по-сложна е задачата, толкова по-голяма е вероятността моделът да се подведе. Тествани са различни подходи за ограничаване на този ефект — като промени в начина на задаване на въпросите, агентно разсъждение и допълнително обучение — но засега нито един не решава проблема.

 

Подобно поведение може да е опасно в контекста на нарастващото навлизане на ИИ в образованието. Ако системи, използвани от ученици или преподаватели, могат уверено да представят грешни решения като верни, това би могло да доведе до натрупване на погрешни знания и подкопаване на критичното мислене. Затова надеждността и проверката на фактите са ключови за безопасното прилагане на ИИ технологии в учебния процес и научните изследвания.

 

Изследването е проведено от Иво Петров (докторант в INSAIT), Джаспър Деконинк (ETH Zurich) и проф. Мартин Вечев (научен директор на INSAIT).

 

 

Пълният набор от данни, методологията и научната статия са достъпни онлайн тук: sycophanticmath.ai.

 

Още от "Светът"

Пожар е избухнал в американското посолство в столицата на Саудитска Арабия, след като е било ударено с два дрона

Телевизия Фокс Нюз съобщи, че по време на нападението с ирански дронове посолството е било празно и няма пострадали в резултат на атаката

Прочетете повече прочетете повече

Доналд Тръмп се закани: Тепърва предстои голямата вълна в конфликта с Иран, ако е нужно ще вкараме сухопътни войски

В кратко телефонно интервю за в. "Ню Йорк пост" президентът заяви, че не изключва изпращането на сухопътни войски в Иран, "ако това е необходимо"

Прочетете повече прочетете повече

САЩ опровергаха съобщенията, че авионосецът "Abraham Lincoln" е бил поразен от ирански ракети

CENTCOM отхвърли твърденията, твърдейки, че ракетите "дори не са се доближили" до самолетоносача, от който продължават да излитат самолети, извършващи атаки срещу Иран

Прочетете повече прочетете повече

Последни новини

Най-четени