Большая языковая модель GPT-4 от OpenAI правильно ответила на 85% вопросов теста Американского совета психиатрии и неврологии — средний человеческий показатель составляет 73,8%.
Исследование проводила группа немецких ученых университетской больницы и онкологического центра в Гейдельберге.
Для сравнения ранняя версия GPT-3.5 набрала только 66,8%. При этом обе модели продемонстрировали низкую эффективность в задачах, требующих «мышления более высокого порядка».
По мнению экспертов, полученные результаты служат рекомендацией к использованию языковых моделей в клинической неврологии после «некоторых модификаций».
Однако ученые отметили, что, несмотря на большие перспективы технологии, врачам следует с осторожностью использовать ее на практике, поскольку она все еще несовершенна в отношении когнитивных задач.
«Мы рассматриваем наше исследование скорее как подтверждение концепции возможностей LLM. Все еще требуется развитие и, возможно, даже конкретная доработка языковых моделей, чтобы сделать их пригодными для клинической неврологии», — отметил глава исследования доктор Варун Венкатарамани.
В июле разработчики выпустили новый плагин для ChatGPT, который может анализировать данные, создавать код на Python, строить графики и решать математические задачи. Нейросети удалось научно опровергнуть теорию «плоской Земли».
Ранее эксперты Стэнфорда и Калифорнийского университета опубликовали исследование, в котором утверждается, что новейшие модели чат-ботов от OpenAI стали работать хуже после «общения» с живыми пользователям.
Источник: cryptocurrency.tech