Доктор Хаус превратился в медицинский датасет для ИИ
Сериал «Доктор Хаус» закончился в 2012-м, но до сих пор живёт второй жизнью — сначала в учебных аудиториях, теперь в нейросетях. Исследователи из Пенсильванского университета вытащили из всех 177 эпизодов 176 реальных диагностических кейсов, оформили их в структурированный нарратив и прогнали через четыре актуальные модели: GPT-4o mini, GPT-5 Mini, Gemini 2.5 Flash и Gemini 2.5 Pro.
Почему именно «Хаус»? Потому что это один из самых дотошно проработанных медицинских сериалов: сценарии часто писали или консультировали настоящие врачи, а редкие болезни в нём встречаются чаще, чем в обычных базах данных. Получился датасет, который теперь выложили в открытый доступ — в отличие от большинства закрытых медицинских корпусов.
Результаты оказались неожиданно хорошими
Лучше всех справилась Gemini 2.5 Pro — 38,64% правильных диагнозов. На втором месте GPT-5 Mini с 36,93%. Самой слабой оказалась GPT-4o mini — всего 16,48%. Разница между старыми и новыми поколениями моделей получилась больше чем в два раза.
Самые высокие показатели — в первом сезоне (56,52%), самые низкие — в пятом (20,83%). Учёные объясняют: в поздних сезонах случаи становились запутаннее и реже встречались даже в реальной практике.
С привычными болезнями (менингит, инфаркт, тромбоэмболия лёгочной артерии) модели справляются уверенно. А вот с настоящими «зебровыми» диагнозами вроде нейроцистицеркоза, болезни Эрдгейма-Честера или саркоидоза — всё ещё тяжело.
Что это значит на практике
Да, 38% — это пока не повод доверять ИИ жизнь пациента. Но речь идёт о самых сложных редких заболеваниях, которые регулярно ставят в тупик даже опытных врачей. То, что нейросеть без специальной медицинской подготовки угадывает почти четыре случая из десяти, уже впечатляет.
Авторы исследования подчёркивают: их работа — это не попытка заменить доктора, а создание открытого бенчмарка, по которому можно будет измерять прогресс языковых моделей в медицинском мышлении. И прогресс этот идёт семимильными шагами.