group-telegram.com/femtechforce/2440
Last Update:
ИИ-модели всё чаще используются в здравоохранении — от поддержки врачей до телемедицины и пациентских чатов. Но как понять, насколько хорошо такие модели справляются с задачами, близкими к реальной практике?
Ответ предлагает HealthBench — новый открытый бенчмарк, созданный командой OpenAI. Это один из самых масштабных на сегодня инструментов для оценки ИИ в медицинском контексте: в его основе лежит датасет из 5000 медицинских диалогов.
HealthBench моделирует реальные сценарии, в которых пациенты задают вопросы, а ИИ должен корректно ответить: объяснить симптомы, предложить возможные причины, уточнить риски или направить к живому врачу.
После ответа, модель оценивается по специальной системе: для каждого диалога реальными специалистами написаны подробные врачебные критерии (например, что должно быть включено в ответ, чего точно избегать). Всего таких критериев более 48 000. Финальная оценка — это процент выполнения всех критериев в ответе.
В исследовании OpenAI участвовали ведущие языковые модели. GPT-4o показала лучший результат:
— 91,1% точности, впервые обогнав врача общего профиля (90,1%)
— 88,3% точности в разделе акушерства и гинекологии (O&G), против 85,8% у врача
— модели Gemini 1.5 Pro, Claude 3 Opus и Mistral также тестировались, но уступили по большинству метрик
Раздел по акушерству и гинекологии — единственный специализированный женский блок в HealthBench. Высокая точность GPT-4o означает, что современные ИИ уже сегодня могут:
— помогать с анализом жалоб на симптомы,
— поддерживать принятие решений по беременности и контрацепции,
— усиливать цифровые продукты для женского здоровья.
HealthBench — исследовательский инструмент, не предназначенный для официальной диагностики или принятия медицинских решений. Но он уже становится новым стандартом оценки качества ИИ в медицине
Источник — HealthBench (OpenAI)
Текст подготовила #ОльгаТитова
@FemtechForce — о технологиях для здоровья женщин