💊 HealthBench: как новый бенчмарк от OpenAI проверяет

Femtech Force — новости, вакансии, подкаст

💊

HealthBench: как новый бенчмарк от OpenAI проверяет, насколько ИИ готов к реальной медицине

ИИ-модели всё чаще используются в здравоохранении — от поддержки врачей до телемедицины и пациентских чатов. Но как понять, насколько хорошо такие модели справляются с задачами, близкими к реальной практике?

Ответ предлагает HealthBench — новый открытый бенчмарк, созданный командой OpenAI. Это один из самых масштабных на сегодня инструментов для оценки ИИ в медицинском контексте: в его основе лежит датасет из 5000 медицинских диалогов.

📈

Как работает HealthBench

HealthBench моделирует реальные сценарии, в которых пациенты задают вопросы, а ИИ должен корректно ответить: объяснить симптомы, предложить возможные причины, уточнить риски или направить к живому врачу.
После ответа, модель оценивается по специальной системе: для каждого диалога реальными специалистами написаны подробные врачебные критерии (например, что должно быть включено в ответ, чего точно избегать). Всего таких критериев более 48 000. Финальная оценка — это процент выполнения всех критериев в ответе.

🗂

Какие модели справились лучше всех

В исследовании OpenAI участвовали ведущие языковые модели. GPT-4o показала лучший результат:
— 91,1% точности, впервые обогнав врача общего профиля (90,1%)
— 88,3% точности в разделе акушерства и гинекологии (O&G), против 85,8% у врача
— модели Gemini 1.5 Pro, Claude 3 Opus и Mistral также тестировались, но уступили по большинству метрик

❤️

Почему это важно для femtech

Раздел по акушерству и гинекологии — единственный специализированный женский блок в HealthBench. Высокая точность GPT-4o означает, что современные ИИ уже сегодня могут:
— помогать с анализом жалоб на симптомы,
— поддерживать принятие решений по беременности и контрацепции,
— усиливать цифровые продукты для женского здоровья.

⚡️

Важно:
HealthBench — исследовательский инструмент, не предназначенный для официальной диагностики или принятия медицинских решений. Но он уже становится новым стандартом оценки качества ИИ в медицине

Источник — HealthBench (OpenAI)

Текст подготовила #ОльгаТитова

@FemtechForce — о технологиях для здоровья женщин

Please open Telegram to view this post

VIEW IN TELEGRAM

www.group-telegram.com/us/femtechforce.com/2440

804 viewsMay 28 at 08:08

group-telegram.com/femtechforce/2440

Create: 2025-05-28
Last Update: 2025-06-01 14:25:06

💊 HealthBench: как новый бенчмарк от OpenAI проверяет, насколько ИИ готов к реальной медицине

ИИ-модели всё чаще используются в здравоохранении — от поддержки врачей до телемедицины и пациентских чатов. Но как понять, насколько хорошо такие модели справляются с задачами, близкими к реальной практике?

Ответ предлагает HealthBench — новый открытый бенчмарк, созданный командой OpenAI. Это один из самых масштабных на сегодня инструментов для оценки ИИ в медицинском контексте: в его основе лежит датасет из 5000 медицинских диалогов.

📈 Как работает HealthBench

HealthBench моделирует реальные сценарии, в которых пациенты задают вопросы, а ИИ должен корректно ответить: объяснить симптомы, предложить возможные причины, уточнить риски или направить к живому врачу.
После ответа, модель оценивается по специальной системе: для каждого диалога реальными специалистами написаны подробные врачебные критерии (например, что должно быть включено в ответ, чего точно избегать). Всего таких критериев более 48 000. Финальная оценка — это процент выполнения всех критериев в ответе.

🗂 Какие модели справились лучше всех

В исследовании OpenAI участвовали ведущие языковые модели. GPT-4o показала лучший результат:
— 91,1% точности, впервые обогнав врача общего профиля (90,1%)
— 88,3% точности в разделе акушерства и гинекологии (O&G), против 85,8% у врача
— модели Gemini 1.5 Pro, Claude 3 Opus и Mistral также тестировались, но уступили по большинству метрик

❤️ Почему это важно для femtech

Раздел по акушерству и гинекологии — единственный специализированный женский блок в HealthBench. Высокая точность GPT-4o означает, что современные ИИ уже сегодня могут:
— помогать с анализом жалоб на симптомы,
— поддерживать принятие решений по беременности и контрацепции,
— усиливать цифровые продукты для женского здоровья.

⚡️ Важно:
HealthBench — исследовательский инструмент, не предназначенный для официальной диагностики или принятия медицинских решений. Но он уже становится новым стандартом оценки качества ИИ в медицине

Источник — HealthBench (OpenAI)

Текст подготовила #ОльгаТитова

@FemtechForce — о технологиях для здоровья женщин

Telegram | DID YOU KNOW?

💊 HealthBench: как новый бенчмарк от OpenAI проверяет