Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/femtechforce/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Femtech Force — новости, вакансии, подкаст | Telegram Webview: femtechforce/2440 -
Telegram Group & Telegram Channel
💊 HealthBench: как новый бенчмарк от OpenAI проверяет, насколько ИИ готов к реальной медицине

ИИ-модели всё чаще используются в здравоохранении — от поддержки врачей до телемедицины и пациентских чатов. Но как понять, насколько хорошо такие модели справляются с задачами, близкими к реальной практике?

Ответ предлагает HealthBench — новый открытый бенчмарк, созданный командой OpenAI. Это один из самых масштабных на сегодня инструментов для оценки ИИ в медицинском контексте: в его основе лежит датасет из 5000 медицинских диалогов.

📈 Как работает HealthBench

HealthBench моделирует реальные сценарии, в которых пациенты задают вопросы, а ИИ должен корректно ответить: объяснить симптомы, предложить возможные причины, уточнить риски или направить к живому врачу.
После ответа, модель оценивается по специальной системе: для каждого диалога реальными специалистами написаны подробные врачебные критерии (например, что должно быть включено в ответ, чего точно избегать). Всего таких критериев более 48 000. Финальная оценка — это процент выполнения всех критериев в ответе.

🗂 Какие модели справились лучше всех

В исследовании OpenAI участвовали ведущие языковые модели. GPT-4o показала лучший результат:
— 91,1% точности, впервые обогнав врача общего профиля (90,1%)
— 88,3% точности в разделе акушерства и гинекологии (O&G), против 85,8% у врача
— модели Gemini 1.5 Pro, Claude 3 Opus и Mistral также тестировались, но уступили по большинству метрик

❤️ Почему это важно для femtech

Раздел по акушерству и гинекологии — единственный специализированный женский блок в HealthBench. Высокая точность GPT-4o означает, что современные ИИ уже сегодня могут:
— помогать с анализом жалоб на симптомы,
— поддерживать принятие решений по беременности и контрацепции,
— усиливать цифровые продукты для женского здоровья.

⚡️ Важно:
HealthBench — исследовательский инструмент, не предназначенный для официальной диагностики или принятия медицинских решений. Но он уже становится новым стандартом оценки качества ИИ в медицине

Источник — HealthBench (OpenAI)

Текст подготовила #ОльгаТитова

@FemtechForce — о технологиях для здоровья женщин
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/femtechforce/2440
Create:
Last Update:

💊 HealthBench: как новый бенчмарк от OpenAI проверяет, насколько ИИ готов к реальной медицине

ИИ-модели всё чаще используются в здравоохранении — от поддержки врачей до телемедицины и пациентских чатов. Но как понять, насколько хорошо такие модели справляются с задачами, близкими к реальной практике?

Ответ предлагает HealthBench — новый открытый бенчмарк, созданный командой OpenAI. Это один из самых масштабных на сегодня инструментов для оценки ИИ в медицинском контексте: в его основе лежит датасет из 5000 медицинских диалогов.

📈 Как работает HealthBench

HealthBench моделирует реальные сценарии, в которых пациенты задают вопросы, а ИИ должен корректно ответить: объяснить симптомы, предложить возможные причины, уточнить риски или направить к живому врачу.
После ответа, модель оценивается по специальной системе: для каждого диалога реальными специалистами написаны подробные врачебные критерии (например, что должно быть включено в ответ, чего точно избегать). Всего таких критериев более 48 000. Финальная оценка — это процент выполнения всех критериев в ответе.

🗂 Какие модели справились лучше всех

В исследовании OpenAI участвовали ведущие языковые модели. GPT-4o показала лучший результат:
— 91,1% точности, впервые обогнав врача общего профиля (90,1%)
— 88,3% точности в разделе акушерства и гинекологии (O&G), против 85,8% у врача
— модели Gemini 1.5 Pro, Claude 3 Opus и Mistral также тестировались, но уступили по большинству метрик

❤️ Почему это важно для femtech

Раздел по акушерству и гинекологии — единственный специализированный женский блок в HealthBench. Высокая точность GPT-4o означает, что современные ИИ уже сегодня могут:
— помогать с анализом жалоб на симптомы,
— поддерживать принятие решений по беременности и контрацепции,
— усиливать цифровые продукты для женского здоровья.

⚡️ Важно:
HealthBench — исследовательский инструмент, не предназначенный для официальной диагностики или принятия медицинских решений. Но он уже становится новым стандартом оценки качества ИИ в медицине

Источник — HealthBench (OpenAI)

Текст подготовила #ОльгаТитова

@FemtechForce — о технологиях для здоровья женщин

BY Femtech Force — новости, вакансии, подкаст


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/femtechforce/2440

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Anastasia Vlasova/Getty Images
from us


Telegram Femtech Force — новости, вакансии, подкаст
FROM American