✔️ PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.
В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.
Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.
Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.
Результаты оценки: Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.
OpenAI занял 2-е место на собствем собственном бенчмарке)
✔️ PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.
В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.
Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.
Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.
Результаты оценки: Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.
OpenAI занял 2-е место на собствем собственном бенчмарке)
Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from hk