Telegram Group & Telegram Channel
Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.



group-telegram.com/experiment_ai/68
Create:
Last Update:

Тесты тестов

Задача: вычитать и проверить набор из 150+ тестовых вопросов по математике и программированию не самого легкого уровня.

Прорешать все тесты, вычитать – дорогое муторное  занятие. При этом тесты заказчику должны быть сданы без каких-либо ошибок!

ИИ может дать быструю содержательную обратную связь. Для этого сохраняем документ в pdf (так лучше считаются формулы, если нет tex / markdown), просим пошагово пройтись отдельно по каждому вопросу, самостоятельно ответить на него, проверить правильность вариантов ответов. По возможности лучше разбить файл на несколько небольших и обрабатывать их отдельно. Также рекомендуется один и тот же файл прогнать несколько раз, можно как с одной моделью, так и с разными (мы в основном все делаем с gpt o3 или gemini 2.5). 

На выходе получаем отчет по каждому вопросу. На практике таким образом удалось отловить несколько опечаток и 3 реальные ошибки на раннем этапе проверки тестов. Пока что обязательно все равно делается ручная проверка 2-3 разными проверяющими, чтобы отловить сложность вопросов, четкость формулировок и тд. 

Для полноценного внедрения и реальной экономической пользы пока что не хватает уверенности в точности и полноте ИИ – нужно разработать качественный валидационный тест и на нем отладить систему проверки тестов. Про оценку систем на основе LLM писали здесь.

BY Эксперименты с ИИ


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/experiment_ai/68

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS.
from sg


Telegram Эксперименты с ИИ
FROM American