Telegram Group & Telegram Channel
В классической разработке разработчики системно недооценивают QA

— Типа это какие-то люди, которым не хватает навыка писать код, они "всего лишь" проверяют за меня, великого разработчика, как нажимаются кнопки — слышал такое мнение пару раз (осуждаю).
А что стоит твой код, очень красивый, весь такой на правильной чистой архитектуре и модных фреймворках, если он "работает только на твоем компьютере?"
— То есть твой код не работает в реальных условиях, а в дураках его потребитель?

Качество начинается с
культуры владения, ответственности разработчиков за результат и процессов, в которых они реализует проверки, гейты, метрики и наблюдаемость. Но, еще сложнее обстоят дела, когда мы разрабатываем LLM-продукты. Они не детерминированы, тут надо проверять, как ведёт себя непредсказуемая, вероятностная хрень, которая ещё и каждый раз отвечает по-разному.

И если в классической разработке хватает одного-двух тестировщиков, то в LLM-продуктах нужна целая evaluation-команд
а, которая системно ищет слабые места модели и превращает их в датасеты для проверки поведения агента. Каждый пример фиксирует конкретное ожидаемое или проблемное поведение, а на таких кейсах — «как должно быть» и «где ломается» — строятся метрики качества. Чем лучше агент проходит эти испытания, тем стабильнее и предсказуемее он ведёт себя в реальных условиях.

Если интересно, как это работает в реальной жизни — обязательно почитайте историю, как ребят позвали спасти чужой продукт, разработанный на ручных проверках качества, и как они за 7 дней, eval-driven подходом дотянули его до вменяемого качества
🔥15🤔4👍32🫡2



group-telegram.com/tired_glebmikheev/2188
Create:
Last Update:

В классической разработке разработчики системно недооценивают QA

— Типа это какие-то люди, которым не хватает навыка писать код, они "всего лишь" проверяют за меня, великого разработчика, как нажимаются кнопки — слышал такое мнение пару раз (осуждаю).
А что стоит твой код, очень красивый, весь такой на правильной чистой архитектуре и модных фреймворках, если он "работает только на твоем компьютере?"
— То есть твой код не работает в реальных условиях, а в дураках его потребитель?

Качество начинается с
культуры владения, ответственности разработчиков за результат и процессов, в которых они реализует проверки, гейты, метрики и наблюдаемость. Но, еще сложнее обстоят дела, когда мы разрабатываем LLM-продукты. Они не детерминированы, тут надо проверять, как ведёт себя непредсказуемая, вероятностная хрень, которая ещё и каждый раз отвечает по-разному.

И если в классической разработке хватает одного-двух тестировщиков, то в LLM-продуктах нужна целая evaluation-команд
а, которая системно ищет слабые места модели и превращает их в датасеты для проверки поведения агента. Каждый пример фиксирует конкретное ожидаемое или проблемное поведение, а на таких кейсах — «как должно быть» и «где ломается» — строятся метрики качества. Чем лучше агент проходит эти испытания, тем стабильнее и предсказуемее он ведёт себя в реальных условиях.

Если интересно, как это работает в реальной жизни — обязательно почитайте историю, как ребят позвали спасти чужой продукт, разработанный на ручных проверках качества, и как они за 7 дней, eval-driven подходом дотянули его до вменяемого качества

BY Уставший техдир




Share with your friend now:
group-telegram.com/tired_glebmikheev/2188

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

'Wild West' Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from us


Telegram Уставший техдир
FROM American