Telegram Group & Telegram Channel
В классической разработке разработчики системно недооценивают QA

— Типа это какие-то люди, которым не хватает навыка писать код, они "всего лишь" проверяют за меня, великого разработчика, как нажимаются кнопки — слышал такое мнение пару раз (осуждаю).
А что стоит твой код, очень красивый, весь такой на правильной чистой архитектуре и модных фреймворках, если он "работает только на твоем компьютере?"
— То есть твой код не работает в реальных условиях, а в дураках его потребитель?

Качество начинается с
культуры владения, ответственности разработчиков за результат и процессов, в которых они реализует проверки, гейты, метрики и наблюдаемость. Но, еще сложнее обстоят дела, когда мы разрабатываем LLM-продукты. Они не детерминированы, тут надо проверять, как ведёт себя непредсказуемая, вероятностная хрень, которая ещё и каждый раз отвечает по-разному.

И если в классической разработке хватает одного-двух тестировщиков, то в LLM-продуктах нужна целая evaluation-команд
а, которая системно ищет слабые места модели и превращает их в датасеты для проверки поведения агента. Каждый пример фиксирует конкретное ожидаемое или проблемное поведение, а на таких кейсах — «как должно быть» и «где ломается» — строятся метрики качества. Чем лучше агент проходит эти испытания, тем стабильнее и предсказуемее он ведёт себя в реальных условиях.

Если интересно, как это работает в реальной жизни — обязательно почитайте историю, как ребят позвали спасти чужой продукт, разработанный на ручных проверках качества, и как они за 7 дней, eval-driven подходом дотянули его до вменяемого качества
🔥15🤔4👍32🫡2



group-telegram.com/tired_glebmikheev/2188
Create:
Last Update:

В классической разработке разработчики системно недооценивают QA

— Типа это какие-то люди, которым не хватает навыка писать код, они "всего лишь" проверяют за меня, великого разработчика, как нажимаются кнопки — слышал такое мнение пару раз (осуждаю).
А что стоит твой код, очень красивый, весь такой на правильной чистой архитектуре и модных фреймворках, если он "работает только на твоем компьютере?"
— То есть твой код не работает в реальных условиях, а в дураках его потребитель?

Качество начинается с
культуры владения, ответственности разработчиков за результат и процессов, в которых они реализует проверки, гейты, метрики и наблюдаемость. Но, еще сложнее обстоят дела, когда мы разрабатываем LLM-продукты. Они не детерминированы, тут надо проверять, как ведёт себя непредсказуемая, вероятностная хрень, которая ещё и каждый раз отвечает по-разному.

И если в классической разработке хватает одного-двух тестировщиков, то в LLM-продуктах нужна целая evaluation-команд
а, которая системно ищет слабые места модели и превращает их в датасеты для проверки поведения агента. Каждый пример фиксирует конкретное ожидаемое или проблемное поведение, а на таких кейсах — «как должно быть» и «где ломается» — строятся метрики качества. Чем лучше агент проходит эти испытания, тем стабильнее и предсказуемее он ведёт себя в реальных условиях.

Если интересно, как это работает в реальной жизни — обязательно почитайте историю, как ребят позвали спасти чужой продукт, разработанный на ручных проверках качества, и как они за 7 дней, eval-driven подходом дотянули его до вменяемого качества

BY Уставший техдир




Share with your friend now:
group-telegram.com/tired_glebmikheev/2188

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said.
from sg


Telegram Уставший техдир
FROM American