Telegram Group & Telegram Channel
В классической разработке разработчики системно недооценивают QA

— Типа это какие-то люди, которым не хватает навыка писать код, они "всего лишь" проверяют за меня, великого разработчика, как нажимаются кнопки — слышал такое мнение пару раз (осуждаю).
А что стоит твой код, очень красивый, весь такой на правильной чистой архитектуре и модных фреймворках, если он "работает только на твоем компьютере?"
— То есть твой код не работает в реальных условиях, а в дураках его потребитель?

Качество начинается с
культуры владения, ответственности разработчиков за результат и процессов, в которых они реализует проверки, гейты, метрики и наблюдаемость. Но, еще сложнее обстоят дела, когда мы разрабатываем LLM-продукты. Они не детерминированы, тут надо проверять, как ведёт себя непредсказуемая, вероятностная хрень, которая ещё и каждый раз отвечает по-разному.

И если в классической разработке хватает одного-двух тестировщиков, то в LLM-продуктах нужна целая evaluation-команд
а, которая системно ищет слабые места модели и превращает их в датасеты для проверки поведения агента. Каждый пример фиксирует конкретное ожидаемое или проблемное поведение, а на таких кейсах — «как должно быть» и «где ломается» — строятся метрики качества. Чем лучше агент проходит эти испытания, тем стабильнее и предсказуемее он ведёт себя в реальных условиях.

Если интересно, как это работает в реальной жизни — обязательно почитайте историю, как ребят позвали спасти чужой продукт, разработанный на ручных проверках качества, и как они за 7 дней, eval-driven подходом дотянули его до вменяемого качества
🔥15🤔4👍32🫡2



group-telegram.com/tired_glebmikheev/2188
Create:
Last Update:

В классической разработке разработчики системно недооценивают QA

— Типа это какие-то люди, которым не хватает навыка писать код, они "всего лишь" проверяют за меня, великого разработчика, как нажимаются кнопки — слышал такое мнение пару раз (осуждаю).
А что стоит твой код, очень красивый, весь такой на правильной чистой архитектуре и модных фреймворках, если он "работает только на твоем компьютере?"
— То есть твой код не работает в реальных условиях, а в дураках его потребитель?

Качество начинается с
культуры владения, ответственности разработчиков за результат и процессов, в которых они реализует проверки, гейты, метрики и наблюдаемость. Но, еще сложнее обстоят дела, когда мы разрабатываем LLM-продукты. Они не детерминированы, тут надо проверять, как ведёт себя непредсказуемая, вероятностная хрень, которая ещё и каждый раз отвечает по-разному.

И если в классической разработке хватает одного-двух тестировщиков, то в LLM-продуктах нужна целая evaluation-команд
а, которая системно ищет слабые места модели и превращает их в датасеты для проверки поведения агента. Каждый пример фиксирует конкретное ожидаемое или проблемное поведение, а на таких кейсах — «как должно быть» и «где ломается» — строятся метрики качества. Чем лучше агент проходит эти испытания, тем стабильнее и предсказуемее он ведёт себя в реальных условиях.

Если интересно, как это работает в реальной жизни — обязательно почитайте историю, как ребят позвали спасти чужой продукт, разработанный на ручных проверках качества, и как они за 7 дней, eval-driven подходом дотянули его до вменяемого качества

BY Уставший техдир




Share with your friend now:
group-telegram.com/tired_glebmikheev/2188

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election 'Wild West' "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from jp


Telegram Уставший техдир
FROM American