Telegram Group Search
Потестил Mistral OCR

Чо могу сказать: очень хорошо, но есть куда стремиться
— Русская рукописка точно не работает;
— Русский/Английский печатный работает очень хорошо;
— Формулы я так и не нашёл пока багов, даже сложные индексы находит;
— Иногда (редко) сжевывает какие-то столбцы в таблицах;
— Явных жоский галлюцинаций я не нашёл;
— Мне показалось, что очень хорошо строит layout.

Не знаю, что ребята делают под капотом, но это работает турбо быстро! Я заливал pdfки и меньше чем за минуту ко мне прилетал уже готовый markdown. В общем, топчик!

Оригиналы скринов, документов и распознаваний приложу в комментарии!
Начали подъезжать независимые бенчи

https://getomni.ai/ocr-benchmark

Так топ или не топ? Как обычно, выбирайте что вам лучше всего подходит.
Всех девушек поздравляю с прекрасным, как и вы, праздником!

Всегда восхищаюсь людьми, вне зависимости от пола. Но почему то именно в моей жизни выборка людей получается такой, что в ней девушки — это самые увлечённые, с самыми креативными и гениальными идеями люди. Именно вы самые заботливые и понимающие люди для меня!

Я желаю, чтобы этот день, наполненный вниманием к вам, был не только сегодня, а каждый день!
😂😂😂😂😂
Please open Telegram to view this post
VIEW IN TELEGRAM
Очная лекция в [AI] Talent Hub

Ребята из @aitalenthubnews пригласили меня на очную встречу со студентами, попавшими на [AI] Workshop Week. Сама лекция проходила 11 марта, получается свежие новости 😀

Рассказывал про свой опыт в IT, какую роль для этого сыграл ИТМО, а также вообще чем я руководствовался, когда хотел куда-то продолжать двигаться. После была сессия вопросов, из самых неожиданных моментов дискуссии:
— Почему я переименовал свой канал 😂?
— Почему Produnction 😍?

Было много вопросов про OCR и VLM. На часть из них я смог ответить полноценно, а про что-то ответил на поверхности. На много чего я смогу дать большую картинку для понимания на ближайшем ML Party, который будет проходить в Санкт-Петербурге, 18 марта.

Я тут чекнул, регистрация ещё открыта, так что приходите, будет точно интересно!

P.S. Ребята мне ещё подарили футболку размера L, а я правда S ношу. Но ничего, с женой вдвоём точно поместимся 😂
P.P.S. Со мной сфотографировалось даже пару человек 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
И правда...
Forwarded from CV Time
Личный опыт инженеров Яндекса — Антон Клочков

Продолжаем рассказывать об ML`щиках в Яндексе, их успехах и трендах, на которые они делают ставку. Сегодня наш герой — руководитель подгруппы распознавания текста в VLM Антон Клочков.

Больше карточек — по хештэгу #YaMLpeople.

CV Time
Решил потрогать лес на этих выходных!

А что делаете вы?
Cursor

Пока ходил на дорожке, посмотрел ролик про использование Cursor 😍. Его мне скинули в комментах к одному из постов — спасибо за полезный контент! Вот ссылка: https://youtu.be/2PjmPU07KNs.

В ролике автор делает приложение для парсинга Reddit. В практическом смысле это решение вряд ли нужно, но как обучающий пример — самое оно. Я проникся этим инструментом, особенно возможность редактировать отдельные куски кода и интерактивно обновлять дизайн-доку. Надеюсь, в скором времени доберусь его попробовать 😊.

В течение всего ролика меня не покидала мысль: "Как же полезно писать дизайн-доки", потому что построение приложения строится именно на нём. Чем точнее будут описаны все твои требования, тем лучше получится приложенька.

Думаю, если у вас грамотная архитектура, а ещё вы придерживаетесь модульности на проекте, то Cursor может помочь с улучшением отдельных модулей (при условии, что есть хорошая дизайн-дока для этого модуля). Но пока не встречал примеров его применения в крупных проектах 😍.

Чтобы подобные инструменты действительно работали в сложных задачах, они должны имитировать поведение реальных разработчиков. Представим, что где-то возник баг, и его надо отладить (допустим, приложение можно запустить в дебаг режиме):
1. Запускаем GDB и снимаем корку 🏥 (если нужно);
2. Находим место бага 🤨;
3. Начинаем исходя из входных данных по стектрейсу двигаться выше и выше, пытаясь обнаружить, где что-то пошло не так (и не тупо, а проходимся по доп зависимостям, которые через AST какой-нибудь в IDE подгружаются) 🔼;
4. Попутно ставим принты или брейкпоинты, если нужно 🤓;
5. Если нужно, запускаем всякие тулзы, типа профилировщиков .

И это уже всё напоминает какую-то экспертную систему, к которой мы обязательно придём. Думаю, как я уже писал в одном из прошлых постов (https://www.group-telegram.com/blog_toxa.com/352), в этом году умных агентов станет куда больше 🔼.

Если мы говорим про людей, то те, кто уже сейчас экспериментируют с инструментами вроде Cursor, могут в будущем стать в разы производительнее. Пока что они просто нарабатывают опыт и интуицию в работе с такими системами. И когда придёт очередное решение, которое уже будет работать "огого!", ребятки уже будут в курсе, как это использовать, а не пытаться вкатываться 🤔.

Интересное нас будущее ждёт!
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/18 23:39:05
Back to Top
HTML Embed Code: