Telegram Group & Telegram Channel
💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥30124👍1💅1



group-telegram.com/nadlskom/559
Create:
Last Update:

💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код

BY что-то на DL-ском







Share with your friend now:
group-telegram.com/nadlskom/559

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender.
from hk


Telegram что-то на DL-ском
FROM American