Telegram Group & Telegram Channel
💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥30124👍1💅1



group-telegram.com/nadlskom/559
Create:
Last Update:

💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код

BY что-то на DL-ском







Share with your friend now:
group-telegram.com/nadlskom/559

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He adds: "Telegram has become my primary news source." Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from tr


Telegram что-то на DL-ском
FROM American