Telegram Group & Telegram Channel
💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥30124👍1💅1



group-telegram.com/nadlskom/559
Create:
Last Update:

💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код

BY что-то на DL-ском







Share with your friend now:
group-telegram.com/nadlskom/559

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. 'Wild West' Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai.
from vn


Telegram что-то на DL-ском
FROM American