Telegram Group & Telegram Channel
Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰6💯531😁1



group-telegram.com/blastim/2956
Create:
Last Update:

Нерон и Нейрон: ИИ — моя Римская империя 🏛

Древние римляне много писали. Ежегодно обнаруживают до полутора тысяч латинских начертаний — высеченные на камне и выгравированные на монументах, в публичных пространствах и частных домах, нацарапанные на заборах... Надписи позволяют напрямую ощутить повседневную жизнь людей разных слоев обществ прошлого — от бытовых забот до политики и экономики. Это исследует дисциплина эпиграфика 🖋🪦

🔨 Однако за тысячелетия буквы стерлись, предметы с надписями разрушились или были перемещены. Вдобавок римляне злоупотребляли сокращениями и аббревиатурами. Всё это затрудняет и без того сложную расшифровку и интерпретацию, которой занимаются историки и археологи. Традиционно эксперты вручную ищут параллели — надписи с похожими словами, фразами, синтаксисом. Они нужны для контекстуализации. Изнурительный процесс сравнения текстов требует невероятной эрудиции и может затягиваться на месяцы и даже годы. Алгоритмы применялись, но они ограничивались буквальными совпадениями и не считывали смысл. Пришло время нейросетей.

🏺 Специалисты из Google DeepMind под руководством Янниса Ассаэля совместно с академическими учеными создали мультимодальную генеративную модель Aeneas, дабы автоматизировать процесс реконструкции старинной латыни и облегчить участь историков. Название отсылает к мифическому герою Троянской войны Энею, сыну богини Венеры, предку Ромула и Рема. Статья вышла в июле в Nature.

Aeneas принимает на вход транскрибированный латинский текст с пропусками нескольких символов (-) или фрагментов неизвестной длины (#), а также фотоснимки надписей. Ранее модели учитывали исключительно текст, тогда как много деталей можно почерпнуть из внешнего вида физических носителей.

🎭 Как в классической драме соблюдаются три единства, так и Aeneas решает три нетривиальные задачи: действиезаполняет гэпы в тексте, место — выдвигает предположение о регионе происхождения надписи, выбирая одну из 62 римских провинций и, наконец, время — предсказывает датировку с точностью до десятилетия.

Всем этим занимаются три нейросети (головы), принимающие данные от декодера трансформера T5, обрабатывающего исходные символы. Для обучения машинлернеры собрали корпус из 176 тыс. латинских надписей (для 5% были и картинки) за 15 веков со всех уголков Pax Romana — от Британии до Ирака. Aeneas восстанавливает обломки текста, даже когда вообще неизвестно, какой объем утерян! Исторически обогащенные эмбеддинги из T5 применяются для поиска в векторном пространстве, куда спроецирован весь датасет надписей: в итоге получается ранжированный список аналогов. Это прогресс по сравнению с предшествующей моделью Ithaca для древнегреческого языка. А еще в состав Aeneas входит ResNet-8 для обработки фото: эта визуальная информация учитывалась при географической атрибуции. Простейший пример: строку #us populusque Romanus ИИ дополняет до Senatus populusque Romanus («Сенат и народ Рима»).

👑 Ллмку проверили на знаменитом документе эпохи императора Октавиана — Res Gestae Divi Augusti («Деяния божественного Августа»), лучшая копия которого сохранилась на каменной стене храма в Анкаре 🇹🇷. Полагаясь только на тонкие лингвистические маркеры, ИИ сузил оценку возраста монументального трактата до двух периодов (10–1 гг. до н. э. и 10–20 гг. н. э). К таким же выводам пришли эксперты. Но за годы трудов и дебатов.

Конечно, Aeneas не заместит опытных профессионалов, однако позволит им мгновенно находить параллели и сосредотачиваться сразу на самых вероятных версиях. 23 приглашенных эпиграфиста уже протестили модель: в 9 из 10 случаев она дала полезную затравку и инсайты. Сейчас датасет и код полностью доступны, открыт сайт predictingthepast.com

🏆 Думаете, это чудеса и технологии уровня олимпийских богов? Вовсе нет: ученые из разных сфер используют те же самые архитектуры и тулы для обработки данных, которые изучают даже студенты. Скажем, в приложении к статье про Aeneas можно обнаружить, что рисечеры юзали numpy, pandas для стандартизации датасетов, seaborn, matplotlib для графиков, а также другие библиотеки. Все дороги ведут в... Python

BY Бластим: курсы и работа в биотехе




Share with your friend now:
group-telegram.com/blastim/2956

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from ye


Telegram Бластим: курсы и работа в биотехе
FROM American