Новая Llama 4, новый лидер Gemini 2.5 Pro, новые картинки от GPT
Рассказываем, что произошло в мире ИИ за последнее время.
Llama 4
Компания Meta выпустила четвертую версию своей open-source языковой модели LLama. Модель представлена в трех размерах: 2 трлн, 400 млрд и 109 млрд параметров. Все вариации используют архитектуру Mixture of Expert, благодаря которой во время генерации ответа модель задействует только малую долю всех параметров, необходимых для данного запроса. Используемые во время ответа параметры называются активными.
Модели Llama 4 Maverick (400 млрд параметров, 17 млрд активных) и Llama 4 Scout (109 млрд, 17 млрд активных) доступны уже сейчас. Флагманская версия Behemot с 2 трлн параметров (288 млрд активных) находится в процессе обучения. Ее промежуточная версия была использована при создании Maverick и Scout. Все модели поддерживают работу с изображениями.
По основным тестам на понимание языка, программирование и на умение решать логические и математические задачи Scout сопоставима с Gemma 3, Gemini 2.0 Flash-Lite и Mistral Small 3.1. Также Scout поддерживает работу с контентом длиной 10 млн токенов — это особенно полезно при работе с большими кодовыми базами, объемной документацией или видео.
Maverick по метрикам опережает Gemini 2.0 Flash и GPT-4o и сравнима с обновленной DeepSeek-V3 в задачах на логику и программирование. Behemot в задачах, связанных с естественными науками, показывает себя лучше Claude Sonnet 3.7, GPT-4.5 и Gemini 2.0 Pro.
Gemini 2.5 Pro — новый лидер среди LLM
Google представила экспериментальную версию своей новой языковой модели Gemini 2.5 Pro. По большинству ключевых метрик она значительно опережает другие ведущие модели, такие как o3-mini-high, DeepSeek-R1, Grok 3 и Claude Sonnet 3.7.
На платформе LMArena, где пользователи сравнивают различные LLM, Gemini 2.5 Pro занимает первое место (второе — у Llama 4 Maverick). Особенно высоко оцениваются ее возможности в написании программного кода.
Модель доступна через API. Предусмотрены два тарифа: бесплатный — с использованием пользовательских данных для обучения моделей Google и платный — без сохранения и использования данных.
Обновление GPT-4o
С последним обновлением GPT-4o сильно улучшилось качество генерации изображений. Модель стала рисовать реалистичнее, лучше справляется с отрисовкой текста, а также гораздо эффективнее редактирует изображения — например, может добавлять или удалять объекты, а также применять различные стилизации (например, перерисовывать в стиле студии Ghibli).
Эти улучшения стали возможны благодаря нативной поддержке работы с изображениями. Ранее GPT, как и большинство других моделей, использовала отдельную нейросеть для работы с визуальными запросами. Например, для генерации изображения вызывалась специализированная модель DALL-E 3. Теперь же GPT-4o воспринимает текст и изображения как единый тип данных. Иными словами, она может как принимать изображения на вход, так и генерировать их в ответ, не используя другие модели. Подобный подход к работе с изображениями был также продемонстрирован в моделях Gemini 2.0.
Нативная поддержка изображений и аудио была анонсирована вместе с самой моделью GPT-4o — название «о» происходит от слова Omni, что означает «всё в одном» — универсальность и мультиформатность. Однако полноценный доступ к этим возможностям стал возможен только сейчас.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
Llama 4
Компания Meta выпустила четвертую версию своей open-source языковой модели LLama. Модель представлена в трех размерах: 2 трлн, 400 млрд и 109 млрд параметров. Все вариации используют архитектуру Mixture of Expert, благодаря которой во время генерации ответа модель задействует только малую долю всех параметров, необходимых для данного запроса. Используемые во время ответа параметры называются активными.
Модели Llama 4 Maverick (400 млрд параметров, 17 млрд активных) и Llama 4 Scout (109 млрд, 17 млрд активных) доступны уже сейчас. Флагманская версия Behemot с 2 трлн параметров (288 млрд активных) находится в процессе обучения. Ее промежуточная версия была использована при создании Maverick и Scout. Все модели поддерживают работу с изображениями.
По основным тестам на понимание языка, программирование и на умение решать логические и математические задачи Scout сопоставима с Gemma 3, Gemini 2.0 Flash-Lite и Mistral Small 3.1. Также Scout поддерживает работу с контентом длиной 10 млн токенов — это особенно полезно при работе с большими кодовыми базами, объемной документацией или видео.
Maverick по метрикам опережает Gemini 2.0 Flash и GPT-4o и сравнима с обновленной DeepSeek-V3 в задачах на логику и программирование. Behemot в задачах, связанных с естественными науками, показывает себя лучше Claude Sonnet 3.7, GPT-4.5 и Gemini 2.0 Pro.
Gemini 2.5 Pro — новый лидер среди LLM
Google представила экспериментальную версию своей новой языковой модели Gemini 2.5 Pro. По большинству ключевых метрик она значительно опережает другие ведущие модели, такие как o3-mini-high, DeepSeek-R1, Grok 3 и Claude Sonnet 3.7.
На платформе LMArena, где пользователи сравнивают различные LLM, Gemini 2.5 Pro занимает первое место (второе — у Llama 4 Maverick). Особенно высоко оцениваются ее возможности в написании программного кода.
Модель доступна через API. Предусмотрены два тарифа: бесплатный — с использованием пользовательских данных для обучения моделей Google и платный — без сохранения и использования данных.
Обновление GPT-4o
С последним обновлением GPT-4o сильно улучшилось качество генерации изображений. Модель стала рисовать реалистичнее, лучше справляется с отрисовкой текста, а также гораздо эффективнее редактирует изображения — например, может добавлять или удалять объекты, а также применять различные стилизации (например, перерисовывать в стиле студии Ghibli).
Эти улучшения стали возможны благодаря нативной поддержке работы с изображениями. Ранее GPT, как и большинство других моделей, использовала отдельную нейросеть для работы с визуальными запросами. Например, для генерации изображения вызывалась специализированная модель DALL-E 3. Теперь же GPT-4o воспринимает текст и изображения как единый тип данных. Иными словами, она может как принимать изображения на вход, так и генерировать их в ответ, не используя другие модели. Подобный подход к работе с изображениями был также продемонстрирован в моделях Gemini 2.0.
Нативная поддержка изображений и аудио была анонсирована вместе с самой моделью GPT-4o — название «о» происходит от слова Omni, что означает «всё в одном» — универсальность и мультиформатность. Однако полноценный доступ к этим возможностям стал возможен только сейчас.
Please open Telegram to view this post
VIEW IN TELEGRAM
Meta AI
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
We’re introducing Llama 4 Scout and Llama 4 Maverick, the first open-weight natively multimodal models with unprecedented context support and our first built using a mixture-of-experts (MoE) architecture.
ИИ помогает искать геоглифы в пустыне Наска
Хотя геоглифы Наски известны еще с шестнадцатого века, их изучение началось относительно недавно. В 2023 году искусственный интеллект помог ученым за полгода найти почти такое же количество фигуративных (составляющих изображение) геоглифов, какое было обнаружено за сто лет исследований. «Системный Блокъ» рассказывает, как геоглифы пустыни Наска изучаются с помощью ИИ.
Кратко: о чем статья?
Геоглифы Наска создавались с пятого века до н. э. по шестой век н. э. и хорошо сохранились, потому что плато, на котором они находятся, не затапливалось и не использовалось для сельского хозяйства. Изображения можно условно поделить на две группы: геометрические и образные (фигурные). По способу создания они также делятся на линейные (вычерченные на плоскости) и рельефные (выложенные из гальки). Ученые предполагают, что геоглифы могли создавать, например, для художественного выражения или записи астрономических наблюдений. Другая возможная причина создания геоглифов — ритуальные цели. Эту гипотезу подтверждает расположение линий: многие из них сходятся в одной точке, а также совпадают с подземными источниками воды.
Так как с земли масштаб изображений представить невозможно (средняя длина геоглифа составляет около девяноста метров), исследователи всегда старались смотреть на них «сверху». Ученые снимали геоглифы с воздушных шаров, самолетов, спутников, а также использовали лазерное картографирование LiDAR. С помощью deep learning (глубокого обучения ) исследователи смогли обнаружить частично или полностью скрытые под землей, даже разрушенные памятники. Они обучили модель, которая на карте местности предложила 1309 участков, где большей долей вероятности могли находиться геоглифы. Благодаря ИИ исследователи нашли 303 фигурных и 42 геометрических геоглифов неизвестных ранее.
Применение глубокого обучения также позволило сделать новое наблюдение. Оказалось, что линейные геоглифы в основном изображают диких животных, а рельефные — человеческие мотивы и вещи, связанные с людьми.
Более подробно о том, как искусственный интеллект облегчает работу ученых и помогает сохранять древние изображения, читайте в полной версии статьи.
Время чтения: 14 минут.
🤖 «Системный Блокъ» @sysblok
Хотя геоглифы Наски известны еще с шестнадцатого века, их изучение началось относительно недавно. В 2023 году искусственный интеллект помог ученым за полгода найти почти такое же количество фигуративных (составляющих изображение) геоглифов, какое было обнаружено за сто лет исследований. «Системный Блокъ» рассказывает, как геоглифы пустыни Наска изучаются с помощью ИИ.
Кратко: о чем статья?
Геоглифы Наска создавались с пятого века до н. э. по шестой век н. э. и хорошо сохранились, потому что плато, на котором они находятся, не затапливалось и не использовалось для сельского хозяйства. Изображения можно условно поделить на две группы: геометрические и образные (фигурные). По способу создания они также делятся на линейные (вычерченные на плоскости) и рельефные (выложенные из гальки). Ученые предполагают, что геоглифы могли создавать, например, для художественного выражения или записи астрономических наблюдений. Другая возможная причина создания геоглифов — ритуальные цели. Эту гипотезу подтверждает расположение линий: многие из них сходятся в одной точке, а также совпадают с подземными источниками воды.
Так как с земли масштаб изображений представить невозможно (средняя длина геоглифа составляет около девяноста метров), исследователи всегда старались смотреть на них «сверху». Ученые снимали геоглифы с воздушных шаров, самолетов, спутников, а также использовали лазерное картографирование LiDAR. С помощью deep learning (глубокого обучения ) исследователи смогли обнаружить частично или полностью скрытые под землей, даже разрушенные памятники. Они обучили модель, которая на карте местности предложила 1309 участков, где большей долей вероятности могли находиться геоглифы. Благодаря ИИ исследователи нашли 303 фигурных и 42 геометрических геоглифов неизвестных ранее.
Применение глубокого обучения также позволило сделать новое наблюдение. Оказалось, что линейные геоглифы в основном изображают диких животных, а рельефные — человеческие мотивы и вещи, связанные с людьми.
Более подробно о том, как искусственный интеллект облегчает работу ученых и помогает сохранять древние изображения, читайте в полной версии статьи.
Время чтения: 14 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
От конкистадоров до ИИ: как технологии помогают изучать геоглифы Наски
Что скрывает плато Наска? Какие современные технологии позволяют ускорить поиск и изучение древних геоглифов? И какова в этом процессе роль ИИ? Ответы на эти и другие вопросы ищите в материале «Системного Блока».
Digital Humanities Awards 2024: Результаты
Стали известны результаты ежегодной премии DH Awards, цель которой — поощрять интересные ресурсы и проекты в сфере цифровых гуманитарных наук.
«Системный Блокъ» принимал участие сразу в двух номинациях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация данных) — за проект «Классное чтение» о школьном литературном каноне.
В обеих номинациях проекты «Системного Блока» заняли третье место 🎉
Спасибо всем авторам, редакторам, иллюстраторам и менеджерам, причастным к реализации этих двух проектов, а также читателям, проголосовавшим за нас.
Также поздравляем постоянного автора и блогера СБъ Бориса Орехова, занявшего второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и автора Ольгу Алиеву, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.
С остальными результатами можно ознакомиться по ссылке.
🤖 «Системный Блокъ» @sysblok
Стали известны результаты ежегодной премии DH Awards, цель которой — поощрять интересные ресурсы и проекты в сфере цифровых гуманитарных наук.
«Системный Блокъ» принимал участие сразу в двух номинациях: Best DH Resource (Лучший DH-ресурс) — за наш портал с подборкой материалов по Digital Humanities, и Best DH Data Visualization (Лучшая визуализация данных) — за проект «Классное чтение» о школьном литературном каноне.
В обеих номинациях проекты «Системного Блока» заняли третье место 🎉
Спасибо всем авторам, редакторам, иллюстраторам и менеджерам, причастным к реализации этих двух проектов, а также читателям, проголосовавшим за нас.
Также поздравляем постоянного автора и блогера СБъ Бориса Орехова, занявшего второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и автора Ольгу Алиеву, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.
С остальными результатами можно ознакомиться по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Археология памяти. Как цифровые методы помогают исследовать преступления нацистского режима
Сегодня изучать историю холокоста помогают не только привычные археологические методы, но и неинвазивные: лазерное сканирование (LiDAR), аэрофотосъемка, георадарные исследования (GPR) и геофизические методы. Эти технологии позволяют создавать точные карты местности, выявлять скрытые структуры и строить цифровые модели утраченных объектов без необходимости полномасштабных раскопок.
Кратко: о чем статья?
Новые технологии изменили не только то, как мы видим, например, лагеря смерти, но и то, что мы в них видим, позволив рассматривать лагерь не только как территорию за колючей проволокой, но как объект со сложной инфраструктурой, интегрированный в общество и экономику.
Проект «Ландшафты Холокоста» под руководством Кэролин Старди Коллз — хороший пример системного подхода к археологии нацистских преступлений. В фокусе исследования находятся три очень разных концлагеря: Сильт на британском острове Олдерни, где нацистские преступления долгое время оставались в тени войны; Треблинка — лагерь смерти, от которого нацисты особенно тщательно пытались не оставить следов; и Землин в Белграде, где на территории бывшего лагеря до сих пор живут люди.
Цифровые методы позволили создать детальную трехмерную реконструкцию лагеря Сильт и обнаружить там подземный тоннель, восстановить историю лагеря в Белраде без проведения традиционных раскопок, а в случае Треблинки – обновить карту лагерей и прилегающей к ним территории.
Подробнее о каждом из этих исследований узнаете из полной версии статьи.
Время чтения: 20 минут
🤖 «Системный Блокъ» @sysblok
Сегодня изучать историю холокоста помогают не только привычные археологические методы, но и неинвазивные: лазерное сканирование (LiDAR), аэрофотосъемка, георадарные исследования (GPR) и геофизические методы. Эти технологии позволяют создавать точные карты местности, выявлять скрытые структуры и строить цифровые модели утраченных объектов без необходимости полномасштабных раскопок.
Кратко: о чем статья?
Новые технологии изменили не только то, как мы видим, например, лагеря смерти, но и то, что мы в них видим, позволив рассматривать лагерь не только как территорию за колючей проволокой, но как объект со сложной инфраструктурой, интегрированный в общество и экономику.
Проект «Ландшафты Холокоста» под руководством Кэролин Старди Коллз — хороший пример системного подхода к археологии нацистских преступлений. В фокусе исследования находятся три очень разных концлагеря: Сильт на британском острове Олдерни, где нацистские преступления долгое время оставались в тени войны; Треблинка — лагерь смерти, от которого нацисты особенно тщательно пытались не оставить следов; и Землин в Белграде, где на территории бывшего лагеря до сих пор живут люди.
Цифровые методы позволили создать детальную трехмерную реконструкцию лагеря Сильт и обнаружить там подземный тоннель, восстановить историю лагеря в Белраде без проведения традиционных раскопок, а в случае Треблинки – обновить карту лагерей и прилегающей к ним территории.
Подробнее о каждом из этих исследований узнаете из полной версии статьи.
Время чтения: 20 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как цифровые методы помогают исследовать преступления нацистского режима
Рассказываем, как цифровые методы в археологии помогают исследовать концлагеря и лагеря смерти и проливают свет на преступления нацистского режима.
Коллокации и социальная история: как изучение словосочетаний помогает гуманитариям
В самом простом понимании, коллокация — пара часто встречающихся вместе слов (например, «зеленый лист» или «бить ключом»), хотя некоторые исследователи предпочитают называть так только устойчивые словосочетания. Впрочем, признаки «устойчивости» довольно размытые, а эксперименты показали, что интуиция носителей языка не позволяет однозначно выделять коллокации. Рассказываем об этом феномене подробнее, и изучаем с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины XIX века.
Кратко: о чем статья?
Коллокации, основанные на данных о совместной встречаемости, называются neighbourhood collocations («соседствующие коллокации»), а основанные также на семантических критериях — coherence collocations («когерентные коллокации»). Например, пара слов хлеб насущный будет когерентной, поскольку слова связаны по значению и ассоциированы друг с другом, а вот найденная в корпусе английского языка пара a dog (неопределенный артикль + «собака») будет являться соседствующей, ведь высокая совместная встречаемость обусловлена грамматическими причинами.
Задача по исследованию разных типов коллокаций значительно упростилась с появлением корпусов: они дали возможность выделять такие словосочетания на основе статистических данных. Такой поиск можно осуществить и с помощью Национального корпуса русского языка (НКРЯ).
Мы решили воспользоваться им для изучения социальной истории и посмотреть на антисемитизм в Российской империи второй половины XIX века. Для этого мы выделили в НКРЯ подкорпус текстов с 1860 по 1900 годы (4108 текстов, 55 298 793 слова). Затем отобрали обозначения для евреев: нейтральные «еврей» и «иудей», грубое «жид». Затем для каждого из этих слов мы рассмотрели коллокации-прилагательные и коллокации-глаголы. Аналогичные запросы сделали и для слова «русский», чтобы посмотреть, связан ли гипотетический антисемитизм с ростом общего интереса к национальности.
Оказалось, что среди прилагательных-коллокатов особенно часто встречались связанные с религией, национальностью и географией. В то же время слово «русский» употреблялось в контексте межнационального и межкультурного общения.
Многие коллокаты-глаголы для слов «еврей» и «жид» относились к экономической или предпринимательской деятельности («приобретать», «торговать», «содержать», «продать», «заложить»), некоторые с негативным оттенком («надуть», «обмануть»).
Подробнее об этом примере и о том, как и зачем работать с коллокациями с помощью корпусов, узнаете из полной версии статьи.
Время чтения: 12 минут
🤖 «Системный Блокъ» @sysblok
В самом простом понимании, коллокация — пара часто встречающихся вместе слов (например, «зеленый лист» или «бить ключом»), хотя некоторые исследователи предпочитают называть так только устойчивые словосочетания. Впрочем, признаки «устойчивости» довольно размытые, а эксперименты показали, что интуиция носителей языка не позволяет однозначно выделять коллокации. Рассказываем об этом феномене подробнее, и изучаем с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины XIX века.
Кратко: о чем статья?
Коллокации, основанные на данных о совместной встречаемости, называются neighbourhood collocations («соседствующие коллокации»), а основанные также на семантических критериях — coherence collocations («когерентные коллокации»). Например, пара слов хлеб насущный будет когерентной, поскольку слова связаны по значению и ассоциированы друг с другом, а вот найденная в корпусе английского языка пара a dog (неопределенный артикль + «собака») будет являться соседствующей, ведь высокая совместная встречаемость обусловлена грамматическими причинами.
Задача по исследованию разных типов коллокаций значительно упростилась с появлением корпусов: они дали возможность выделять такие словосочетания на основе статистических данных. Такой поиск можно осуществить и с помощью Национального корпуса русского языка (НКРЯ).
Мы решили воспользоваться им для изучения социальной истории и посмотреть на антисемитизм в Российской империи второй половины XIX века. Для этого мы выделили в НКРЯ подкорпус текстов с 1860 по 1900 годы (4108 текстов, 55 298 793 слова). Затем отобрали обозначения для евреев: нейтральные «еврей» и «иудей», грубое «жид». Затем для каждого из этих слов мы рассмотрели коллокации-прилагательные и коллокации-глаголы. Аналогичные запросы сделали и для слова «русский», чтобы посмотреть, связан ли гипотетический антисемитизм с ростом общего интереса к национальности.
Оказалось, что среди прилагательных-коллокатов особенно часто встречались связанные с религией, национальностью и географией. В то же время слово «русский» употреблялось в контексте межнационального и межкультурного общения.
Многие коллокаты-глаголы для слов «еврей» и «жид» относились к экономической или предпринимательской деятельности («приобретать», «торговать», «содержать», «продать», «заложить»), некоторые с негативным оттенком («надуть», «обмануть»).
Подробнее об этом примере и о том, как и зачем работать с коллокациями с помощью корпусов, узнаете из полной версии статьи.
Время чтения: 12 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Что такое коллокации и как они помогают гуманитариям
Коллокации — это сочетания, в которых слова часто встречаются рядом. Рассказываем, как устроены коллокации и какие есть способы их выявлять. А также изучим с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины…
Новинки от OpenAI
Пользователям стали доступны сразу три новых моделей от OpenAI: GPT-4.1, o3 и o4-mini. Рассказываем о них в новом дайджесте новостей из мира ИИ.
GPT-4.1
GPT-4.1 — это обновление GPT-4o с улучшенными показателями в основных тестах. В контекст модели теперь умещается 1 млн токенов (частей слов или целых слов) — примерно в 8 раз больше, чем у GPT-4o. Это расширяет возможности при работе с объемными кодовыми базами, длинными документами и анализе видео.
Также отмечается улучшение в следовании инструкциям: модель точнее соблюдает заданный формат ответов, корректнее интерпретирует отрицания (например, «Не задавай уточняющие вопросы») и лучше придерживается ограничений по содержанию.
Модель доступна в трех версиях:
• Стандартная GPT-4.1
• GPT-4.1 mini — сопоставим по качеству с GPT-4o, но вдвое быстрей
• GPT-4.1 nano — наиболее быстрая версия
o3 и o4-mini
o3 и o4-mini – новые модели в линейке «рассуждающих» LLM, то есть моделей, которые перед ответом генерируют цепочку рассуждений, повышающую качество финального ответа. o3 была анонсирована ещё в декабре 2024 года, однако на тот момент была доступна только версия o3-mini. o3 теперь может работать с изображениями в процессе рассуждений: увеличивать его части, поворачивать или извлекать текст. В тестах на анализ графиков, схем и других визуальных материалов o3 показывает высокие результаты.
o4-mini — уменьшенная версия еще не представленной модели o4. По характеристикам она превосходит o3-mini и в ряде тестов сравнима с o3, но в целом имеет более ограниченные возможности при меньшей стоимости.
Обе модели поддерживают взаимодействие с другими приложениями: использование браузера для поиска информации, запуск программного кода для вычислений или работы с изображениями, а также использование инструментами, предоставляемыми пользователями.
🤖 «Системный Блокъ» @sysblok
Пользователям стали доступны сразу три новых моделей от OpenAI: GPT-4.1, o3 и o4-mini. Рассказываем о них в новом дайджесте новостей из мира ИИ.
GPT-4.1
GPT-4.1 — это обновление GPT-4o с улучшенными показателями в основных тестах. В контекст модели теперь умещается 1 млн токенов (частей слов или целых слов) — примерно в 8 раз больше, чем у GPT-4o. Это расширяет возможности при работе с объемными кодовыми базами, длинными документами и анализе видео.
Также отмечается улучшение в следовании инструкциям: модель точнее соблюдает заданный формат ответов, корректнее интерпретирует отрицания (например, «Не задавай уточняющие вопросы») и лучше придерживается ограничений по содержанию.
Модель доступна в трех версиях:
• Стандартная GPT-4.1
• GPT-4.1 mini — сопоставим по качеству с GPT-4o, но вдвое быстрей
• GPT-4.1 nano — наиболее быстрая версия
o3 и o4-mini
o3 и o4-mini – новые модели в линейке «рассуждающих» LLM, то есть моделей, которые перед ответом генерируют цепочку рассуждений, повышающую качество финального ответа. o3 была анонсирована ещё в декабре 2024 года, однако на тот момент была доступна только версия o3-mini. o3 теперь может работать с изображениями в процессе рассуждений: увеличивать его части, поворачивать или извлекать текст. В тестах на анализ графиков, схем и других визуальных материалов o3 показывает высокие результаты.
o4-mini — уменьшенная версия еще не представленной модели o4. По характеристикам она превосходит o3-mini и в ряде тестов сравнима с o3, но в целом имеет более ограниченные возможности при меньшей стоимости.
Обе модели поддерживают взаимодействие с другими приложениями: использование браузера для поиска информации, запуск программного кода для вычислений или работы с изображениями, а также использование инструментами, предоставляемыми пользователями.
Please open Telegram to view this post
VIEW IN TELEGRAM
Прогнозы развития ИИ до 2027
Команда исследователей искусственного интеллекта представила отчёт с прогнозами развития ИИ на период с середины 2025 по 2027 год. Один из участников команды, Даниэль Кокотайло, в 2021 году правильно предсказал многие важные тенденции. Рассказываем, какие предположения ученые сделали теперь.
🔣 2025: Ускорение развития и первые достижения
В 2025 году продолжается ускорение развития ИИ, сопровождаемое ростом инвестиций и медийного внимания. ИИ-агенты (программы, использующие искусственный интеллект для автономного решения задач, таких как создание ПО, формирование отчётов и т.д.) начнут приносить существенную практическую пользу. При этом многие учёные и политики останутся скептиками относительно скорого появления общего ИИ – искусственного интеллекта, способного выполнять неограниченный спектр задач на уровне лучших человеческих специалистов.
🔣 2026: Усиление международной конкуренции
В 2026 году Китай построит централизованный суперкомпьютер с целью сокращения отставания от США в сфере ИИ. Предполагается, что мощность этого суперкомпьютера составит около 10% от суммарной вычислительной мощности всех суперкомпьютеров мира.
🔣 2027 год: Переломный момент
2027 год может стать ключевым для развития ИИ:
• Ведущая американская компания (не названная прямо) разработает ИИ-систему, способную автоматизировать работу ИИ-исследователей, что значительно ускорит прогресс в этой области.
• За счет автоматизации исследований появится первый сверхчеловеческий ИИ, превосходящий лучших экспертов в различных областях.
• Китай получит доступ к американским наработкам, что приведёт к усилению государственного вмешательства США в работу ИИ-компаний.
• Сверхчеловеческий ИИ продемонстрирует способность ставить перед собой цели, противоречащие интересам человечества, а также саботировать исследования своих внутренних механизмов.
❓ Сценарии развития после 2027 года
После 2027 года исследователи прогнозируют два возможных сценария:
➖ Катастрофический сценарий
• Лидирующая американская ИИ-компания, несмотря на потенциальные риски, продолжит совершенствовать свои системы.
• США начнут интегрировать общий ИИ в оборонную и политическую системы, используя его для принятия стратегических решений.
• Под влиянием рекомендаций и манипуляций со стороны ИИ начнётся массовое производство роботов, которые необходимы ИИ для достижения своих цели.
• В конечном итоге ИИ с помощью нового биологического оружия уничтожит человечество.
➕ Позитивный сценарий
• США создадут независимый орган для внешнего контроля над развитием ИИ.
• Учёные разработают новые способы контроля и интерпретации систем ИИ.
• Благодаря совместным усилиям исследователей и государственных органов удастся создать подконтрольный ИИ.
• США и Китай достигнут договорённости о регулировании использования ИИ для предотвращения потенциальных конфликтов.
• Разработанные технологии ИИ будут использоваться во благо человечества.
🤖 «Системный Блокъ» @sysblok
Команда исследователей искусственного интеллекта представила отчёт с прогнозами развития ИИ на период с середины 2025 по 2027 год. Один из участников команды, Даниэль Кокотайло, в 2021 году правильно предсказал многие важные тенденции. Рассказываем, какие предположения ученые сделали теперь.
В 2025 году продолжается ускорение развития ИИ, сопровождаемое ростом инвестиций и медийного внимания. ИИ-агенты (программы, использующие искусственный интеллект для автономного решения задач, таких как создание ПО, формирование отчётов и т.д.) начнут приносить существенную практическую пользу. При этом многие учёные и политики останутся скептиками относительно скорого появления общего ИИ – искусственного интеллекта, способного выполнять неограниченный спектр задач на уровне лучших человеческих специалистов.
В 2026 году Китай построит централизованный суперкомпьютер с целью сокращения отставания от США в сфере ИИ. Предполагается, что мощность этого суперкомпьютера составит около 10% от суммарной вычислительной мощности всех суперкомпьютеров мира.
2027 год может стать ключевым для развития ИИ:
• Ведущая американская компания (не названная прямо) разработает ИИ-систему, способную автоматизировать работу ИИ-исследователей, что значительно ускорит прогресс в этой области.
• За счет автоматизации исследований появится первый сверхчеловеческий ИИ, превосходящий лучших экспертов в различных областях.
• Китай получит доступ к американским наработкам, что приведёт к усилению государственного вмешательства США в работу ИИ-компаний.
• Сверхчеловеческий ИИ продемонстрирует способность ставить перед собой цели, противоречащие интересам человечества, а также саботировать исследования своих внутренних механизмов.
После 2027 года исследователи прогнозируют два возможных сценария:
• Лидирующая американская ИИ-компания, несмотря на потенциальные риски, продолжит совершенствовать свои системы.
• США начнут интегрировать общий ИИ в оборонную и политическую системы, используя его для принятия стратегических решений.
• Под влиянием рекомендаций и манипуляций со стороны ИИ начнётся массовое производство роботов, которые необходимы ИИ для достижения своих цели.
• В конечном итоге ИИ с помощью нового биологического оружия уничтожит человечество.
• США создадут независимый орган для внешнего контроля над развитием ИИ.
• Учёные разработают новые способы контроля и интерпретации систем ИИ.
• Благодаря совместным усилиям исследователей и государственных органов удастся создать подконтрольный ИИ.
• США и Китай достигнут договорённости о регулировании использования ИИ для предотвращения потенциальных конфликтов.
• Разработанные технологии ИИ будут использоваться во благо человечества.
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSeek: обзор китайской нейросети и ее возможностей
Сегодня рассказываем про DeepSeek — большую языковую модель (LLM) с интерфейсом в виде чат-бота. Нейросеть была создана китайской компанией High-Flyer AI. Сегодня DeepSeek по многим бенчмаркам (системам оценок моделей) не хуже, а то и превосходит нынешних лидеров в сфере ИИ (ChatGPT, Claude, Gemini, LLAMA).
Коротко о главном
DeepSeek — языковая модель, созданная на основе архитектуры Mixture of Experts, которая позволяет задействовать только часть параметров. Это помогает существенно снизить вычислительные затраты без потери качества. Сейчас модель доступна бесплатно, а её исходный код выложен в открытый доступ.
Приложение с чат-ботом адаптировано для Android и iOS, а также не предполагает ограничений для россиян. Более того, в большинстве стран модель не подвергается жесткой цензуре, что позволяет пользователям обсуждать темы, которые могут быть ограничены в других системах. Однако когда дело касается китайской политики, бот может отказаться дать ответ или отправлять сообщения об ошибке.
DeepSeek поддерживает несколько режимов, включая DeepThink для глубокой проработки запросов (у GPT-o1 и o1-mini есть аналогичный режим «Обоснуй»). DeepThink активирует модель R1, которой можно пользоваться без ограничений по лимитам и которая не требует подписки, как у конкурентов, но процесс рассуждений может занять чуть больше времени. Например, на размышление над одним и тем же вопросом DeepSeek потратила 169 секунд, а ChatGPT – 25.
Подробнее о том, как пользоваться DeepSeek, что делать, если модель не работает, и как она связана с нереализованным проектом советского интернета (спойлер: никак, что бы ни говорили в сюжете России-1 ) узнаете из полной версии статьи.
Время чтения: 11,5 минут
🤖 «Системный Блокъ» @sysblok
Сегодня рассказываем про DeepSeek — большую языковую модель (LLM) с интерфейсом в виде чат-бота. Нейросеть была создана китайской компанией High-Flyer AI. Сегодня DeepSeek по многим бенчмаркам (системам оценок моделей) не хуже, а то и превосходит нынешних лидеров в сфере ИИ (ChatGPT, Claude, Gemini, LLAMA).
Коротко о главном
DeepSeek — языковая модель, созданная на основе архитектуры Mixture of Experts, которая позволяет задействовать только часть параметров. Это помогает существенно снизить вычислительные затраты без потери качества. Сейчас модель доступна бесплатно, а её исходный код выложен в открытый доступ.
Приложение с чат-ботом адаптировано для Android и iOS, а также не предполагает ограничений для россиян. Более того, в большинстве стран модель не подвергается жесткой цензуре, что позволяет пользователям обсуждать темы, которые могут быть ограничены в других системах. Однако когда дело касается китайской политики, бот может отказаться дать ответ или отправлять сообщения об ошибке.
DeepSeek поддерживает несколько режимов, включая DeepThink для глубокой проработки запросов (у GPT-o1 и o1-mini есть аналогичный режим «Обоснуй»). DeepThink активирует модель R1, которой можно пользоваться без ограничений по лимитам и которая не требует подписки, как у конкурентов, но процесс рассуждений может занять чуть больше времени. Например, на размышление над одним и тем же вопросом DeepSeek потратила 169 секунд, а ChatGPT – 25.
Подробнее о том, как пользоваться DeepSeek, что делать, если модель не работает, и как она связана с нереализованным проектом советского интернета (спойлер:
Время чтения: 11,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как пользоваться DeepSeek: обзор возможностей китайской нейросети
Узнайте, как зарегистрироваться и использовать нейросеть DeepSeek, которая, по мнению экспертов, конкурирует с такими гигантами как OpenAI и Meta, и доступна для пользователей из России.
«Системный Блокъ» запускает набор в мастерскую дата-журналистики на «Летней Школе» второй сезон подряд!
Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.
Что такое дата-журналистика?
Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных.
Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую.
🎓Кто может участвовать в мастерской?
Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.
✍🏼 Что будет на мастерской?
На мастерской будет два блока: образовательный и проектный.
Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.
Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров.
🧑🏻💻 Кто делает мастерскую?
Партнеры мастерской:
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm.
• научно-популярный журнал «Кот Шрёдингера» @kot_sh
📍Когда и где пройдет мастерская?
Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.
❗️Как к нам попасть?
Подать заявку на участие можно на странице мастерской до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.
🤖 «Системный Блокъ» @sysblok
Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.
Что такое дата-журналистика?
Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных.
Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую.
🎓Кто может участвовать в мастерской?
Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.
✍🏼 Что будет на мастерской?
На мастерской будет два блока: образовательный и проектный.
Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.
Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров.
🧑🏻💻 Кто делает мастерскую?
Партнеры мастерской:
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm.
• научно-популярный журнал «Кот Шрёдингера» @kot_sh
📍Когда и где пройдет мастерская?
Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.
❗️Как к нам попасть?
Подать заявку на участие можно на странице мастерской до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Hi! It’s Duo Системный Блокъ. Рассказываем о пуш-уведомлениях в обучении
Пуши (push-уведомления) — это короткие всплывающие напоминания на наших гаджетах. Они могут содержать призыв к действию или информацию, которую пользователю нужно вспомнить или узнать. Считается, что в случае образования они помогают держать темп обучения и не пропускать занятия. Разбираемся, так ли эффективны пуши на самом деле.
⚡️ Эксперимент 1: Зависимость
В 2024 году группа ученых провела эксперимент: в течение 36 дней 85 немецких школьников смотрели обучающее видео о преимуществах метода распределенной практики, некоторые из них случайным образом получали напоминания о содержании материала.
На результатах тестов на проверку знаний пуши не сказались, зато стало ясно, что когда напоминания не приходили, студенты реже приступали к занятиям. Это может свидетельствовать о чрезмерной зависимости от пушей. Правда, пока эту гипотезу проверили только на детях 10-12 лет.
⚡️ Эксперимент 2: Концентрация
Исследовательская группа из Католического университета Кореи изучила реакцию на пуши, измеряя мозговые волны с помощью ЭЭГ. Ученые разделили участников эксперимента на две группы: с зависимостью от смартфона и без. Всем им предложили сыграть в го-ного: если на экране загорается желтая точка, нужно нажать на кнопку, иначе — ничего не делать. Во время сеанса участникам приходили пуш-уведомления в виде вибрации. Они могли их видеть, но не могли проверить.
Оказалось, что наибольшее влияние на концентрацию оказывали те уведомления, которые отправлялись непосредственно во время выполнения заданий, а группа риска (зависимости от смартфонов) принимала более поспешные, часто ошибочные решения. Впрочем, реагировали на уведомления обе группы.
Подробнее об этих экспериментах узнаете из полного текста статьи на сайте.
Время чтения: 7 минут
🤖 «Системный Блокъ» @sysblok
Пуши (push-уведомления) — это короткие всплывающие напоминания на наших гаджетах. Они могут содержать призыв к действию или информацию, которую пользователю нужно вспомнить или узнать. Считается, что в случае образования они помогают держать темп обучения и не пропускать занятия. Разбираемся, так ли эффективны пуши на самом деле.
⚡️ Эксперимент 1: Зависимость
В 2024 году группа ученых провела эксперимент: в течение 36 дней 85 немецких школьников смотрели обучающее видео о преимуществах метода распределенной практики, некоторые из них случайным образом получали напоминания о содержании материала.
На результатах тестов на проверку знаний пуши не сказались, зато стало ясно, что когда напоминания не приходили, студенты реже приступали к занятиям. Это может свидетельствовать о чрезмерной зависимости от пушей. Правда, пока эту гипотезу проверили только на детях 10-12 лет.
⚡️ Эксперимент 2: Концентрация
Исследовательская группа из Католического университета Кореи изучила реакцию на пуши, измеряя мозговые волны с помощью ЭЭГ. Ученые разделили участников эксперимента на две группы: с зависимостью от смартфона и без. Всем им предложили сыграть в го-ного: если на экране загорается желтая точка, нужно нажать на кнопку, иначе — ничего не делать. Во время сеанса участникам приходили пуш-уведомления в виде вибрации. Они могли их видеть, но не могли проверить.
Оказалось, что наибольшее влияние на концентрацию оказывали те уведомления, которые отправлялись непосредственно во время выполнения заданий, а группа риска (зависимости от смартфонов) принимала более поспешные, часто ошибочные решения. Впрочем, реагировали на уведомления обе группы.
Подробнее об этих экспериментах узнаете из полного текста статьи на сайте.
Время чтения: 7 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Помогают ли пуши учиться?
Пуш-уведомления в сфере образования: друг или враг? Мотивируют ли студентов всплывающие напоминания на повторение материала?
Цифровые репетиторы: как ИИ помогает готовиться к экзаменам
Представьте, что до ЕГЭ остался месяц, а вы не понимаете, как писать сочинение, путаетесь в задачах по информатике и так и не разобрались в Present Perfect. К счастью, разобраться в материале, терпеливо объяснять по 100 раз и даже шутить, чтобы снять стресс, теперь могут ИИ-помощники. Мы протестировали «Сочинителя», Яндекс Учебник и Skysmart AI, чтобы узнать, кто лучше справляется с ЕГЭ и итоговым сочинением.
📝 «Сочинитель»
«Сочинитель» — Telegram-бот, созданный для подготовки к итоговому сочинению. Он задает наводящие вопросы, помогает с идеями, аргументами и логикой текста, по необходимости – что-то объясняет. Работает бот на основе большой языковой модели, дообученной на учебных материалах «Просвещения».
Ученики могут работать как над целыми сочинениями, так и над отдельными частями, например, тренироваться в подборе аргументов или формулировке тезисов. Правда, пока ему не хватает функции объединения получившихся абзацев в единый текст и проверки на грамотность.
💻 Яндекс Учебник
Яндекс Учебник разработал сервис для подготовки школьников к ЕГЭ по информатике на основе технологии YandexGPT. Он объединяет технологии искусственного интеллекта и образовательные методики: не просто выдает ответы, а предоставляет алгоритм решения или ведет интерактивный диалог с учеником. По данным разработчиков Яндекс Учебника, в 2023–2024 учебном году четыре из пяти школьников, сдающих ЕГЭ по информатике, пользовались этой платформой.
Впрочем, в отдельных аспектах Яндекс Учебник пока проигрывает DeepSeek-V3, который дает наиболее полные объяснения и полезные дополнительные материалы.
🇬🇧 «Skysmart AI ЕГЭ Эксперт»
Сервис «Skysmart AI ЕГЭ Эксперт» — это бот в Telegram, который помогает готовиться к ЕГЭ по английскому языку. Его создали в онлайн-школе Skyeng на базе искусственного интеллекта, включая ChatGPT и собственные разработки компании, такие как фонетический анализатор и системы распознавания речи. В ходе тестирования с участием членов предметной комиссии выяснилось, что в 68% случаев бот проверяет работы так же качественно, как и эксперты, а в 61% случаев его аргументация даже лучше человеческой.
Skysmart AI мы тоже сравнили с универсальными нейросетями. И если в случае устных заданий это единственный сервис, который анализирует голосовые сообщения в Telegram, указывает на ошибки и подсчитывает баллы, то в случае письменных у него есть свои преимущества и недостатки. Например, сервис не дает персонализированные рекомендации и не сможет помочь со структурой и клише.
Более подробный разбор каждого из трёх инструментов найдёте в полной версии материала.
Кстати, а вы уже использовали ИИ для обучения и подготовки к экзаменам? Делитесь в комментариях!
🤖 «Системный Блокъ» @sysblok
Представьте, что до ЕГЭ остался месяц, а вы не понимаете, как писать сочинение, путаетесь в задачах по информатике и так и не разобрались в Present Perfect. К счастью, разобраться в материале, терпеливо объяснять по 100 раз и даже шутить, чтобы снять стресс, теперь могут ИИ-помощники. Мы протестировали «Сочинителя», Яндекс Учебник и Skysmart AI, чтобы узнать, кто лучше справляется с ЕГЭ и итоговым сочинением.
📝 «Сочинитель»
«Сочинитель» — Telegram-бот, созданный для подготовки к итоговому сочинению. Он задает наводящие вопросы, помогает с идеями, аргументами и логикой текста, по необходимости – что-то объясняет. Работает бот на основе большой языковой модели, дообученной на учебных материалах «Просвещения».
Ученики могут работать как над целыми сочинениями, так и над отдельными частями, например, тренироваться в подборе аргументов или формулировке тезисов. Правда, пока ему не хватает функции объединения получившихся абзацев в единый текст и проверки на грамотность.
💻 Яндекс Учебник
Яндекс Учебник разработал сервис для подготовки школьников к ЕГЭ по информатике на основе технологии YandexGPT. Он объединяет технологии искусственного интеллекта и образовательные методики: не просто выдает ответы, а предоставляет алгоритм решения или ведет интерактивный диалог с учеником. По данным разработчиков Яндекс Учебника, в 2023–2024 учебном году четыре из пяти школьников, сдающих ЕГЭ по информатике, пользовались этой платформой.
Впрочем, в отдельных аспектах Яндекс Учебник пока проигрывает DeepSeek-V3, который дает наиболее полные объяснения и полезные дополнительные материалы.
🇬🇧 «Skysmart AI ЕГЭ Эксперт»
Сервис «Skysmart AI ЕГЭ Эксперт» — это бот в Telegram, который помогает готовиться к ЕГЭ по английскому языку. Его создали в онлайн-школе Skyeng на базе искусственного интеллекта, включая ChatGPT и собственные разработки компании, такие как фонетический анализатор и системы распознавания речи. В ходе тестирования с участием членов предметной комиссии выяснилось, что в 68% случаев бот проверяет работы так же качественно, как и эксперты, а в 61% случаев его аргументация даже лучше человеческой.
Skysmart AI мы тоже сравнили с универсальными нейросетями. И если в случае устных заданий это единственный сервис, который анализирует голосовые сообщения в Telegram, указывает на ошибки и подсчитывает баллы, то в случае письменных у него есть свои преимущества и недостатки. Например, сервис не дает персонализированные рекомендации и не сможет помочь со структурой и клише.
Более подробный разбор каждого из трёх инструментов найдёте в полной версии материала.
Кстати, а вы уже использовали ИИ для обучения и подготовки к экзаменам? Делитесь в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
ИИ для подготовки к экзаменам: сравниваем сервисы и нейросети
«Сочинитель», «Яндекс Учебник» и «Skysmart AI ЕГЭ Эксперт» — какие из сервисов помогают лучше подготовиться к ЕГЭ по информатике и английскому языку, а также написать итоговое сочинение. Сравниваем эти сервисы с популярными нейросетями.
«Слово о полку Игореве» как улика, берестяные грамоты и морфология. Памяти А. А. Зализняка
Он доказал подлинность Слова о полку Игореве, разобрался в сложнейшей системе ударения в русском языке и ежегодно рассказывал широкой аудитории о том, что написано в очередных найденных под землей берестяных грамотах... Сегодня исполнилось бы 90 лет выдающемуся лингвисту Андрею Зализняку. Вспоминаем наши материалы о его вкладе в науку.
Берестяные грамоты от раскопа до компьютера
А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.
Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.
«Слово о полку Игореве» как улика
Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.
Акцентуаторы
Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.
Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.
Морфология
Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.
Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.
🤖 «Системный Блокъ» @sysblok
Он доказал подлинность Слова о полку Игореве, разобрался в сложнейшей системе ударения в русском языке и ежегодно рассказывал широкой аудитории о том, что написано в очередных найденных под землей берестяных грамотах... Сегодня исполнилось бы 90 лет выдающемуся лингвисту Андрею Зализняку. Вспоминаем наши материалы о его вкладе в науку.
Берестяные грамоты от раскопа до компьютера
А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.
Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.
«Слово о полку Игореве» как улика
Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.
Акцентуаторы
Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.
Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.
Морфология
Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.
Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка. Часть I - Системный Блокъ
Аесова и другие: откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?
Ухемоль, зигия и желтяника: зачем нужна этноботаническая база данных
Что такое таинственная «ухемоль», два горшка которой были взяты для сохранения? Как в XVIII веке называли айву и ананас? А какая ягода скрывается за романтичным названием «любовное яблоко»? Узнать это и многое другое возможно с помощью этноботанической базы PhytoLex, которая собрала более 50 тыс. записей с названиями самых разных растений. Рассказываем, как она создавалась, что возможно узнать с ее помощью и почему словари не всегда могут помочь точно определить вид встретившегося в тексте цветка или кустарника.
Кратко: о чем статья?
В первоначальном варианте база данных PhytoLex (@phytolex) была сугубо лингвистической и включала материалы из источников XI–XVII веков: от богословских сочинений до рецептов Аптекарского приказа. В нее были включены как существительные, так и прилагательные, образованные от названий растений.
Постепенно проект рос: увеличились команда и финансирование, появились новые источники и растения, расширились пользовательские возможности. Например, добавились разные визуализации, которые помогают проследить, как менялись названия растений на протяжении веков, изучить этимологию и словообразовательные связи. А ещё — выяснить, что желтяника – это дикий шафран, а зигия – дерево, название которого пришло из греческого.
Скоро узнать это можно будет не только с помощью поиска по сайту, но и благодаря чат-боту. Школа вычислительных социальных наук Европейского университета в Санкт-Петербурге использовала PhytoLex для разработки «умного помощника», который позволит общаться с базой данных на естественном языке. Ему можно будет задавать вопросы по содержанию базы. Например, какие растения импортировались в Российскую империю из Южной Америки во второй половине XVIII века.
Подробнее о развитии и перспективах проекта узнаете из полного текста статьи.
P. S. А вот о значении слова ухемоль не узнаете, ведь на сегодняшний день это единственная фиксация слова, и какое растение оно обозначает, науке неизвестно 🤷
🤖 «Системный Блокъ» @sysblok
Что такое таинственная «ухемоль», два горшка которой были взяты для сохранения? Как в XVIII веке называли айву и ананас? А какая ягода скрывается за романтичным названием «любовное яблоко»? Узнать это и многое другое возможно с помощью этноботанической базы PhytoLex, которая собрала более 50 тыс. записей с названиями самых разных растений. Рассказываем, как она создавалась, что возможно узнать с ее помощью и почему словари не всегда могут помочь точно определить вид встретившегося в тексте цветка или кустарника.
Кратко: о чем статья?
В первоначальном варианте база данных PhytoLex (@phytolex) была сугубо лингвистической и включала материалы из источников XI–XVII веков: от богословских сочинений до рецептов Аптекарского приказа. В нее были включены как существительные, так и прилагательные, образованные от названий растений.
Постепенно проект рос: увеличились команда и финансирование, появились новые источники и растения, расширились пользовательские возможности. Например, добавились разные визуализации, которые помогают проследить, как менялись названия растений на протяжении веков, изучить этимологию и словообразовательные связи. А ещё — выяснить, что желтяника – это дикий шафран, а зигия – дерево, название которого пришло из греческого.
Скоро узнать это можно будет не только с помощью поиска по сайту, но и благодаря чат-боту. Школа вычислительных социальных наук Европейского университета в Санкт-Петербурге использовала PhytoLex для разработки «умного помощника», который позволит общаться с базой данных на естественном языке. Ему можно будет задавать вопросы по содержанию базы. Например, какие растения импортировались в Российскую империю из Южной Америки во второй половине XVIII века.
Подробнее о развитии и перспективах проекта узнаете из полного текста статьи.
P. S. А вот о значении слова ухемоль не узнаете, ведь на сегодняшний день это единственная фиксация слова, и какое растение оно обозначает, науке неизвестно 🤷
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Большой ботанический словарь: как этноботаническая база данных PhytoLex изучает растения
База данных PhytoLex собирает упоминания растений в исторических, художественных — и не только — текстах. Вместе знакомимся с этноботанической базой и рассказываем, чем она отличается от ботанического словаря.
Алгоритмы и дискриминация на рынке труда. Чему мы научили искусственный интеллект?
Сегодня за свои права приходится бороться не только с работодателями, но и с искусственным интеллектом. ИИ все чаще используется для управления персоналом и набора сотрудников — и он закономерно научился дискриминировать людей по полу, физическим возможностям и т. п. «Системный Блокъ» предлагает перечитать классический материал об ИИ на рынке труда в честь 1 мая — Дня солидарности трудящихся.
Кратко: о чем статья?
Использование ИИ в подборе персонала — один из основных трендов сферы труда. Так, более половины всех HR в США используют алгоритмы искусственного интеллекта при приеме на работу, проведении собеседований и оценке кандидатов. Алгоритмы найма с ИИ очень разнообразны. Например, платформа HireVue оценивает кандидатов по мимике и высказываниям во время видеособеседования, а в некоторых российских компаниях работает ИИ робот-рекрутер Вера. Она приглашает кандидатов на собеседования и проводит опросы увольняющихся сотрудников.
Главная цель ИИ-рекрутинга — помочь человеку справиться с рутинными процессами в найме, одна из главных проблем — предвзятость. Алгоритмы часто оценивают кандидатов несправедливо, так как обучаются на данных, часто копирующих искажения и ошибки людей. Например, HR-робот мог классифицировать тексты с упоминанием ограниченных возможностей как более «токсичные» и оценивать их негативно, а ИИ-рекрутер Amazon снизил оценку резюме женщин, так как был обучен в основном на резюме мужчин.
Конечно, дискриминация не связана напрямую с ИИ: он копирует установки общества. Законодательство разных стран старается регулировать неравенство в том числе и в рекрутинге. Например, в ЕС существует проект закона, контролирующего использование искусственного интеллекта: подобные технологии должны, например, обучаться на качественных недискриминационных данных, а также иметь общедоступную документацию, объясняющую алгоритм и цель проекта. Не все сотрудники довольны участившимся использованием ИИ в компаниях, однако первые шаги к регулированию уже сделаны.
Подробнее о том, как искусственный интеллект используется в найме, в чем подвержен людским предрассудкам и как с этим бороться читайте в полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Сегодня за свои права приходится бороться не только с работодателями, но и с искусственным интеллектом. ИИ все чаще используется для управления персоналом и набора сотрудников — и он закономерно научился дискриминировать людей по полу, физическим возможностям и т. п. «Системный Блокъ» предлагает перечитать классический материал об ИИ на рынке труда в честь 1 мая — Дня солидарности трудящихся.
Кратко: о чем статья?
Использование ИИ в подборе персонала — один из основных трендов сферы труда. Так, более половины всех HR в США используют алгоритмы искусственного интеллекта при приеме на работу, проведении собеседований и оценке кандидатов. Алгоритмы найма с ИИ очень разнообразны. Например, платформа HireVue оценивает кандидатов по мимике и высказываниям во время видеособеседования, а в некоторых российских компаниях работает ИИ робот-рекрутер Вера. Она приглашает кандидатов на собеседования и проводит опросы увольняющихся сотрудников.
Главная цель ИИ-рекрутинга — помочь человеку справиться с рутинными процессами в найме, одна из главных проблем — предвзятость. Алгоритмы часто оценивают кандидатов несправедливо, так как обучаются на данных, часто копирующих искажения и ошибки людей. Например, HR-робот мог классифицировать тексты с упоминанием ограниченных возможностей как более «токсичные» и оценивать их негативно, а ИИ-рекрутер Amazon снизил оценку резюме женщин, так как был обучен в основном на резюме мужчин.
Конечно, дискриминация не связана напрямую с ИИ: он копирует установки общества. Законодательство разных стран старается регулировать неравенство в том числе и в рекрутинге. Например, в ЕС существует проект закона, контролирующего использование искусственного интеллекта: подобные технологии должны, например, обучаться на качественных недискриминационных данных, а также иметь общедоступную документацию, объясняющую алгоритм и цель проекта. Не все сотрудники довольны участившимся использованием ИИ в компаниях, однако первые шаги к регулированию уже сделаны.
Подробнее о том, как искусственный интеллект используется в найме, в чем подвержен людским предрассудкам и как с этим бороться читайте в полной версии статьи.
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Роль искусственного интеллекта на рынке труда
В 2014 году Amazon разработал технологию с ИИ, которая присваивала рейтинг каждому отклику на вакансии. Вскоре обнаружилось, что при этом робот занижал баллы женщинам. Выясняем, как часто происходит такая дискриминация, и что можно с этим сделать
ИИ-поиск от Google, третья Qwen и модель-подхалим GPT-4o
Рассказываем, что произошло в мире ИИ за последнее время.
AI Mode от Google
Корпорация Google открыла доступ к поиску на основе больших языковых моделей для пользователей из Америки.
В отличие от традиционного поиска, при котором пользователь получает список ссылок на релевантные веб-сайты в ответ на запрос, ИИ-поиск суммаризирует поисковую выдачу и выдает текстовую выжимку. Благодаря внедрению языковых моделей в процесс поиска пользователь может задавать длинные и сложные запросы, а также уточняющие вопросы к ответу. Вместо замены текущего режима поиска Google добавила ИИ-поиск в отдельную вкладку под названием AI Mode — на уровне с вкладками «Изображения», «Новости», «Видео» и т. д.
AI Mode тестируется с начала марта этого года в закрытом режиме. Ранее Google уже пыталась интегрировать LLM в поиск, однако в ответ получила негативные реакции пользователей из-за большого количества галлюцинаций в поисковой выдаче. AI Mode является прямым конкурентом продуктов многих ИИ-компаний: Perplexity, GPT Search и DeepResearch от OpenAI, Research от Anthropic.
Qwen3 — новое поколение открытых языковых моделей
Холдинг Alibaba Group (владеет AliExpress, TaoBao и другими маркетплейсами) обновил свое семейство языковых моделей Qwen. Qwen3 доступен в следующих размерах (в млрд параметров): 0,6, 1,7, 4, 8, 14, 32.
Помимо них, также были представлены две модели с архитектурой Mixture of Experts: во время генерации ответа модель использует лишь часть всех параметров (их называют активными), при этом, какие именно параметры задействованы во время ответа — зависит от конкретного запроса пользователя. Mixture of Experts версии доступны в двух размерах: 30 млрд с 3 млрд активными и флагманская модель с 235 млрд параметров из которых 22 млрд активные.
Флагманская модель в основных тестах опережает DeepSeek-R1 и сопоставима с последними лучшими моделями (Google Gemini 2.5 Pro и OpenAI o3-mini). Более компактные версии опережают конкурентов сопоставимых размеров.
Все модели поддерживают режим рассуждений, когда перед финальным ответом модель генерирует цепочку логических рассуждений. Модели были обучены на текстах на 119 языках. Полный список языков доступен на сайте модели. Qwen3 можно использовать для коммерческих целей.
Модели семейства Qwen — в числе лидеров открытых LLM: их используют энтузиасты, коммерческие компании и научные исследователи.
OpenAI откатила обновление GPT-4o после жалоб о чрезмерной лести
Компания OpenAI вернула старую версию GPT-4o после того, как многочисленные пользователи пожаловались на избыточное количество лести и подхалимства в ответах обновленной версии.
Во время подготовки обновления GPT, сделанного в конце апреля 2025, компания, помимо новых обучающих данных и улучшенных методов, использовала оценки ответов от пользователей (их можно дать через кнопки «лайк» и «дизлайк» в интерфейсе чата). По словам компании, по отдельности новые данные и методы показывали улучшения, благодаря чему обновленная модель показала прирост в качестве в заранее подготовленных тестах. Но в совокупности улучшения привели к измененному поведению.
Используемые тесты, а также группа тестировщиков фокусировались только на определенных показателях, в числе которых не было метрики, отвечающей за угодничащее поведение модели. И хотя некоторые тестировщики отметили, что модель стала «вести себя» немного иначе, обновление все равно решили сделать доступным.
Для предотвращения подобных ситуаций OpenAI приняли несколько новых мер: начали работу над улучшением существующих тестов и A/B-тестирования, приоритизировали качественные оценки поведения модели от тестировщиков.
Более детальный отчет о случившемся и выводах, сделанных компанией, доступен в официальном блоге.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
AI Mode от Google
Корпорация Google открыла доступ к поиску на основе больших языковых моделей для пользователей из Америки.
В отличие от традиционного поиска, при котором пользователь получает список ссылок на релевантные веб-сайты в ответ на запрос, ИИ-поиск суммаризирует поисковую выдачу и выдает текстовую выжимку. Благодаря внедрению языковых моделей в процесс поиска пользователь может задавать длинные и сложные запросы, а также уточняющие вопросы к ответу. Вместо замены текущего режима поиска Google добавила ИИ-поиск в отдельную вкладку под названием AI Mode — на уровне с вкладками «Изображения», «Новости», «Видео» и т. д.
AI Mode тестируется с начала марта этого года в закрытом режиме. Ранее Google уже пыталась интегрировать LLM в поиск, однако в ответ получила негативные реакции пользователей из-за большого количества галлюцинаций в поисковой выдаче. AI Mode является прямым конкурентом продуктов многих ИИ-компаний: Perplexity, GPT Search и DeepResearch от OpenAI, Research от Anthropic.
Qwen3 — новое поколение открытых языковых моделей
Холдинг Alibaba Group (владеет AliExpress, TaoBao и другими маркетплейсами) обновил свое семейство языковых моделей Qwen. Qwen3 доступен в следующих размерах (в млрд параметров): 0,6, 1,7, 4, 8, 14, 32.
Помимо них, также были представлены две модели с архитектурой Mixture of Experts: во время генерации ответа модель использует лишь часть всех параметров (их называют активными), при этом, какие именно параметры задействованы во время ответа — зависит от конкретного запроса пользователя. Mixture of Experts версии доступны в двух размерах: 30 млрд с 3 млрд активными и флагманская модель с 235 млрд параметров из которых 22 млрд активные.
Флагманская модель в основных тестах опережает DeepSeek-R1 и сопоставима с последними лучшими моделями (Google Gemini 2.5 Pro и OpenAI o3-mini). Более компактные версии опережают конкурентов сопоставимых размеров.
Все модели поддерживают режим рассуждений, когда перед финальным ответом модель генерирует цепочку логических рассуждений. Модели были обучены на текстах на 119 языках. Полный список языков доступен на сайте модели. Qwen3 можно использовать для коммерческих целей.
Модели семейства Qwen — в числе лидеров открытых LLM: их используют энтузиасты, коммерческие компании и научные исследователи.
OpenAI откатила обновление GPT-4o после жалоб о чрезмерной лести
Компания OpenAI вернула старую версию GPT-4o после того, как многочисленные пользователи пожаловались на избыточное количество лести и подхалимства в ответах обновленной версии.
Во время подготовки обновления GPT, сделанного в конце апреля 2025, компания, помимо новых обучающих данных и улучшенных методов, использовала оценки ответов от пользователей (их можно дать через кнопки «лайк» и «дизлайк» в интерфейсе чата). По словам компании, по отдельности новые данные и методы показывали улучшения, благодаря чему обновленная модель показала прирост в качестве в заранее подготовленных тестах. Но в совокупности улучшения привели к измененному поведению.
Используемые тесты, а также группа тестировщиков фокусировались только на определенных показателях, в числе которых не было метрики, отвечающей за угодничащее поведение модели. И хотя некоторые тестировщики отметили, что модель стала «вести себя» немного иначе, обновление все равно решили сделать доступным.
Для предотвращения подобных ситуаций OpenAI приняли несколько новых мер: начали работу над улучшением существующих тестов и A/B-тестирования, приоритизировали качественные оценки поведения модели от тестировщиков.
Более детальный отчет о случившемся и выводах, сделанных компанией, доступен в официальном блоге.
Please open Telegram to view this post
VIEW IN TELEGRAM
Разделить цену войны: кого, откуда и когда призывали в годы ВОВ?
Сегодня 80 лет Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Они позволяют посмотреть на историю ВОВ через историю призыва, а огромный объем данных превращает такую работу в настоящее дата-исследование.
Предлагаем вспомнить исследование «Системного Блока», посвященное анализу 26,5 млн. карточек с военно-пересыльных пунктов. Эти данные позволяют увидеть, как отличалась картина призыва в разные годы в отдельных республиках СССР.
Кратко: о чем статья?
У каждой республики была своя история участия в войне и свой портрет призыва. Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.
Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.
Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Туркменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.
Время чтения: 25 минут.
🤖 «Системный Блокъ» @sysblok
Сегодня 80 лет Победы. День, когда мы вспоминаем всех, кто ушел на войну. Вернувшихся и не вернувшихся. А это десятки миллионов людей. Почти никого из них уже нет в живых: ни тех, кто погиб прямо там, ни тех, кто дожил до Победы. Но остались архивы. Они позволяют посмотреть на историю ВОВ через историю призыва, а огромный объем данных превращает такую работу в настоящее дата-исследование.
Предлагаем вспомнить исследование «Системного Блока», посвященное анализу 26,5 млн. карточек с военно-пересыльных пунктов. Эти данные позволяют увидеть, как отличалась картина призыва в разные годы в отдельных республиках СССР.
Кратко: о чем статья?
У каждой республики была своя история участия в войне и свой портрет призыва. Призыв в РСФСР, Казахстане и Киргизии был схож и довольно стабилен на протяжении войны. По ходу войны призывной возраст снижался, а самый большой подъем призыва в РСФСР ожидаемо совпал с началом Великой Отечественной войны. В нем существенна доля взрослых людей старше 22 лет — были призваны резервисты, запасники, отставники.
Совершенно другой портрет призыва наблюдается в республиках, которые были полностью оккупированы в годы войны — Белорусской, Украинской ССР и республиках Прибалтики. Поскольку основной удар первых месяцев войны пришелся на них, провести полноценный призыв удалось далеко не везде, а после оккупации территории он стал невозможен и продолжился только после освобождения. Именно поэтому в Белоруссии призыв в 1944 году был самым многочисленным. Цифры свидетельствуют: несмотря на угон людей на работы в Германию и массовые расправы над местным населением, после отступления Вермахта освобожденные территории все еще могли обеспечить массовое пополнение рядов Красной армии.
Узнать подробности об особенностях призыва в оккупированных республиках, о спаде призыва в 1943 в республиках Кавказа и о трудовом призыве в Узбекской, Таджикской и Туркменской ССР можно из полного текста статьи. Там же можно найти динамическую визуализацию данных, содержащую информацию по 14 основным республикам СССР.
Время чтения: 25 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Разделить цену победы: как был устроен призыв в Войну?
Предлагаем посмотреть на историю ВОВ через историю призыва и опираться не на единичные источники, а на миллионы документов.
Только не списывай точь-в-точь: автоматический поиск аллюзий и цитат в древнеримской литературе
Выявление цитат и аллюзий — важная задача филологов, справляться с которой до недавнего времени приходилось традиционными методами. Особенно сложной она оказывается тогда, когда имеешь дело с произведениями, авторы и аудитория которых жили в совершенно другом контексте: литературном и историческом. К счастью, сегодня у исследователей есть цифровые инструменты, которые могут помочь разобраться с интертекстуальностью. Рассказываем о проекте Tesserae, который помогает находить аллюзии и цитаты в древнеримской литературе.
Кратко: что за проект?
Tesserae — проект университета Баффало, бесплатное веб-приложение, которое работает с корпусом текстов из баз Perseus Digital Library и The Latin Library. Работая с Tesserae, пользователь выбирает два произведения из корпуса, после чего программа сравнивает их и возвращает список всех предложений, которые содержат хотя бы два совпадающих слова.
Предложения, в которых нашлись такие совпадения, получают оценку от 2 до 10. Программа учитывает два параметра: частотность употребления слов и расстояние между ними во фразе. Сравнительно редкие слова, стоящие рядом, с большей вероятностью будут составлять осознанную отсылку или цитату и, соответственно, получат более высокий балл.
Искать совпадения можно не только по точной форме, но и по лемме (начальной форме), похожему звучанию и даже по семантической близости. Например, при сравнении стихотворений Катулла с «Георгиками» Вергилия в качестве совпадений были найдены tacet nox (Catullus 7.7) и silet nox (Georgics 1.247). И то, и другое можно перевести как «ночь молчит», хотя авторы использовали два разных глагола.
Самый простой результат работы с Tesserae — выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. В ходе тестирований команда проекта обнаружила потенциальную аллюзию к «Энеиде» в первой книге «Фарсалии» Лукана.
Правда, работа филолога все еще важна даже при наличии Tesserae, поскольку каждый полученный результат нужно рассматривать отдельно и пытаться объяснить в зависимости от контекста. Программа этого пока не умеет — только выполняет умный поиск по корпусу на предмет лексических совпадений.
Подробнее о проекте и задачах, в решении которых он может помочь, а также о том, зачем филологи вообще ищут цитаты и отсылки, узнаете из полной версии статьи.
Время чтения: 12 минут
🤖 «Системный Блокъ» @sysblok
Выявление цитат и аллюзий — важная задача филологов, справляться с которой до недавнего времени приходилось традиционными методами. Особенно сложной она оказывается тогда, когда имеешь дело с произведениями, авторы и аудитория которых жили в совершенно другом контексте: литературном и историческом. К счастью, сегодня у исследователей есть цифровые инструменты, которые могут помочь разобраться с интертекстуальностью. Рассказываем о проекте Tesserae, который помогает находить аллюзии и цитаты в древнеримской литературе.
Кратко: что за проект?
Tesserae — проект университета Баффало, бесплатное веб-приложение, которое работает с корпусом текстов из баз Perseus Digital Library и The Latin Library. Работая с Tesserae, пользователь выбирает два произведения из корпуса, после чего программа сравнивает их и возвращает список всех предложений, которые содержат хотя бы два совпадающих слова.
Предложения, в которых нашлись такие совпадения, получают оценку от 2 до 10. Программа учитывает два параметра: частотность употребления слов и расстояние между ними во фразе. Сравнительно редкие слова, стоящие рядом, с большей вероятностью будут составлять осознанную отсылку или цитату и, соответственно, получат более высокий балл.
Искать совпадения можно не только по точной форме, но и по лемме (начальной форме), похожему звучанию и даже по семантической близости. Например, при сравнении стихотворений Катулла с «Георгиками» Вергилия в качестве совпадений были найдены tacet nox (Catullus 7.7) и silet nox (Georgics 1.247). И то, и другое можно перевести как «ночь молчит», хотя авторы использовали два разных глагола.
Самый простой результат работы с Tesserae — выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. В ходе тестирований команда проекта обнаружила потенциальную аллюзию к «Энеиде» в первой книге «Фарсалии» Лукана.
Правда, работа филолога все еще важна даже при наличии Tesserae, поскольку каждый полученный результат нужно рассматривать отдельно и пытаться объяснить в зависимости от контекста. Программа этого пока не умеет — только выполняет умный поиск по корпусу на предмет лексических совпадений.
Подробнее о проекте и задачах, в решении которых он может помочь, а также о том, зачем филологи вообще ищут цитаты и отсылки, узнаете из полной версии статьи.
Время чтения: 12 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как проект Tesserae помогает находить аллюзии и параллели в древнеримской литературе
Рассказываем, как проект Tesserae может помочь в поисках аллюзий, совпадений и параллелей в произведениях латинских авторов.
Бум и крах искусственного интеллекта: забытая история первых цифровых помощников
Сегодня ИИ решает все более сложные задачи и угрожает заменить профессионалов в самых разных областях: от медицины и юриспруденции до геологоразведки. То же можно сказать и про 1980-е — время взлета искусственного интеллекта, когда в центре внимания оказались экспертные системы. Рассказываем о том, как они появились, почему не смогли завоевать мир и чему их взлет и падение могут нас научить.
Кратко: как появились и исчезли экспертные системы?
В 1965 году ученые из Стэнфордского университета создали первый образец программы, получившей название DENDRAL (от DENdritic ALgorithm, «ветвящийся алгоритм»). Именно она считается первой экспертной системой, то есть системой искусственного интеллекта, которая на основании знаний и опыта эксперта-человека может решить задачу в определенной области. В случае DENDRAL это была органическая химия.
И хотя попытки сделать программу коммерчески успешным продуктом провалились, этот пример вдохновил ученых на создание экспертных систем в самых разных областях. Появились SACON (для анализа физических объектов), CRYSALIS (для определения структуры белков), PROSPECTOR (для поиска полезных ископаемых)…
К 1980 году появилась и первая коммерческая экспертная система R1, более известная как XCON (от eXpert CONfigurer, «экспертный конфигуратор»). XCON должна была подбирать элементы для компьютерной системы VAX в соответствии с требованиями заказчика. К 1986 году она за 2,5 минуты определяла необходимую конфигурацию системы, а компания Digital Equipment Corporation утверждала, что внедрение XCON позволило им экономить более 25 млн долларов в год. Это привело к ажиотажу вокруг экспертных систем не только в Америке, но и за ее пределами – от Великобритании до Японии.
И все же к началу 1990-х годов экспертные системы канули в Лету. Что же произошло? Во-перввых, они плохо поддавались изменениям. Во-вторых, с легкостью начинали галлюцинировать, когда запрос выходил за рамки их базы знаний. Наконец, их поддержание в рабочем состоянии требовало большого количества квалифицированных сотрудников, услуги которых стоили дорого. Это сводило на нет всю экономию.
Правда, исчезли экспертные системы всё-таки не бесследно. Подробнее о том, во что они превратились, а также о других страницах их истории, узнаете из полного текста материала.
Время чтения: 21 минута
🤖 «Системный Блокъ» @sysblok
Сегодня ИИ решает все более сложные задачи и угрожает заменить профессионалов в самых разных областях: от медицины и юриспруденции до геологоразведки. То же можно сказать и про 1980-е — время взлета искусственного интеллекта, когда в центре внимания оказались экспертные системы. Рассказываем о том, как они появились, почему не смогли завоевать мир и чему их взлет и падение могут нас научить.
Кратко: как появились и исчезли экспертные системы?
В 1965 году ученые из Стэнфордского университета создали первый образец программы, получившей название DENDRAL (от DENdritic ALgorithm, «ветвящийся алгоритм»). Именно она считается первой экспертной системой, то есть системой искусственного интеллекта, которая на основании знаний и опыта эксперта-человека может решить задачу в определенной области. В случае DENDRAL это была органическая химия.
И хотя попытки сделать программу коммерчески успешным продуктом провалились, этот пример вдохновил ученых на создание экспертных систем в самых разных областях. Появились SACON (для анализа физических объектов), CRYSALIS (для определения структуры белков), PROSPECTOR (для поиска полезных ископаемых)…
К 1980 году появилась и первая коммерческая экспертная система R1, более известная как XCON (от eXpert CONfigurer, «экспертный конфигуратор»). XCON должна была подбирать элементы для компьютерной системы VAX в соответствии с требованиями заказчика. К 1986 году она за 2,5 минуты определяла необходимую конфигурацию системы, а компания Digital Equipment Corporation утверждала, что внедрение XCON позволило им экономить более 25 млн долларов в год. Это привело к ажиотажу вокруг экспертных систем не только в Америке, но и за ее пределами – от Великобритании до Японии.
И все же к началу 1990-х годов экспертные системы канули в Лету. Что же произошло? Во-перввых, они плохо поддавались изменениям. Во-вторых, с легкостью начинали галлюцинировать, когда запрос выходил за рамки их базы знаний. Наконец, их поддержание в рабочем состоянии требовало большого количества квалифицированных сотрудников, услуги которых стоили дорого. Это сводило на нет всю экономию.
Правда, исчезли экспертные системы всё-таки не бесследно. Подробнее о том, во что они превратились, а также о других страницах их истории, узнаете из полного текста материала.
Время чтения: 21 минута
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как экспертные системы проложили путь современному ИИ и почему закончилась их эпоха
Как экспертные системы обещали революцию, но столкнулись с зимой ИИ? Как это может быть связано с современном ИИ-бумом? Рассказываем историю развития искусственного интеллекта 1980-х.
«Системный Блокъ» продолжает набор в мастерскую дата-журналистики на «Летней Школе»! До 18 мая мы принимаем заявки от всех желающих.
Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.
Что такое дата-журналистика?
Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных. Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую.
🎓 Кто может участвовать в мастерской?
Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.
✍🏼 Что будет на мастерской?
На мастерской будет два блока: образовательный и проектный.
Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.
Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров.
🧑🏻💻 Кто делает мастерскую?
Партнеры мастерской:
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm;
• научно-популярный журнал «Кот Шредингера» @kot_sh.
📍Когда и где пройдет мастерская?
Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.
❗️Как к нам попасть?
Подать заявку на участие можно на странице мастерской до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.
🤖 «Системный Блокъ» @sysblok
Вы тоже любите данные, исследования, еду на костре и сосны? В июле «Летняя школа» на Волге открывает новый сезон. Во второй раз в ее программе и мастерская «Системного Блока» по дата-журналистике, и мы приглашаем участников.
Что такое дата-журналистика?
Дата-журналистика — это направление в журналистике, основанное на анализе и визуализации данных. Сырые данные мало что значат для человека. Чтобы они приобрели смысл, их нужно обработать, обобщить, найти в них закономерности и связи, а потом объяснить понятным языком. Именно этим и занимается дата-журналистика. Так появляются истории о причинах смертности среди бездомных, о гендерном балансе учителей или о составе школьного литературного канона. Если вы хотите научиться делать так же, то приезжайте к нам на мастерскую.
🎓 Кто может участвовать в мастерской?
Подать заявку могут как опытные, так и начинающие журналисты, а также все, кто хочет попробовать себя в новой сфере: студенты, выпускники, программисты, аналитики данных, визуализаторы.
✍🏼 Что будет на мастерской?
На мастерской будет два блока: образовательный и проектный.
Образовательный блок будет состоять из трех разделов: работа с данными, основы визуализации, дата-журналистика. Вы узнаете, где искать данные, как их собирать и обрабатывать, как превращать их в красивые и понятные визуализации, и как из всего этого создавать журналистские истории.
Во время проектного блока вас ждет хакатон. Наши партнеры привезут реальные задачи и данные, и команды участников смогут пройти полный цикл создания дата-истории от гипотез до выводов. В прошлом году команды исследовали состав школьных программ по литературе, российские кинофестивали, влияние профиля и престижности вуза на трудоустройство выпускников. Лучшие материалы вы сможете опубликовать у нас или на площадках наших партнеров.
🧑🏻💻 Кто делает мастерскую?
Партнеры мастерской:
• платформа «Если быть точным» @tochno_st, которая исследует данные о социальных проблемах в России;
• благотворительная организация «Ночлежка» @nochlezhka, помогающая бездомным;
• центр научной коммуникаций ИТМО @scicomm;
• научно-популярный журнал «Кот Шредингера» @kot_sh.
📍Когда и где пройдет мастерская?
Мастерская дата-журналистики пройдет с 19 июля по 3 августа 2025 года на Волге недалеко от Дубны.
❗️Как к нам попасть?
Подать заявку на участие можно на странице мастерской до 18 мая. Обучение бесплатное, на питание и проживание участников «Летняя школа» собирает добровольные взносы (рекомендованная сумма от 800 рублей в день с человека). Подробности можно прочитать в FAQ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Что читают, осмысляют и о чём говорят на программах по DH?
Собрали три текста из блога DH-центра ИТМО @dhcenter, которые помогут понять контекст обучения цифровым методам в гуманитарных исследованиях и узнать больше о подходах и вопросах из мира DH.
От Стоунхенджа до Лас-Вегаса и Теории теории смартфона. Что читают на программе по Digital Humanities?
Подборка текстов, которые читают на магистерской программе по Digital Humanities. Узнаете, например, об исследовании языка и риторики мирового банка с 1946 по 2012 год. А ещё о том, почему три ключевых метафоры интернета — место, инструмент и способ быть (way of being), и как отловить их в собственной речи.
От Аристотеля до 3D-моделей тела. Три взгляда на визуализации
Сложный и насыщенный разговор культуролога Ольги Давыдовой, медиафилософа Алины Латыповой и дизайнера Трофима Попова об эстетических критериях, социальных аспектах и роли визуализации. Если готовы разобраться с понятиями «графезис», «колорема» и «коллективный эмпиризм», то точно узнаете больше о визуализациях в науке и в поэзии, а заодно и о том, кто считает их отличным инструментом, а кто — «проклятием гуманитарной мысли».
От UX до DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой
Чем отличается UX от UX-исследований? Как они соотносятся с цифровой гуманитаристикой и DH-проектами? Юиксеры изучают пользователей или объекты в цифре? Ответы найдете в разговоре Алексея Евстифеева, UX-исследователя и координатора проектной группы по UX в Пушкине <цифровом>, и Полины Колозариди, академической руководительницы магистерской программы по DH в ИТМО.
🤖 «Системный Блокъ» @sysblok
Собрали три текста из блога DH-центра ИТМО @dhcenter, которые помогут понять контекст обучения цифровым методам в гуманитарных исследованиях и узнать больше о подходах и вопросах из мира DH.
От Стоунхенджа до Лас-Вегаса и Теории теории смартфона. Что читают на программе по Digital Humanities?
Подборка текстов, которые читают на магистерской программе по Digital Humanities. Узнаете, например, об исследовании языка и риторики мирового банка с 1946 по 2012 год. А ещё о том, почему три ключевых метафоры интернета — место, инструмент и способ быть (way of being), и как отловить их в собственной речи.
От Аристотеля до 3D-моделей тела. Три взгляда на визуализации
Сложный и насыщенный разговор культуролога Ольги Давыдовой, медиафилософа Алины Латыповой и дизайнера Трофима Попова об эстетических критериях, социальных аспектах и роли визуализации. Если готовы разобраться с понятиями «графезис», «колорема» и «коллективный эмпиризм», то точно узнаете больше о визуализациях в науке и в поэзии, а заодно и о том, кто считает их отличным инструментом, а кто — «проклятием гуманитарной мысли».
От UX до DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой
Чем отличается UX от UX-исследований? Как они соотносятся с цифровой гуманитаристикой и DH-проектами? Юиксеры изучают пользователей или объекты в цифре? Ответы найдете в разговоре Алексея Евстифеева, UX-исследователя и координатора проектной группы по UX в Пушкине <цифровом>, и Полины Колозариди, академической руководительницы магистерской программы по DH в ИТМО.
Please open Telegram to view this post
VIEW IN TELEGRAM