LLaMA-Omni: Seamless Speech Interaction with Large Language Models
🖥 Github: https://github.com/ictnlp/llama-omni
📕 Paper: https://arxiv.org/abs/2409.06666
🤗 HF: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni
@ArtificialIntelligencedl
🤗 HF: https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💡 1M-Deepfakes Detection Challenge
🖥 Github: https://github.com/controlnet/av-deepfake1m
📕 Paper: https://arxiv.org/abs/2409.06991v1
⚡️ Dataset: https://paperswithcode.com/dataset/celeb-df
@ArtificialIntelligencedl
⚡️ Dataset: https://paperswithcode.com/dataset/celeb-df
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ControlNet/AV-Deepfake1M: [ACM MM Award] AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset
[ACM MM Award] AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset - ControlNet/AV-Deepfake1M
SGFormer: Simplified Graph Transformers
🖥 Github: https://github.com/qitianwu/sgformer
📕 Paper: https://arxiv.org/pdf/2306.10759.pdf
🤗 Blog: https://zhuanlan.zhihu.com/p/674548352
@ArtificialIntelligencedl
🤗 Blog: https://zhuanlan.zhihu.com/p/674548352
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
OmniGen: Unified Image Generation
🖥 Github: https://github.com/vectorspacelab/omnigen
📕 Paper: https://arxiv.org/abs/2409.11340v1
🤗 Dataset: https://paperswithcode.com/dataset/dreambench
@ArtificialIntelligencedl
🤗 Dataset: https://paperswithcode.com/dataset/dreambench
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
LLM based Multi-Agent methods
🖥 Github: https://github.com/AgnostiqHQ/multi-agent-llm
📕 Paper: https://arxiv.org/abs/2409.12618v1
🤗 Dataset: https://paperswithcode.com/dataset/hotpotqa
@ArtificialIntelligencedl
🤗 Dataset: https://paperswithcode.com/dataset/hotpotqa
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner (NeurIPS 2024)
🖥 Github: https://github.com/shiml20/flowturbo
📕 Paper: https://arxiv.org/abs/2409.18128v1
🤗 Dataset: https://paperswithcode.com/dataset/imagenet
@ArtificialIntelligencedl
git clone https://github.com/shiml20/FlowTurbo.git
cd FlowTurbo
🤗 Dataset: https://paperswithcode.com/dataset/imagenet
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
How to Train Long-Context Language Models (Effectively)
🖥 Github: https://github.com/hijkzzz/pymarl2
📕 Paper: https://arxiv.org/abs/2410.02511v1
🤗 Dataset: https://paperswithcode.com/dataset/smac
@ArtificialIntelligencedl
🤗 Dataset: https://paperswithcode.com/dataset/smac
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Система HMAХ анализирует данные, собираемые с поездов, чтобы предсказывать оптимальное время для замены деталей. Это первый коммерческий продукт Hitachi, использующий ИИ для обслуживания железных дорог, и он уже работает на некоторых маршрутах в Великобритании и Италии.
HMAX использует GPU от NVIDIA для мгновенного анализа изображений и данных о температуре и вибрации. Этот анализ позволяет проводить техобслуживание по мере износа узлов и повышает безопасность поездок.
kyodonews.net
OpenFinLLM Leaderboard - рейтинг LLM для финансовых задач. Он оценивает модели на 40 задачах в 7 категориях: извлечение информации, текстовый анализ, вопросы и ответы, генерация текста, управление рисками, прогнозирование и принятие решений. Для оценки используются метрики: точность, F-меру, ROUGE и коэффициент корреляции Мэтьюза.
С момента запуска в рейтинге лидируют модели GPT-4 и Llama 3.1, показавшие высокую точность в задачах по анализу финансовых настроений. В задачах финансового прогнозирования компактные модели Llama-3.1-7b и internlm-7b превосходят более крупные модели.
huggingface.co
MongoDB представила обновлённую версию 8.0 своей базы данных линейки Enterprise и облачного сервиса Atlas. Обновления обещают увеличить пропускную способность на 32%, ускорить пакетную запись на 56% и повысить скорость параллельной записи на 20%.
Для решения проблем, связанных с быстрым развитием ИИ, неопределённостью в выборе технологий и нехваткой навыков, MongoDB запустила программу MongoDB AI Application Program (MAAP).
Компания планирует создать глобальную экосистему партнёров, которые будут устанавливать отраслевые стандарты для решений на основе ИИ, сотрудничая с Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, Anthropic и Fireworks AI.
Уже реализованы коммерческие решения для «французской автомобильной компании» и «глобального производителя бытовой техники».
iteuropa.com
Исследователи из Университета Джона Хопкинса представили RATIONALYST - модель на базе LLaMa-3-Instruct-8B, разработанную для улучшения логических возможностей LLM за счет неявных логических обоснований, полученных из немаркированных текстовых данных. Rationalyst генерирует и фильтрует обоснования на основе подсказок-примеров, фиксируя основные схемы рассуждения для новых текстов.
Обученный на 79 000 неявных обоснованиях, Rationalyst отслеживает пошаговые решения проблем, генерируя обоснования для каждого этапа, чтобы направлять выбор оптимальных следующих шагов. При оценке различных логических задач RATIONALYST добился повышения точности в среднем на 3,9%, превзойдя GPT-4.
arxiv.org | Github.com
Networking Pro A7 Elite - новый чип для маршрутизаторов и сетевых устройств. Чип основан на новом стандарте Wi-Fi 7. A7 Elite может управлять до 16 потоками данных, это вдвое больше возможности предыдущей версии стандарта. A7 Elite преобразует данные с помощью 4096-QAM, технологии, которая кодирует на 20% больше информации в каждом импульсе по сравнению с методом в Wi-Fi 6.
Другая новая функция, MLO, позволяет маршрутизатору Wi-Fi 7 распределять соединение по нескольким радиочастотным диапазонам. Qualcomm утверждает, что маршрутизаторы, оснащенные A7 Elite, могут обеспечить пропускную способность до 33 ГБ\с.
A7 Elite интегрирован с сопроцессором ИИ, который имеет максимальную производительность 40 TOPS. Этот сопроцессор позволяет устройствам Wi-Fi, оснащенным A7 Elite, запускать модели ИИ локально. Qualcomm предлагает библиотеку из 100 предварительно оптимизированных моделей ИИ, чтобы упростить разработку программного обеспечения для производителей сетевого оборудования.
siliconangle.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥Model Inversion Attack ToolBox v2.0🔥
🖥 Github: https://github.com/ffhibnese/model-inversion-attack-toolbox
📕 Paper: https://arxiv.org/abs/2410.05159v1
🤗 Dataset: https://paperswithcode.com/dataset/ffhq
@ArtificialIntelligencedl
🤗 Dataset: https://paperswithcode.com/dataset/ffhq
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Prompt Engineering Techniques: Comprehensive Repository for Development and Implementation 🖋️
📓 Github
@ArtificialIntelligencedl
📓 Github
@ArtificialIntelligencedl
Generalizable and Animatable Gaussian Head Avatar
🖥 Github: https://github.com/xg-chu/gagavatar
📕 Paper: https://arxiv.org/abs/2410.07971v1
@ArtificialIntelligencedl
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Adobe представила Firefly, обновленную генеративную платформу, которая позволяет создавать видеоролики длительностью до 5 секунд с помощью текстовых или графических подсказок.
Firefly может создавать анимационный и фотореалистичный контент, а веб-приложение Firefly включает в себя настройки для управления движением камеры, углом обзора и размером кадра.
В бета-версии Premiere Pro доступна функция Generative Extend от Firefly, которая продлевает видеоклипы до двух секунд, генерируя дополнительный кадр в сцене, продолжая движение камеры и объекта, а также расширяя фоновый звук.
techcrunch.com
В Пекине выдали первую коммерческую лицензию роботу со встроенным искусственным интеллектом для работы в сфере общественного питания.
Новый тип робота, в отличие от традиционных роботов, выполняющих одну задачу, может готовить различные блюда, адаптироваться к рабочей среде и создавать новые меню благодаря своей способности к непрерывному обучению.
Ожидается, что к концу года использование роботов расширится до сетей ресторанов, где они будут готовить все - от мороженого до салатов.
fanabc.com
С 2025 года на Уимблдонском турнире, старейшем теннисном турнире Большого шлема, будет использоваться технология ИИ для определения попадания мяча в корт, заменяя 300 судей на линии.
Английский клуб лаун-тенниса и крокета, организатор турнира, заявил, что эта технология прошла испытания в 2024 году и позволит минимизировать ошибки судейства, обеспечивая максимальную точность.
Французский турнир Большого шлема остается единственным, где до сих пор не используются электронные системы определения аута.
timesnownews.com
IBM представила Qiskit Code Assistant, инструмент для упрощения и оптимизации процесса написания кода. Qiskit предлагает функции генерации кода на основе запросов на естественном языке, очистки чернового кода и практического обучения.
Инструмент интегрируется Visual Studio Code и JupyterLab, и его производительность оценивается с помощью бенчмарка Qiskit HumanEval. IBM планирует сделать ключевые компоненты Qiskit Code Assistant, включая модель Qiskit Granite и набор данных HumanEval, общедоступными.
thequantuminsider.com
Модели учитывают факторы: как возраст конструкции, осадки, температура и интенсивность движения. Исследователи выявили, что эти факторы являются основными причинами разрушения непрерывно армированных бетонных покрытий.
Результаты исследования показывают, что модели машинного обучения могут эффективно прогнозировать разрушение бетона, предоставляя инженерам время для принятия мер по предотвращению разрушения.
techxplore.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts
🖥 Github: https://github.com/freedomintelligence/apollomoe
📕 Paper: https://arxiv.org/abs/2410.10626v1
🤗 Dataset: https://paperswithcode.com/dataset/mmlu
@ArtificialIntelligencedl
🤗 Dataset: https://paperswithcode.com/dataset/mmlu
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Microsoft готовится к выпуску в ноябре автономных агентов ИИ, которые должны стать «софтом для мира, управляемого ИИ». Эти агенты будут отличаться от чат-ботов тем, что требуют минимального вмешательства человека.
Компания позиционирует их как инструменты, способные автоматизировать рутинные задачи, например, отвечать на запросы клиентов, находить потенциальных покупателей и управлять запасами.
Microsoft использует для своих агентов как собственные модели ИИ, так и модели OpenAI. Создавать собственных агентов можно будет в Copilot Studio.
С началом доступа будут представлены 10 готовых к использованию агентов для решения различных бизнес-задач.
reuters.com
Xilinx XCF04SVOG20C, микросхема PROM обеспечит эффективное решение для хранения конфигураций FPGA, позволяя им быстро загружать и выполнять различные конфигурации моделей во время обучения ИИ, тем самым повышая общую вычислительную производительность и эффективность.
XCF04SVOG20C, емкостью 4 Мбит, может хранить данные конфигурации, необходимые для сложных моделей ИИ. Эта емкость даст возможность FPGA гибко обрабатывать потребности в обучении различных моделей ИИ.
Сотрудничество между FPGA и PROM не ограничивается крупномасштабными задачами обучения в ЦОДах и может применяться к периферийным вычислениям ИИ.
Небольшой размер и высокая температурная устойчивость XCF04SVOG20C (диапазон рабочих температур от -40°C до 85°C) делают его идеальным для использования в ограниченных пространствах и изменчивых средах.
electropages.com
Обновление добавит две новые функции: редактирование загруженного изображения и возможность изменения текстуры объектов на изображениях. Пользователи смогут изменять цвета и детали объектов на основе текстовых описаний, сохраняя при этом исходную форму.
Компания проводит опрос своего сообщества в Discord, чтобы определить, кто должен получить ранний доступ. Для предотвращения злоупотреблений компания планирует увеличить количество модераторов-людей и внедрить модераторов на основе ИИ.
gagadget.com
ComfyUI V1 анонсирован в закрытой бета-версии с новым пользовательским интерфейсом, реестром пользовательских нод (CNR) и автономной версией для настольных компьютеров для Windows, MacOS и Linux.
Версия для настольных ПК включает в себя функции безопасности, автоматические обновления, облегченную установку и рекомендуемую среду Python. Она поставляется с менеджером ComfyUI, который позволяет устанавливать ноды из реестра ComfyUI.
Среди других особенностей - вкладки для рабочих процессов, настраиваемые сочетания клавиш, автоматический импорт из существующих установок ComfyUI, просмотрщик журналов.
ComfyUI анонсировала новый пользовательский интерфейс с верхней строкой меню, библиотекой моделей, браузером рабочих процессов и функцией автоматической загрузки моделей, которая позволяет использовать URL-адрес/идентификатор модели в рабочих процессах.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
🖥 Github: https://github.com/mark12ding/sam2long
📕 Paper: https://arxiv.org/abs/2410.16268v1
🤗 HF: https://huggingface.co/papers/2410.16268
@ArtificialIntelligencedl
🤗 HF: https://huggingface.co/papers/2410.16268
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
A Joint Representation Using Continuous and Discrete Features for Cardiovascular Diseases Risk Prediction on Chest CT Scans
🖥 Github: https://github.com/yhygao/cbim-medical-image-segmentation
📕 Paper: https://arxiv.org/abs/2410.18610v1
⚡️ Supported models: https://arxiv.org/abs/2203.00131
@ArtificialIntelligencedl
⚡️ Supported models: https://arxiv.org/abs/2203.00131
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.
SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.
Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".
Ключевые особенности метода:
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.
SageAttention реализован с использованием
Triton
и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.
⚠️ Использование SageAttention рекомендуется с версиями:
⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.
# Install sageattention
pip install sageattention
# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)
# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F
F.scaled_dot_product_attention = sageattn
# Specifically
cd example
python sageattn_cogvideo.py
@ai_machinelearning_big_data
#AI #ML #SageAttention #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM