Telegram Group & Telegram Channel
📔 Мы внимательно следим за последними статьями в области ML, и сегодня хотим обратить ваше внимание на модель TabPFN v2 из статьи “Accurate predictions on small data with a tabular foundation model”, опубликованную в январе 2025 года в Nature. Модель работает на табличных данных, первая версия TabPFN была опубликована в октябре 2022, во второй версии помимо классификации появилась регрессия.

💡 Идея TabPFN v2:
В классических алгоритмах для решения suprevised задач на табличных данных модель обучается с нуля, в статье используется подход с предобучением:
1. Генерируются 130 миллионов синтетических датасетов с помощью каузальных графов, которые имитируют сложные зависимости в данных, пропуски, выбросы.
2. На сгенерированных данных предобучается трансформер, предсказывая таргет test выборки, получая на вход train как контекст. Для каждой ячейки таблицы используется отдельная репрезентация. Используется механизм внимания как по строкам, так и по столбцам таблицы.
3. Вместо привычных отдельных "fit" и "predict", трансформер за один проход получая и train, и test новой задачи одновременно, делает инференс на test, используя in-context learning. Простыми словами, модель обучена однажды, но подхватывает зависимости в данных из подаваемого в контекст датасета и сразу делает предсказания.

🥇 Результаты авторов:
1. Скорость и качество: в задачах классификации и регрессии на данных до 10к строк и 500 признаков за несколько секунд получает качество лучше, чем ансамбль из базовых алгоритмов (бустинги, лес, линейные), которые тюнились в течение нескольких часов.
2. Минимум работы: алгоритм не нужно тюнить, имеет отбор признаков, нативно работает с числовыми и категориальными признаками, а также с пропусками.
3. Плюсы foundation моделей: возможность получить распределение таргета, генерировать данные итд.
4. Неплохо показывает себя на временных рядах.

🤔 Выводы:
1. Статья показала эффективность foundation моделей в домене табличных данных, теперь у бустингов сильные конкуренты.
2. Пока есть вопросы с точки зрения эффективности инференса, ограниченности контекста, но дальше будут улучшения.
3. Интересно, что TabPFN v2 можно назвать AutoML решением, ведь для решения задачи он не требует ни настройки гиперпараметров, ни предобработки данных.

Тема интересная, у нас имеются наработки по этой теме, и мы работаем над их применением в LightAutoML🦙, stay tuned!

#обзор
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/lightautoml/182
Create:
Last Update:

📔 Мы внимательно следим за последними статьями в области ML, и сегодня хотим обратить ваше внимание на модель TabPFN v2 из статьи “Accurate predictions on small data with a tabular foundation model”, опубликованную в январе 2025 года в Nature. Модель работает на табличных данных, первая версия TabPFN была опубликована в октябре 2022, во второй версии помимо классификации появилась регрессия.

💡 Идея TabPFN v2:
В классических алгоритмах для решения suprevised задач на табличных данных модель обучается с нуля, в статье используется подход с предобучением:
1. Генерируются 130 миллионов синтетических датасетов с помощью каузальных графов, которые имитируют сложные зависимости в данных, пропуски, выбросы.
2. На сгенерированных данных предобучается трансформер, предсказывая таргет test выборки, получая на вход train как контекст. Для каждой ячейки таблицы используется отдельная репрезентация. Используется механизм внимания как по строкам, так и по столбцам таблицы.
3. Вместо привычных отдельных "fit" и "predict", трансформер за один проход получая и train, и test новой задачи одновременно, делает инференс на test, используя in-context learning. Простыми словами, модель обучена однажды, но подхватывает зависимости в данных из подаваемого в контекст датасета и сразу делает предсказания.

🥇 Результаты авторов:
1. Скорость и качество: в задачах классификации и регрессии на данных до 10к строк и 500 признаков за несколько секунд получает качество лучше, чем ансамбль из базовых алгоритмов (бустинги, лес, линейные), которые тюнились в течение нескольких часов.
2. Минимум работы: алгоритм не нужно тюнить, имеет отбор признаков, нативно работает с числовыми и категориальными признаками, а также с пропусками.
3. Плюсы foundation моделей: возможность получить распределение таргета, генерировать данные итд.
4. Неплохо показывает себя на временных рядах.

🤔 Выводы:
1. Статья показала эффективность foundation моделей в домене табличных данных, теперь у бустингов сильные конкуренты.
2. Пока есть вопросы с точки зрения эффективности инференса, ограниченности контекста, но дальше будут улучшения.
3. Интересно, что TabPFN v2 можно назвать AutoML решением, ведь для решения задачи он не требует ни настройки гиперпараметров, ни предобработки данных.

Тема интересная, у нас имеются наработки по этой теме, и мы работаем над их применением в LightAutoML🦙, stay tuned!

#обзор

BY LightAutoML framework




Share with your friend now:
group-telegram.com/lightautoml/182

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks.
from us


Telegram LightAutoML framework
FROM American