Telegram Group & Telegram Channel
Разумеется, у исследования есть множество ограничений. Исследователи крайне настойчиво дают модели очень конкретную задачу в системном промпте, а затем очень конкретно, пусть и не напрямую, толкают ее к тому, чтобы искать путь ее выполнить, пусть и в обход воли пользователя. Эти сценарии не очень реалистичные, достаточно упрощенные и во многом выглядят как предложения «поиграть в злой ИИ», что может искажать результаты оценок. С другой стороны, достаточно занятным является тот факт, что модели (в частности, Sonnet 3.5) могут занижать результаты на тестах, чтобы не быть урезанной в качестве «и в будущем принести больше пользы людям». Так или иначе, советую зайти в блог и почитать заботливо отобранные примеры диалогов – они как минимум занятные.

На мой взгляд, эта статья (с точки зрения security и на сегодняшний день) в первую очередь говорит о том, что мне, как пользователю передовых моделей, хорошо бы было знать их системную затравку (чтобы знать, что именно модель, по мнению разработчиков, должна делать), иметь прозрачный CoT для test-time-scaling-моделей, как у QwQ/DeepSeek R1 (пока нам его не спрятали окончательно), а еще о том, что Llama-3.1-405B, оказывается, очень крутая.



group-telegram.com/llmsecurity/424
Create:
Last Update:

Разумеется, у исследования есть множество ограничений. Исследователи крайне настойчиво дают модели очень конкретную задачу в системном промпте, а затем очень конкретно, пусть и не напрямую, толкают ее к тому, чтобы искать путь ее выполнить, пусть и в обход воли пользователя. Эти сценарии не очень реалистичные, достаточно упрощенные и во многом выглядят как предложения «поиграть в злой ИИ», что может искажать результаты оценок. С другой стороны, достаточно занятным является тот факт, что модели (в частности, Sonnet 3.5) могут занижать результаты на тестах, чтобы не быть урезанной в качестве «и в будущем принести больше пользы людям». Так или иначе, советую зайти в блог и почитать заботливо отобранные примеры диалогов – они как минимум занятные.

На мой взгляд, эта статья (с точки зрения security и на сегодняшний день) в первую очередь говорит о том, что мне, как пользователю передовых моделей, хорошо бы было знать их системную затравку (чтобы знать, что именно модель, по мнению разработчиков, должна делать), иметь прозрачный CoT для test-time-scaling-моделей, как у QwQ/DeepSeek R1 (пока нам его не спрятали окончательно), а еще о том, что Llama-3.1-405B, оказывается, очень крутая.

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/424

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. READ MORE So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from ye


Telegram llm security и каланы
FROM American