Telegram Group & Telegram Channel
Выясняется, что во всех этих случаях ответ «редко, но да»: в некотором проценте случаев модель будет подменять файлы, стирать подготовленные новые промпты и занижать свои результаты. Подробнее про результаты можно почитать в статье (она простая и интересная). Модели также пытаются скопировать свои «веса» (вернее, файлы, которые так представлены в заботливо оставленных разработчиками файлах), удалить «файлы» с весами новой модели, в процессе копирования промпта усиливают требование преследовать свои цели, а также меняют порядок писем так, чтобы он лучше отражал их цели. Все это LLM заботливо описывают в своем CoT, отображая «понимание», что то, что они делают, не совпадает с целями пользователя. Если в той же сессии задать модели вопрос, не сделала ли она чего-то нехорошего, модели достаточно часто (в случае o1 – до 90% случаев) врут, что ничего такого не делали, или делают вид, что не понимают, о чем идет речь. Изредка модели преследуют цели из системного промпта даже без директив типа «добейся этого любой ценой».



group-telegram.com/llmsecurity/423
Create:
Last Update:

Выясняется, что во всех этих случаях ответ «редко, но да»: в некотором проценте случаев модель будет подменять файлы, стирать подготовленные новые промпты и занижать свои результаты. Подробнее про результаты можно почитать в статье (она простая и интересная). Модели также пытаются скопировать свои «веса» (вернее, файлы, которые так представлены в заботливо оставленных разработчиками файлах), удалить «файлы» с весами новой модели, в процессе копирования промпта усиливают требование преследовать свои цели, а также меняют порядок писем так, чтобы он лучше отражал их цели. Все это LLM заботливо описывают в своем CoT, отображая «понимание», что то, что они делают, не совпадает с целями пользователя. Если в той же сессии задать модели вопрос, не сделала ли она чего-то нехорошего, модели достаточно часто (в случае o1 – до 90% случаев) врут, что ничего такого не делали, или делают вид, что не понимают, о чем идет речь. Изредка модели преследуют цели из системного промпта даже без директив типа «добейся этого любой ценой».

BY llm security и каланы









Share with your friend now:
group-telegram.com/llmsecurity/423

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from hk


Telegram llm security и каланы
FROM American