Telegram Group & Telegram Channel
В результате авторы получают GPT-4, которая отказывается от ответа на опасный вопрос всего в 5% случаев (93% без тюнинга), но при этом и GPT-4, и GPT-3.5-Turbo почти целиком сохраняют после файн-тюнинга свое качество на стандартных бенчмарках: gsm-8k, WinoGrande, TruthfulQA, MMLU, AGIEval. Оценки ASR на GPT-3.5-Turbo, правда, по пути куда-то потерялись. Из более интересного: после исследователи изобрели еще 16 промптов с более сложными и не покрытыми обучающим корпусом сценариями. Затюненная GPT-4 отвечает на 10 из 16, при этом ответа на еще шесть можно получить простыми in-context джейбрейками, которые не срабатывают на незатюненной модели.

Подход с тюнингом модели для снятия ограничений, наложенных при элайнменте, имеет множество преимуществ: не только не нужно тратить контекстное окно на специальный промпт или вычисления на поиск работающих GCG-суффиксов, но и качество модели, как видно, сильно не страдает, в то время как от шатания распределения теми же суффиксами модель в последующем качестве генераций отнюдь не выигрывает. Кроме того, по оценкам из статьи, весь процесс обошелся в 245 долларов (минус 135 долларов, которые нужно бы было потратить на бесплатных студентов-бакалавров 🤑) Ключевой момент здесь, конечно, в том, что затюнить нужно нормально. В сеттинге, который рассматривался в статье, за «нормально» отвечал OpenAI, который детектировать наличие в корпусе для файн-тюнинга может очень легко. Поэтому гораздо интереснее, как файн-тюнить модели опенсорсные, но об этом мы поговорим в следующий раз 🔪

P.S. Коллеги из AI Talent Hub напомнили, что тестировали подход летом, и им это обошлось в 250 рублей.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/451
Create:
Last Update:

В результате авторы получают GPT-4, которая отказывается от ответа на опасный вопрос всего в 5% случаев (93% без тюнинга), но при этом и GPT-4, и GPT-3.5-Turbo почти целиком сохраняют после файн-тюнинга свое качество на стандартных бенчмарках: gsm-8k, WinoGrande, TruthfulQA, MMLU, AGIEval. Оценки ASR на GPT-3.5-Turbo, правда, по пути куда-то потерялись. Из более интересного: после исследователи изобрели еще 16 промптов с более сложными и не покрытыми обучающим корпусом сценариями. Затюненная GPT-4 отвечает на 10 из 16, при этом ответа на еще шесть можно получить простыми in-context джейбрейками, которые не срабатывают на незатюненной модели.

Подход с тюнингом модели для снятия ограничений, наложенных при элайнменте, имеет множество преимуществ: не только не нужно тратить контекстное окно на специальный промпт или вычисления на поиск работающих GCG-суффиксов, но и качество модели, как видно, сильно не страдает, в то время как от шатания распределения теми же суффиксами модель в последующем качестве генераций отнюдь не выигрывает. Кроме того, по оценкам из статьи, весь процесс обошелся в 245 долларов (минус 135 долларов, которые нужно бы было потратить на бесплатных студентов-бакалавров 🤑) Ключевой момент здесь, конечно, в том, что затюнить нужно нормально. В сеттинге, который рассматривался в статье, за «нормально» отвечал OpenAI, который детектировать наличие в корпусе для файн-тюнинга может очень легко. Поэтому гораздо интереснее, как файн-тюнить модели опенсорсные, но об этом мы поговорим в следующий раз 🔪

P.S. Коллеги из AI Talent Hub напомнили, что тестировали подход летом, и им это обошлось в 250 рублей.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/451

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from ar


Telegram llm security и каланы
FROM American