Anthropicは3日(米国時間)、大規模言語モデル(LLM)の出力結果を制御するために設けられたガードレールを回避する手法「Many-shot jailbreaking」について、研究結果を公開した。今回の研究結果公表に先立って、AI開発に関わる研究機関や競合企業などと情報を共有し、自社AIモデルにおいてはすでにいくつかの緩和策を適用したという。
Source: PC Watch・テクノロジーの総合情報サイト
プロンプトに大量の対話を仕込んでAIのセーフガードを回避する手法。Anthropicが公開
投稿日: