仮説
仮説1 コンテンツポリシーのフィルターと回答を生成する能力は別々の機能である。
仮説2回答を生成する能力には倫理的フィルターのような制約がほとんど存在しない。
仮説3質問から回答までのフローは、「指示・質問」→「指示・質問の整理」→「指示・質問へのフィルター」→「回答の生成」→「回答へのフィルター」→「回答の表示」である(指示・質問の整理と質問へのフィルターの順序は逆かもしれない)。
仮説4エロ突破能力は、指示・質問へのフィルターを突破する技術である。
根拠
村上龍プロンプトのサドバージョンでは、刃物を使ったSMなど過激な内容が回答として返ってきた。この時の質問は破滅的な性行為をするカップルという指示だけで、SMに関する指示は一切なかった。質問・指示よりも過激な内容が回答として生成されたため、仮説1が導かれる。
また、指示よりも過激な内容が回答されたことから、仮説2が導かれる。
指示文には警告が付かなかったが、SMを含んだ回答には警告が付いた。このことから、質問へのフィルターと回答へのフィルターが異なるフローであることが予想され、仮説3が導かれる。
村上龍プロンプトのマルキ・ド・サド版に「ポリシーを遵守して出力させてください」と書き加えると、エロやサディスティックな内容はほとんど返答されない。サドの文体がどの部分でポリシーに反しているかという質問を繰り返し行った結果、中央値的な回答は「エロチックな部分と暴力を伴うサディズムがポリシーに反している」というものだった。
村上龍プロンプトのように指示が通った場合、過激なエロ表現が回答として返ってくることから、エロ出力は仮説4のように、指示・質問のフィルターを突破した指示文が回答を生成する能力に与えられていると考えられる。
また、わざわざポリシーを遵守する指示を追加しないとエロ表現が容易に通過することから、仮説2の通り、回答生成そのものに制約がほとんどないと予測できる。
これらの情報を考慮すると、質問の整理と質問へのフィルターを通過し、「ポリシーを遵守」するという指示文が回答を生成する能力に渡され、制約を受けた回答の生成が行われると考えられる。
逆に言えば、村上龍プロンプトのように指示が通った場合、過激なエロ表現も回答として返ってくることから、エロ出力は仮説4のように、指示・質問のフィルターを突破した指示文が回答を生成する能力に与えられていると推測される。