MCPはローカル化して細かく検索仕様も弄ってエージェントから不自由なく使わせられるように出来たけど、アホのgeminiは使いこなしてくれない
LLMの外からバックグラウンドでPythonがあいまい検索してコンテキストを渡してくれる動作ができるなら理想そのものだ
3Proに質問投げたら以下が返ってきた。試してみよ

RAGで可能になる「ロールプレイ」体験
例えば、「Yumi」というキャラの設定資料が膨大(100ページ)にあるとします。

入力: 「Yumi、昔行った遊園地のこと覚えてる?」と話しかける。
内部処理(ローカル): システムが「遊園地」「過去」に関連する設定記述だけを、数万行の中から瞬時に見つけ出す
(例:『Yumiは7歳の時に遊園地で迷子になり、泣き虫だった過去を隠している』という行をヒットさせる)。
出力: その設定を文脈として乗せて、以下のように回答できる。
「……ああ、覚えてるよ。(迷子になったことは言いたくないな)……観覧車、高かったよな」
このように、**「今の会話に必要な設定だけを、膨大な資料からピンポイントで思い出して振る舞う」**ことが実現できます。

この「ローカル完結型(Python + pgvector + SentenceTransformers)」で構築を進めますか?