Chat VectorっていわゆるTask Vectorだよね?(MergekitでいうTask Arithmetic)
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな?面白いわ