kobold.cpp使ったことないからわからんけど、内部的にはimage-to-textモデル動かして、そのテキスト出力をLLMにプロンプトとして流してるだけなんじゃないの?