マルチモーダルモデルの文字列以外のデータの扱いもそのデータを適当なパッチに分けてベクトルに埋め込んでるんで基本は同じだよ