ジブリのフリー素材を元にInternVL3.5の画像認識してみた。
ついでに別のモデルと比較してみた。

比較対照画像
https://i.imgur.com/qsieYr7.jpeg

プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字(OCR)、レイアウト、リスク(個人情報・著作権)、
推論(何が起きているか)を日本語で返してください。

画像解析レポート比較(InternVL3.5 / GLM-4.5V / ChatGPT-5)
https://rentry.org/gb3zddft

使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5

総合比較所見
InternVL3.5:全体像を捉えるが、OCRで誤認(「釧路」→「金路」)。記述は簡潔。
GLM-4.5V:服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5:人物の感情(慌てている・落ち着いている)など解釈を加えた推論が強み。