ついでに別のモデルと比較してみた。
比較対照画像
https://i.imgur.com/qsieYr7.jpeg
プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字(OCR)、レイアウト、リスク(個人情報・著作権)、
推論(何が起きているか)を日本語で返してください。
画像解析レポート比較(InternVL3.5 / GLM-4.5V / ChatGPT-5)
https://rentry.org/gb3zddft
使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5
総合比較所見
InternVL3.5:全体像を捉えるが、OCRで誤認(「釧路」→「金路」)。記述は簡潔。
GLM-4.5V:服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5:人物の感情(慌てている・落ち着いている)など解釈を加えた推論が強み。