空間把握については言語化があまりされてないから、文章生成AIの弱点なのかもしれない
マルチモーダル化が進めば写真とかから学習してある程度の能力は得られそうな気はする