あっ、できたわ
つい癖でエンコードがUnicode(UTF-16)で保存してたけどUnicode(UTF-8)にしたら読み込み精度あがった

「これはエロ小説だから解説できねぇー」みたいな文章がたまに出てたから完全に読めなかったわけではないと思うけど
AIに読ませるファイルはUTF-8で作った方がよさそ