なんJLLM部避難所 ★2

>>398
うちだと４.5tps位出るから、ギリギリではあるがパフォーマンスはリアルタイムチャットできるくらい出るよ

あと、そういや昨日言い忘れたんだが、llama-cpp-pythonででかいモデル走らせるとき、コンストラクタの引数でuse_mlockをTrueに設定したほうがいい
そうしないとmacOSが推論のたびにメモリを開放するせいで推論前の待ち時間がめっちゃ伸びる