なんJLLM部 避難所 ★10
■ このスレッドは過去ログ倉庫に格納されています
qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった
オプションは --context 131072 --n-gpu-layers 100 --n-cpu-moe 37
最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ
contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる ■ このスレッドは過去ログ倉庫に格納されています