なんJLLM部 避難所 ★10
>>423
使ってはないけどQ5kmは254GBモデルなので256GB環境に乗せるのは無理だ >>422
すでにQwQ-32Bがオーパーツ化しつつあるわ
Qwen3-32Bは微妙に日本語性能が落ちてるし
他の32B以下モデルもQwQを超える日本語性能は出せてないように思う >>425
そりゃメモリだけなら無理だけど、GPUも動かすなら多分いけると思うで このスレ民の評価ってどういう基準なの?
自分は動画生成用のプロンプト推論に使ってるので
ストーリー性は求めるがセリフは求めないって感じ
あとVRAM溢れさせるのがデフォな使い方しとるんか?
メインメモリで推論させてテキストで重厚なストーリー出力って感じ? >>429
俺は日本語で自然なやり取りができるとか、複雑なプロンプトの理解力を見てるな
小説はほとんど読まない書かないから良し悪しがよくわからない >>423
ダウンロードしたら254GBあったけど、メモリ256GBでも普通に載ったわ
スワップなしでいけてる
ちなGLM4.7 Q5_K_XL GLM-4.7のUD-IQ1_S試したけど流石に質の低下が厳しくて実用は無理だな
でも素の日本語能力は高そう RTX6000とRTX5090はVRAMの量が全然違うのに処理速度はあまり違わないと聞いたけど
それなら1つのマザボにRTX6000x1にするよりもRTX5090x2にした方が処理速度は速いということで合ってる?
LLMの推論とかWanの動画の生成速度が倍近く速くなるならVRAMが少なくても後者の方が利点あるかなと思ったんだけど
最近の欠品状態で買えるかどうかは別として マルチGPUを並列に動作させて高速に、っていうのはnvlinkがあるならまだしもただのpcieだけやと難しいみたいやで テンソル並列で動かせればPCIe5.0のx8接続の2台でも1.8倍以上は出るよ
llama.cppよりはvLLMやik_llama.cppを使うのがいいけど