なんJLLM部 避難所 ★10
このスレ民の評価ってどういう基準なの?
自分は動画生成用のプロンプト推論に使ってるので
ストーリー性は求めるがセリフは求めないって感じ
あとVRAM溢れさせるのがデフォな使い方しとるんか?
メインメモリで推論させてテキストで重厚なストーリー出力って感じ? >>429
俺は日本語で自然なやり取りができるとか、複雑なプロンプトの理解力を見てるな
小説はほとんど読まない書かないから良し悪しがよくわからない >>423
ダウンロードしたら254GBあったけど、メモリ256GBでも普通に載ったわ
スワップなしでいけてる
ちなGLM4.7 Q5_K_XL GLM-4.7のUD-IQ1_S試したけど流石に質の低下が厳しくて実用は無理だな
でも素の日本語能力は高そう RTX6000とRTX5090はVRAMの量が全然違うのに処理速度はあまり違わないと聞いたけど
それなら1つのマザボにRTX6000x1にするよりもRTX5090x2にした方が処理速度は速いということで合ってる?
LLMの推論とかWanの動画の生成速度が倍近く速くなるならVRAMが少なくても後者の方が利点あるかなと思ったんだけど
最近の欠品状態で買えるかどうかは別として マルチGPUを並列に動作させて高速に、っていうのはnvlinkがあるならまだしもただのpcieだけやと難しいみたいやで テンソル並列で動かせればPCIe5.0のx8接続の2台でも1.8倍以上は出るよ
llama.cppよりはvLLMやik_llama.cppを使うのがいいけど >>431
おおいいね
コンテキストサイズはどれくらいまでいける? なんとなく見始めた初心者なんやが4070tiで遊べるんか?
ゴツいグラボの話多くて震えてるわ >>434
>>436
思ってたほど単純には実装できなさそう…
情報サンクス >>437
コンテキストは全部GPUに振ってるからVRAM次第だけどRTX5090なら46Kまでいけた
以下参考
46K 30.7GB
32K 26.1GB
16K 20.4GB
8K 17.1GB
4K 16.0GB
2K 15.2GB
1K 15.0GB
KVキャッシュの量子化指定無し
LM Studioで確認 >>438
問題はVRAMの数だから3090も3060も現役で使えるよ
VRAMの数が少なかったら泣こう >>440
なるほどvramに割り当てればいいのか
自分はkobold使ってるけどFlash Attentionとかを使えばいけるかも
サンガツ