なんJLLM部 避難所 ★10
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured ローカルLLMもエロ規制が厳しくなって
過去モデルがオーパーツになったりするんやろか GLM4.7 Q5k_m
メモリ256Gに乗るかな?
使ってるニキいない? >>408
これそろそろマージされそうやけど、これを機能させるには
mxfp4なgguf使う必要あるんやろか
2〜3割高速化するようやがQ4よりは精度は落ちるんやろかね >>423
使ってはないけどQ5kmは254GBモデルなので256GB環境に乗せるのは無理だ >>422
すでにQwQ-32Bがオーパーツ化しつつあるわ
Qwen3-32Bは微妙に日本語性能が落ちてるし
他の32B以下モデルもQwQを超える日本語性能は出せてないように思う >>425
そりゃメモリだけなら無理だけど、GPUも動かすなら多分いけると思うで このスレ民の評価ってどういう基準なの?
自分は動画生成用のプロンプト推論に使ってるので
ストーリー性は求めるがセリフは求めないって感じ
あとVRAM溢れさせるのがデフォな使い方しとるんか?
メインメモリで推論させてテキストで重厚なストーリー出力って感じ? >>429
俺は日本語で自然なやり取りができるとか、複雑なプロンプトの理解力を見てるな
小説はほとんど読まない書かないから良し悪しがよくわからない >>423
ダウンロードしたら254GBあったけど、メモリ256GBでも普通に載ったわ
スワップなしでいけてる
ちなGLM4.7 Q5_K_XL GLM-4.7のUD-IQ1_S試したけど流石に質の低下が厳しくて実用は無理だな
でも素の日本語能力は高そう RTX6000とRTX5090はVRAMの量が全然違うのに処理速度はあまり違わないと聞いたけど
それなら1つのマザボにRTX6000x1にするよりもRTX5090x2にした方が処理速度は速いということで合ってる?
LLMの推論とかWanの動画の生成速度が倍近く速くなるならVRAMが少なくても後者の方が利点あるかなと思ったんだけど
最近の欠品状態で買えるかどうかは別として マルチGPUを並列に動作させて高速に、っていうのはnvlinkがあるならまだしもただのpcieだけやと難しいみたいやで テンソル並列で動かせればPCIe5.0のx8接続の2台でも1.8倍以上は出るよ
llama.cppよりはvLLMやik_llama.cppを使うのがいいけど >>431
おおいいね
コンテキストサイズはどれくらいまでいける? なんとなく見始めた初心者なんやが4070tiで遊べるんか?
ゴツいグラボの話多くて震えてるわ >>434
>>436
思ってたほど単純には実装できなさそう…
情報サンクス >>437
コンテキストは全部GPUに振ってるからVRAM次第だけどRTX5090なら46Kまでいけた
以下参考
46K 30.7GB
32K 26.1GB
16K 20.4GB
8K 17.1GB
4K 16.0GB
2K 15.2GB
1K 15.0GB
KVキャッシュの量子化指定無し
LM Studioで確認 >>438
問題はVRAMの数だから3090も3060も現役で使えるよ
VRAMの数が少なかったら泣こう >>440
なるほどvramに割り当てればいいのか
自分はkobold使ってるけどFlash Attentionとかを使えばいけるかも
サンガツ そういや5090だとGDDR7になったから帯域幅は4090の2倍近いんだっけ
でもグラボに乗り切るサイズならどっちにしろ爆速だからやっぱVRAM量だけ気にしてれば十分なのか まず容量ではあるけどVRAM帯域の差もよく効くから気にしたほうがいい 5090(購入済み)で今新規にPCを組もうと考えてるんだけどメモリは何GB積めば良い?
DDR5諦めてDDR4なら中古で安く買えるからM/B悩む
あとCPUはどの程度買えばいいだろ?LLMって言うほどCPU使わないよね? 今、メモリ買うのかい、夏まで1/5の値段だったのに >>445
MoEモデルをGPU+CPUでもそれなりに速く動かせるようになって
メインメモリもあればあるほどいい、になっとる
メインメモリが128GBあればVRAM32GBと合わせてQ4のQwen3-235bがコンテキスト減らせば動かせるかもわからん
ワイはそんなハード持っとらんから確認したわけじゃないし実際に動くかはわからんけど やりたいことはやったらいいけど
古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い
DRAMはDDR4で32〜64GBでもかなりぼったくり
相性問題も起きるジャンルだから保証なしで高額商品に突撃するのはかなり冒険 メインメモリ128GBだとQwen3 235BのQ4は多分無理。Q3になると思う。
積むなら256GBだね。
今ならDDR4のxeonかスリッパでも普通にDDR5-256GB買うより安くなるんじゃね?
知らんけど。 今はLLMもAI画像もAI動画も最低128GBは欲しいところ >古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い
実は、それするつもりでGPUと電源まで買ったんだけど、いざしようとしたら細かな設定が多すぎて新しく1台作りたくなって今になって悩み始めてる
ボッタクリと言っても今後値上がりするならむしろ安いかと
色々な予想を見ても2027年までは下がらないという話が増えた
中古ならほぼ新品含めてまだ安くあるしDDR4の使えるM/Bも今ならまだ普通に買える DDR5もなんとか買える価格
MoEはMacだけかと思ってたけどWindowsでもそれなりにできるようになってるのか
それで実際どこまで早く動くんやろ?RAMってVRAMと比べて速度遅いし気になる、
あとここまでRAM上がると、場合によっては5090*2でVRAM32*2や他の型番のVRAM多いGPUを複数の方が安くて早いとかもありえるかね?
そういう意味でもRAMをどこまで上げるか悩む
SD(AI画像)やってるけど1280で後で4Kに拡大してるけど32GBで十分と感じてるわ
あと、RAMはVRAMと比べて極端に遅いから溢れて使うことはほぼ無いわ ちょっと前のMI50は今買うddr5より容量単価安かったな… 金有りそうだからryzenAI max+ 128GBにM.2からのoculinkで5090を接続するのを試してほしい メインメモリ128GB&VRAM24GBでQ4のQwen3-235bが動いとるで
Windowsが不安定だからUbuntu LinuxのLM Studioでやっとる 今ってデカいメモリ持ってる場合の最適なモデルってQwen-3-235Bなの?
それ基準で考えてる人多いけど >>455
そこらへんがGemini向けに配布されたエロプロンプトが一応動く最低ラインや >>455
メインメモリ256GB載せてGLM(358B)動かすってのもありかも分からん
さすがにここまで来るとMoEといえども10token/s切るみたいやが MiniMax M2.1
Gemini 3 ProやClaude 4.5 Sonnetを上回るスコアを記録 とあるけどウソくせー
Qwenもそうだったけど実際に使うとメジャー級とじゃ相手にならん
いつものごとく試験問題の答えを学習しているカンニングモデルの気配 単に日本語応答だと学習量足りなくて雑魚になってるだけかもよ
あと前モデルのMiniMax M2はRedditでもコーディング以外駄目な子扱いされてたな
そのコーディングも絶賛って程じゃなかったがクリエイティブライティングは特に評判悪かった記憶 >>445
5090おめ
ワイの場合は1か月前だが、5090を買うぐらいならより安い予算でメモリガン積みのPCを新調したほうが良いと思い、
PCIE5.0規格に合わせてCPU,M/B,SSD全部そろえた
結果128GB+16GBでQwen3-235B-Q3が動いて世界が変わったで
というわけで128GBの下は64GBになると思うけどそれだととても勿体ないと思うよ
それにメインメモリに乗せて動かすと、やっぱりCPUパワーもそれなりに使う様だよ
財力があるならDDR4にするとか古いGPU2枚差し(これもやった)とか、変にケチらんほうがええよ 古いPCでDDR4-128GB(今のPCのGPUを付け替える)にしようかと思ってたけどDDR5にすべき?
メモリってベンチマークでは差が出るけど実際にはDDR4・5変わらないって話を聞いて悩んでる
実際の所どうなんだろ?
>>460
ありがとう ちょっと出遅れたけどキャンセルになることなくなんとか買えてさっき置き配回収した
世界が変わった、そこまでか!DDR5早い?
>>453
取り合えすStable DiffusionがメインでLLMも気になってるくらいだからまだ出せないわ
今のGemini3とnanobababaの品質ならすぐにでも買うけど多分まだまだだよね
ただ、AIさんに来年にはローカルでも同程度になるかと聞いたら、昨今のLLMの進歩を見るとなる可能性が高いとい言ってたw
しかもメモリも節約できるタイプが出るみたいな話で大変楽天的だった
場合によってはそこそこのPCを買って待つのもありじゃないかと思ったりしてる 5090持っててやるべきは、動画生成系だと思うよ
Stable Diffusionの生成スピードが速くなるけど、別にできないわけじゃない >>461
DDR4もDDR5もLLM用途だと相対的に見ればたいした差はないよ
DDR5の新品だと今の状況だと2倍以上の価格差になるので128GBまででいいならDDR4にしてその価格差で容量増やしたほうが絶対にいい
というかDDR5の64GBの2枚が30万ってうぇぇぇ・・・・ Gemini liveが手軽なサイズでローカルに降りてくるのはいつになることやら 昔見たPCI-Ex16にM.2 SSDを四枚挿してRAID0でSWAPdisk?だったかでメインメモリの代わりにしてデカいLLMを動かすのがいいかもしれない
PCI-E 5.0なら理論上は512Gbpsの帯域幅あるけど実際のところどうなんだろうね
まあSSDも値上がってるけど DDR4もどんどん生産終了になっていくとか聞いたしメモリは27年まで枯渇しっぱなしだし
数年待てないなら早く買った方がええな こんな状況だから来年は省メモリに最適化したLLMが出てくれると嬉しいな 性能を上げるためにモデルを巨大化した結果、メモリ不足になったわけで
高性能かつ省メモリなモデルができるならメモリ不足も起こってないという でもエロ学習をどんどん弾くようになってるし自力で簡単にモデル作れる世の中になるまで絶望的な予感 >>470
今まではメモリが調達できる状態だったからその方針で進んでいただけで
調達できなくなったらそれに適応するように方針を変えるやろ
他の分野でも必要なものが調達できなくなってからようやくその部分を代替・効率化する技術が発展するとかよくある話だし DDR4を入手よりも対応するマザーボードの入手が難しい
CPUやメモリは耐久性高いんだがマザーボードは大量の部品の集まりで故障しやすく中古はハイリスク 条件付きとはいえDDR4の生産終了が延期するらしい
DDR4がレガシー化してるとは言え、この動きが続けば俺としてはありがたい・・・
Samsungが主要顧客と「キャンセル・返品不可」の契約を締結しDDR4の生産終了を延期
https://gigazine.net/news/20251225-samsung-ddr4-ncnr/ 5090と192めもりあるから何かに有効活用したいけどやっぱり動画生成に向き合うのがいいのかなあ 64GBx2の価格が上がりすぎて、静電気怖くてAI用PC弄れん。 5090あるなら32BくらいまではQLoRAできるし画像生成系でもSDXLのfull finetuningもできるし学習なら割と遊べる Mac買い替えるんだけど、流石に128GBとかは買えないから買えて64GBなんだけどローカルのモデル動かすには中途半端なサイズなのかな?
LLMのこと考えなければ64GBなんて全然いらないんだけど今あるRTX5060Ti+128GB(DDR4)の環境より早くなるならありかなって。。 LLM用途で64GBは後悔することはあっても満足することは無いと思うで うーむ。ようやく化石PCから新調したけど思ったより速度出ないな。
magnum123b iQ3k_mを旧PCで0.17t/s
同Q8_0を新PCで0.41t/s
うーん、なにか設定ミスったかな。まあ、CPUメモリだしなぁ >>431
そちらの環境では何t/sでてますか?
こっちは1.89t/sでしたわ
GLM4.7 Q5_K_XL >>485
4.1t/sですわ
GLM4.7 Q5_K_XL 128GBでQ5で使える170Bくらいの良い感じのモデルが欲しい LM Studioでとりあえず色々なモデルダウンロードしてるんだけど
ふと思ったがファイルってそもそも安全なんだろうか? 何も考えずに ollama 使ってたけど直接 llama-server 叩いたほうが速いうえに webui も付いてたんだね
ollama ってなんのためにあるんだ… GLMくらいのサイズのMoEで要らないエキスパートを外せれば128GBでも動きそうだが
メモリ128GBの貧乏人のことを真剣に考えてくれる開発元はQwenくらいしかないのが悲しい現実 米欧中のモデルって中身がほとんど英語と中国語だから
日本語メインのユーザーから見たらスッカスカのsparse状態だよな
もちろん英中を抜いて精度が維持出来るわけではないだろうが
日本人があまりにも不利すぎる >>487
さんきゅ
コンテキストをVRAMに乗せて、メモリ設定をexpo1にしたら、generate 2.16t/sになったけど、まだ半分かぁ >>480 予算という制限は最優先だけろうけど64GBはちょっとつらい
Macはメモリ全部をVRAMに回せるんだけど、当然OSの
分が必要なわけで 8から10GByteは少なく見積もったほうがいい
もともとQ4対象とするモデル(gpt-ossとか)じゃないと劣化が激しくて
実用には程遠い(Q1で「動いた!」と夢を見てもねw)
最近MoEが流行ってきたせいで128GByteでもちょいちょい足りない
待てるならM5 maxを待った方がいいよ
M3チップから先のM系CPUは、mlxモデルなら量子化圧縮の他に内部でリアルタイムで
コストなしにメモリー圧縮してくれる
例えば100GByteのモデルだと80GByteくらいになることもある。当然まったく縮まないモデルもある
あと画像動画系はM4maxまでは使いもんにならんので素直にRTXを選択だ オープンなモデルで見ると中国製はまだ日本語わかる方で英語圏のはマジで日本語知らない
Llamaとかきついね
最初あれを日本語ファインチューニングしてた会社多かったけどqwenの方が日本語分かるってみんな乗り換えたし DRAM市場は価格変動が激しく、利益率が低いことで知られています。
特に、AIブームによるサーバー向け需要が優先され、PC向け供給が逼迫している現在、
ASUSのようなPCメーカーにとっては調達コストの上昇が深刻です。
噂では、ASUSが2026年に自社DRAM生産ラインを構築(または提携)するのは、
自社製品(ノートPC、デスクトップ)の供給を安定させ、価格転嫁を避けるためとされています。
しかし、この市場はSamsung、SK Hynix、Micronの「ビッグ3」が支配しており、
新規参入は資本集約的で収益化が難しい。台湾企業がこうした市場に手を出すのは、
単なるビジネスではなく、台湾の半導体エコシステム全体の戦略的強化を意図している可能性があります。
台湾政府は半導体を国家安全保障の柱と位置づけ、TSMCのようなファウンドリ(受託製造)だけでなく、
メモリ分野での自立を推進しています。これにより、中国依存を減らし、
米台同盟を強固にする地政学的メリットが生じます。 >>489
画像生成AIの初期にモデルデータに任意のコードを仕込めるのが発覚して
安全なSafetensorsやGGUFに移行したから今はほぼ大丈夫 >>484
PC新調したんやね
同じモデルで比較しなかったのはなんでだろ? >>498
書き忘れてたわw
iQ3k_mだと1.32t/sやった
Q8でここまで落ちるんかとショックだわ
>>487のニキと何が違うんやろ
多分スペック的には大差ないと思うけど
ryzen7 9800x3d msi rtx5090
メモリcp64g56c46u5✖4 256G
5090怖いんでPL運用 >>499
うひゃ、すごいな
俺は4年前のスリッパなんでそこまで性能良くない
俺のスペックはこれ
Threadripper Pro 5955WX(16c32t)
DDR4 3200MHz 32GB@8枚(オクタチャネル)
RTX 5090+RTX 3090@3枚 PCI4.0接続
違いはメモリ帯域かなと思ったけど
5955WXは2CCDという制約があって、メモリ帯域がまだフル稼働してない状態なんよ
実効帯域は半分の90GB/s弱のはず
これだとDDR5のハイエンドデスクトップと変わらんはずなんよね
Magnum v4 123B Q8試してみたけど0.58t/sだったので、GLM4.7ほどの差はない模様 >>500
すげーその構成でどれくらいの電源が必要ですか >>500
おおお
サーバでvram爆盛りやないすか
土俵が違いましたわw openRouterのGLM4.7はプレフィルにここの<think>のやつを入れたらだいだいOKだな
ただreasoningのほうに本文が全部入って帰ってくることになるからapi呼び出しコードとかちょっと修正がいるかも
ttps://www.reddit.com/r/SillyTavernAI/comments/1pv8jto/glm_47_my_holiday_present_to_those_effected_by/ 帰ってくることになるから ×
帰ってくることがあるから ◎ >>503
4.7の規制解除版が出るまで
huihui-ai/Huihui-GLM-4.6-abliterated-GGUF
これ使ってる
thinkオフにしてやるとレスポンス良くて使い勝手いい
しかも日本語エロ最高w ノベルはどこでみんなプロンプト勉強してるんだろ
学習場所みたいなの知りたい
ちなみに、SDはCivitaiなど先人のプロンプトが物凄く役に立った あと、ノベルに限らずLLMへの質問の仕方で回答かなり変わるしイマイチかん所が分からない Grok先生とのレスバが最強でしょ
GPTのエロ解禁でどう変わるか >>56
尻タブのキャラクターカードを参考にするといい
https://aicharactercards.com/
ピンキリだけど何の取っ掛かりもなく一人で試行錯誤するよりはだいぶマシだ モデルの進化に伴ってプロンプトの書き方は意味を失っていって、適切なコンテキストを渡せるかどうかの話になっていくから、今からプロンプト頑張っても1年2年で賞味期限切れになる気がする そもそもプログラム言語が書けなくても色々やらせられるのが画期的だったんだからそれを学ぶってのも変な話なんだよな ある程度は同レベルじゃないと会話が通じないのと同じで、AIに高度なことをさせようと思ったら自分自身にも知識が必要という AntiGravity時代やから的外れなコードやドキュメントを指示出しで軌道修正するスキルが一番大事や
書けない分からないじゃなく出してから考えるんや GLM4.7を量子化無しで動かしたいなあ
500万円あったら足りるんかね >>509
ありがとう
キャラクター設定を作るまでは分かったけどそれでどう楽しむのかが良く分からない
SDだとシンプルに画像を作ってみて楽しめるけどLLMはどうするん?
>>511
SD、2年やってるけど、プロンプトは基本的に同じだな、ただ関わってると大きな変更があると掲示板で話題になるからその時一部変更してそのまま移行できてる
>>514
そんなことはない、分からなければ聞けばいつまででも教えてくれる
サンプルプログラムを貼り付けるだけのスキルしか無いから、高度なこと(何が高度なのかすら分からない)は無理だと思うけど、
こんなスクリプト作ってと言って、動くまで繰り返したら中身の全く理解できないソフトができたりしてるわ しかも、Perlしか使えないのに、PythonでGUIなソフトまで作ってくれた
時間はかかるけど、どんな物が欲しいのか(可能なら途中の処理がはっきりしてれば)がはっきりすればある程度はできる時代だと思う
ただ、ファイルの読み書きみたいな基本的な事もお任せしてたら、最近それも忘れてきた、AIなしだと何もできなくなりそうな怖さある >>518
LLMはAIのシステムプロンプトに「あなたはこういう役割だからこういう風に振舞って」と基本ルールを記述しておく。
それとは別に「今からこういうことをして」というユーザープロンプトを与えると、基本ルールに沿った挙動で返信してくれる。
だから例えばAIに対して「あなたはファンタジー小説家です。私はあなたの担当編集者なので私の指示に従って小説を書いてください」という基本ルールを与えておいて
「それでは今から、物語の最初のシーンである勇者が冒険に旅立つ場面を書きましょう」とユーザープロンプトを与えるとファンタジー小説家らしく小説の冒頭を書き始めを生成してくれる。
スクリプト作るときも基本は同じやで。
AI画像生成、特に最近主流のリアスなんかはdanbooru語のプロンプトを与えるだけで良かったけど、LLMはもうちょっと設定の仕方が細かく分けられているって感じ。
さらにAIが理解しやすい記述方法にマークダウン記法とかを使った構造化プロンプトがあるからそれぐらいは覚えておいた方がいい。
構造化プロンプトはZ-image turboでも有効だと判明したからAI生成画像をやる場合でも覚えておいて損はないと思う。