なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0583名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 08:21:26.45ID:nATPkOzl0
>>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ?
5090 1枚(32GB) 15tk/s
5070Ti 2枚(32GB) ??tk/s
5070Ti 4枚(64GB) ??tk/s
5060Ti 2枚(32GB) ??tk/s
5060Ti 8枚(128GB) ??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか?
0585名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:13:45.23ID:A5W68e4G0
gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど(ddr5なら24は出るらしい)
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう
0586名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 11:41:48.05ID:7HEfMKtn0
PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど
0587名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:46:28.67ID:A5W68e4G0
あと5090単体でも15 tpsは低すぎるし設定ミスってそう
0588名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 13:19:34.11ID:91X6WRME0
今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん
0589名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 14:23:46.13ID:91X6WRME0
ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや

そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・
0590名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:11:50.24ID:A5W68e4G0
最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ
0591名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:19:32.10ID:A5W68e4G0
5090なら30前後出るのかな
0592名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 16:14:14.55ID:91X6WRME0
5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか
0593名無しさん@ピンキー (ワッチョイ d21e-lw50)2025/12/31(水) 17:28:14.16ID:PyLi1INM0
5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない?
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも(それでも今度はVRAMの帯域幅に律速されそうだけど)
0594名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 17:39:18.02ID:91X6WRME0
全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって
0595名無しさん@ピンキー (ワッチョイ b16a-h4RS)2025/12/31(水) 18:19:51.36ID:/BUKgy7e0
お年玉で買うか
0596名無しさん@ピンキー (ワッチョイ 8204-mqrN)2025/12/31(水) 20:12:38.30ID:A5W68e4G0
>>592
このモデルとb7588で再度試してみたけど自分の環境(5060ti)ではggml-org版と変わらないな(17.5 tps)
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも?
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる
レスを投稿する


ニューススポーツなんでも実況