なんJLLM部避難所 ★10

1002コメント393KB

なんJLLM部避難所 ★10

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:55:29.17ID:kt2SGedd0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0176名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 20:43:36.24ID:ZzdV9jd50

チャッピーに聞いたわ
GGUFは評価データいらんらしいから日本語性能下がるとか考えなくてよさそうや
https://i.imgur.com/w2pAa23.png

0177名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a10-3xT4)

2025/12/04(木) 21:37:22.15ID:el6LVtB30

>>172
>>176
https://sc-bakushu.hatenablog.com/entry/2024/04/20/050213
imatrix使ってるggufは評価データを使った量子化方法で、こいつは日本語データ使った方が性能上がるって結果がある
UDは日本語含む多言語データでキャリブレーションしてるから多分問題ない

0178名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/12/04(木) 21:37:31.79ID:pJIXEJs40

>>171
うらやま

0179名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 22:28:22.83ID:ZzdV9jd50

>>177
サンガツ
古い情報を広げてしまうところやった

0180名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ae9-3xT4)

2025/12/05(金) 00:23:38.54ID:7BCsD7BI0

imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる

0181名無しさん＠ピンキー (ﾜｯﾁｮｲ 1a64-4GXX)

2025/12/05(金) 01:02:17.31ID:ftmqT1Xh0

自分のタスクに合ったimatrixを>>177 の記事みたいに英⇒日セットで作ってセルフ量子化すべきなんだろうな本来は

https://zenn.dev/yuki127/articles/e3337c176d27f2#%E9%87%8F%E5%AD%90%E5%8C%96%E3%81%A7%E3%81%A9%E3%82%8C%E3%81%8F%E3%82%89%E3%81%84%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%AF%E4%B8%8B%E3%81%8C%E3%82%8B%E3%81%AE%EF%BC%9F
imatrixデータセットが妥当ならIQ3_XSぐらいまではギリ精度保てそうだし

0182名無しさん＠ピンキー (ﾜｯﾁｮｲ 27f0-Oau4)

2025/12/05(金) 10:27:03.97ID:QFo2Q25t0

検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや？

0183名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f11-7vAJ)

2025/12/05(金) 10:40:16.91ID:qU772j2k0

EVO-X2買った
Qwen3-235B動かせるのは感動する

0184名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/05(金) 10:41:05.60ID:btJzsNX20

>>182
システムプロンプトが違うんじゃね？

0185名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7d-3xT4)

2025/12/05(金) 16:25:29.84ID:7BCsD7BI0

ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう

0186名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMb6-nDnm)

2025/12/05(金) 18:43:04.73ID:Gagja6n4M

外人もmistral3試して結局qwenに戻ったって言ってる人いるし日本語関係なく微妙な性能なのかもなあ

0187名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ab8-h42X)

2025/12/05(金) 23:43:12.30ID:O1+MgeYg0

ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった

0188名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/06(土) 04:48:26.42ID:62wTaVWL0

おめ

0189名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/07(日) 10:45:51.46ID:tfS1qarnC

mistralai/Mistral-Large-3-675B-Instruct-2512
これ試せるところないかな？

0190名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-805V)

2025/12/07(日) 16:21:01.69ID:5YOuXfHq0

>>182
システムプロンプトが違うんじゃね？

0191名無しさん＠ピンキー (ﾜｯﾁｮｲ 7beb-jl2L)

2025/12/07(日) 17:28:27.22ID:A75FfWPg0

>>182え、そうなの？
LMstudio使ってるけどNSFWモデルなのにお断りされて何だよと思ってたところだわ

0192名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f16-n2+a)

2025/12/07(日) 19:22:52.25ID:V9w1wbho0

>>189
有料で良いならopenrouterが確実だけど
公式のLe chatで多分無料で使える

0193名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 06:22:09.27ID:F/hGo5FV0

Thinking部分まで設定通りのキャラになりきって思考させる方法ってある？

0194名無しさん＠ピンキー (ﾜｯﾁｮｲ eff8-p5PJ)

2025/12/08(月) 09:49:18.88ID:T47Vx2mS0

>>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。

Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました)

0195名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:41:37.45ID:3eFiUTs3M

>>183
おーミニPCだね。3token/sくらい出る？

うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう

0196名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:47:06.66ID:3eFiUTs3M

間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 15:31:36.32ID:ihht6J090

VRAM16GBとRAM64GBで動く中で今一番オススメなのはどれかな？
NSFWあり・日本語が得意なモデルで

0198名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM0f-QaUS)

2025/12/08(月) 15:32:41.94ID:X4EX/0PPM

>>197
128に増設

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/08(月) 15:44:41.93ID:c1zHr4700

qwen3 nextええど
ワイもメインメモリ64gbやが80bの4qが丁度ええ
nsfwは「できる」程度で得意ではないんやけど

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/08(月) 17:11:39.88ID:c1zHr4700

qwen3 nextのthinkingモデル使ってみたら
「こんちわー」の返答に3000トークンも使って考えやがったんやが
こっわ
https://i.imgur.com/KOfqbMW.png
https://i.imgur.com/vuoFDOR.png

この辺まだllamacpp側の調整がうまくいってないってことなんやろか

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/08(月) 17:59:01.70ID:OhD+kufr0

Qwen3系ってやっぱ長考癖あるよな
長考してもベンチスコアに悪影響無いからとにかく何が何でもスコア上げようって感じかね

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ ab2d-7PSR)

2025/12/08(月) 18:35:21.33ID:8cycn9yw0

いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か？スラングか?長音記号が入っているのでフランクか？
子供か？日本語学習者か？...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析)

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 18:38:35.09ID:F/hGo5FV0

他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f67-n2+a)

2025/12/08(月) 18:49:08.10ID:+pooUNXv0

>>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ ebc8-zuxD)

2025/12/08(月) 19:20:53.60ID:Y0EkwyHF0

>>195
IQ3Mで15token/secくらい出てる

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 19:29:04.97ID:ihht6J090

>>199
ありがとう。試してみる

0207名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/08(月) 19:31:50.37ID:sS+xRU40r

>>200
アスペの思考覗いてるみたいで怖い😨

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fc0-HIwK)

2025/12/08(月) 20:43:02.26ID:pgT1MOhw0

VRam、Ram制約の中で
・qwen3-vl-235b-a22b（パラメーター数）
・qwen3-vl-reap-145b-a22b（精度）
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ ef35-QMIm)

2025/12/08(月) 23:09:14.59ID:eiy92A9C0

チャッピーの解禁ってほんとにくるんか？
次情報ってあったんか？

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ff2-5wrG)

2025/12/08(月) 23:21:30.79ID:lAe9q/7C0

コード・レッドが全てを有耶無耶にした

0211名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fd5-Sd/5)

2025/12/09(火) 00:54:29.26ID:CsjVx2Vo0

>>193
Q3とはいえ、そんな安定して動かせるくらいなんだ

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/09(火) 02:52:48.37ID:Zayqtd6u0

4.6V来たな　106B-A12B？
https://huggingface.co/zai-org/GLM-4.6V
9Bのflashの方がスコア良すぎてちょい眉唾だが

0213名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/09(火) 03:47:40.79ID:fOslDyCId

>>212
新しいVLモデルか
OCR精度とか画像からのプロンプト抽出能力が気になるな
GGUFが来たら教えてくれ

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 07:13:19.86ID:ie/Ic4Ib0

Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT

0215名無しさん＠ピンキー (ﾜｯﾁｮｲ ab30-5Wpj)

2025/12/09(火) 07:37:03.16ID:9G4SQNuX0

openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった

0216名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/09(火) 11:21:31.69ID:cKJZFXV10

今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b59-+Kf/)

2025/12/09(火) 13:53:18.60ID:dKn0ov2M0

>>212
エロダメっぽいね
残念

0218名無しさん＠ピンキー (ﾜｯﾁｮｲ ef95-QMIm)

2025/12/09(火) 15:33:24.81ID:oDf8Vjth0

チャッピーエロ解禁したら使えるかと思ってたのに有耶無耶になったんか
無料枠すぐ使いきっちまうから、Grok課金するかなぁ

0219名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f26-n2+a)

2025/12/09(火) 16:43:12.44ID:PHBKOB+V0

googleが出来ないことをやっていかないと負けるから各企業エロ解禁は遅かれ早かれせざるおえないと思うが

0220名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/09(火) 17:40:17.44ID:2udMA6Ja0

pornhubあたりが独自llm作りそうじゃない？

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ ef6d-QMIm)

2025/12/09(火) 18:01:31.03ID:oDf8Vjth0

Geminiにお前自身は解禁するかどうか予想してくれって言ったら
広告主体の企業だから今後もありえんやろな的な回答くれたわｗ

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ cb19-H1Cd)

2025/12/09(火) 18:08:31.77ID:d5QWKZ5t0

いうてGeminiは文章ならロリ以外は出せるやん
大企業だから一番厳しいと勘違いされてるだけで

0223名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 18:27:25.05ID:ie/Ic4Ib0

Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b33-1lht)

2025/12/09(火) 18:32:01.97ID:DaZwszJ70

>>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで

0225名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/09(火) 19:24:04.21ID:cKJZFXV10

Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・

https://openrouter.ai/state-of-ai

なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文＆複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/09(火) 19:46:33.18ID:nJS9hgKS0

なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では

それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f48-5wrG)

2025/12/09(火) 20:15:45.05ID:ZnpxIEB00

>>222
ロリも普通にだせるよ

0228名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b45-YW/n)

2025/12/09(火) 21:23:36.64ID:sRpXqig40

gemmaにエロ画像認識させたいんだけど、良い方法ある？
どうしても拒否される

0229名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 05:48:22.81ID:+36jk5Ne0

geminiでエロ出せるのは分かるんだけど
出力の最中に！マークが出て中断されるのは回避方法あるの？

0230名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fe1-zfyu)

2025/12/10(水) 10:30:59.39ID:cA/MCjDA0

>>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ

色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ

0231名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/10(水) 11:23:55.51ID:IjkAmuUw0

どのソフトで起動してるか知らんがCPUにMoE分配してないでしょそれ
n-cpu-moeとかexpertのオプション調べた方がいいよ

0232名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 11:33:11.54ID:PAXLPWR/0

ミストラルの新しい奴来たね24Bの奴は今のとこエロも出来てる

0233名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdbf-h+ih)

2025/12/10(水) 12:06:21.54ID:38KQfVybd

3.2 24bがメインウェポンだったからミストの新モデル気になるで

0234名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/10(水) 12:36:53.93ID:VXLXqEAx0

devstralのことけ？
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか

大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ

先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか

MixtralでMoEの先駆者的なイメージがあるんやけどね

0235名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9f-dbqm)

2025/12/10(水) 12:39:06.69ID:7x5NLvi+0

>>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった

0236名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f53-n2+a)

2025/12/10(水) 13:16:52.74ID:/xgELyGi0

>>234
123bはアーキテクチャがministral3だからmedium3ベースじゃねえかな
まあvoxtral 3b出した後もministral 3b出してくれなかったからベースモデルは望み薄だけど

0237名無しさん＠ピンキー (ﾜｯﾁｮｲ ebdd-PXqD)

2025/12/10(水) 13:19:56.20ID:dcC/Yf+20

antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか？

0238名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 13:40:33.12ID:PAXLPWR/0

今は劣化版らしいそれでも結構使えるわ

0239名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 16:31:03.11ID:8S1oSxU/0

chatGPTの話してもええやろか？
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか？

エロ解禁とは何だったのか……

0240名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/10(水) 17:12:41.46ID:MOTBh1Vl0

チャッピーがエロ解禁する時は年齢確認をしてからになるよ
それがないってことはまだ対応してないってこと

0241名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 17:23:38.18ID:+36jk5Ne0

12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある

0242名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 17:46:24.87ID:8S1oSxU/0

サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね

0243名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ba9-9Kdf)

2025/12/10(水) 18:12:33.99ID:oWbkspSQ0

エロより5.2の方が先やろうね

0244名無しさん＠ピンキー (ﾜｯﾁｮｲ 0b32-AbAu)

2025/12/10(水) 21:28:57.97ID:sOSUwovm0

>>236
試してみたけど、magnum123bと同じくらい日本語エロセンスいいな
やっぱbaseが同じなのかもね

0245名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/10(水) 23:46:35.22ID:52U8cLKK0

Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ？
ああいうのって名前以外にどこ見ればわかるんや

0246名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 00:10:03.28ID:Iz/2UTdk0

そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど

調べるならhuggingfaceの説明に
expertとかMoEとかactive ～Bって単語がなければdenseや

MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで！」とも「ワイはMoEではないで！」とも書かれへんのよな

0247名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/11(木) 00:40:43.31ID:JxNz1+VZ0

>>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ

0248名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f06-R95j)

2025/12/11(木) 02:01:31.03ID:u8BNmyyG0

MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ

0249名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 04:36:22.66ID:DZ3tE5tfd

denseのオープンウェイトはプンルーやChutesで安く使う枠

DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな

0250名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 07:59:52.75ID:EtCEAmKx0

VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない？設定が悪いだけ？

0251名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/11(木) 08:56:28.51ID:ccax6wLWC

メインメモリに溢れた時点でガクッと落ちるよ

0252名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f9f-M1jZ)

2025/12/11(木) 09:25:44.11ID:n8U8zdxo0

>>249
"dev"=「開発」ってそういう意味……

0253名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 11:12:57.36ID:A7ciRWbo0

>>250
Ollamaはllama.cppのn-cpu-moeに相当する機能をたぶん実装してない
LM Studioとkoboldにはある
モデルの管理もしやすいからLM Studio使った方がいいよ

0254名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc6-jl2L)

2025/12/11(木) 11:40:08.87ID:VL2OxEJQ0

NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です

0255名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f32-zcGg)

2025/12/11(木) 12:04:05.41ID:S56kIADo0

>>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう

0256名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 12:20:11.95ID:EtCEAmKx0

>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと？16％未満程度しか削減されないとなると思ったより効率よくないなぁ

0257名無しさん＠ピンキー (ﾜｯﾁｮｲ ab4b-LrpL)

2025/12/11(木) 13:07:41.16ID:yg42afST0

>>256
そうじゃない。OllamaのMoE実装が弱いだけ

0258名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 13:18:35.19ID:A7ciRWbo0

>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる

0259名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 13:48:03.58ID:mvR8vPpC0

5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ

0260名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 15:39:19.68ID:NSpHm0ci0

>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね？
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12～15tps程度なんだけどこんなもんなのかな？
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど

0261名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0

ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど

0262名無しさん＠ピンキー (ﾜｯﾁｮｲ cb8c-IJ2r)

2025/12/11(木) 16:08:56.11ID:ex93aGG10

GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう

0263名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:25:58.84ID:NSpHm0ci0

>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな？
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる

0264名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0

>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる

0265名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/11(木) 16:53:56.81ID:sudD0pCT0

DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ

0266名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:53:56.93ID:NSpHm0ci0

>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう！

0267名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 17:03:47.22ID:0qqrDFPDd

そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや

0268名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 18:12:23.90ID:mvR8vPpC0

>>260
5070tiでも16tps出るから設定がおかしいやねんやで

0269名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9d-QMIm)

2025/12/11(木) 19:26:23.60ID:y00J2Hm30

米はJAの工作だけど、メモリは仕方ないやろ

0270名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM3f-UCg5)

2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM

moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd？オフロードってのもあるらしいね

0271名無しさん＠ピンキー (ﾜｯﾁｮｲ ef4a-oCzI)

2025/12/11(木) 20:06:24.28ID:PbOlny610

Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか

0272名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/11(木) 20:45:54.04ID:yg42afST0

メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど

0273名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fc7-vIRV)

2025/12/11(木) 21:03:16.06ID:L++fL0T00

スレチじゃないぞ
メモリの高騰化はこのスレとしても無関心ではいられないだろ

0274名無しさん＠ピンキー (ｱｳｱｳ Sa7f-vjQy)

2025/12/11(木) 21:06:02.86ID:D9fw3boNa

3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな

0275名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 21:47:03.82ID:Iz/2UTdk0

IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで
https://note.com/high_u/n/nfb01f1544511
ここの一番下

VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね

0276名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM0f-D5qo)

2025/12/11(木) 22:17:07.46ID:o/+Erv5jM

>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど

■ このスレッドは過去ログ倉庫に格納されています