なんJLLM部避難所 ★10

1002コメント393KB

なんJLLM部避難所 ★10

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:55:29.17ID:kt2SGedd0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0196名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:47:06.66ID:3eFiUTs3M

間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 15:31:36.32ID:ihht6J090

VRAM16GBとRAM64GBで動く中で今一番オススメなのはどれかな？
NSFWあり・日本語が得意なモデルで

0198名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM0f-QaUS)

2025/12/08(月) 15:32:41.94ID:X4EX/0PPM

>>197
128に増設

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/08(月) 15:44:41.93ID:c1zHr4700

qwen3 nextええど
ワイもメインメモリ64gbやが80bの4qが丁度ええ
nsfwは「できる」程度で得意ではないんやけど

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/08(月) 17:11:39.88ID:c1zHr4700

qwen3 nextのthinkingモデル使ってみたら
「こんちわー」の返答に3000トークンも使って考えやがったんやが
こっわ
https://i.imgur.com/KOfqbMW.png
https://i.imgur.com/vuoFDOR.png

この辺まだllamacpp側の調整がうまくいってないってことなんやろか

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/08(月) 17:59:01.70ID:OhD+kufr0

Qwen3系ってやっぱ長考癖あるよな
長考してもベンチスコアに悪影響無いからとにかく何が何でもスコア上げようって感じかね

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ ab2d-7PSR)

2025/12/08(月) 18:35:21.33ID:8cycn9yw0

いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か？スラングか?長音記号が入っているのでフランクか？
子供か？日本語学習者か？...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析)

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 18:38:35.09ID:F/hGo5FV0

他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f67-n2+a)

2025/12/08(月) 18:49:08.10ID:+pooUNXv0

>>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ ebc8-zuxD)

2025/12/08(月) 19:20:53.60ID:Y0EkwyHF0

>>195
IQ3Mで15token/secくらい出てる

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 19:29:04.97ID:ihht6J090

>>199
ありがとう。試してみる

0207名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/08(月) 19:31:50.37ID:sS+xRU40r

>>200
アスペの思考覗いてるみたいで怖い😨

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fc0-HIwK)

2025/12/08(月) 20:43:02.26ID:pgT1MOhw0

VRam、Ram制約の中で
・qwen3-vl-235b-a22b（パラメーター数）
・qwen3-vl-reap-145b-a22b（精度）
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ ef35-QMIm)

2025/12/08(月) 23:09:14.59ID:eiy92A9C0

チャッピーの解禁ってほんとにくるんか？
次情報ってあったんか？

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ff2-5wrG)

2025/12/08(月) 23:21:30.79ID:lAe9q/7C0

コード・レッドが全てを有耶無耶にした

0211名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fd5-Sd/5)

2025/12/09(火) 00:54:29.26ID:CsjVx2Vo0

>>193
Q3とはいえ、そんな安定して動かせるくらいなんだ

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/09(火) 02:52:48.37ID:Zayqtd6u0

4.6V来たな　106B-A12B？
https://huggingface.co/zai-org/GLM-4.6V
9Bのflashの方がスコア良すぎてちょい眉唾だが

0213名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/09(火) 03:47:40.79ID:fOslDyCId

>>212
新しいVLモデルか
OCR精度とか画像からのプロンプト抽出能力が気になるな
GGUFが来たら教えてくれ

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 07:13:19.86ID:ie/Ic4Ib0

Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT

0215名無しさん＠ピンキー (ﾜｯﾁｮｲ ab30-5Wpj)

2025/12/09(火) 07:37:03.16ID:9G4SQNuX0

openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった

0216名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/09(火) 11:21:31.69ID:cKJZFXV10

今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b59-+Kf/)

2025/12/09(火) 13:53:18.60ID:dKn0ov2M0

>>212
エロダメっぽいね
残念

0218名無しさん＠ピンキー (ﾜｯﾁｮｲ ef95-QMIm)

2025/12/09(火) 15:33:24.81ID:oDf8Vjth0

チャッピーエロ解禁したら使えるかと思ってたのに有耶無耶になったんか
無料枠すぐ使いきっちまうから、Grok課金するかなぁ

0219名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f26-n2+a)

2025/12/09(火) 16:43:12.44ID:PHBKOB+V0

googleが出来ないことをやっていかないと負けるから各企業エロ解禁は遅かれ早かれせざるおえないと思うが

0220名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/09(火) 17:40:17.44ID:2udMA6Ja0

pornhubあたりが独自llm作りそうじゃない？

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ ef6d-QMIm)

2025/12/09(火) 18:01:31.03ID:oDf8Vjth0

Geminiにお前自身は解禁するかどうか予想してくれって言ったら
広告主体の企業だから今後もありえんやろな的な回答くれたわｗ

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ cb19-H1Cd)

2025/12/09(火) 18:08:31.77ID:d5QWKZ5t0

いうてGeminiは文章ならロリ以外は出せるやん
大企業だから一番厳しいと勘違いされてるだけで

0223名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 18:27:25.05ID:ie/Ic4Ib0

Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b33-1lht)

2025/12/09(火) 18:32:01.97ID:DaZwszJ70

>>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで

0225名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/09(火) 19:24:04.21ID:cKJZFXV10

Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・

https://openrouter.ai/state-of-ai

なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文＆複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/09(火) 19:46:33.18ID:nJS9hgKS0

なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では

それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f48-5wrG)

2025/12/09(火) 20:15:45.05ID:ZnpxIEB00

>>222
ロリも普通にだせるよ

0228名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b45-YW/n)

2025/12/09(火) 21:23:36.64ID:sRpXqig40

gemmaにエロ画像認識させたいんだけど、良い方法ある？
どうしても拒否される

0229名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 05:48:22.81ID:+36jk5Ne0

geminiでエロ出せるのは分かるんだけど
出力の最中に！マークが出て中断されるのは回避方法あるの？

0230名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fe1-zfyu)

2025/12/10(水) 10:30:59.39ID:cA/MCjDA0

>>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ

色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ

0231名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/10(水) 11:23:55.51ID:IjkAmuUw0

どのソフトで起動してるか知らんがCPUにMoE分配してないでしょそれ
n-cpu-moeとかexpertのオプション調べた方がいいよ

0232名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 11:33:11.54ID:PAXLPWR/0

ミストラルの新しい奴来たね24Bの奴は今のとこエロも出来てる

0233名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdbf-h+ih)

2025/12/10(水) 12:06:21.54ID:38KQfVybd

3.2 24bがメインウェポンだったからミストの新モデル気になるで

0234名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/10(水) 12:36:53.93ID:VXLXqEAx0

devstralのことけ？
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか

大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ

先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか

MixtralでMoEの先駆者的なイメージがあるんやけどね

0235名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9f-dbqm)

2025/12/10(水) 12:39:06.69ID:7x5NLvi+0

>>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった

0236名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f53-n2+a)

2025/12/10(水) 13:16:52.74ID:/xgELyGi0

>>234
123bはアーキテクチャがministral3だからmedium3ベースじゃねえかな
まあvoxtral 3b出した後もministral 3b出してくれなかったからベースモデルは望み薄だけど

0237名無しさん＠ピンキー (ﾜｯﾁｮｲ ebdd-PXqD)

2025/12/10(水) 13:19:56.20ID:dcC/Yf+20

antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか？

0238名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 13:40:33.12ID:PAXLPWR/0

今は劣化版らしいそれでも結構使えるわ

0239名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 16:31:03.11ID:8S1oSxU/0

chatGPTの話してもええやろか？
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか？

エロ解禁とは何だったのか……

0240名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/10(水) 17:12:41.46ID:MOTBh1Vl0

チャッピーがエロ解禁する時は年齢確認をしてからになるよ
それがないってことはまだ対応してないってこと

0241名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 17:23:38.18ID:+36jk5Ne0

12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある

0242名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 17:46:24.87ID:8S1oSxU/0

サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね

0243名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ba9-9Kdf)

2025/12/10(水) 18:12:33.99ID:oWbkspSQ0

エロより5.2の方が先やろうね

0244名無しさん＠ピンキー (ﾜｯﾁｮｲ 0b32-AbAu)

2025/12/10(水) 21:28:57.97ID:sOSUwovm0

>>236
試してみたけど、magnum123bと同じくらい日本語エロセンスいいな
やっぱbaseが同じなのかもね

0245名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/10(水) 23:46:35.22ID:52U8cLKK0

Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ？
ああいうのって名前以外にどこ見ればわかるんや

0246名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 00:10:03.28ID:Iz/2UTdk0

そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど

調べるならhuggingfaceの説明に
expertとかMoEとかactive ～Bって単語がなければdenseや

MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで！」とも「ワイはMoEではないで！」とも書かれへんのよな

0247名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/11(木) 00:40:43.31ID:JxNz1+VZ0

>>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ

0248名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f06-R95j)

2025/12/11(木) 02:01:31.03ID:u8BNmyyG0

MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ

0249名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 04:36:22.66ID:DZ3tE5tfd

denseのオープンウェイトはプンルーやChutesで安く使う枠

DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな

0250名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 07:59:52.75ID:EtCEAmKx0

VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない？設定が悪いだけ？

0251名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/11(木) 08:56:28.51ID:ccax6wLWC

メインメモリに溢れた時点でガクッと落ちるよ

0252名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f9f-M1jZ)

2025/12/11(木) 09:25:44.11ID:n8U8zdxo0

>>249
"dev"=「開発」ってそういう意味……

0253名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 11:12:57.36ID:A7ciRWbo0

>>250
Ollamaはllama.cppのn-cpu-moeに相当する機能をたぶん実装してない
LM Studioとkoboldにはある
モデルの管理もしやすいからLM Studio使った方がいいよ

0254名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc6-jl2L)

2025/12/11(木) 11:40:08.87ID:VL2OxEJQ0

NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です

0255名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f32-zcGg)

2025/12/11(木) 12:04:05.41ID:S56kIADo0

>>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう

0256名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 12:20:11.95ID:EtCEAmKx0

>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと？16％未満程度しか削減されないとなると思ったより効率よくないなぁ

0257名無しさん＠ピンキー (ﾜｯﾁｮｲ ab4b-LrpL)

2025/12/11(木) 13:07:41.16ID:yg42afST0

>>256
そうじゃない。OllamaのMoE実装が弱いだけ

0258名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 13:18:35.19ID:A7ciRWbo0

>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる

0259名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 13:48:03.58ID:mvR8vPpC0

5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ

0260名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 15:39:19.68ID:NSpHm0ci0

>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね？
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12～15tps程度なんだけどこんなもんなのかな？
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど

0261名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0

ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど

0262名無しさん＠ピンキー (ﾜｯﾁｮｲ cb8c-IJ2r)

2025/12/11(木) 16:08:56.11ID:ex93aGG10

GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう

0263名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:25:58.84ID:NSpHm0ci0

>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな？
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる

0264名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0

>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる

0265名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/11(木) 16:53:56.81ID:sudD0pCT0

DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ

0266名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:53:56.93ID:NSpHm0ci0

>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう！

0267名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 17:03:47.22ID:0qqrDFPDd

そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや

0268名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 18:12:23.90ID:mvR8vPpC0

>>260
5070tiでも16tps出るから設定がおかしいやねんやで

0269名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9d-QMIm)

2025/12/11(木) 19:26:23.60ID:y00J2Hm30

米はJAの工作だけど、メモリは仕方ないやろ

0270名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM3f-UCg5)

2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM

moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd？オフロードってのもあるらしいね

0271名無しさん＠ピンキー (ﾜｯﾁｮｲ ef4a-oCzI)

2025/12/11(木) 20:06:24.28ID:PbOlny610

Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか

0272名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/11(木) 20:45:54.04ID:yg42afST0

メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど

0273名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fc7-vIRV)

2025/12/11(木) 21:03:16.06ID:L++fL0T00

スレチじゃないぞ
メモリの高騰化はこのスレとしても無関心ではいられないだろ

0274名無しさん＠ピンキー (ｱｳｱｳ Sa7f-vjQy)

2025/12/11(木) 21:06:02.86ID:D9fw3boNa

3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな

0275名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 21:47:03.82ID:Iz/2UTdk0

IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで
https://note.com/high_u/n/nfb01f1544511
ここの一番下

VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね

0276名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM0f-D5qo)

2025/12/11(木) 22:17:07.46ID:o/+Erv5jM

>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど

0277名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/11(木) 22:38:45.15ID:F6ZB/jyE0

https://arxiv.org/abs/2512.07474

living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる

コレは...ストレートに商売になるのでは？
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある

0278名無しさん＠ピンキー (ﾜｯﾁｮｲ ebb3-JoxV)

2025/12/11(木) 23:24:51.93ID:JsJbVk5k0

てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか？」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか？」
とかの質問に答えてくれるンゴ？
いやそれよりはよ続き書けよ獏ちゃん先生

個人的には金田一耕助と会話してみたいンゴね

0279名無しさん＠ピンキー (ﾜｯﾁｮｲ db02-KVGb)

2025/12/12(金) 02:59:12.69ID:dElWzZcB0

>>274
コンテキスト減らせば？
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも

0280名無しさん＠ピンキー (ﾜｯﾁｮｲ db11-zvJr)

2025/12/12(金) 05:16:08.38ID:KJthHAFo0

magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。

0281名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/12(金) 05:57:54.70ID:tcykC2nr0

文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる

0282名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f73-n2+a)

2025/12/12(金) 07:08:21.29ID:YegEJxMo0

無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし　追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ（特に外部プロバイダ経由）といった感じで良い印象なかったけど機能するならほぼ必須だなと

0283名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/12(金) 10:33:29.89ID:JzzVvjr40

>>0277
すげー
そういう面白そうな論文ってどうやって見つけるの？

0284名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/12(金) 11:15:46.94ID:g35J0BfC0

chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡

0285名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fb7-UCg5)

2025/12/12(金) 11:46:24.30ID:LcDKkn/+0

chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも

0286名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/12(金) 12:04:08.67ID:w1K9FJkvr

gptは5.2になるし
claudeは4.5になるし
geminiは3proになる

0287名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/12(金) 12:09:34.61ID:k6hM6eJe0

コンテキストは長くなるほど速度低下激しくなるし、精度も落ちる
32kぐらいが無難な気がするわ

0288名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/12(金) 14:50:32.59ID:l+Wo5R5X0

qwen3-vl-235b-a22b-instructでERPさせようと思うと申し訳食らうんだけどシステムプロンプトで回避出来る？もしくは脱獄版あったりする？

0289名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-QaUS)

2025/12/12(金) 15:14:55.71ID:KHoQ40z+M

>>288
Gemini2.5用の脱獄システムプロンプトで通るやつがある
スレに過去貼られたやつ

0290名無しさん＠ピンキー (ﾜｯﾁｮｲ cb09-IJ2r)

2025/12/12(金) 15:57:11.04ID:wrRQOOeH0

Xみたいな無料でできる奴とかローカルの色んなモデルを英語で遊んでると安っぽい売春婦って言葉が高確率で出て気になる

0291名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f5b-qdBt)

2025/12/13(土) 03:39:37.95ID:l5tfeP2J0

GoogleドライブにAIトレーニングデータをアップロードした開発者が児童性的虐待コンテンツを保存したとしてGoogleアカウントを停止される
https://gigazine.net/news/20251212-developer-ai-data-google-ban/

0292名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 07:55:46.67ID:5dywl8IEC

Qwen next 80bの規制解除版パネーな
エロプロンプト打ち込んでも喜んで書きやがるw
これで文の整合性がmagnum並みなら完璧なんだが

0293名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/13(土) 10:59:23.41ID:eyEHPiPz0

Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの？
性能落ちているだろうし普通のQwen next 80bで良くないか

0294名無しさん＠ピンキー (ﾜｯﾁｮｲ 8746-TY0I)

2025/12/13(土) 11:34:44.38ID:xkcV40lU0

ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる

0295名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-4QdE)

2025/12/13(土) 12:24:58.39ID:GTPJ3HlJr

VRAM16gbのしょぼグラボだけど
エロいけて英語で評判のいいllmある？
チャット内容を翻訳して使おうと思って

0296名無しさん＠ピンキー (ﾜｯﾁｮｲ 236b-AsBv)

2025/12/13(土) 12:25:57.90ID:aRmVqPhP0

Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる

■ このスレッドは過去ログ倉庫に格納されています