なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0053名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 10:55:02.41ID:wpv3SsfJ0
ローカルllmのロールプレイやりたくてデスクとノートで70B q4をllama のpp並列(Vram 合計56G)で動かせたんだけど、70Bのモデルで十分なんかな?まだsillytavern 入れてやり始めたばっかだから設定が悪いかもしれないが、まぁ同じ言葉繰り返したりしまくるんだよね。
120Bをcpu オフロードしてでも使うべきなのかなーとか。みんな何モデルでロールプレイしてるの?
0054名無しさん@ピンキー (ワッチョイ df20-1/gi)2025/11/27(木) 11:21:23.63ID:gFA6hyjM0
>>53
初めてならまずはberghof ERP 7Bでsilly tavernロールプレイやるのおすすめやで
コンテキストテンプレートはChatMLやで
後はチャッピーにでもberghof用のおすすめパラメータ設定を聞いて微調整すればよし
まずこれを体験してからこれを超えるモデルを探し続けることや
ワイは応答速度や日本語表現の堅苦しさとかで結局未だにこれを超える物に出会えとらん
0056名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 13:02:15.42ID:wpv3SsfJ0
>>54
ありがとう、7Bモデルで十分やったんか…わからんまま手を出したらあかんな、余計なクラスタ組んでしまった。ubuntu x2のinfiniband 接続とかやってみたが混合GPU 環境でのllama じゃ意味なかったしな…
chatml もわからんから調べてみるわ。
0058名無しさん@ピンキー (ワッチョイ df32-ylw2)2025/11/27(木) 14:24:18.17ID:668J8c2B0
dense系は高々70Bじゃないかなぁと思う
それ以上は個人用途での評価自体ガクッと減る印象だし、近頃はもう30Bがラインかもしれん
ただ最初は小さいやつで実験しよう
0059名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/27(木) 15:31:31.98ID:SI+uqTxz0
このスレで聞くことなのかわからんが知ってたら教えてほしい
roocodeでgithubcopilotのAPIキー使ってclaude3.5sonnet使ってたんだけどclaude3.5sonnetが設定できなくなってたから代替手段を探してる
課金したくないから以前ollamaのAPIキー使ってローカルでやろうとしたんだけど調整がうまくできなくてgithubcopilotに戻してた
今はローカルLLMでもうまくroocodeとかCursorって動かせるの?
0060名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/27(木) 15:33:24.94ID:SI+uqTxz0
3か月前に色んな言語モデル使ってollamaで動かしてたけど調整が下手でアスペ回答ばっかで結局うまくできなかった
0062名無しさん@ピンキー (ワッチョイ 5f22-4gGQ)2025/11/27(木) 18:19:20.87ID:OXCml/ok0
>>59
今はantigravityが最強
sonnet4.5もgemini3も無料や
0063名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 19:07:24.01ID:92VKQEMF0
>>56
いきなりLLMのシステムを組めるのはスゲーけど、LLMの動かし方(プロンプト、パラメータ、モデルの癖を知る)を知らなさすぎやな
それが分かってないと中規模モデルの操縦はほぼ無理
ChatGPTくらい大規模になると初心者の適当な指示でも推し量ってくれるみたいやけど
0064名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 19:45:31.70ID:wpv3SsfJ0
>>57
そうか、モデル色々触らんとわからんな…

>>63
多少サーバー知識ありはするが、専門外なのでAIに聞きまくりやw
LLMへの理解についてはほんと指摘の通りだわ。今回クラスタ組んでテンソル並列やら、vllm llamaの違いやらinfininband やら学んだから楽しかったけど、まぁやっぱ動かすモデルそのものが何でどう扱うかわかっとかんとダメだったね…
まぁなんにしても環境できたし色々動かして試してみるわ。
0065名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 20:03:18.97ID:92VKQEMF0
ハマると楽しいで、がんばれー

自分のロールプレイモデル遍歴&レビュー

※ワイのプロンプト技術がヘボい可能性もあるのでうのみにしないでね
※あと上から徐々に経験を積んでいったから、というのもあるので初心者が下のほうのモデルをいきなり使いこなせるかは分からんです

・Vecteus-V1-7B、Berghof-NSFW-7B(ここだけsafetensors、他はgguf)

小規模と侮るなかれ、初心者丸出しのプロンプト、適当パラメータでもRPできる超優秀モデル
ちゃんと会話のキャッチボールが弾む、でも単に地の文章が苦手なのかもしれない。大抵どこかで聞いたような表現ばかりだが、会話が弾むのであまり気にならない。思い切り下品にアヘらせたいならBerghof-ERPを使おう

・Mistral-Small-3.1-24B

明らかに語彙力と表現力が上がっている
が制御の難易度が爆上がりで、さらにMistral独特なのか癖があり、会話を続けるとどんどん破綻してくる。プロンプトやtemparature、repetition-penartyを神経質に弄り倒す羽目になる。
安定したらしたで、地の文章が多めなため「イくぅぅー」ではなく「彼女は絶頂した」みたいな出力になりRP感が削がれた。いまは自分語りをさせる用途で使っている >>46
それと量子化モデルによって性能のバラツキがあるようだ
0066名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 20:06:45.98ID:92VKQEMF0
・Lumimaid-Magnum-12B

24Bの経験から安定動作できる様にはなったが優秀すぎる7Bモデルとの差が小さいと感じた

・Aratako/Qwen3-30B-A3B-ERP-v0.1

操作性と性能のバランスがかなり良い。地の文少なめでRP力も高い。ただ個人的には挨拶後即脱いでくる股のユルさが気になり使っていない。クレクレ野郎でAratako氏はじめ諸氏には恐縮だが、Qwen3-30Bのファインチューンモデルがもっと欲しいな...

・Qwen3-235B-A22B-Instruct-2507-Q3

これはすごい、RPの指示にしっかりと従い、説明的な内容も地の文ではなくセリフの上で表現する。ここ表現が難しいけど結構感動する。
素のモデルだがプロンプトで指示してやるとERPもこなせるようだ。というか発情している「雰囲気」を出してくるのがすごい。
操縦難度はMistral-24B程ではないにせよそこそこある感じで、特にプロンプトには神経を使うようだ。これからチューニングを進めていくところ
0067名無しさん@ピンキー (ワッチョイ df21-4gGQ)2025/11/27(木) 20:38:44.21ID:B13Q9jby0
Openrouterのステルスモデルがmistralの新しいモデルという噂があるね
速度的にMoEや小規模モデルっぽくないのとベンチマーク的に3.1 mediumのちょい上くらいなのでlargeかmediumの新作っぽいからオープンウェイトではなさそうだけど一応期待
0068名無しさん@ピンキー (ワッチョイ db1a-LCpl)2025/11/27(木) 22:07:32.00ID:MIAIOtOm0
>>59
VSCodeにCLINE入れて LMStudio で gpt-ossつことる。120bですら英語でやりとりせんとアホになってしまう
20bは端的に "Refactor hoge() method"と余計な単語は一切入れないとダメ(使わなくなった)
0069名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/27(木) 22:55:27.69ID:B8CDrREfd
Grok4.1ですらエロガバガバな以外は微妙なんやから
Qwen3-235B-A22Bクラスが最低ラインやで

Gemini用に作り込まれたプロンプトがまともに動くかどうかが分かれ目や
0073名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/28(金) 08:03:22.58ID:fzEd81Ad0
>>71
解禁されるだろうけどたぶんそれでも非合意禁止&未成年キャラ禁止だと思うぞ。期待しないこった
0074名無しさん@ピンキー (ワッチョイ 5bc0-aOqE)2025/11/28(金) 08:26:50.89ID:u/YviZU90
OpenMOSE/Qwen3-VL-REAP-145B-A22Bが日本語性能落ちてる感じもあまりなくてちょっと気に入ってる
235Bは無理でも145Bならメモリに乗るって人も居ると思う
0075名無しさん@ピンキー (ワッチョイ 9f6a-A5gx)2025/11/28(金) 10:35:49.52ID:jb/LTKTc0
>>66
qwen3-235bってmoe モデルだよね。70Bのmagnum や123bのlumimaid にロールプレイで勝てるもんなの?moe は専門家が複数いて、用途によって内部で使い分けるから人格がブレるとからしいからどうなんかなと。
0076名無しさん@ピンキー (ワッチョイ dfea-1/gi)2025/11/28(金) 11:36:02.17ID:WIXK3jgP0
応答5秒かかるならもうロールプレイなんてやる気起きなくなるわ
3秒ならまあ
あとどれだけ賢くてもちゃんとくだけた言い渡しや略語なんかを使って感情表現が豊かでないとチャットやってても気分が盛り上がらんのよな
0077名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/28(金) 13:04:06.27ID:o8KK+6df0
>>62
ありがとう今こんなのあるのか
ちょっと試してみるわ
0079名無しさん@ピンキー (ワッチョイ 1b32-Mbnk)2025/11/28(金) 15:42:23.30ID:NmTnCINp0
文章だけのチャットでも楽しいぞ
5chやXとかでレスバで盛り上がってる奴らがいるだろ?
あれぐらいヒートアップ出来るのが文章チャットだ
0080名無しさん@ピンキー (ワッチョイ df6d-1/gi)2025/11/28(金) 16:02:22.06ID:WIXK3jgP0
>>78
世代じゃなかったらピンとこんかも知れんけどボイチャが当たり前になる前のオンゲはみんなチャットで熱中してたんやで
LLM出力はTTSで声出しさせてるけどこっちは手打ちや
0083名無しさん@ピンキー (ワッチョイ df6d-1/gi)2025/11/28(金) 16:56:30.67ID:WIXK3jgP0
>>82
一度に長文を打たずにサクサクやり取りしていくスタイルが好まれてたなー
LINEとかでもそうでしょ?お互い向き合ってチャットしてる時はテンポが大事
0085名無しさん@ピンキー (ワッチョイ 9f6a-A5gx)2025/11/28(金) 18:37:32.96ID:jb/LTKTc0
ここ1週間ロールプレイのためにいろいろやってみたが、実際ちょい日本語やこんなの言わんやろみたいなのあると萎えるな、70B q4のモデル使てるけど設定詰めたら完璧になるんやろか…
いまのとこ環境作り切った時が一番楽しかった気がするわw
0086名無しさん@ピンキー (ワッチョイ 5f24-5doS)2025/11/28(金) 18:40:04.40ID:HAI81JuR0
5秒以内の応答を求めるのは対人でも仕事趣味どっちでも結構怖い人だと思っちゃうな
内容次第だとは思うけどそんなすぐ返答出来なかったり細切れにして何度も送るほうが厄介なケースの方が多そう

ここまで書いててAIとのRPでも内容によって応答速度変えられたら面白そうだよね
短文であっても言いづらかったり熟考した末の発言ならわざとディレイをかけるみたいな感じ
その判断に余計なリソース使うし実際にはそう簡単にはいかないんだろうけど上手く行けば人間味みたいなのは出そう
0088名無しさん@ピンキー (ワッチョイ 0fa0-dDTn)2025/11/28(金) 18:47:31.26ID:TOt/Q9ps0
LLMとStable Diffusion両方やるといろいろ勉強になるな、

Stable Diffusionはdanboru語+LoRAの文化がすさまじいな

本日の発見は、ロングヘアを舞い上がらせるには、floating hairというdanboru語を使い、floating hairのLoRAも使う

hair spread outというdanboru語もあるけど、弱い。floating hairの方が強い
0089名無しさん@ピンキー (ブーイモ MMff-1/gi)2025/11/28(金) 18:56:11.40ID:DRT5CeeiM
>>86
いや人との会話とLLM使ったロールプレイのを一緒にしないで🥺
オンゲのチャットだって打つの遅い人とかまとめて打つ人のやり取りだって普通にやるで
ただ、何か別のことでもしながら返事待ってるかなーってテンションになるだけや
それがLLMとのロールプレイの場合、別にもうええかー…ってテンションになるだけや
0092名無しさん@ピンキー (ワッチョイ 4b09-ZAG6)2025/11/28(金) 20:43:05.83ID:cVU0vvbk0
あとそれはSDじゃなくて一部のモデルの特徴や
0093名無しさん@ピンキー (ワッチョイ 0fa9-dDTn)2025/11/28(金) 20:44:53.86ID:ztH2zo8J0
ようやっとQwen Next対応がllamacppにマージされた
まだバイナリはできてないけどb7186が出てきbスらそれが多分QwenNext対応版になると思うで

長かったなぁ
ほんまに2か月半かかったな
0095名無しさん@ピンキー (ワッチョイ 0fa9-dDTn)2025/11/28(金) 20:54:54.47ID:ztH2zo8J0
LLMに詳しい人ではあったみたいやが、QwenNextの仕組み(ハイブリッドモデル)については今回を機に勉強しながらって人やったみたい
でも途中からLlamacppの創設者のggerganovとか他の中心メンバーも出張ってきて
実装についてかなり綿密にやりとりしとったから、ほぼ専門のプロがフルタイムで取り組んだに近いと思う
0098名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/28(金) 23:19:43.22ID:fzEd81Ad0
ロールプレイならAratako氏のモデルとか多々あるけど、NSFW向けの日本語小説地の文に強いモデルってありますか?

自分でも色々ダウンロードして試してきたけど、もしかしたら2024年リリースのモデルは見逃しているのかもしれない・・・
0099名無しさん@ピンキー (ワッチョイ dfc6-vfAy)2025/11/28(金) 23:55:33.52ID:kXDPBP540
普通のゲーミングPCだとshisa-v2-mistral-small-24b.i1が個人的に未だトップ
エロは無指定だと官能小説になりがちだから語彙を事前に指定する
ロールプレイもどっちもいける
0101名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/11/29(土) 03:31:27.18ID:zZvH3VnR0
qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった
オプションは --context 131072 --n-gpu-layers 100 --n-cpu-moe 37

最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ
contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる
0102名無しさん@ピンキー (ワッチョイ 6337-H63f)2025/11/29(土) 04:28:24.19ID:M9nsibf90
>>101
fastllmの方でrtx3060x2で20tok/s出てたからまだ伸び代はあると思うで
0108名無しさん@ピンキー (ワッチョイ 46cb-H82u)2025/11/29(土) 18:02:03.87ID:MUT20k2k0
ロールプレイに向く70B awq int4のモデルってある?llama3.1 70b instruct awq int4がギリッギリ動くから似たようないいモデルないかなと探してるんだけどなかなか。
0109名無しさん@ピンキー (ワッチョイ 8ec1-Oau4)2025/11/29(土) 18:12:26.80ID:nKhiGNoJ0
Wannabeの作者ここ見てるか知らんけど応援してるで
0111名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/29(土) 22:08:22.19ID:R0QjvFT00
5070tiと128GBでunslothのQwen3-Next-80B-A3B-Instruct-Q8試してみたけど爆速やん
文章は確かに冗長な感じするからここは調整必要そうやな
規制の有無ってどんな指示出せばわかるん?Qwen3って初っ端は無理でも適当に会話のラリー続ければ最初は拒否られた指示でも通ることあるからようわからんわ
0114名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:22:35.04ID:La7vUKxs0
llama.cppをopenwebUIに繋いで試しとるよ
0116名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:40:33.26ID:La7vUKxs0
「これ以上されたら壊れちゃう♥」みたいな展開で更に限界超えて攻め続けたら「あああああああああああああああああ」って出力が止まらなくなって草
ロールプレイじゃなくて本当に壊れてどうすんねん
0119名無しさん@ピンキー (ワッチョイ 632b-H63f)2025/11/30(日) 04:09:47.53ID:pom+2B990
>>115
サンクス、こっちもkoboldcppで試してみた。
まだfastllmにtok/sで負けてる(rtx3060x2で8tok/s前後)けどまあ十分速いっちゃ速い。
尻用のキャラカード読ませて標準webから試してみたけどこれ本当にqwen?って思うぐらいにエロには寛容やね
0120名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 05:00:27.71ID:tSt65eze0
>>111
正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も
0121名無しさん@ピンキー (シャチーク 0C8f-jWuL)2025/11/30(日) 10:05:14.88ID:8Bk5CCCxC
>>111
エロ小説書かせたら即申し訳喰らうけど
ある日 とかに修正すればノリノリで書き始める
規制きついモデルだと書き始めても内容が健全よりになってくけど
これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな
ただセリフの整合性が7bモデル並みなんだよなぁ
0122名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 17:24:42.38ID:La7vUKxs0
>>120
確かだいたい15tok/s前後だった気がする
ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで
llama-server \
--model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \
--temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU"


>>121
試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ
けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ!!」ってのがあったけどnextはほぼ無い

エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう
0123名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 17:51:45.97ID:tSt65eze0
>>122
120ですありがとう
流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな
でもオフロードしててもそんくらい出るなら確かに魅力的
0129名無しさん@ピンキー (ワッチョイ 0acc-3xT4)2025/12/01(月) 19:28:00.24ID:lX1K3BWS0
>>128
まじかlargeを公開するのは予想外 じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな
アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう
0131名無しさん@ピンキー (ワッチョイ 0aa5-izmX)2025/12/01(月) 21:27:50.26ID:t2CNpdOm0
DeepSeek新しいの来たな
0134名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/01(月) 23:36:26.58ID:Hb1/0/Z70
色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから
その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ

あとは、もっとちっちゃいモデルで実現してほしいけども
そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから
来年の6月には200b以下で実現してるはずやしな
0135名無しさん@ピンキー (ワッチョイ ef6a-wnv0)2025/12/02(火) 04:45:18.10ID:NEhf/O560
deepmindが発表したnested learningでまた改善するよ
0140名無しさん@ピンキー (ワッチョイ 0a3e-nDnm)2025/12/02(火) 11:30:46.72ID:If8B8osZ0
これがministral 3じゃね?って言われてるステルスモデルがあるのね
>>129も言ってるやつ
でもこれだと思いっきり真面目用途なのかなあ🥹

OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。

- 汎用マルチモーダルモデル(テキスト/画像入力、テキスト出力)
- 拡張コンテキストタスクにおける一貫性を維持
- タスク間で安定した予測可能な動作
- 競争力のあるコーディングパフォーマンス

本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。
0148名無しさん@ピンキー (ワッチョイ 0a0b-3xT4)2025/12/02(火) 16:30:10.93ID:s0JsiPey0
>>147
mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず
正直largeを公開した理由はよく分からん mediumを公開してラージは隠しておけば良いのに
もちろん公開してくれるのはうれしいけど動かすの大変すぎ またmac ultra 512GBの株が上がるな
0149名無しさん@ピンキー (ワッチョイ 27a1-3xT4)2025/12/02(火) 21:31:09.32ID:Yxsu674y0
>>143
伯方の塩みたいなもんやな!
0153名無しさん@ピンキー (ワッチョイ 86ce-37/u)2025/12/03(水) 07:53:34.81ID:1Za0pPzO0
higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf(Q8)は短文ばっかり出力されるんだけどそういうもん?
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視
レスを投稿する


ニューススポーツなんでも実況