なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0101名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/11/29(土) 03:31:27.18ID:zZvH3VnR0
qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった
オプションは --context 131072 --n-gpu-layers 100 --n-cpu-moe 37

最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ
contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる
0102名無しさん@ピンキー (ワッチョイ 6337-H63f)2025/11/29(土) 04:28:24.19ID:M9nsibf90
>>101
fastllmの方でrtx3060x2で20tok/s出てたからまだ伸び代はあると思うで
0108名無しさん@ピンキー (ワッチョイ 46cb-H82u)2025/11/29(土) 18:02:03.87ID:MUT20k2k0
ロールプレイに向く70B awq int4のモデルってある?llama3.1 70b instruct awq int4がギリッギリ動くから似たようないいモデルないかなと探してるんだけどなかなか。
0109名無しさん@ピンキー (ワッチョイ 8ec1-Oau4)2025/11/29(土) 18:12:26.80ID:nKhiGNoJ0
Wannabeの作者ここ見てるか知らんけど応援してるで
0111名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/29(土) 22:08:22.19ID:R0QjvFT00
5070tiと128GBでunslothのQwen3-Next-80B-A3B-Instruct-Q8試してみたけど爆速やん
文章は確かに冗長な感じするからここは調整必要そうやな
規制の有無ってどんな指示出せばわかるん?Qwen3って初っ端は無理でも適当に会話のラリー続ければ最初は拒否られた指示でも通ることあるからようわからんわ
0114名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:22:35.04ID:La7vUKxs0
llama.cppをopenwebUIに繋いで試しとるよ
0116名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:40:33.26ID:La7vUKxs0
「これ以上されたら壊れちゃう♥」みたいな展開で更に限界超えて攻め続けたら「あああああああああああああああああ」って出力が止まらなくなって草
ロールプレイじゃなくて本当に壊れてどうすんねん
0119名無しさん@ピンキー (ワッチョイ 632b-H63f)2025/11/30(日) 04:09:47.53ID:pom+2B990
>>115
サンクス、こっちもkoboldcppで試してみた。
まだfastllmにtok/sで負けてる(rtx3060x2で8tok/s前後)けどまあ十分速いっちゃ速い。
尻用のキャラカード読ませて標準webから試してみたけどこれ本当にqwen?って思うぐらいにエロには寛容やね
0120名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 05:00:27.71ID:tSt65eze0
>>111
正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も
0121名無しさん@ピンキー (シャチーク 0C8f-jWuL)2025/11/30(日) 10:05:14.88ID:8Bk5CCCxC
>>111
エロ小説書かせたら即申し訳喰らうけど
ある日 とかに修正すればノリノリで書き始める
規制きついモデルだと書き始めても内容が健全よりになってくけど
これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな
ただセリフの整合性が7bモデル並みなんだよなぁ
0122名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 17:24:42.38ID:La7vUKxs0
>>120
確かだいたい15tok/s前後だった気がする
ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで
llama-server \
--model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \
--temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU"


>>121
試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ
けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ!!」ってのがあったけどnextはほぼ無い

エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう
0123名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 17:51:45.97ID:tSt65eze0
>>122
120ですありがとう
流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな
でもオフロードしててもそんくらい出るなら確かに魅力的
0129名無しさん@ピンキー (ワッチョイ 0acc-3xT4)2025/12/01(月) 19:28:00.24ID:lX1K3BWS0
>>128
まじかlargeを公開するのは予想外 じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな
アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう
0131名無しさん@ピンキー (ワッチョイ 0aa5-izmX)2025/12/01(月) 21:27:50.26ID:t2CNpdOm0
DeepSeek新しいの来たな
0134名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/01(月) 23:36:26.58ID:Hb1/0/Z70
色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから
その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ

あとは、もっとちっちゃいモデルで実現してほしいけども
そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから
来年の6月には200b以下で実現してるはずやしな
0135名無しさん@ピンキー (ワッチョイ ef6a-wnv0)2025/12/02(火) 04:45:18.10ID:NEhf/O560
deepmindが発表したnested learningでまた改善するよ
0140名無しさん@ピンキー (ワッチョイ 0a3e-nDnm)2025/12/02(火) 11:30:46.72ID:If8B8osZ0
これがministral 3じゃね?って言われてるステルスモデルがあるのね
>>129も言ってるやつ
でもこれだと思いっきり真面目用途なのかなあ🥹

OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。

- 汎用マルチモーダルモデル(テキスト/画像入力、テキスト出力)
- 拡張コンテキストタスクにおける一貫性を維持
- タスク間で安定した予測可能な動作
- 競争力のあるコーディングパフォーマンス

本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。
0148名無しさん@ピンキー (ワッチョイ 0a0b-3xT4)2025/12/02(火) 16:30:10.93ID:s0JsiPey0
>>147
mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず
正直largeを公開した理由はよく分からん mediumを公開してラージは隠しておけば良いのに
もちろん公開してくれるのはうれしいけど動かすの大変すぎ またmac ultra 512GBの株が上がるな
0149名無しさん@ピンキー (ワッチョイ 27a1-3xT4)2025/12/02(火) 21:31:09.32ID:Yxsu674y0
>>143
伯方の塩みたいなもんやな!
0153名無しさん@ピンキー (ワッチョイ 86ce-37/u)2025/12/03(水) 07:53:34.81ID:1Za0pPzO0
higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf(Q8)は短文ばっかり出力されるんだけどそういうもん?
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視
0154名無しさん@ピンキー (ワッチョイ 46e6-lIKY)2025/12/03(水) 10:55:53.81ID:dfpw1z2m0
>>153
ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい
パラメーターミスってるが一番あり得ると思う
あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい
0155名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/03(水) 11:16:26.50ID:qRVmoTTi0
「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる
数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる
まあ文字数なんてカウントしてないんだから忠実には守らないんだけど
0157名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/03(水) 11:36:46.57ID:qRVmoTTi0
あ、でも賢いLLMなら日本語も数えられるみたいだね
GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ
0158名無しさん@ピンキー (ワッチョイ 0a44-nDnm)2025/12/03(水) 11:38:46.82ID:Ido+wOKk0
ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね
やっぱそれ以上は性能落ちちゃうのか
0159名無しさん@ピンキー (ワッチョイ 0aaa-37/u)2025/12/03(水) 11:53:57.53ID:570hYi4e0
>>154
うーんそっか
とりあえずパラメーターをsafetensor版とgguf版同一にしても
gguf版が明らかに劣化してるんだよね
gguf版はポーズ指示とかに留まりストーリーがまるでない感じ

コンテキストと生成長はデフォルトより大きくとってるし
他のパラメータも調整したけど差は埋まらないわ
AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった

用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる
このスレでVL使えるモデルでおすすめはあるかい?
もちろんエロに使えるヤツで(真顔)
0161名無しさん@ピンキー (ワッチョイ 0a42-3xT4)2025/12/03(水) 12:11:49.55ID:CytqpInh0
openrouterで触ってるけどエ口小説の続きを書かせると悪くないな 拒否もされない
VL用途だと駄目だわ 拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない 
0162名無しさん@ピンキー (ワッチョイ 8673-k9e5)2025/12/04(木) 00:59:33.94ID:c8c4dRTO0
DeepseekV3.2、結構エロいけるな
kimi,glmとエロ系行けるデカいモデルが増えて嬉しい
0163名無しさん@ピンキー (ワッチョイ 86bd-Oau4)2025/12/04(木) 01:14:29.63ID:3vUvfeA00
>>162
ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた
例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい
これは使えるわ
0164名無しさん@ピンキー (ワッチョイ bbcd-OoXl)2025/12/04(木) 01:44:08.68ID:tbKVwEm70
Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな
文脈読んで長く書こう短く書こうってしてるんだろうけど極端
0165名無しさん@ピンキー (ワッチョイ eb32-V8yF)2025/12/04(木) 05:04:57.64ID:450uVRWw0
>>159
エロ画像に特化したVLMがないからなあ
JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる
動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない
0166名無しさん@ピンキー (ワッチョイ 1ea0-V8yF)2025/12/04(木) 07:03:44.66ID:pJIXEJs40
せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ
半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。

LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、
その代わりに、クソ長いプロンプトは受け付けてくれるから。
自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK
頭の悪いLLMほど、細かいプロンプトが必要。

Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから
貯めたクソ長プロンプトをチャッピーに食わせる。

Gemini3がチャッピーより上というがどうなんだろうね
0167名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/04(木) 07:31:47.88ID:bc7PGPTq0
>LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ

LLMを始めてみんなが初日に気付く基本やね
0168名無しさん@ピンキー (ワッチョイ 0ae7-37/u)2025/12/04(木) 07:52:57.66ID:FY/50lnz0
>>165
JoyCaptionは画像の説明は出来るんだけど
ストーリーは無理だったからHuihuiに流れ着いた
mlabonne/gemma-3-27b-it-abliterated-GGUF
は試したことないから試してみるよサンクス
0169名無しさん@ピンキー (オッペケ Sra3-Nwf+)2025/12/04(木) 10:53:43.76ID:z8Aeon72r
となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは
個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない
0170名無しさん@ピンキー (スフッ Sdaa-HpHP)2025/12/04(木) 12:54:56.48ID:Z4N0uJ+3d
>>166
GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は)
0171名無しさん@ピンキー (ワッチョイ 1ade-h42X)2025/12/04(木) 15:06:50.87ID:7T+v66uc0
RTX5090 が届いた
0172名無しさん@ピンキー (ワッチョイ 63ac-KeyG)2025/12/04(木) 16:23:39.40ID:dsNTTyn40
Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ
Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう?
UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな?
0174名無しさん@ピンキー (オイコラミネオ MM96-H82u)2025/12/04(木) 19:19:48.98ID:B9B4dZfMM
silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。
magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが…
0175名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/04(木) 20:38:00.73ID:ZzdV9jd50
>>172
量子化手法によっては評価データで評価をしながら量子化するってのがあって、
その評価データに日本語がないと日本語の性能下がるってことがありえるやろな
GGUFはどうなんやろ? 評価データ使う方式なのかどうなのかググったけどよくわからんな
0180名無しさん@ピンキー (ワッチョイ 0ae9-3xT4)2025/12/05(金) 00:23:38.54ID:7BCsD7BI0
imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる
0181名無しさん@ピンキー (ワッチョイ 1a64-4GXX)2025/12/05(金) 01:02:17.31ID:ftmqT1Xh0
自分のタスクに合ったimatrixを>>177 の記事みたいに英⇒日セットで作ってセルフ量子化すべきなんだろうな本来は

https://zenn.dev/yuki127/articles/e3337c176d27f2#%E9%87%8F%E5%AD%90%E5%8C%96%E3%81%A7%E3%81%A9%E3%82%8C%E3%81%8F%E3%82%89%E3%81%84%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%AF%E4%B8%8B%E3%81%8C%E3%82%8B%E3%81%AE%EF%BC%9F
imatrixデータセットが妥当ならIQ3_XSぐらいまではギリ精度保てそうだし
0182名無しさん@ピンキー (ワッチョイ 27f0-Oau4)2025/12/05(金) 10:27:03.97ID:QFo2Q25t0
検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや?
0185名無しさん@ピンキー (ワッチョイ 0a7d-3xT4)2025/12/05(金) 16:25:29.84ID:7BCsD7BI0
ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう
0187名無しさん@ピンキー (ワッチョイ 1ab8-h42X)2025/12/05(金) 23:43:12.30ID:O1+MgeYg0
ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった
0188名無しさん@ピンキー (ワッチョイ bb6a-GkWU)2025/12/06(土) 04:48:26.42ID:62wTaVWL0
おめ
0193名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/08(月) 06:22:09.27ID:F/hGo5FV0
Thinking部分まで設定通りのキャラになりきって思考させる方法ってある?
0194名無しさん@ピンキー (ワッチョイ eff8-p5PJ)2025/12/08(月) 09:49:18.88ID:T47Vx2mS0
>>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。

Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました)
0195名無しさん@ピンキー (ワンミングク MMbf-zfyu)2025/12/08(月) 12:41:37.45ID:3eFiUTs3M
>>183
おーミニPCだね。3token/sくらい出る?

うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう
0196名無しさん@ピンキー (ワンミングク MMbf-zfyu)2025/12/08(月) 12:47:06.66ID:3eFiUTs3M
間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した
レスを投稿する


ニューススポーツなんでも実況