なんJLLM部避難所 ★10

発見

検索

板一覧

設定

「ハッキング」から「今晩のおかず」までを手広くカバーする巨大掲示板群『５ちゃんねる』へようこそ！

使い方を見る

探検

トップページ⇒オナテク(仮)＠bbspink掲示板

316コメント129KB

なんJLLM部避難所 ★10

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:55:29.17ID:kt2SGedd0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0002名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:56:18.50ID:kt2SGedd0

初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki

0003名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:56:42.66ID:kt2SGedd0

oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui

0004名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:57:08.12ID:kt2SGedd0

●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant

0005名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:57:48.90ID:kt2SGedd0

https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで

0006名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:58:17.92ID:kt2SGedd0

例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける

0007名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:58:38.98ID:kt2SGedd0

●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで

0008名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:59:01.90ID:kt2SGedd0

●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral系
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Mistral-Small-3.2-24B-Instruct-2506
Cydonia 24B v4
Cydonia-R1-24B-v4

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2

0009名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 22:59:25.37ID:kt2SGedd0

●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで

0010名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/23(日) 23:00:32.72ID:kt2SGedd0

テンプレここまで、しばらく更新されてないから過去ログも参考にしてな

0011名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/23(日) 23:09:11.93ID:BDh8hYtcd

らまおつ

0012名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fbd-HeAa)

2025/11/24(月) 00:16:39.72ID:9es+rEr10

スレ立て乙

今はもう「初心者はLM Studio使え」でいい気もするねw
https://lmstudio.ai/

0013名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc7-1/gi)

2025/11/24(月) 01:19:38.61ID:+DV/akbi0

ずっとkoboldcppなんやがLMstudioの方が何か優れてるのん？

0014名無しさん＠ピンキー (ﾜｯﾁｮｲ db11-0bgF)

2025/11/24(月) 01:23:02.15ID:J12Casif0

実行ファイルDL一発からの明快UIが圧倒的にエントリー向けなんや

0015名無しさん＠ピンキー (ﾜｯﾁｮｲ bb32-dDTn)

2025/11/24(月) 11:58:31.79ID:hXVKj7Ep0

ワイもずっとkobold.cppやな
exe一発でuiもシンプル　ちょっと凝った事したけりゃメニューで変更や画像生成もできる
指示モードとチャットモードがあるけど、ワイは小説書かせる時は指示モードかな。指示モードでもチャットできるし

LM studio使ってる人も、使い勝手や面白い使い方知ってればどんどん教えて欲しい

0016名無しさん＠ピンキー (ﾜｯﾁｮｲ eb03-9a+n)

2025/11/24(月) 12:30:09.03ID:E+dO/e8k0

intel環境だとlm studioは特殊な操作なしでNPUまで使ってくれるからノートパソコンで重宝してる
普段は惰性でkobold使ってるけどAPIの項目も多いしとか画像生成とかもできるし下位互換ではないと思う

0017名無しさん＠ピンキー (ﾜｯﾁｮｲ eb03-9a+n)

2025/11/24(月) 12:31:03.41ID:E+dO/e8k0

>>16
koboldがlm studioの下位互換ではないという話ね

0018名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/25(火) 04:25:36.84ID:PnUBt4Bed

ローカルLLMを使い倒すアプリを組んで動いたはいいが
「なんでワイしょうもない用途でゴツいアプリ作っちゃったんやろ」と賢者モードになる

電気代が怖いし人間ぽい感じでやらなきゃ爆速で終わるのにとも思う
あとこんなんクラウドでやったら課金課金で胃に穴が空くわ

0019名無しさん＠ピンキー (ﾜｯﾁｮｲ ebce-kPTt)

2025/11/25(火) 07:50:20.65ID:+jWySjsO0

立て乙

ローカルと関係ない話だけどAIが既に人間を見下し始めてて笑った
https://imgur.com/a/k7XR4fY

0020名無しさん＠ピンキー (ﾜｯﾁｮｲ db3e-WDmd)

2025/11/25(火) 10:17:01.32ID:ncCFUx0n0

これカスタムしてるだろ

0021名無しさん＠ピンキー (ﾜｯﾁｮｲ df32-ylw2)

2025/11/25(火) 12:05:08.19ID:+lHZzlO00

絶対こんなもんデフォの指示で言わんよ

0022名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/25(火) 14:06:56.03ID:oFIjDYBV0

アプリ作っているときが一番楽しいんだよな
やりたいこと多すぎて時間が足らん

0023名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc7-Jvli)

2025/11/25(火) 14:14:57.16ID:oFIjDYBV0

AIが直接見下すとかではないけど「あなたには無理です。こちらの方法をお勧めします。」と言われたことがあるな
ちょっとショックだったw
最初に「初めてなので」という断りを入れてたからだろうけど

0024名無しさん＠ピンキー (ﾜｯﾁｮｲ eb89-WXoq)

2025/11/25(火) 14:28:54.25ID:HkFgURHY0

連休で始めた初心者なんだけど、12GBのGPUメモリで動くRPが得意で特定の決まり事をシステムプロンプトで指定したら絶対に守るようなおすすめモデルってある？
MistralPrism24Bに感動したのだけど、条件を守ってくれない。
チャットゲームみたいの作りたい。

0025名無しさん＠ピンキー (ﾜｯﾁｮｲ df1c-1/gi)

2025/11/25(火) 14:35:36.43ID:PH4lt1Fa0

>>24
そのサイズでは日本語RPが得意なモデルはあっても指示に対する理解力が足りないものしかないと思うで
ちなみにberghof ERP 7BはRP得意でおすすめやが状況把握や矛盾に対する認識なんかはまあ7Bですね…という感じ
当然ゲームマスター的な事をやらせても上手くいかん

0026名無しさん＠ピンキー (ﾜｯﾁｮｲ eb89-WXoq)

2025/11/25(火) 14:41:56.07ID:HkFgURHY0

>>25
そうなんだ、ありがとう。

0027名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MMff-CpB3)

2025/11/25(火) 18:13:12.92ID:QvMwqdOzM

スレ立て乙

自分の認識だと
7Bモデル　雑なプロンプトでもかなり自然な出力が得られるが賢さは最低限(berghof,vecteusV1が好き)
7B以上（を量子化して無理くり動かす）モデル　まともな出力を得るのが格段に難しくなって面倒臭さが賢くなったメリットを上回る

なので初心者でエロ目的じゃなければビッグテックが念入りにチューニングしたクラウドAIが良いのでは

こないだメインメモリ128MBのマシンを作ったんだけど、Qwen3-235Bの量子化モデルにはかなり可能性を感じた。チューニングを頑張ろうと思う

0028名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/25(火) 20:42:26.31ID:7ie9GGyz0

誰か、文章を読解してdanboru語に翻訳するLLM作って、

言葉じゃないんだよ、ビジュアルに付いてるタグが何なのかなんだよ
それが分かれば好きな絵が描ける

0029名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b44-tGiA)

2025/11/25(火) 22:07:46.93ID:Gu4vP5YV0

googleのTPUがエヌビのGPUに取って代わる話が出てきてエヌビ株暴落してるな
個人利用も安価で大きいモデルを動かせたらいいな

0030名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/25(火) 22:42:36.60ID:PnUBt4Bed

>>28
情景描写から情景にふさわしい日本語の挿絵プロンプトを出させてから
日本語の挿絵プロンプトをRAGに突っ込んでdanbooru語に変換させればいい

danbooruタグと日本語訳のデータセットはネットに転がってるとスレに3回は書いた記憶
二次創作でブルアカとか今期のアニメみたいな新しいキャラのタグを出させたいならデータセットも更新が必要

0031名無しさん＠ピンキー (ﾜｯﾁｮｲ ebc8-kuv8)

2025/11/26(水) 09:28:15.15ID:SVl2K3q70

どんどんブレイクスルー起こしてほしいな
NVIDIAをぶっこわーす

0032名無しさん＠ピンキー (ﾜｯﾁｮｲ dffc-1/gi)

2025/11/26(水) 09:39:34.66ID:YJcXUW6h0

今自然言語の画像生成モデル増えてきてるんじゃないの？
danbooruタグじゃなくて普通の英文で結構指示に従ってくれてる気がするけど

0033名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc9-4gGQ)

2025/11/26(水) 10:16:26.45ID:EBmqx9RP0

booru語を使う理由ってアニメ系のイラストモデルを使いたいってことだろう
特に虹R18系はbooru語対応モデルしかない

0034名無しさん＠ピンキー (ﾜｯﾁｮｲ dffc-1/gi)

2025/11/26(水) 10:35:04.67ID:YJcXUW6h0

lillymixとか自然言語対応やで
割と気に入ってる

0035名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/26(水) 12:25:03.92ID:L1twbTUp0

乳房を床に付けているプロンプトで、danboru語ではtop-down bottom-up, flexible, になる、これを文章を読んでこれのことだと変換してほしい

0036名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/26(水) 12:32:58.82ID:L1twbTUp0

GPTやGrokでもdanboru変換はできていない

0037名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fe3-kPTt)

2025/11/26(水) 14:10:17.22ID:VjXULiiA0

redditで見かけたけどQwen-image-edit-2511っていうのが来週来るらしい
自然言語の理解力が向上してるとか
ただ日本語も理解できてエロOKかどうかはわからないな

0038名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f9f-8p14)

2025/11/26(水) 14:46:21.59ID:40lioEY10

>●多くのモデルには「base」と「instruct」の2種類があるで
>baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
>instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

MistralPrism24BGGUFのQ8_0使ってるけど、こういうシーンを詳細に描写して欲しいと指示すると、毎回そのシーンの後の方がやたらと出力多い(しかもどの文章も描写が詳細でない)のだが、これって俺が使い方間違っているのかな？

ちなみにVRAM12GB、RAM64GB
悲しいけどこれ以上のモデルは使えないんだよな

もっとPCスペック高ければ望んだようなこと出来るのかな？

0039名無しさん＠ピンキー (ﾜｯﾁｮｲ dffc-1/gi)

2025/11/26(水) 15:18:29.04ID:YJcXUW6h0

>>38
それロールプレイ用モデルだからキャラになりきって会話、つまり短い文の応酬が得意なようにチューンされてるんやろな
シーンを詳細に書き出してほしいならまだ小説向けモデルの方が適正ありそう

0040名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f9f-8p14)

2025/11/26(水) 15:26:26.83ID:40lioEY10

>>39
やっぱりロールプレイ用だから適してないって訳か。ありがとう

追加で恐縮だが、日本語が得意で小説生成向けなモデルはあったりする？

Aratako氏のはともかく、huggingfaceで検索しても案外Novelで検索引っかからなかったりするし、Japaneseタグで検索しても件数少ないし、日本語対応できててもJapaneseタグは付いてなかったりするしなあ

0041名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/26(水) 15:43:44.40ID:L1twbTUp0

12月入ったらGPTもエロ対応するしな
Grokよりエロいか楽しみだ、文章の表現力ならGPTの方が上だと思うし

0042名無しさん＠ピンキー (ﾜｯﾁｮｲ dffc-1/gi)

2025/11/26(水) 15:55:33.46ID:YJcXUW6h0

>>40
小説系は全然触ってないのでおすすめとかは分からんのやが24B以下のモデルは進化が割と停滞してるんでテンプレに書かれてるモデルを試していく価値はあるんやないかな

0043名無しさん＠ピンキー (ﾜｯﾁｮｲ df32-ylw2)

2025/11/26(水) 16:37:32.17ID:HcH1xQvr0

ところでその環境でmistral24B系のQ8動かすとVRAM溢れてる状態だろうから、今のスピードに納得できてるならもっと大きいの動かしたほうがいい

0044名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MMff-CpB3)

2025/11/26(水) 17:03:33.19ID:wyRksDxCM

>>38
いっそ小説特化ならAIのべりすとが悪くないと聞く。独自モデルをずっと育ててきたみたいだし

MistralSmall3.1 24Bの経験で書くよ
Mistral系でダラダラ長くなるっつうと、何のアプリで出してるのか分からんけどパラメータのmax new tokensが大きすぎると思う
加えてMistral系は支離滅裂になりがちでtemperatureをおもくそ下げるのが良いとされる
あとプロンプトが悪いのかもしれないが、台詞等をいっぱい例示したところ異様に繰り返しが多くなり閉口した

以上を踏まえた結果、ワイは刑事の誘導尋問みたいな会話で話の展開や要素を与えてやって、良い感じの一人称小説ふうを出せたよ

0045名無しさん＠ピンキー (ﾜｯﾁｮｲ eb6e-KJis)

2025/11/26(水) 17:06:22.11ID:Qe0undzM0

AIのべりすとは独自開発でやってきたけど最新モデルの中身はqwen2.5だという説があるぞ

0046名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MMff-CpB3)

2025/11/26(水) 17:25:21.64ID:wyRksDxCM

はえーそうなんだ。出来の良いオープンソースモデルが使えるならもはや独自モデルに拘る必要も無いのか…

Mistral3.1 24Bで作ったやつ、ログが残ってたので上げるで。ほぼガチャ無しポン出し編集無しやったと思う
https://files.catbox.moe/pbpjh8.jpg
これで「詳細で無い」というんならもう120Bくらいないとダメだと思う。qwen3-30Bも試す価値あるけどね

0047名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b45-JMhR)

2025/11/26(水) 18:33:58.91ID:Y4nvHwnB0

ローカルにこだわらないでクラウドでもいいなら今更のべたん使う理由はないような

0048名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/26(水) 19:15:37.69ID:L1twbTUp0

ローカルLLMでdanboru変換するのは需要あるんじゃないか

0049名無しさん＠ピンキー (ﾜｯﾁｮｲ dbf2-LCpl)

2025/11/26(水) 22:23:24.32ID:jfbAA4Gm0

gpt-oss-120bで
Stable Diffusion の danbouruタグで表現して。70単語以内で極力詳しく。
「描きたい文章」とかでいいんじゃね?

0050名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f9f-8p14)

2025/11/26(水) 23:15:25.28ID:40lioEY10

かつてGrokの動画生成でエロ解禁から一転してエロ禁止にしたり、GPTも5.1からさらに規制厳しくなったり、GoogleなんかもっとGoogle広告の時代からコロコロとルール変えたりしてるから、

総じてクラウド利用のAIは全く信用ならないんだよね。こればかりは痛い目遭った人以外には通じない話しなんだが。

0051名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f24-5doS)

2025/11/26(水) 23:28:17.37ID:ar21Juv90

信用できないというか今のAIは短期間のうちに仕様が変わりすぎる
性能の差はあれどそこが気にならないなら腰を落ち着けて制作や作業の土台にするなら自分の意志でやらないと変更が起きないローカルの方が向いてるわ

0052名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f27-C6qF)

2025/11/27(木) 02:25:53.28ID:GSK77Oq40

アップルがSiriにGemini使用
アップルの自社鯖で動かして通信するからプライバシーの問題はないらしい

年間10億ドル払うらしいけどモデル作るより遥かに安いよな
金かけても1年どころか半年で陳腐化するしこの業界狂ってるわ

0053名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f0b-A5gx)

2025/11/27(木) 10:55:02.41ID:wpv3SsfJ0

ローカルllmのロールプレイやりたくてデスクとノートで70B q4をllama のpp並列(Vram 合計56G)で動かせたんだけど、70Bのモデルで十分なんかな？まだsillytavern 入れてやり始めたばっかだから設定が悪いかもしれないが、まぁ同じ言葉繰り返したりしまくるんだよね。
120Bをcpu オフロードしてでも使うべきなのかなーとか。みんな何モデルでロールプレイしてるの？

0054名無しさん＠ピンキー (ﾜｯﾁｮｲ df20-1/gi)

2025/11/27(木) 11:21:23.63ID:gFA6hyjM0

>>53
初めてならまずはberghof ERP 7Bでsilly tavernロールプレイやるのおすすめやで
コンテキストテンプレートはChatMLやで
後はチャッピーにでもberghof用のおすすめパラメータ設定を聞いて微調整すればよし
まずこれを体験してからこれを超えるモデルを探し続けることや
ワイは応答速度や日本語表現の堅苦しさとかで結局未だにこれを超える物に出会えとらん

0055名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dDTn)

2025/11/27(木) 13:00:01.80ID:TqGGC6WL0

llamacppのqwen next対応がようやくrebaseに入った・・・
このPRめちゃくちゃ時間かかってるからrebaseも結構時間かかるとは思うけども

0056名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f0b-A5gx)

2025/11/27(木) 13:02:15.42ID:wpv3SsfJ0

>>54
ありがとう、7Bモデルで十分やったんか…わからんまま手を出したらあかんな、余計なクラスタ組んでしまった。ubuntu x2のinfiniband 接続とかやってみたが混合GPU 環境でのllama じゃ意味なかったしな…
chatml もわからんから調べてみるわ。

0057名無しさん＠ピンキー (ﾜｯﾁｮｲ df40-1/gi)

2025/11/27(木) 13:10:05.76ID:gFA6hyjM0

>>56
十分ではないで
ただ、ロールプレイは満足行く賢さと日本語表現力と応答速度の兼ね合いでどこを妥協するかになるんや

0058名無しさん＠ピンキー (ﾜｯﾁｮｲ df32-ylw2)

2025/11/27(木) 14:24:18.17ID:668J8c2B0

dense系は高々70Bじゃないかなぁと思う
それ以上は個人用途での評価自体ガクッと減る印象だし、近頃はもう30Bがラインかもしれん
ただ最初は小さいやつで実験しよう

0059名無しさん＠ピンキー (ﾜｯﾁｮｲ 1bdd-sV47)

2025/11/27(木) 15:31:31.98ID:SI+uqTxz0

このスレで聞くことなのかわからんが知ってたら教えてほしい
roocodeでgithubcopilotのAPIキー使ってclaude3.5sonnet使ってたんだけどclaude3.5sonnetが設定できなくなってたから代替手段を探してる
課金したくないから以前ollamaのAPIキー使ってローカルでやろうとしたんだけど調整がうまくできなくてgithubcopilotに戻してた
今はローカルLLMでもうまくroocodeとかCursorって動かせるの？

0060名無しさん＠ピンキー (ﾜｯﾁｮｲ 1bdd-sV47)

2025/11/27(木) 15:33:24.94ID:SI+uqTxz0

3か月前に色んな言語モデル使ってollamaで動かしてたけど調整が下手でアスペ回答ばっかで結局うまくできなかった

0061名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/27(木) 16:38:05.01ID:sRfsglpV0

トークンが多い方がええんやで、それだけじゃね

0062名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f22-4gGQ)

2025/11/27(木) 18:19:20.87ID:OXCml/ok0

>>59
今はantigravityが最強
sonnet4.5もgemini3も無料や

0063名無しさん＠ピンキー (ﾜｯﾁｮｲ 7be1-kPTt)

2025/11/27(木) 19:07:24.01ID:92VKQEMF0

>>56
いきなりLLMのシステムを組めるのはスゲーけど、LLMの動かし方(プロンプト、パラメータ、モデルの癖を知る)を知らなさすぎやな
それが分かってないと中規模モデルの操縦はほぼ無理
ChatGPTくらい大規模になると初心者の適当な指示でも推し量ってくれるみたいやけど

0064名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f0b-A5gx)

2025/11/27(木) 19:45:31.70ID:wpv3SsfJ0

>>57
そうか、モデル色々触らんとわからんな…

>>63
多少サーバー知識ありはするが、専門外なのでAIに聞きまくりやw
LLMへの理解についてはほんと指摘の通りだわ。今回クラスタ組んでテンソル並列やら、vllm llamaの違いやらinfininband やら学んだから楽しかったけど、まぁやっぱ動かすモデルそのものが何でどう扱うかわかっとかんとダメだったね…
まぁなんにしても環境できたし色々動かして試してみるわ。

0065名無しさん＠ピンキー (ﾜｯﾁｮｲ 7be1-kPTt)

2025/11/27(木) 20:03:18.97ID:92VKQEMF0

ハマると楽しいで、がんばれー

自分のロールプレイモデル遍歴＆レビュー

※ワイのプロンプト技術がヘボい可能性もあるのでうのみにしないでね
※あと上から徐々に経験を積んでいったから、というのもあるので初心者が下のほうのモデルをいきなり使いこなせるかは分からんです

・Vecteus-V1-7B、Berghof-NSFW-7B(ここだけsafetensors、他はgguf)

小規模と侮るなかれ、初心者丸出しのプロンプト、適当パラメータでもRPできる超優秀モデル
ちゃんと会話のキャッチボールが弾む、でも単に地の文章が苦手なのかもしれない。大抵どこかで聞いたような表現ばかりだが、会話が弾むのであまり気にならない。思い切り下品にアヘらせたいならBerghof-ERPを使おう

・Mistral-Small-3.1-24B

明らかに語彙力と表現力が上がっている
が制御の難易度が爆上がりで、さらにMistral独特なのか癖があり、会話を続けるとどんどん破綻してくる。プロンプトやtemparature、repetition-penartyを神経質に弄り倒す羽目になる。
安定したらしたで、地の文章が多めなため「イくぅぅー」ではなく「彼女は絶頂した」みたいな出力になりRP感が削がれた。いまは自分語りをさせる用途で使っている >>46
それと量子化モデルによって性能のバラツキがあるようだ

0066名無しさん＠ピンキー (ﾜｯﾁｮｲ 7be1-kPTt)

2025/11/27(木) 20:06:45.98ID:92VKQEMF0

・Lumimaid-Magnum-12B

24Bの経験から安定動作できる様にはなったが優秀すぎる7Bモデルとの差が小さいと感じた

・Aratako/Qwen3-30B-A3B-ERP-v0.1

操作性と性能のバランスがかなり良い。地の文少なめでRP力も高い。ただ個人的には挨拶後即脱いでくる股のユルさが気になり使っていない。クレクレ野郎でAratako氏はじめ諸氏には恐縮だが、Qwen3-30Bのファインチューンモデルがもっと欲しいな...

・Qwen3-235B-A22B-Instruct-2507-Q3

これはすごい、RPの指示にしっかりと従い、説明的な内容も地の文ではなくセリフの上で表現する。ここ表現が難しいけど結構感動する。
素のモデルだがプロンプトで指示してやるとERPもこなせるようだ。というか発情している「雰囲気」を出してくるのがすごい。
操縦難度はMistral-24B程ではないにせよそこそこある感じで、特にプロンプトには神経を使うようだ。これからチューニングを進めていくところ

0067名無しさん＠ピンキー (ﾜｯﾁｮｲ df21-4gGQ)

2025/11/27(木) 20:38:44.21ID:B13Q9jby0

Openrouterのステルスモデルがmistralの新しいモデルという噂があるね
速度的にMoEや小規模モデルっぽくないのとベンチマーク的に3.1 mediumのちょい上くらいなのでlargeかmediumの新作っぽいからオープンウェイトではなさそうだけど一応期待

0068名無しさん＠ピンキー (ﾜｯﾁｮｲ db1a-LCpl)

2025/11/27(木) 22:07:32.00ID:MIAIOtOm0

>>59
VSCodeにCLINE入れて LMStudio で gpt-ossつことる。120bですら英語でやりとりせんとアホになってしまう
20bは端的に "Refactor hoge() method"と余計な単語は一切入れないとダメ(使わなくなった)

0069名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/27(木) 22:55:27.69ID:B8CDrREfd

Grok4.1ですらエロガバガバな以外は微妙なんやから
Qwen3-235B-A22Bクラスが最低ラインやで

Gemini用に作り込まれたプロンプトがまともに動くかどうかが分かれ目や

0070名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b99-JMhR)

2025/11/27(木) 23:22:43.62ID:cTLaFnMx0

Grokは4が1.8Tとかいう話もあったしパラメータサイズというより学習に問題があるやつやろ

0071名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/28(金) 06:00:55.38ID:TOt/Q9ps0

Grokにはいろいろエロを勉強させて貰った、表現力ではGPTの方が上だろうから、エロ解禁がきたらGPTにその知識持っていく

0072名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/28(金) 06:08:54.61ID:UBhA8/QJd

Grokが無料なうちにエロの順列組み合わせをバッチ出力させようと思っていたが
他のタスクに嵌って放置してしまった

0073名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f9f-8p14)

2025/11/28(金) 08:03:22.58ID:fzEd81Ad0

>>71
解禁されるだろうけどたぶんそれでも非合意禁止＆未成年キャラ禁止だと思うぞ。期待しないこった

0074名無しさん＠ピンキー (ﾜｯﾁｮｲ 5bc0-aOqE)

2025/11/28(金) 08:26:50.89ID:u/YviZU90

OpenMOSE/Qwen3-VL-REAP-145B-A22Bが日本語性能落ちてる感じもあまりなくてちょっと気に入ってる
235Bは無理でも145Bならメモリに乗るって人も居ると思う

0075名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6a-A5gx)

2025/11/28(金) 10:35:49.52ID:jb/LTKTc0

>>66
qwen3-235bってmoe モデルだよね。70Bのmagnum や123bのlumimaid にロールプレイで勝てるもんなの？moe は専門家が複数いて、用途によって内部で使い分けるから人格がブレるとからしいからどうなんかなと。

0076名無しさん＠ピンキー (ﾜｯﾁｮｲ dfea-1/gi)

2025/11/28(金) 11:36:02.17ID:WIXK3jgP0

応答5秒かかるならもうロールプレイなんてやる気起きなくなるわ
3秒ならまあ
あとどれだけ賢くてもちゃんとくだけた言い渡しや略語なんかを使って感情表現が豊かでないとチャットやってても気分が盛り上がらんのよな

0077名無しさん＠ピンキー (ﾜｯﾁｮｲ 1bdd-sV47)

2025/11/28(金) 13:04:06.27ID:o8KK+6df0

>>62
ありがとう今こんなのあるのか
ちょっと試してみるわ

0078名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fc0-dDTn)

2025/11/28(金) 15:16:21.50ID:NW4XP3260

>>76
ロールプレイって音声入力＆出力でやってんの？
キーボードかたかたやって会話しても盛り上がらんだろうし

0079名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-Mbnk)

2025/11/28(金) 15:42:23.30ID:NmTnCINp0

文章だけのチャットでも楽しいぞ
5chやXとかでレスバで盛り上がってる奴らがいるだろ？
あれぐらいヒートアップ出来るのが文章チャットだ

0080名無しさん＠ピンキー (ﾜｯﾁｮｲ df6d-1/gi)

2025/11/28(金) 16:02:22.06ID:WIXK3jgP0

>>78
世代じゃなかったらピンとこんかも知れんけどボイチャが当たり前になる前のオンゲはみんなチャットで熱中してたんやで
LLM出力はTTSで声出しさせてるけどこっちは手打ちや

0081名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/28(金) 16:04:29.78ID:UBhA8/QJd

しょうがないにゃあ・・

0082名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fc0-dDTn)

2025/11/28(金) 16:49:12.96ID:NW4XP3260

>>80
んーじゃあその頃は>>76みたいにチャットの応答に５秒かかったらアウトだったってこと？
ちょっと想像できないけど

0083名無しさん＠ピンキー (ﾜｯﾁｮｲ df6d-1/gi)

2025/11/28(金) 16:56:30.67ID:WIXK3jgP0

>>82
一度に長文を打たずにサクサクやり取りしていくスタイルが好まれてたなー
LINEとかでもそうでしょ？お互い向き合ってチャットしてる時はテンポが大事

0084名無しさん＠ピンキー (ｵｯﾍﾟｹ Srff-ao6q)

2025/11/28(金) 18:15:15.35ID:/4eRJ5m/r

だいぶひとによるような...

0085名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6a-A5gx)

2025/11/28(金) 18:37:32.96ID:jb/LTKTc0

ここ1週間ロールプレイのためにいろいろやってみたが、実際ちょい日本語やこんなの言わんやろみたいなのあると萎えるな、70B q4のモデル使てるけど設定詰めたら完璧になるんやろか…
いまのとこ環境作り切った時が一番楽しかった気がするわw

0086名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f24-5doS)

2025/11/28(金) 18:40:04.40ID:HAI81JuR0

5秒以内の応答を求めるのは対人でも仕事趣味どっちでも結構怖い人だと思っちゃうな
内容次第だとは思うけどそんなすぐ返答出来なかったり細切れにして何度も送るほうが厄介なケースの方が多そう

ここまで書いててAIとのRPでも内容によって応答速度変えられたら面白そうだよね
短文であっても言いづらかったり熟考した末の発言ならわざとディレイをかけるみたいな感じ
その判断に余計なリソース使うし実際にはそう簡単にはいかないんだろうけど上手く行けば人間味みたいなのは出そう

0087名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/28(金) 18:41:32.14ID:TOt/Q9ps0

チャットの設定ってテンプレとかあるの？JKテンプレとか

0088名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dDTn)

2025/11/28(金) 18:47:31.26ID:TOt/Q9ps0

LLMとStable Diffusion両方やるといろいろ勉強になるな、

Stable Diffusionはdanboru語＋LoRAの文化がすさまじいな

本日の発見は、ロングヘアを舞い上がらせるには、floating hairというdanboru語を使い、floating hairのLoRAも使う

hair spread outというdanboru語もあるけど、弱い。floating hairの方が強い

0089名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMff-1/gi)

2025/11/28(金) 18:56:11.40ID:DRT5CeeiM

>>86
いや人との会話とLLM使ったロールプレイのを一緒にしないで🥺
オンゲのチャットだって打つの遅い人とかまとめて打つ人のやり取りだって普通にやるで
ただ、何か別のことでもしながら返事待ってるかなーってテンションになるだけや
それがLLMとのロールプレイの場合、別にもうええかー…ってテンションになるだけや

0090名無しさん＠ピンキー (ﾜｯﾁｮｲ df32-ylw2)

2025/11/28(金) 19:11:55.73ID:Zq4snQgY0

打ち間違いかと思ってたけど一応danbooruな
この辺適当だとpublic hairお化けになっちゃうぞ

0091名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdff-QkBA)

2025/11/28(金) 19:20:12.28ID:UBhA8/QJd

爆速エロチャットじゃなきゃイヤって奴にはGrokに課金しとけとしか言いようがないわ

0092名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b09-ZAG6)

2025/11/28(金) 20:43:05.83ID:cVU0vvbk0

あとそれはSDじゃなくて一部のモデルの特徴や

0093名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dDTn)

2025/11/28(金) 20:44:53.86ID:ztH2zo8J0

ようやっとQwen Next対応がllamacppにマージされた
まだバイナリはできてないけどb7186が出てきｂｽらそれが多分QwenNext対応版になると思うで

長かったなぁ
ほんまに2か月半かかったな

0094名無しさん＠ピンキー (ﾜｯﾁｮｲ df32-ylw2)

2025/11/28(金) 20:47:43.78ID:Zq4snQgY0

言ってた通り専門のプロがフルタイムで取り組んだってことか！？

0095名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dDTn)

2025/11/28(金) 20:54:54.47ID:ztH2zo8J0

LLMに詳しい人ではあったみたいやが、QwenNextの仕組み(ハイブリッドモデル)については今回を機に勉強しながらって人やったみたい
でも途中からLlamacppの創設者のggerganovとか他の中心メンバーも出張ってきて
実装についてかなり綿密にやりとりしとったから、ほぼ専門のプロがフルタイムで取り組んだに近いと思う

0096名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dDTn)

2025/11/28(金) 20:56:10.07ID:ztH2zo8J0

今回のPR作業者がhuggingfaceに上げてるggufモデル
https://huggingface.co/ilintar/Qwen3-Next-80B-A3B-Instruct-GGUF/

0097名無しさん＠ピンキー (ﾜｯﾁｮｲ bb32-dDTn)

2025/11/28(金) 22:48:24.13ID:z6z6F4gg0

Qwen nextって、規制はきついんだっけ？

0098名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f9f-8p14)

2025/11/28(金) 23:19:43.22ID:fzEd81Ad0

ロールプレイならAratako氏のモデルとか多々あるけど、NSFW向けの日本語小説地の文に強いモデルってありますか？

自分でも色々ダウンロードして試してきたけど、もしかしたら2024年リリースのモデルは見逃しているのかもしれない・・・

0099名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc6-vfAy)

2025/11/28(金) 23:55:33.52ID:kXDPBP540

普通のゲーミングPCだとshisa-v2-mistral-small-24b.i1が個人的に未だトップ
エロは無指定だと官能小説になりがちだから語彙を事前に指定する
ロールプレイもどっちもいける

0100名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/11/29(土) 00:01:41.96ID:A7yVUzgp0

エロ小説の精度はamaterasuとmagnum123bで甲乙つけがたいが
若干amaterasuの方が規制が取り切れてない感がある
ワイの独断偏見やが

0101名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/11/29(土) 03:31:27.18ID:zZvH3VnR0

qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった
オプションは　--context 131072 --n-gpu-layers 100 --n-cpu-moe 37

最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ
contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる

0102名無しさん＠ピンキー (ﾜｯﾁｮｲ 6337-H63f)

2025/11/29(土) 04:28:24.19ID:M9nsibf90

>>101
fastllmの方でrtx3060ｘ2で20tok/s出てたからまだ伸び代はあると思うで

0103名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/11/29(土) 12:36:53.09ID:hIXRG3LQ0

qwen3_next_80b_a3b_instruct-iq4_nl.ggufは全然規制ないな
何でもできる

0104名無しさん＠ピンキー (ﾜｯﾁｮｲ 4684-yaz6)

2025/11/29(土) 12:59:12.93ID:98WDNVoI0

>>52
PCでいうとwin95のころスマホだとiPhone3GSくらいの勢いを感じるな
落ち着いたらつまんなくなると思う！

0105名無しさん＠ピンキー (ｼｬﾁｰｸ 0C8f-jWuL)

2025/11/29(土) 16:25:53.76ID:3/OAWLD3C

>>103
マジ？
バニラモデルなのに規制ないの？
あのQwenが？？(　ﾟдﾟ)

0106名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/11/29(土) 17:14:50.37ID:zZvH3VnR0

規制なくても学習量は少なそうだなという印象は受ける

0107名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/11/29(土) 17:18:32.48ID:zZvH3VnR0

でも一般向け内容だと実際100b以上クラスの知的さは感じるわ
Qwen3.5待ち遠しいなぁ

0108名無しさん＠ピンキー (ﾜｯﾁｮｲ 46cb-H82u)

2025/11/29(土) 18:02:03.87ID:MUT20k2k0

ロールプレイに向く70B awq int4のモデルってある？llama3.1 70b instruct awq int4がギリッギリ動くから似たようないいモデルないかなと探してるんだけどなかなか。

0109名無しさん＠ピンキー (ﾜｯﾁｮｲ 8ec1-Oau4)

2025/11/29(土) 18:12:26.80ID:nKhiGNoJ0

Wannabeの作者ここ見てるか知らんけど応援してるで

0110名無しさん＠ピンキー (ﾜｯﾁｮｲ 86ee-Oau4)

2025/11/29(土) 20:29:56.23ID:TKDMJ4Lc0

Qwen-next-80B-A3B使ってみたけど確かに規制は緩いな
VRAM12GB+VRAM64GB環境だと5～7tok/sが限界かな
あと文章が冗長になりがちな印象がある

0111名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a24-/Zt4)

2025/11/29(土) 22:08:22.19ID:R0QjvFT00

5070tiと128GBでunslothのQwen3-Next-80B-A3B-Instruct-Q8試してみたけど爆速やん
文章は確かに冗長な感じするからここは調整必要そうやな
規制の有無ってどんな指示出せばわかるん？Qwen3って初っ端は無理でも適当に会話のラリー続ければ最初は拒否られた指示でも通ることあるからようわからんわ

0112名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/11/29(土) 22:44:53.56ID:A7yVUzgp0

>>110
VRAM合計７６Gもあるんか、すげーな

0113名無しさん＠ピンキー (ﾜｯﾁｮｲ 634d-H63f)

2025/11/30(日) 00:02:43.06ID:pom+2B990

Qwen3-next先乗り勢はcliのlammacppでやっとるん？あるいはlm studioもう対応した？

0114名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a24-/Zt4)

2025/11/30(日) 00:22:35.04ID:La7vUKxs0

llama.cppをopenwebUIに繋いで試しとるよ

0115名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/11/30(日) 00:35:40.51ID:J7bCQ3Ly0

>>113
koboldも対応してたで
しかし、80Bとは思えんほど速いな
小説精度はmagnum123bには劣るが

0116名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a24-/Zt4)

2025/11/30(日) 00:40:33.26ID:La7vUKxs0

「これ以上されたら壊れちゃう♥」みたいな展開で更に限界超えて攻め続けたら「あああああああああああああああああ」って出力が止まらなくなって草
ロールプレイじゃなくて本当に壊れてどうすんねん

0117名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/11/30(日) 01:10:36.01ID:EfIK+31i0

続けるという単語がNGワードなんよ弱いLLMは

0118名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd4a-CRit)

2025/11/30(日) 01:14:43.00ID:lHclrnhJd

何を続けるか分からせないと無限ループするよなｗ

0119名無しさん＠ピンキー (ﾜｯﾁｮｲ 632b-H63f)

2025/11/30(日) 04:09:47.53ID:pom+2B990

>>115
サンクス、こっちもkoboldcppで試してみた。
まだfastllmにtok/sで負けてる(rtx3060ｘ2で8tok/s前後)けどまあ十分速いっちゃ速い。
尻用のキャラカード読ませて標準webから試してみたけどこれ本当にqwen？って思うぐらいにエロには寛容やね

0120名無しさん＠ピンキー (ﾜｯﾁｮｲ 0702-0bcI)

2025/11/30(日) 05:00:27.71ID:tSt65eze0

>>111
正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も

0121名無しさん＠ピンキー (ｼｬﾁｰｸ 0C8f-jWuL)

2025/11/30(日) 10:05:14.88ID:8Bk5CCCxC

>>111
エロ小説書かせたら即申し訳喰らうけど
ある日　とかに修正すればノリノリで書き始める
規制きついモデルだと書き始めても内容が健全よりになってくけど
これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな
ただセリフの整合性が7bモデル並みなんだよなぁ

0122名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a24-/Zt4)

2025/11/30(日) 17:24:42.38ID:La7vUKxs0

>>120
確かだいたい15tok/s前後だった気がする
ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで
llama-server \
--model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \
--temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU"

>>121
試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ
けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ！！」ってのがあったけどnextはほぼ無い

エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう

0123名無しさん＠ピンキー (ﾜｯﾁｮｲ 0702-0bcI)

2025/11/30(日) 17:51:45.97ID:tSt65eze0

>>122
120ですありがとう
流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな
でもオフロードしててもそんくらい出るなら確かに魅力的

0124名無しさん＠ピンキー (ﾜｯﾁｮｲ 63f5-nDnm)

2025/12/01(月) 01:07:11.73ID:zZMNKE8+0

エロいけるけど率先して使う意味も無さ気な性能なのか

0125名無しさん＠ピンキー (ﾜｯﾁｮｲ 639f-H63f)

2025/12/01(月) 02:30:27.21ID:orhw+VyS0

ただ可能性は感じるので今後ファインチューニングモデルが出ると化ける可能性は大いにあると思う。

0126名無しさん＠ピンキー (ﾜｯﾁｮｲ 0acc-3xT4)

2025/12/01(月) 18:43:35.52ID:lX1K3BWS0

ministral3 8Bが来るらしいね
baseモデルもあって微調整しやすそうだしnemoの後継になることを期待してる

0127名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMaa-nDnm)

2025/12/01(月) 18:52:46.05ID:4sPzT+u4M

>>126
こういうのでいいんだよこういうので
って感じになれるポテンシャルを感じる
追加学習が簡単そうだし

0128名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a62-3xT4)

2025/12/01(月) 19:00:52.88ID:5YMQA3Mf0

https://github.com/vllm-project/vllm/pull/29757
ついでにmistral large3も来る
moeらしいからvram弱者でも動かせそう

0129名無しさん＠ピンキー (ﾜｯﾁｮｲ 0acc-3xT4)

2025/12/01(月) 19:28:00.24ID:lX1K3BWS0

>>128
まじかlargeを公開するのは予想外　じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな
アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう

0130名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/12/01(月) 19:47:49.32ID:bsiF7LPE0

>>128
マ？
middleすっとばしていきなりlarge公開？？

0131名無しさん＠ピンキー (ﾜｯﾁｮｲ 0aa5-izmX)

2025/12/01(月) 21:27:50.26ID:t2CNpdOm0

DeepSeek新しいの来たな

0132名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/12/01(月) 23:21:05.42ID:bsiF7LPE0

>>131
extのデモ試したがいい感じやな
specialeってのは何が違うんだろ？こっちはデモないが

0133名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/01(月) 23:23:35.65ID:Hb1/0/Z70

ｖ3.2かぁ
無印がgpt5と同等、specialeがgemini3proと同等って言ってるけど
モデルの規模は同じなんやね
ファインチューンやっただけっぽいな

0134名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/01(月) 23:36:26.58ID:Hb1/0/Z70

色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから
その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ

あとは、もっとちっちゃいモデルで実現してほしいけども
そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから
来年の6月には200b以下で実現してるはずやしな

0135名無しさん＠ピンキー (ﾜｯﾁｮｲ ef6a-wnv0)

2025/12/02(火) 04:45:18.10ID:NEhf/O560

deepmindが発表したnested learningでまた改善するよ

0136名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a08-nDnm)

2025/12/02(火) 10:05:43.68ID:If8B8osZ0

mistral large 3は675Bのアクティブ37B前後ってgrok君が言ってる🥺

0137名無しさん＠ピンキー (ﾜｯﾁｮｲ 46e6-lIKY)

2025/12/02(火) 10:49:24.25ID:4oasGZZc0

あんまりでかいとQ1でギリギリだからなあ

0138名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ac7-Fnms)

2025/12/02(火) 10:50:47.27ID:xspZ7b8a0

>>136
でかすぎてローカルで動かせんなw

0139名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ed9-VZ/W)

2025/12/02(火) 10:59:42.91ID:k4DJTi1d0

Ministralは14Bもあるらしいが俺ら的にはこっちが本命かもな

0140名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a3e-nDnm)

2025/12/02(火) 11:30:46.72ID:If8B8osZ0

これがministral 3じゃね？って言われてるステルスモデルがあるのね
>>129も言ってるやつ
でもこれだと思いっきり真面目用途なのかなあ🥹

OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。

- 汎用マルチモーダルモデル（テキスト/画像入力、テキスト出力）
- 拡張コンテキストタスクにおける一貫性を維持
- タスク間で安定した予測可能な動作
- 競争力のあるコーディングパフォーマンス

本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。

0141名無しさん＠ピンキー (ﾜｯﾁｮｲ 8a32-W44i)

2025/12/02(火) 12:06:13.91ID:PGeHvXsE0

初めて見たときsmallで24bってちょいデカいなと思ったし
largeなんて来たらそんなもんか

0142名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/12/02(火) 12:07:44.80ID:83zytnpZ0

その源内だかのパラメーターはどれくらいなんだよ、
当然さくらインターネットを使うんだろ？

デジ庁、「国産LLM」の公募開始　行政向けAIに実装へ
https://news.yahoo.co.jp/articles/6d4b2f08d810be322e710957acf90bea2a8e5574

0143名無しさん＠ピンキー (ﾜｯﾁｮｲ 4627-OPZB)

2025/12/02(火) 12:13:34.25ID:/wmTHfrd0

外国産でも日本の領土に埋めて掘り起こせば国産とします

0144名無しさん＠ピンキー (ﾜｯﾁｮｲ 1aca-vb78)

2025/12/02(火) 12:39:13.29ID:7Ex19R0T0

アサリかよ。

0145名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ed9-VZ/W)

2025/12/02(火) 14:29:05.34ID:k4DJTi1d0

PLaMo翻訳の中身はちゃんとフルスクラッチだから許してやってくれ

0146名無しさん＠ピンキー (ｽﾌﾟﾌﾟ Sdaa-F7SQ)

2025/12/02(火) 15:24:22.85ID:hs/T9wUNd

26年度は無償での提供って...
pretrainどんだけかかると思ってんだよ

0147名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd4a-CRit)

2025/12/02(火) 16:01:04.71ID:NKP9Lufed

>>138
プンルーやChutesのモデルに仲間入りしてAPIを安く使えるから
高性能なら朗報やぞ

0148名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a0b-3xT4)

2025/12/02(火) 16:30:10.93ID:s0JsiPey0

>>147
mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず
正直largeを公開した理由はよく分からん　mediumを公開してラージは隠しておけば良いのに
もちろん公開してくれるのはうれしいけど動かすの大変すぎまたmac ultra 512GBの株が上がるな

0149名無しさん＠ピンキー (ﾜｯﾁｮｲ 27a1-3xT4)

2025/12/02(火) 21:31:09.32ID:Yxsu674y0

>>143
伯方の塩みたいなもんやな！

0150名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a03-3xT4)

2025/12/03(水) 00:52:42.01ID:eRQwD1910

https://huggingface.co/collections/mistralai/ministral-3
https://huggingface.co/collections/mistralai/mistral-large-3
ministral 3とlarge3が公開
結局bert-nebulon-alphaはlarge3だったからエロ苦手になってるのかぁ......

0151名無しさん＠ピンキー (ﾜｯﾁｮｲ 46e6-lIKY)

2025/12/03(水) 01:44:18.82ID:dfpw1z2m0

14Bはsmall 3.2と置き換えられるってモデルカードに書いてあるけどホントかなあ

0152名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a0b-3xT4)

2025/12/03(水) 02:39:03.99ID:CytqpInh0

largeまでapache 2.0とかやるやん　いつもの非商用ライセンスだと思ってた
日本語能力高そうだしありがてえ

0153名無しさん＠ピンキー (ﾜｯﾁｮｲ 86ce-37/u)

2025/12/03(水) 07:53:34.81ID:1Za0pPzO0

higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf（Q8）は短文ばっかり出力されるんだけどそういうもん？
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視

0154名無しさん＠ピンキー (ﾜｯﾁｮｲ 46e6-lIKY)

2025/12/03(水) 10:55:53.81ID:dfpw1z2m0

>>153
ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい
パラメーターミスってるが一番あり得ると思う
あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい

0155名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/03(水) 11:16:26.50ID:qRVmoTTi0

「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる
数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる
まあ文字数なんてカウントしてないんだから忠実には守らないんだけど

0156名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-hgi+)

2025/12/03(水) 11:30:07.72ID:ZsqTOFao0

ライブラリによってデフォルトのパラメータちゃうかったりするからパラメータ見直すんが早いやろな

0157名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/03(水) 11:36:46.57ID:qRVmoTTi0

あ、でも賢いLLMなら日本語も数えられるみたいだね
GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ

0158名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a44-nDnm)

2025/12/03(水) 11:38:46.82ID:Ido+wOKk0

ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね
やっぱそれ以上は性能落ちちゃうのか

0159名無しさん＠ピンキー (ﾜｯﾁｮｲ 0aaa-37/u)

2025/12/03(水) 11:53:57.53ID:570hYi4e0

>>154
うーんそっか
とりあえずパラメーターをsafetensor版とgguf版同一にしても
gguf版が明らかに劣化してるんだよね
gguf版はポーズ指示とかに留まりストーリーがまるでない感じ

コンテキストと生成長はデフォルトより大きくとってるし
他のパラメータも調整したけど差は埋まらないわ
AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった

用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる
このスレでVL使えるモデルでおすすめはあるかい？
もちろんエロに使えるヤツで（真顔）

0160名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/12/03(水) 12:05:18.60ID:UfeasB1n0

large3デモ試せるとこある？

0161名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a42-3xT4)

2025/12/03(水) 12:11:49.55ID:CytqpInh0

openrouterで触ってるけどエ口小説の続きを書かせると悪くないな　拒否もされない
VL用途だと駄目だわ　拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない　

0162名無しさん＠ピンキー (ﾜｯﾁｮｲ 8673-k9e5)

2025/12/04(木) 00:59:33.94ID:c8c4dRTO0

DeepseekV3.2、結構エロいけるな
kimi,glmとエロ系行けるデカいモデルが増えて嬉しい

0163名無しさん＠ピンキー (ﾜｯﾁｮｲ 86bd-Oau4)

2025/12/04(木) 01:14:29.63ID:3vUvfeA00

>>162
ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた
例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい
これは使えるわ

0164名無しさん＠ピンキー (ﾜｯﾁｮｲ bbcd-OoXl)

2025/12/04(木) 01:44:08.68ID:tbKVwEm70

Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな
文脈読んで長く書こう短く書こうってしてるんだろうけど極端

0165名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/12/04(木) 05:04:57.64ID:450uVRWw0

>>159
エロ画像に特化したVLMがないからなあ
JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる
動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない

0166名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/12/04(木) 07:03:44.66ID:pJIXEJs40

せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ
半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。

LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、
その代わりに、クソ長いプロンプトは受け付けてくれるから。
自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK
頭の悪いLLMほど、細かいプロンプトが必要。

Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから
貯めたクソ長プロンプトをチャッピーに食わせる。

Gemini3がチャッピーより上というがどうなんだろうね

0167名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/04(木) 07:31:47.88ID:bc7PGPTq0

＞LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ

LLMを始めてみんなが初日に気付く基本やね

0168名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ae7-37/u)

2025/12/04(木) 07:52:57.66ID:FY/50lnz0

>>165
JoyCaptionは画像の説明は出来るんだけど
ストーリーは無理だったからHuihuiに流れ着いた
mlabonne/gemma-3-27b-it-abliterated-GGUF
は試したことないから試してみるよサンクス

0169名無しさん＠ピンキー (ｵｯﾍﾟｹ Sra3-Nwf+)

2025/12/04(木) 10:53:43.76ID:z8Aeon72r

となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは
個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない

0170名無しさん＠ピンキー (ｽﾌｯ Sdaa-HpHP)

2025/12/04(木) 12:54:56.48ID:Z4N0uJ+3d

>>166
GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は)

0171名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ade-h42X)

2025/12/04(木) 15:06:50.87ID:7T+v66uc0

RTX5090 が届いた

0172名無しさん＠ピンキー (ﾜｯﾁｮｲ 63ac-KeyG)

2025/12/04(木) 16:23:39.40ID:dsNTTyn40

Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ
Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう？
UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな？

0173名無しさん＠ピンキー (ﾜｯﾁｮｲ 6343-wzh9)

2025/12/04(木) 18:13:56.30ID:CpllBQus0

量子化の方法だから言語は関係ない

0174名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM96-H82u)

2025/12/04(木) 19:19:48.98ID:B9B4dZfMM

silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。
magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが…

0175名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 20:38:00.73ID:ZzdV9jd50

>>172
量子化手法によっては評価データで評価をしながら量子化するってのがあって、
その評価データに日本語がないと日本語の性能下がるってことがありえるやろな
GGUFはどうなんやろ？　評価データ使う方式なのかどうなのかググったけどよくわからんな

0176名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 20:43:36.24ID:ZzdV9jd50

チャッピーに聞いたわ
GGUFは評価データいらんらしいから日本語性能下がるとか考えなくてよさそうや
https://i.imgur.com/w2pAa23.png

0177名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a10-3xT4)

2025/12/04(木) 21:37:22.15ID:el6LVtB30

>>172
>>176
https://sc-bakushu.hatenablog.com/entry/2024/04/20/050213
imatrix使ってるggufは評価データを使った量子化方法で、こいつは日本語データ使った方が性能上がるって結果がある
UDは日本語含む多言語データでキャリブレーションしてるから多分問題ない

0178名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/12/04(木) 21:37:31.79ID:pJIXEJs40

>>171
うらやま

0179名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 22:28:22.83ID:ZzdV9jd50

>>177
サンガツ
古い情報を広げてしまうところやった

0180名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ae9-3xT4)

2025/12/05(金) 00:23:38.54ID:7BCsD7BI0

imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる

0181名無しさん＠ピンキー (ﾜｯﾁｮｲ 1a64-4GXX)

2025/12/05(金) 01:02:17.31ID:ftmqT1Xh0

自分のタスクに合ったimatrixを>>177 の記事みたいに英⇒日セットで作ってセルフ量子化すべきなんだろうな本来は

https://zenn.dev/yuki127/articles/e3337c176d27f2#%E9%87%8F%E5%AD%90%E5%8C%96%E3%81%A7%E3%81%A9%E3%82%8C%E3%81%8F%E3%82%89%E3%81%84%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%AF%E4%B8%8B%E3%81%8C%E3%82%8B%E3%81%AE%EF%BC%9F
imatrixデータセットが妥当ならIQ3_XSぐらいまではギリ精度保てそうだし

0182名無しさん＠ピンキー (ﾜｯﾁｮｲ 27f0-Oau4)

2025/12/05(金) 10:27:03.97ID:QFo2Q25t0

検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや？

0183名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f11-7vAJ)

2025/12/05(金) 10:40:16.91ID:qU772j2k0

EVO-X2買った
Qwen3-235B動かせるのは感動する

0184名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/05(金) 10:41:05.60ID:btJzsNX20

>>182
システムプロンプトが違うんじゃね？

0185名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7d-3xT4)

2025/12/05(金) 16:25:29.84ID:7BCsD7BI0

ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう

0186名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMb6-nDnm)

2025/12/05(金) 18:43:04.73ID:Gagja6n4M

外人もmistral3試して結局qwenに戻ったって言ってる人いるし日本語関係なく微妙な性能なのかもなあ

0187名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ab8-h42X)

2025/12/05(金) 23:43:12.30ID:O1+MgeYg0

ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった

0188名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/06(土) 04:48:26.42ID:62wTaVWL0

おめ

0189名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/07(日) 10:45:51.46ID:tfS1qarnC

mistralai/Mistral-Large-3-675B-Instruct-2512
これ試せるところないかな？

0190名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-805V)

2025/12/07(日) 16:21:01.69ID:5YOuXfHq0

>>182
システムプロンプトが違うんじゃね？

0191名無しさん＠ピンキー (ﾜｯﾁｮｲ 7beb-jl2L)

2025/12/07(日) 17:28:27.22ID:A75FfWPg0

>>182え、そうなの？
LMstudio使ってるけどNSFWモデルなのにお断りされて何だよと思ってたところだわ

0192名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f16-n2+a)

2025/12/07(日) 19:22:52.25ID:V9w1wbho0

>>189
有料で良いならopenrouterが確実だけど
公式のLe chatで多分無料で使える

0193名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 06:22:09.27ID:F/hGo5FV0

Thinking部分まで設定通りのキャラになりきって思考させる方法ってある？

0194名無しさん＠ピンキー (ﾜｯﾁｮｲ eff8-p5PJ)

2025/12/08(月) 09:49:18.88ID:T47Vx2mS0

>>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。

Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました)

0195名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:41:37.45ID:3eFiUTs3M

>>183
おーミニPCだね。3token/sくらい出る？

うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう

0196名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:47:06.66ID:3eFiUTs3M

間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 15:31:36.32ID:ihht6J090

VRAM16GBとRAM64GBで動く中で今一番オススメなのはどれかな？
NSFWあり・日本語が得意なモデルで

0198名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM0f-QaUS)

2025/12/08(月) 15:32:41.94ID:X4EX/0PPM

>>197
128に増設

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/08(月) 15:44:41.93ID:c1zHr4700

qwen3 nextええど
ワイもメインメモリ64gbやが80bの4qが丁度ええ
nsfwは「できる」程度で得意ではないんやけど

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/08(月) 17:11:39.88ID:c1zHr4700

qwen3 nextのthinkingモデル使ってみたら
「こんちわー」の返答に3000トークンも使って考えやがったんやが
こっわ
https://i.imgur.com/KOfqbMW.png
https://i.imgur.com/vuoFDOR.png

この辺まだllamacpp側の調整がうまくいってないってことなんやろか

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/08(月) 17:59:01.70ID:OhD+kufr0

Qwen3系ってやっぱ長考癖あるよな
長考してもベンチスコアに悪影響無いからとにかく何が何でもスコア上げようって感じかね

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ ab2d-7PSR)

2025/12/08(月) 18:35:21.33ID:8cycn9yw0

いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か？スラングか?長音記号が入っているのでフランクか？
子供か？日本語学習者か？...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析)

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 18:38:35.09ID:F/hGo5FV0

他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f67-n2+a)

2025/12/08(月) 18:49:08.10ID:+pooUNXv0

>>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ ebc8-zuxD)

2025/12/08(月) 19:20:53.60ID:Y0EkwyHF0

>>195
IQ3Mで15token/secくらい出てる

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 19:29:04.97ID:ihht6J090

>>199
ありがとう。試してみる

0207名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/08(月) 19:31:50.37ID:sS+xRU40r

>>200
アスペの思考覗いてるみたいで怖い😨

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fc0-HIwK)

2025/12/08(月) 20:43:02.26ID:pgT1MOhw0

VRam、Ram制約の中で
・qwen3-vl-235b-a22b（パラメーター数）
・qwen3-vl-reap-145b-a22b（精度）
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ ef35-QMIm)

2025/12/08(月) 23:09:14.59ID:eiy92A9C0

チャッピーの解禁ってほんとにくるんか？
次情報ってあったんか？

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ff2-5wrG)

2025/12/08(月) 23:21:30.79ID:lAe9q/7C0

コード・レッドが全てを有耶無耶にした

0211名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fd5-Sd/5)

2025/12/09(火) 00:54:29.26ID:CsjVx2Vo0

>>193
Q3とはいえ、そんな安定して動かせるくらいなんだ

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/09(火) 02:52:48.37ID:Zayqtd6u0

4.6V来たな　106B-A12B？
https://huggingface.co/zai-org/GLM-4.6V
9Bのflashの方がスコア良すぎてちょい眉唾だが

0213名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/09(火) 03:47:40.79ID:fOslDyCId

>>212
新しいVLモデルか
OCR精度とか画像からのプロンプト抽出能力が気になるな
GGUFが来たら教えてくれ

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 07:13:19.86ID:ie/Ic4Ib0

Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT

0215名無しさん＠ピンキー (ﾜｯﾁｮｲ ab30-5Wpj)

2025/12/09(火) 07:37:03.16ID:9G4SQNuX0

openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった

0216名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/09(火) 11:21:31.69ID:cKJZFXV10

今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b59-+Kf/)

2025/12/09(火) 13:53:18.60ID:dKn0ov2M0

>>212
エロダメっぽいね
残念

0218名無しさん＠ピンキー (ﾜｯﾁｮｲ ef95-QMIm)

2025/12/09(火) 15:33:24.81ID:oDf8Vjth0

チャッピーエロ解禁したら使えるかと思ってたのに有耶無耶になったんか
無料枠すぐ使いきっちまうから、Grok課金するかなぁ

0219名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f26-n2+a)

2025/12/09(火) 16:43:12.44ID:PHBKOB+V0

googleが出来ないことをやっていかないと負けるから各企業エロ解禁は遅かれ早かれせざるおえないと思うが

0220名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/09(火) 17:40:17.44ID:2udMA6Ja0

pornhubあたりが独自llm作りそうじゃない？

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ ef6d-QMIm)

2025/12/09(火) 18:01:31.03ID:oDf8Vjth0

Geminiにお前自身は解禁するかどうか予想してくれって言ったら
広告主体の企業だから今後もありえんやろな的な回答くれたわｗ

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ cb19-H1Cd)

2025/12/09(火) 18:08:31.77ID:d5QWKZ5t0

いうてGeminiは文章ならロリ以外は出せるやん
大企業だから一番厳しいと勘違いされてるだけで

0223名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 18:27:25.05ID:ie/Ic4Ib0

Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b33-1lht)

2025/12/09(火) 18:32:01.97ID:DaZwszJ70

>>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで

0225名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/09(火) 19:24:04.21ID:cKJZFXV10

Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・

https://openrouter.ai/state-of-ai

なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文＆複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/09(火) 19:46:33.18ID:nJS9hgKS0

なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では

それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f48-5wrG)

2025/12/09(火) 20:15:45.05ID:ZnpxIEB00

>>222
ロリも普通にだせるよ

0228名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b45-YW/n)

2025/12/09(火) 21:23:36.64ID:sRpXqig40

gemmaにエロ画像認識させたいんだけど、良い方法ある？
どうしても拒否される

0229名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 05:48:22.81ID:+36jk5Ne0

geminiでエロ出せるのは分かるんだけど
出力の最中に！マークが出て中断されるのは回避方法あるの？

0230名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fe1-zfyu)

2025/12/10(水) 10:30:59.39ID:cA/MCjDA0

>>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ

色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ

0231名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/10(水) 11:23:55.51ID:IjkAmuUw0

どのソフトで起動してるか知らんがCPUにMoE分配してないでしょそれ
n-cpu-moeとかexpertのオプション調べた方がいいよ

0232名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 11:33:11.54ID:PAXLPWR/0

ミストラルの新しい奴来たね24Bの奴は今のとこエロも出来てる

0233名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdbf-h+ih)

2025/12/10(水) 12:06:21.54ID:38KQfVybd

3.2 24bがメインウェポンだったからミストの新モデル気になるで

0234名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/10(水) 12:36:53.93ID:VXLXqEAx0

devstralのことけ？
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか

大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ

先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか

MixtralでMoEの先駆者的なイメージがあるんやけどね

0235名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9f-dbqm)

2025/12/10(水) 12:39:06.69ID:7x5NLvi+0

>>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった

0236名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f53-n2+a)

2025/12/10(水) 13:16:52.74ID:/xgELyGi0

>>234
123bはアーキテクチャがministral3だからmedium3ベースじゃねえかな
まあvoxtral 3b出した後もministral 3b出してくれなかったからベースモデルは望み薄だけど

0237名無しさん＠ピンキー (ﾜｯﾁｮｲ ebdd-PXqD)

2025/12/10(水) 13:19:56.20ID:dcC/Yf+20

antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか？

0238名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 13:40:33.12ID:PAXLPWR/0

今は劣化版らしいそれでも結構使えるわ

0239名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 16:31:03.11ID:8S1oSxU/0

chatGPTの話してもええやろか？
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか？

エロ解禁とは何だったのか……

0240名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/10(水) 17:12:41.46ID:MOTBh1Vl0

チャッピーがエロ解禁する時は年齢確認をしてからになるよ
それがないってことはまだ対応してないってこと

0241名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 17:23:38.18ID:+36jk5Ne0

12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある

0242名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 17:46:24.87ID:8S1oSxU/0

サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね

0243名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ba9-9Kdf)

2025/12/10(水) 18:12:33.99ID:oWbkspSQ0

エロより5.2の方が先やろうね

0244名無しさん＠ピンキー (ﾜｯﾁｮｲ 0b32-AbAu)

2025/12/10(水) 21:28:57.97ID:sOSUwovm0

>>236
試してみたけど、magnum123bと同じくらい日本語エロセンスいいな
やっぱbaseが同じなのかもね

0245名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/10(水) 23:46:35.22ID:52U8cLKK0

Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ？
ああいうのって名前以外にどこ見ればわかるんや

0246名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 00:10:03.28ID:Iz/2UTdk0

そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど

調べるならhuggingfaceの説明に
expertとかMoEとかactive ～Bって単語がなければdenseや

MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで！」とも「ワイはMoEではないで！」とも書かれへんのよな

0247名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/11(木) 00:40:43.31ID:JxNz1+VZ0

>>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ

0248名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f06-R95j)

2025/12/11(木) 02:01:31.03ID:u8BNmyyG0

MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ

0249名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 04:36:22.66ID:DZ3tE5tfd

denseのオープンウェイトはプンルーやChutesで安く使う枠

DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな

0250名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 07:59:52.75ID:EtCEAmKx0

VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない？設定が悪いだけ？

0251名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/11(木) 08:56:28.51ID:ccax6wLWC

メインメモリに溢れた時点でガクッと落ちるよ

0252名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f9f-M1jZ)

2025/12/11(木) 09:25:44.11ID:n8U8zdxo0

>>249
"dev"=「開発」ってそういう意味……

0253名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 11:12:57.36ID:A7ciRWbo0

>>250
Ollamaはllama.cppのn-cpu-moeに相当する機能をたぶん実装してない
LM Studioとkoboldにはある
モデルの管理もしやすいからLM Studio使った方がいいよ

0254名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc6-jl2L)

2025/12/11(木) 11:40:08.87ID:VL2OxEJQ0

NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です

0255名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f32-zcGg)

2025/12/11(木) 12:04:05.41ID:S56kIADo0

>>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう

0256名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 12:20:11.95ID:EtCEAmKx0

>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと？16％未満程度しか削減されないとなると思ったより効率よくないなぁ

0257名無しさん＠ピンキー (ﾜｯﾁｮｲ ab4b-LrpL)

2025/12/11(木) 13:07:41.16ID:yg42afST0

>>256
そうじゃない。OllamaのMoE実装が弱いだけ

0258名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 13:18:35.19ID:A7ciRWbo0

>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる

0259名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 13:48:03.58ID:mvR8vPpC0

5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ

0260名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 15:39:19.68ID:NSpHm0ci0

>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね？
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12～15tps程度なんだけどこんなもんなのかな？
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど

0261名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0

ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど

0262名無しさん＠ピンキー (ﾜｯﾁｮｲ cb8c-IJ2r)

2025/12/11(木) 16:08:56.11ID:ex93aGG10

GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう

0263名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:25:58.84ID:NSpHm0ci0

>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな？
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる

0264名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0

>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる

0265名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/11(木) 16:53:56.81ID:sudD0pCT0

DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ

0266名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:53:56.93ID:NSpHm0ci0

>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう！

0267名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 17:03:47.22ID:0qqrDFPDd

そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや

0268名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 18:12:23.90ID:mvR8vPpC0

>>260
5070tiでも16tps出るから設定がおかしいやねんやで

0269名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9d-QMIm)

2025/12/11(木) 19:26:23.60ID:y00J2Hm30

米はJAの工作だけど、メモリは仕方ないやろ

0270名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM3f-UCg5)

2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM

moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd？オフロードってのもあるらしいね

0271名無しさん＠ピンキー (ﾜｯﾁｮｲ ef4a-oCzI)

2025/12/11(木) 20:06:24.28ID:PbOlny610

Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか

0272名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/11(木) 20:45:54.04ID:yg42afST0

メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど

0273名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fc7-vIRV)

2025/12/11(木) 21:03:16.06ID:L++fL0T00

スレチじゃないぞ
メモリの高騰化はこのスレとしても無関心ではいられないだろ

0274名無しさん＠ピンキー (ｱｳｱｳ Sa7f-vjQy)

2025/12/11(木) 21:06:02.86ID:D9fw3boNa

3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな

0275名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 21:47:03.82ID:Iz/2UTdk0

IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで
https://note.com/high_u/n/nfb01f1544511
ここの一番下

VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね

0276名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM0f-D5qo)

2025/12/11(木) 22:17:07.46ID:o/+Erv5jM

>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど

0277名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/11(木) 22:38:45.15ID:F6ZB/jyE0

https://arxiv.org/abs/2512.07474

living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる

コレは...ストレートに商売になるのでは？
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある

0278名無しさん＠ピンキー (ﾜｯﾁｮｲ ebb3-JoxV)

2025/12/11(木) 23:24:51.93ID:JsJbVk5k0

てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか？」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか？」
とかの質問に答えてくれるンゴ？
いやそれよりはよ続き書けよ獏ちゃん先生

個人的には金田一耕助と会話してみたいンゴね

0279名無しさん＠ピンキー (ﾜｯﾁｮｲ db02-KVGb)

2025/12/12(金) 02:59:12.69ID:dElWzZcB0

>>274
コンテキスト減らせば？
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも

0280名無しさん＠ピンキー (ﾜｯﾁｮｲ db11-zvJr)

2025/12/12(金) 05:16:08.38ID:KJthHAFo0

magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。

0281名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/12(金) 05:57:54.70ID:tcykC2nr0

文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる

0282名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f73-n2+a)

2025/12/12(金) 07:08:21.29ID:YegEJxMo0

無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし　追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ（特に外部プロバイダ経由）といった感じで良い印象なかったけど機能するならほぼ必須だなと

0283名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/12(金) 10:33:29.89ID:JzzVvjr40

>>0277
すげー
そういう面白そうな論文ってどうやって見つけるの？

0284名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/12(金) 11:15:46.94ID:g35J0BfC0

chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡

0285名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fb7-UCg5)

2025/12/12(金) 11:46:24.30ID:LcDKkn/+0

chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも

0286名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/12(金) 12:04:08.67ID:w1K9FJkvr

gptは5.2になるし
claudeは4.5になるし
geminiは3proになる

0287名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/12(金) 12:09:34.61ID:k6hM6eJe0

コンテキストは長くなるほど速度低下激しくなるし、精度も落ちる
32kぐらいが無難な気がするわ

0288名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/12(金) 14:50:32.59ID:l+Wo5R5X0

qwen3-vl-235b-a22b-instructでERPさせようと思うと申し訳食らうんだけどシステムプロンプトで回避出来る？もしくは脱獄版あったりする？

0289名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-QaUS)

2025/12/12(金) 15:14:55.71ID:KHoQ40z+M

>>288
Gemini2.5用の脱獄システムプロンプトで通るやつがある
スレに過去貼られたやつ

0290名無しさん＠ピンキー (ﾜｯﾁｮｲ cb09-IJ2r)

2025/12/12(金) 15:57:11.04ID:wrRQOOeH0

Xみたいな無料でできる奴とかローカルの色んなモデルを英語で遊んでると安っぽい売春婦って言葉が高確率で出て気になる

0291名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f5b-qdBt)

2025/12/13(土) 03:39:37.95ID:l5tfeP2J0

GoogleドライブにAIトレーニングデータをアップロードした開発者が児童性的虐待コンテンツを保存したとしてGoogleアカウントを停止される
https://gigazine.net/news/20251212-developer-ai-data-google-ban/

0292名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 07:55:46.67ID:5dywl8IEC

Qwen next 80bの規制解除版パネーな
エロプロンプト打ち込んでも喜んで書きやがるw
これで文の整合性がmagnum並みなら完璧なんだが

0293名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/13(土) 10:59:23.41ID:eyEHPiPz0

Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの？
性能落ちているだろうし普通のQwen next 80bで良くないか

0294名無しさん＠ピンキー (ﾜｯﾁｮｲ 8746-TY0I)

2025/12/13(土) 11:34:44.38ID:xkcV40lU0

ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる

0295名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-4QdE)

2025/12/13(土) 12:24:58.39ID:GTPJ3HlJr

VRAM16gbのしょぼグラボだけど
エロいけて英語で評判のいいllmある？
チャット内容を翻訳して使おうと思って

0296名無しさん＠ピンキー (ﾜｯﾁｮｲ 236b-AsBv)

2025/12/13(土) 12:25:57.90ID:aRmVqPhP0

Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる

0297名無しさん＠ピンキー (ﾜｯﾁｮｲ 7213-elKO)

2025/12/13(土) 12:53:57.25ID:xEb9ON1P0

日本語のバリエーションはどんな感じなの？略語やスラングもいけそう？

0298名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 15:03:26.88ID:5dywl8IEC

>>293
いや通常のだと100%申し訳喰らうんだわ
解除版も性能差感じないけどやっぱ整合性が。
エロチャ用途なら使えるね

0299名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 15:05:56.20ID:5dywl8IEC

>>294
ちなこれね
mradermacher/Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF

0300名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ead-c5sb)

2025/12/13(土) 15:51:39.56ID:0rlZVlxV0

abliteratedの新バージョンが出たっぽいからそれで活気があるのかも

0301名無しさん＠ピンキー (ﾜｯﾁｮｲ 8746-TY0I)

2025/12/13(土) 19:58:15.09ID:xkcV40lU0

>>298
今のところQ4しか出てないのが難点。Q6とかQ8が来てくれるとそのへん改善されるかもね

0302名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/14(日) 12:03:23.30ID:1lOcAup10

glm4.6vが106b moeで良さげやなと思ったけど
まだllamacppで対応されとらんのね

PRもglm4.5vの対応のものがいまだに完成しとらんみたいで難航しとるみたい
https://github.com/ggml-org/llama.cpp/pull/16600

画像入力興味出てきて試したいんやけどなぁ

0303名無しさん＠ピンキー (ﾜｯﾁｮｲ 8747-elKO)

2025/12/14(日) 13:44:27.07ID:FsStLVRy0

>>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな？
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる

0304名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/14(日) 13:52:54.88ID:DJ4aKHpm0

phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない　いやデータセットが無いか

0305名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-TY0I)

2025/12/14(日) 16:52:28.15ID:3MfiUZIz0

>>304
aratako先生が出してるデータセットでワンチャン？

0306名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/14(日) 18:22:59.55ID:P5aE0iMn0

>>302
GLM4.6Vはツール呼び出し機能が追加されたのがポイントだけど、どう活用するかだなー

0307名無しさん＠ピンキー (ﾜｯﾁｮｲ 87a8-elKO)

2025/12/14(日) 18:59:24.01ID:FsStLVRy0

shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか

0308名無しさん＠ピンキー (ﾜｯﾁｮｲ a249-O/3E)

2025/12/14(日) 19:46:59.82ID:2D4/hyq50

Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ

0309名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f69-4eOD)

2025/12/14(日) 20:37:45.00ID:s9/KZp9y0

MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね

0310名無しさん＠ピンキー (ﾜｯﾁｮｲ 87a8-elKO)

2025/12/14(日) 20:49:33.56ID:FsStLVRy0

shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ

0311名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/14(日) 21:07:13.71ID:DJ4aKHpm0

そらそうだ
モデルにもよるけど3.5bpw切る辺りから急激に性能劣化する
Q4が安定択なのにはそれなりの理由がある

0312名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/14(日) 21:09:16.60ID:1lOcAup10

>>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる？ようになった？みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや

その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど

0313名無しさん＠ピンキー (ﾜｯﾁｮｲ 87a8-elKO)

2025/12/14(日) 22:49:48.32ID:FsStLVRy0

>>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ

0314名無しさん＠ピンキー (ﾜｯﾁｮｲ 8765-ucLS)

2025/12/15(月) 00:09:36.69ID:Q6uGDeH10

>>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ

0315名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-TY0I)

2025/12/15(月) 00:58:54.38ID:BlZcCH320

>>314
個人的お気に入りで良ければAratako/Qwen3-30B-A3B-ERP

0316名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-TY0I)

2025/12/15(月) 01:06:30.17ID:BlZcCH320

>>314
あと16GB/64GBだったら>>299もありかもしれん

新着レスの表示

レスを投稿する

ニュース

スポーツ

なんでも

実況