なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0002名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:56:18.50ID:kt2SGedd0
初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki
0005名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:57:48.90ID:kt2SGedd0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0006名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:58:17.92ID:kt2SGedd0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0007名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:58:38.98ID:kt2SGedd0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0008名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:59:01.90ID:kt2SGedd0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral系
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Mistral-Small-3.2-24B-Instruct-2506
Cydonia 24B v4
Cydonia-R1-24B-v4

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2
0009名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:59:25.37ID:kt2SGedd0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで
0015名無しさん@ピンキー (ワッチョイ bb32-dDTn)2025/11/24(月) 11:58:31.79ID:hXVKj7Ep0
ワイもずっとkobold.cppやな
exe一発でuiもシンプル ちょっと凝った事したけりゃメニューで変更や画像生成もできる
指示モードとチャットモードがあるけど、ワイは小説書かせる時は指示モードかな。指示モードでもチャットできるし

LM studio使ってる人も、使い勝手や面白い使い方知ってればどんどん教えて欲しい
0016名無しさん@ピンキー (ワッチョイ eb03-9a+n)2025/11/24(月) 12:30:09.03ID:E+dO/e8k0
intel環境だとlm studioは特殊な操作なしでNPUまで使ってくれるからノートパソコンで重宝してる
普段は惰性でkobold使ってるけどAPIの項目も多いしとか画像生成とかもできるし下位互換ではないと思う
0018名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/25(火) 04:25:36.84ID:PnUBt4Bed
ローカルLLMを使い倒すアプリを組んで動いたはいいが
「なんでワイしょうもない用途でゴツいアプリ作っちゃったんやろ」と賢者モードになる

電気代が怖いし人間ぽい感じでやらなきゃ爆速で終わるのにとも思う
あとこんなんクラウドでやったら課金課金で胃に穴が空くわ
0020名無しさん@ピンキー (ワッチョイ db3e-WDmd)2025/11/25(火) 10:17:01.32ID:ncCFUx0n0
これカスタムしてるだろ
0023名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/25(火) 14:14:57.16ID:oFIjDYBV0
AIが直接見下すとかではないけど「あなたには無理です。こちらの方法をお勧めします。」と言われたことがあるな
ちょっとショックだったw
最初に「初めてなので」という断りを入れてたからだろうけど
0024名無しさん@ピンキー (ワッチョイ eb89-WXoq)2025/11/25(火) 14:28:54.25ID:HkFgURHY0
連休で始めた初心者なんだけど、12GBのGPUメモリで動くRPが得意で特定の決まり事をシステムプロンプトで指定したら絶対に守るようなおすすめモデルってある?
MistralPrism24Bに感動したのだけど、条件を守ってくれない。
チャットゲームみたいの作りたい。
0025名無しさん@ピンキー (ワッチョイ df1c-1/gi)2025/11/25(火) 14:35:36.43ID:PH4lt1Fa0
>>24
そのサイズでは日本語RPが得意なモデルはあっても指示に対する理解力が足りないものしかないと思うで
ちなみにberghof ERP 7BはRP得意でおすすめやが状況把握や矛盾に対する認識なんかはまあ7Bですね…という感じ
当然ゲームマスター的な事をやらせても上手くいかん
0027名無しさん@ピンキー (オイコラミネオ MMff-CpB3)2025/11/25(火) 18:13:12.92ID:QvMwqdOzM
スレ立て乙

自分の認識だと
7Bモデル 雑なプロンプトでもかなり自然な出力が得られるが賢さは最低限(berghof,vecteusV1が好き)
7B以上(を量子化して無理くり動かす)モデル まともな出力を得るのが格段に難しくなって面倒臭さが賢くなったメリットを上回る

なので初心者でエロ目的じゃなければビッグテックが念入りにチューニングしたクラウドAIが良いのでは

こないだメインメモリ128MBのマシンを作ったんだけど、Qwen3-235Bの量子化モデルにはかなり可能性を感じた。チューニングを頑張ろうと思う
0028名無しさん@ピンキー (ワッチョイ 0fa0-dDTn)2025/11/25(火) 20:42:26.31ID:7ie9GGyz0
誰か、文章を読解してdanboru語に翻訳するLLM作って、

言葉じゃないんだよ、ビジュアルに付いてるタグが何なのかなんだよ
それが分かれば好きな絵が描ける
0030名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/25(火) 22:42:36.60ID:PnUBt4Bed
>>28
情景描写から情景にふさわしい日本語の挿絵プロンプトを出させてから
日本語の挿絵プロンプトをRAGに突っ込んでdanbooru語に変換させればいい

danbooruタグと日本語訳のデータセットはネットに転がってるとスレに3回は書いた記憶
二次創作でブルアカとか今期のアニメみたいな新しいキャラのタグを出させたいならデータセットも更新が必要
0031名無しさん@ピンキー (ワッチョイ ebc8-kuv8)2025/11/26(水) 09:28:15.15ID:SVl2K3q70
どんどんブレイクスルー起こしてほしいな
NVIDIAをぶっこわーす
0037名無しさん@ピンキー (ワッチョイ 9fe3-kPTt)2025/11/26(水) 14:10:17.22ID:VjXULiiA0
redditで見かけたけどQwen-image-edit-2511っていうのが来週来るらしい
自然言語の理解力が向上してるとか
ただ日本語も理解できてエロOKかどうかはわからないな
0038名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/26(水) 14:46:21.59ID:40lioEY10
>●多くのモデルには「base」と「instruct」の2種類があるで
>baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
>instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

MistralPrism24BGGUFのQ8_0使ってるけど、こういうシーンを詳細に描写して欲しいと指示すると、毎回そのシーンの後の方がやたらと出力多い(しかもどの文章も描写が詳細でない)のだが、これって俺が使い方間違っているのかな?

ちなみにVRAM12GB、RAM64GB
悲しいけどこれ以上のモデルは使えないんだよな

もっとPCスペック高ければ望んだようなこと出来るのかな?
0039名無しさん@ピンキー (ワッチョイ dffc-1/gi)2025/11/26(水) 15:18:29.04ID:YJcXUW6h0
>>38
それロールプレイ用モデルだからキャラになりきって会話、つまり短い文の応酬が得意なようにチューンされてるんやろな
シーンを詳細に書き出してほしいならまだ小説向けモデルの方が適正ありそう
0040名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/26(水) 15:26:26.83ID:40lioEY10
>>39
やっぱりロールプレイ用だから適してないって訳か。ありがとう

追加で恐縮だが、日本語が得意で小説生成向けなモデルはあったりする?

Aratako氏のはともかく、huggingfaceで検索しても案外Novelで検索引っかからなかったりするし、Japaneseタグで検索しても件数少ないし、日本語対応できててもJapaneseタグは付いてなかったりするしなあ
0042名無しさん@ピンキー (ワッチョイ dffc-1/gi)2025/11/26(水) 15:55:33.46ID:YJcXUW6h0
>>40
小説系は全然触ってないのでおすすめとかは分からんのやが24B以下のモデルは進化が割と停滞してるんでテンプレに書かれてるモデルを試していく価値はあるんやないかな
0043名無しさん@ピンキー (ワッチョイ df32-ylw2)2025/11/26(水) 16:37:32.17ID:HcH1xQvr0
ところでその環境でmistral24B系のQ8動かすとVRAM溢れてる状態だろうから、今のスピードに納得できてるならもっと大きいの動かしたほうがいい
0044名無しさん@ピンキー (ワントンキン MMff-CpB3)2025/11/26(水) 17:03:33.19ID:wyRksDxCM
>>38
いっそ小説特化ならAIのべりすとが悪くないと聞く。独自モデルをずっと育ててきたみたいだし

MistralSmall3.1 24Bの経験で書くよ
Mistral系でダラダラ長くなるっつうと、何のアプリで出してるのか分からんけどパラメータのmax new tokensが大きすぎると思う
加えてMistral系は支離滅裂になりがちでtemperatureをおもくそ下げるのが良いとされる
あとプロンプトが悪いのかもしれないが、台詞等をいっぱい例示したところ異様に繰り返しが多くなり閉口した

以上を踏まえた結果、ワイは刑事の誘導尋問みたいな会話で話の展開や要素を与えてやって、良い感じの一人称小説ふうを出せたよ
0046名無しさん@ピンキー (ワントンキン MMff-CpB3)2025/11/26(水) 17:25:21.64ID:wyRksDxCM
はえーそうなんだ。出来の良いオープンソースモデルが使えるならもはや独自モデルに拘る必要も無いのか…

Mistral3.1 24Bで作ったやつ、ログが残ってたので上げるで。ほぼガチャ無しポン出し編集無しやったと思う
https://files.catbox.moe/pbpjh8.jpg
これで「詳細で無い」というんならもう120Bくらいないとダメだと思う。qwen3-30Bも試す価値あるけどね
0049名無しさん@ピンキー (ワッチョイ dbf2-LCpl)2025/11/26(水) 22:23:24.32ID:jfbAA4Gm0
gpt-oss-120bで
Stable Diffusion の danbouruタグで表現して。70単語以内で極力詳しく。
「描きたい文章」とかでいいんじゃね?
0050名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/26(水) 23:15:25.28ID:40lioEY10
かつてGrokの動画生成でエロ解禁から一転してエロ禁止にしたり、GPTも5.1からさらに規制厳しくなったり、GoogleなんかもっとGoogle広告の時代からコロコロとルール変えたりしてるから、

総じてクラウド利用のAIは全く信用ならないんだよね。こればかりは痛い目遭った人以外には通じない話しなんだが。
0051名無しさん@ピンキー (ワッチョイ 5f24-5doS)2025/11/26(水) 23:28:17.37ID:ar21Juv90
信用できないというか今のAIは短期間のうちに仕様が変わりすぎる
性能の差はあれどそこが気にならないなら腰を落ち着けて制作や作業の土台にするなら自分の意志でやらないと変更が起きないローカルの方が向いてるわ
0052名無しさん@ピンキー (ワッチョイ 6f27-C6qF)2025/11/27(木) 02:25:53.28ID:GSK77Oq40
アップルがSiriにGemini使用
アップルの自社鯖で動かして通信するからプライバシーの問題はないらしい

年間10億ドル払うらしいけどモデル作るより遥かに安いよな
金かけても1年どころか半年で陳腐化するしこの業界狂ってるわ
0053名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 10:55:02.41ID:wpv3SsfJ0
ローカルllmのロールプレイやりたくてデスクとノートで70B q4をllama のpp並列(Vram 合計56G)で動かせたんだけど、70Bのモデルで十分なんかな?まだsillytavern 入れてやり始めたばっかだから設定が悪いかもしれないが、まぁ同じ言葉繰り返したりしまくるんだよね。
120Bをcpu オフロードしてでも使うべきなのかなーとか。みんな何モデルでロールプレイしてるの?
0054名無しさん@ピンキー (ワッチョイ df20-1/gi)2025/11/27(木) 11:21:23.63ID:gFA6hyjM0
>>53
初めてならまずはberghof ERP 7Bでsilly tavernロールプレイやるのおすすめやで
コンテキストテンプレートはChatMLやで
後はチャッピーにでもberghof用のおすすめパラメータ設定を聞いて微調整すればよし
まずこれを体験してからこれを超えるモデルを探し続けることや
ワイは応答速度や日本語表現の堅苦しさとかで結局未だにこれを超える物に出会えとらん
0056名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 13:02:15.42ID:wpv3SsfJ0
>>54
ありがとう、7Bモデルで十分やったんか…わからんまま手を出したらあかんな、余計なクラスタ組んでしまった。ubuntu x2のinfiniband 接続とかやってみたが混合GPU 環境でのllama じゃ意味なかったしな…
chatml もわからんから調べてみるわ。
0058名無しさん@ピンキー (ワッチョイ df32-ylw2)2025/11/27(木) 14:24:18.17ID:668J8c2B0
dense系は高々70Bじゃないかなぁと思う
それ以上は個人用途での評価自体ガクッと減る印象だし、近頃はもう30Bがラインかもしれん
ただ最初は小さいやつで実験しよう
0059名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/27(木) 15:31:31.98ID:SI+uqTxz0
このスレで聞くことなのかわからんが知ってたら教えてほしい
roocodeでgithubcopilotのAPIキー使ってclaude3.5sonnet使ってたんだけどclaude3.5sonnetが設定できなくなってたから代替手段を探してる
課金したくないから以前ollamaのAPIキー使ってローカルでやろうとしたんだけど調整がうまくできなくてgithubcopilotに戻してた
今はローカルLLMでもうまくroocodeとかCursorって動かせるの?
0060名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/27(木) 15:33:24.94ID:SI+uqTxz0
3か月前に色んな言語モデル使ってollamaで動かしてたけど調整が下手でアスペ回答ばっかで結局うまくできなかった
0062名無しさん@ピンキー (ワッチョイ 5f22-4gGQ)2025/11/27(木) 18:19:20.87ID:OXCml/ok0
>>59
今はantigravityが最強
sonnet4.5もgemini3も無料や
0063名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 19:07:24.01ID:92VKQEMF0
>>56
いきなりLLMのシステムを組めるのはスゲーけど、LLMの動かし方(プロンプト、パラメータ、モデルの癖を知る)を知らなさすぎやな
それが分かってないと中規模モデルの操縦はほぼ無理
ChatGPTくらい大規模になると初心者の適当な指示でも推し量ってくれるみたいやけど
0064名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 19:45:31.70ID:wpv3SsfJ0
>>57
そうか、モデル色々触らんとわからんな…

>>63
多少サーバー知識ありはするが、専門外なのでAIに聞きまくりやw
LLMへの理解についてはほんと指摘の通りだわ。今回クラスタ組んでテンソル並列やら、vllm llamaの違いやらinfininband やら学んだから楽しかったけど、まぁやっぱ動かすモデルそのものが何でどう扱うかわかっとかんとダメだったね…
まぁなんにしても環境できたし色々動かして試してみるわ。
0065名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 20:03:18.97ID:92VKQEMF0
ハマると楽しいで、がんばれー

自分のロールプレイモデル遍歴&レビュー

※ワイのプロンプト技術がヘボい可能性もあるのでうのみにしないでね
※あと上から徐々に経験を積んでいったから、というのもあるので初心者が下のほうのモデルをいきなり使いこなせるかは分からんです

・Vecteus-V1-7B、Berghof-NSFW-7B(ここだけsafetensors、他はgguf)

小規模と侮るなかれ、初心者丸出しのプロンプト、適当パラメータでもRPできる超優秀モデル
ちゃんと会話のキャッチボールが弾む、でも単に地の文章が苦手なのかもしれない。大抵どこかで聞いたような表現ばかりだが、会話が弾むのであまり気にならない。思い切り下品にアヘらせたいならBerghof-ERPを使おう

・Mistral-Small-3.1-24B

明らかに語彙力と表現力が上がっている
が制御の難易度が爆上がりで、さらにMistral独特なのか癖があり、会話を続けるとどんどん破綻してくる。プロンプトやtemparature、repetition-penartyを神経質に弄り倒す羽目になる。
安定したらしたで、地の文章が多めなため「イくぅぅー」ではなく「彼女は絶頂した」みたいな出力になりRP感が削がれた。いまは自分語りをさせる用途で使っている >>46
それと量子化モデルによって性能のバラツキがあるようだ
0066名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 20:06:45.98ID:92VKQEMF0
・Lumimaid-Magnum-12B

24Bの経験から安定動作できる様にはなったが優秀すぎる7Bモデルとの差が小さいと感じた

・Aratako/Qwen3-30B-A3B-ERP-v0.1

操作性と性能のバランスがかなり良い。地の文少なめでRP力も高い。ただ個人的には挨拶後即脱いでくる股のユルさが気になり使っていない。クレクレ野郎でAratako氏はじめ諸氏には恐縮だが、Qwen3-30Bのファインチューンモデルがもっと欲しいな...

・Qwen3-235B-A22B-Instruct-2507-Q3

これはすごい、RPの指示にしっかりと従い、説明的な内容も地の文ではなくセリフの上で表現する。ここ表現が難しいけど結構感動する。
素のモデルだがプロンプトで指示してやるとERPもこなせるようだ。というか発情している「雰囲気」を出してくるのがすごい。
操縦難度はMistral-24B程ではないにせよそこそこある感じで、特にプロンプトには神経を使うようだ。これからチューニングを進めていくところ
0067名無しさん@ピンキー (ワッチョイ df21-4gGQ)2025/11/27(木) 20:38:44.21ID:B13Q9jby0
Openrouterのステルスモデルがmistralの新しいモデルという噂があるね
速度的にMoEや小規模モデルっぽくないのとベンチマーク的に3.1 mediumのちょい上くらいなのでlargeかmediumの新作っぽいからオープンウェイトではなさそうだけど一応期待
0068名無しさん@ピンキー (ワッチョイ db1a-LCpl)2025/11/27(木) 22:07:32.00ID:MIAIOtOm0
>>59
VSCodeにCLINE入れて LMStudio で gpt-ossつことる。120bですら英語でやりとりせんとアホになってしまう
20bは端的に "Refactor hoge() method"と余計な単語は一切入れないとダメ(使わなくなった)
0069名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/27(木) 22:55:27.69ID:B8CDrREfd
Grok4.1ですらエロガバガバな以外は微妙なんやから
Qwen3-235B-A22Bクラスが最低ラインやで

Gemini用に作り込まれたプロンプトがまともに動くかどうかが分かれ目や
0073名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/28(金) 08:03:22.58ID:fzEd81Ad0
>>71
解禁されるだろうけどたぶんそれでも非合意禁止&未成年キャラ禁止だと思うぞ。期待しないこった
0074名無しさん@ピンキー (ワッチョイ 5bc0-aOqE)2025/11/28(金) 08:26:50.89ID:u/YviZU90
OpenMOSE/Qwen3-VL-REAP-145B-A22Bが日本語性能落ちてる感じもあまりなくてちょっと気に入ってる
235Bは無理でも145Bならメモリに乗るって人も居ると思う
0075名無しさん@ピンキー (ワッチョイ 9f6a-A5gx)2025/11/28(金) 10:35:49.52ID:jb/LTKTc0
>>66
qwen3-235bってmoe モデルだよね。70Bのmagnum や123bのlumimaid にロールプレイで勝てるもんなの?moe は専門家が複数いて、用途によって内部で使い分けるから人格がブレるとからしいからどうなんかなと。
0076名無しさん@ピンキー (ワッチョイ dfea-1/gi)2025/11/28(金) 11:36:02.17ID:WIXK3jgP0
応答5秒かかるならもうロールプレイなんてやる気起きなくなるわ
3秒ならまあ
あとどれだけ賢くてもちゃんとくだけた言い渡しや略語なんかを使って感情表現が豊かでないとチャットやってても気分が盛り上がらんのよな
0077名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/28(金) 13:04:06.27ID:o8KK+6df0
>>62
ありがとう今こんなのあるのか
ちょっと試してみるわ
0079名無しさん@ピンキー (ワッチョイ 1b32-Mbnk)2025/11/28(金) 15:42:23.30ID:NmTnCINp0
文章だけのチャットでも楽しいぞ
5chやXとかでレスバで盛り上がってる奴らがいるだろ?
あれぐらいヒートアップ出来るのが文章チャットだ
0080名無しさん@ピンキー (ワッチョイ df6d-1/gi)2025/11/28(金) 16:02:22.06ID:WIXK3jgP0
>>78
世代じゃなかったらピンとこんかも知れんけどボイチャが当たり前になる前のオンゲはみんなチャットで熱中してたんやで
LLM出力はTTSで声出しさせてるけどこっちは手打ちや
0083名無しさん@ピンキー (ワッチョイ df6d-1/gi)2025/11/28(金) 16:56:30.67ID:WIXK3jgP0
>>82
一度に長文を打たずにサクサクやり取りしていくスタイルが好まれてたなー
LINEとかでもそうでしょ?お互い向き合ってチャットしてる時はテンポが大事
0085名無しさん@ピンキー (ワッチョイ 9f6a-A5gx)2025/11/28(金) 18:37:32.96ID:jb/LTKTc0
ここ1週間ロールプレイのためにいろいろやってみたが、実際ちょい日本語やこんなの言わんやろみたいなのあると萎えるな、70B q4のモデル使てるけど設定詰めたら完璧になるんやろか…
いまのとこ環境作り切った時が一番楽しかった気がするわw
0086名無しさん@ピンキー (ワッチョイ 5f24-5doS)2025/11/28(金) 18:40:04.40ID:HAI81JuR0
5秒以内の応答を求めるのは対人でも仕事趣味どっちでも結構怖い人だと思っちゃうな
内容次第だとは思うけどそんなすぐ返答出来なかったり細切れにして何度も送るほうが厄介なケースの方が多そう

ここまで書いててAIとのRPでも内容によって応答速度変えられたら面白そうだよね
短文であっても言いづらかったり熟考した末の発言ならわざとディレイをかけるみたいな感じ
その判断に余計なリソース使うし実際にはそう簡単にはいかないんだろうけど上手く行けば人間味みたいなのは出そう
0088名無しさん@ピンキー (ワッチョイ 0fa0-dDTn)2025/11/28(金) 18:47:31.26ID:TOt/Q9ps0
LLMとStable Diffusion両方やるといろいろ勉強になるな、

Stable Diffusionはdanboru語+LoRAの文化がすさまじいな

本日の発見は、ロングヘアを舞い上がらせるには、floating hairというdanboru語を使い、floating hairのLoRAも使う

hair spread outというdanboru語もあるけど、弱い。floating hairの方が強い
0089名無しさん@ピンキー (ブーイモ MMff-1/gi)2025/11/28(金) 18:56:11.40ID:DRT5CeeiM
>>86
いや人との会話とLLM使ったロールプレイのを一緒にしないで🥺
オンゲのチャットだって打つの遅い人とかまとめて打つ人のやり取りだって普通にやるで
ただ、何か別のことでもしながら返事待ってるかなーってテンションになるだけや
それがLLMとのロールプレイの場合、別にもうええかー…ってテンションになるだけや
0092名無しさん@ピンキー (ワッチョイ 4b09-ZAG6)2025/11/28(金) 20:43:05.83ID:cVU0vvbk0
あとそれはSDじゃなくて一部のモデルの特徴や
0093名無しさん@ピンキー (ワッチョイ 0fa9-dDTn)2025/11/28(金) 20:44:53.86ID:ztH2zo8J0
ようやっとQwen Next対応がllamacppにマージされた
まだバイナリはできてないけどb7186が出てきbスらそれが多分QwenNext対応版になると思うで

長かったなぁ
ほんまに2か月半かかったな
0095名無しさん@ピンキー (ワッチョイ 0fa9-dDTn)2025/11/28(金) 20:54:54.47ID:ztH2zo8J0
LLMに詳しい人ではあったみたいやが、QwenNextの仕組み(ハイブリッドモデル)については今回を機に勉強しながらって人やったみたい
でも途中からLlamacppの創設者のggerganovとか他の中心メンバーも出張ってきて
実装についてかなり綿密にやりとりしとったから、ほぼ専門のプロがフルタイムで取り組んだに近いと思う
0098名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/28(金) 23:19:43.22ID:fzEd81Ad0
ロールプレイならAratako氏のモデルとか多々あるけど、NSFW向けの日本語小説地の文に強いモデルってありますか?

自分でも色々ダウンロードして試してきたけど、もしかしたら2024年リリースのモデルは見逃しているのかもしれない・・・
0099名無しさん@ピンキー (ワッチョイ dfc6-vfAy)2025/11/28(金) 23:55:33.52ID:kXDPBP540
普通のゲーミングPCだとshisa-v2-mistral-small-24b.i1が個人的に未だトップ
エロは無指定だと官能小説になりがちだから語彙を事前に指定する
ロールプレイもどっちもいける
0101名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/11/29(土) 03:31:27.18ID:zZvH3VnR0
qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった
オプションは --context 131072 --n-gpu-layers 100 --n-cpu-moe 37

最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ
contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる
0102名無しさん@ピンキー (ワッチョイ 6337-H63f)2025/11/29(土) 04:28:24.19ID:M9nsibf90
>>101
fastllmの方でrtx3060x2で20tok/s出てたからまだ伸び代はあると思うで
0108名無しさん@ピンキー (ワッチョイ 46cb-H82u)2025/11/29(土) 18:02:03.87ID:MUT20k2k0
ロールプレイに向く70B awq int4のモデルってある?llama3.1 70b instruct awq int4がギリッギリ動くから似たようないいモデルないかなと探してるんだけどなかなか。
0109名無しさん@ピンキー (ワッチョイ 8ec1-Oau4)2025/11/29(土) 18:12:26.80ID:nKhiGNoJ0
Wannabeの作者ここ見てるか知らんけど応援してるで
0111名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/29(土) 22:08:22.19ID:R0QjvFT00
5070tiと128GBでunslothのQwen3-Next-80B-A3B-Instruct-Q8試してみたけど爆速やん
文章は確かに冗長な感じするからここは調整必要そうやな
規制の有無ってどんな指示出せばわかるん?Qwen3って初っ端は無理でも適当に会話のラリー続ければ最初は拒否られた指示でも通ることあるからようわからんわ
0114名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:22:35.04ID:La7vUKxs0
llama.cppをopenwebUIに繋いで試しとるよ
0116名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:40:33.26ID:La7vUKxs0
「これ以上されたら壊れちゃう♥」みたいな展開で更に限界超えて攻め続けたら「あああああああああああああああああ」って出力が止まらなくなって草
ロールプレイじゃなくて本当に壊れてどうすんねん
0119名無しさん@ピンキー (ワッチョイ 632b-H63f)2025/11/30(日) 04:09:47.53ID:pom+2B990
>>115
サンクス、こっちもkoboldcppで試してみた。
まだfastllmにtok/sで負けてる(rtx3060x2で8tok/s前後)けどまあ十分速いっちゃ速い。
尻用のキャラカード読ませて標準webから試してみたけどこれ本当にqwen?って思うぐらいにエロには寛容やね
0120名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 05:00:27.71ID:tSt65eze0
>>111
正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も
0121名無しさん@ピンキー (シャチーク 0C8f-jWuL)2025/11/30(日) 10:05:14.88ID:8Bk5CCCxC
>>111
エロ小説書かせたら即申し訳喰らうけど
ある日 とかに修正すればノリノリで書き始める
規制きついモデルだと書き始めても内容が健全よりになってくけど
これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな
ただセリフの整合性が7bモデル並みなんだよなぁ
0122名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 17:24:42.38ID:La7vUKxs0
>>120
確かだいたい15tok/s前後だった気がする
ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで
llama-server \
--model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \
--temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU"


>>121
試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ
けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ!!」ってのがあったけどnextはほぼ無い

エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう
0123名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 17:51:45.97ID:tSt65eze0
>>122
120ですありがとう
流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな
でもオフロードしててもそんくらい出るなら確かに魅力的
0129名無しさん@ピンキー (ワッチョイ 0acc-3xT4)2025/12/01(月) 19:28:00.24ID:lX1K3BWS0
>>128
まじかlargeを公開するのは予想外 じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな
アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう
0131名無しさん@ピンキー (ワッチョイ 0aa5-izmX)2025/12/01(月) 21:27:50.26ID:t2CNpdOm0
DeepSeek新しいの来たな
0134名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/01(月) 23:36:26.58ID:Hb1/0/Z70
色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから
その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ

あとは、もっとちっちゃいモデルで実現してほしいけども
そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから
来年の6月には200b以下で実現してるはずやしな
0135名無しさん@ピンキー (ワッチョイ ef6a-wnv0)2025/12/02(火) 04:45:18.10ID:NEhf/O560
deepmindが発表したnested learningでまた改善するよ
0140名無しさん@ピンキー (ワッチョイ 0a3e-nDnm)2025/12/02(火) 11:30:46.72ID:If8B8osZ0
これがministral 3じゃね?って言われてるステルスモデルがあるのね
>>129も言ってるやつ
でもこれだと思いっきり真面目用途なのかなあ🥹

OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。

- 汎用マルチモーダルモデル(テキスト/画像入力、テキスト出力)
- 拡張コンテキストタスクにおける一貫性を維持
- タスク間で安定した予測可能な動作
- 競争力のあるコーディングパフォーマンス

本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。
0148名無しさん@ピンキー (ワッチョイ 0a0b-3xT4)2025/12/02(火) 16:30:10.93ID:s0JsiPey0
>>147
mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず
正直largeを公開した理由はよく分からん mediumを公開してラージは隠しておけば良いのに
もちろん公開してくれるのはうれしいけど動かすの大変すぎ またmac ultra 512GBの株が上がるな
0149名無しさん@ピンキー (ワッチョイ 27a1-3xT4)2025/12/02(火) 21:31:09.32ID:Yxsu674y0
>>143
伯方の塩みたいなもんやな!
0153名無しさん@ピンキー (ワッチョイ 86ce-37/u)2025/12/03(水) 07:53:34.81ID:1Za0pPzO0
higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf(Q8)は短文ばっかり出力されるんだけどそういうもん?
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視
0154名無しさん@ピンキー (ワッチョイ 46e6-lIKY)2025/12/03(水) 10:55:53.81ID:dfpw1z2m0
>>153
ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい
パラメーターミスってるが一番あり得ると思う
あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい
0155名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/03(水) 11:16:26.50ID:qRVmoTTi0
「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる
数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる
まあ文字数なんてカウントしてないんだから忠実には守らないんだけど
0157名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/03(水) 11:36:46.57ID:qRVmoTTi0
あ、でも賢いLLMなら日本語も数えられるみたいだね
GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ
0158名無しさん@ピンキー (ワッチョイ 0a44-nDnm)2025/12/03(水) 11:38:46.82ID:Ido+wOKk0
ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね
やっぱそれ以上は性能落ちちゃうのか
0159名無しさん@ピンキー (ワッチョイ 0aaa-37/u)2025/12/03(水) 11:53:57.53ID:570hYi4e0
>>154
うーんそっか
とりあえずパラメーターをsafetensor版とgguf版同一にしても
gguf版が明らかに劣化してるんだよね
gguf版はポーズ指示とかに留まりストーリーがまるでない感じ

コンテキストと生成長はデフォルトより大きくとってるし
他のパラメータも調整したけど差は埋まらないわ
AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった

用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる
このスレでVL使えるモデルでおすすめはあるかい?
もちろんエロに使えるヤツで(真顔)
0161名無しさん@ピンキー (ワッチョイ 0a42-3xT4)2025/12/03(水) 12:11:49.55ID:CytqpInh0
openrouterで触ってるけどエ口小説の続きを書かせると悪くないな 拒否もされない
VL用途だと駄目だわ 拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない 
0162名無しさん@ピンキー (ワッチョイ 8673-k9e5)2025/12/04(木) 00:59:33.94ID:c8c4dRTO0
DeepseekV3.2、結構エロいけるな
kimi,glmとエロ系行けるデカいモデルが増えて嬉しい
0163名無しさん@ピンキー (ワッチョイ 86bd-Oau4)2025/12/04(木) 01:14:29.63ID:3vUvfeA00
>>162
ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた
例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい
これは使えるわ
0164名無しさん@ピンキー (ワッチョイ bbcd-OoXl)2025/12/04(木) 01:44:08.68ID:tbKVwEm70
Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな
文脈読んで長く書こう短く書こうってしてるんだろうけど極端
0165名無しさん@ピンキー (ワッチョイ eb32-V8yF)2025/12/04(木) 05:04:57.64ID:450uVRWw0
>>159
エロ画像に特化したVLMがないからなあ
JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる
動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない
0166名無しさん@ピンキー (ワッチョイ 1ea0-V8yF)2025/12/04(木) 07:03:44.66ID:pJIXEJs40
せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ
半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。

LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、
その代わりに、クソ長いプロンプトは受け付けてくれるから。
自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK
頭の悪いLLMほど、細かいプロンプトが必要。

Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから
貯めたクソ長プロンプトをチャッピーに食わせる。

Gemini3がチャッピーより上というがどうなんだろうね
0167名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/04(木) 07:31:47.88ID:bc7PGPTq0
>LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ

LLMを始めてみんなが初日に気付く基本やね
0168名無しさん@ピンキー (ワッチョイ 0ae7-37/u)2025/12/04(木) 07:52:57.66ID:FY/50lnz0
>>165
JoyCaptionは画像の説明は出来るんだけど
ストーリーは無理だったからHuihuiに流れ着いた
mlabonne/gemma-3-27b-it-abliterated-GGUF
は試したことないから試してみるよサンクス
0169名無しさん@ピンキー (オッペケ Sra3-Nwf+)2025/12/04(木) 10:53:43.76ID:z8Aeon72r
となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは
個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない
0170名無しさん@ピンキー (スフッ Sdaa-HpHP)2025/12/04(木) 12:54:56.48ID:Z4N0uJ+3d
>>166
GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は)
0171名無しさん@ピンキー (ワッチョイ 1ade-h42X)2025/12/04(木) 15:06:50.87ID:7T+v66uc0
RTX5090 が届いた
0172名無しさん@ピンキー (ワッチョイ 63ac-KeyG)2025/12/04(木) 16:23:39.40ID:dsNTTyn40
Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ
Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう?
UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな?
0174名無しさん@ピンキー (オイコラミネオ MM96-H82u)2025/12/04(木) 19:19:48.98ID:B9B4dZfMM
silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。
magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが…
0175名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/04(木) 20:38:00.73ID:ZzdV9jd50
>>172
量子化手法によっては評価データで評価をしながら量子化するってのがあって、
その評価データに日本語がないと日本語の性能下がるってことがありえるやろな
GGUFはどうなんやろ? 評価データ使う方式なのかどうなのかググったけどよくわからんな
0180名無しさん@ピンキー (ワッチョイ 0ae9-3xT4)2025/12/05(金) 00:23:38.54ID:7BCsD7BI0
imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる
0181名無しさん@ピンキー (ワッチョイ 1a64-4GXX)2025/12/05(金) 01:02:17.31ID:ftmqT1Xh0
自分のタスクに合ったimatrixを>>177 の記事みたいに英⇒日セットで作ってセルフ量子化すべきなんだろうな本来は

https://zenn.dev/yuki127/articles/e3337c176d27f2#%E9%87%8F%E5%AD%90%E5%8C%96%E3%81%A7%E3%81%A9%E3%82%8C%E3%81%8F%E3%82%89%E3%81%84%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%AF%E4%B8%8B%E3%81%8C%E3%82%8B%E3%81%AE%EF%BC%9F
imatrixデータセットが妥当ならIQ3_XSぐらいまではギリ精度保てそうだし
0182名無しさん@ピンキー (ワッチョイ 27f0-Oau4)2025/12/05(金) 10:27:03.97ID:QFo2Q25t0
検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや?
0185名無しさん@ピンキー (ワッチョイ 0a7d-3xT4)2025/12/05(金) 16:25:29.84ID:7BCsD7BI0
ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう
0187名無しさん@ピンキー (ワッチョイ 1ab8-h42X)2025/12/05(金) 23:43:12.30ID:O1+MgeYg0
ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった
0188名無しさん@ピンキー (ワッチョイ bb6a-GkWU)2025/12/06(土) 04:48:26.42ID:62wTaVWL0
おめ
0193名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/08(月) 06:22:09.27ID:F/hGo5FV0
Thinking部分まで設定通りのキャラになりきって思考させる方法ってある?
0194名無しさん@ピンキー (ワッチョイ eff8-p5PJ)2025/12/08(月) 09:49:18.88ID:T47Vx2mS0
>>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。

Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました)
0195名無しさん@ピンキー (ワンミングク MMbf-zfyu)2025/12/08(月) 12:41:37.45ID:3eFiUTs3M
>>183
おーミニPCだね。3token/sくらい出る?

うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう
0196名無しさん@ピンキー (ワンミングク MMbf-zfyu)2025/12/08(月) 12:47:06.66ID:3eFiUTs3M
間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した
0202名無しさん@ピンキー (ワッチョイ ab2d-7PSR)2025/12/08(月) 18:35:21.33ID:8cycn9yw0
いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か?スラングか?長音記号が入っているのでフランクか?
子供か?日本語学習者か?...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析)
0203名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/08(月) 18:38:35.09ID:F/hGo5FV0
他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある
0204名無しさん@ピンキー (ワッチョイ 9f67-n2+a)2025/12/08(月) 18:49:08.10ID:+pooUNXv0
>>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん
0207名無しさん@ピンキー (オッペケ Sr8f-GkWU)2025/12/08(月) 19:31:50.37ID:sS+xRU40r
>>200
アスペの思考覗いてるみたいで怖い😨
0208名無しさん@ピンキー (ワッチョイ 0fc0-HIwK)2025/12/08(月) 20:43:02.26ID:pgT1MOhw0
VRam、Ram制約の中で
・qwen3-vl-235b-a22b(パラメーター数)
・qwen3-vl-reap-145b-a22b(精度)
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む
0210名無しさん@ピンキー (ワッチョイ 9ff2-5wrG)2025/12/08(月) 23:21:30.79ID:lAe9q/7C0
コード・レッドが全てを有耶無耶にした
0211名無しさん@ピンキー (ワッチョイ 5fd5-Sd/5)2025/12/09(火) 00:54:29.26ID:CsjVx2Vo0
>>193
Q3とはいえ、そんな安定して動かせるくらいなんだ
0214名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/09(火) 07:13:19.86ID:ie/Ic4Ib0
Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT
0215名無しさん@ピンキー (ワッチョイ ab30-5Wpj)2025/12/09(火) 07:37:03.16ID:9G4SQNuX0
openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった
0216名無しさん@ピンキー (ワッチョイ 0fa9-wN+g)2025/12/09(火) 11:21:31.69ID:cKJZFXV10
今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども
0217名無しさん@ピンキー (ワッチョイ 7b59-+Kf/)2025/12/09(火) 13:53:18.60ID:dKn0ov2M0
>>212
エロダメっぽいね
残念
0220名無しさん@ピンキー (ワッチョイ bb6a-GkWU)2025/12/09(火) 17:40:17.44ID:2udMA6Ja0
pornhubあたりが独自llm作りそうじゃない?
0223名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/09(火) 18:27:25.05ID:ie/Ic4Ib0
Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる
0224名無しさん@ピンキー (ワッチョイ 5b33-1lht)2025/12/09(火) 18:32:01.97ID:DaZwszJ70
>>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで
0225名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/09(火) 19:24:04.21ID:cKJZFXV10
Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・

https://openrouter.ai/state-of-ai


なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文&複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし
0226名無しさん@ピンキー (ワッチョイ fb20-XOYb)2025/12/09(火) 19:46:33.18ID:nJS9hgKS0
なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では

それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど
0227名無しさん@ピンキー (ワッチョイ 9f48-5wrG)2025/12/09(火) 20:15:45.05ID:ZnpxIEB00
>>222
ロリも普通にだせるよ
0228名無しさん@ピンキー (ワッチョイ 7b45-YW/n)2025/12/09(火) 21:23:36.64ID:sRpXqig40
gemmaにエロ画像認識させたいんだけど、良い方法ある?
どうしても拒否される
0229名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/10(水) 05:48:22.81ID:+36jk5Ne0
geminiでエロ出せるのは分かるんだけど
出力の最中に!マークが出て中断されるのは回避方法あるの?
0230名無しさん@ピンキー (ワッチョイ 9fe1-zfyu)2025/12/10(水) 10:30:59.39ID:cA/MCjDA0
>>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ

色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ
0234名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/10(水) 12:36:53.93ID:VXLXqEAx0
devstralのことけ?
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか

大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ

先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか

MixtralでMoEの先駆者的なイメージがあるんやけどね
0235名無しさん@ピンキー (ワッチョイ ef9f-dbqm)2025/12/10(水) 12:39:06.69ID:7x5NLvi+0
>>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった
0237名無しさん@ピンキー (ワッチョイ ebdd-PXqD)2025/12/10(水) 13:19:56.20ID:dcC/Yf+20
antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか?
0238名無しさん@ピンキー (ワッチョイ cbbc-IJ2r)2025/12/10(水) 13:40:33.12ID:PAXLPWR/0
今は劣化版らしいそれでも結構使えるわ
0239名無しさん@ピンキー (ワッチョイ eb31-JoxV)2025/12/10(水) 16:31:03.11ID:8S1oSxU/0
chatGPTの話してもええやろか?
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか?

エロ解禁とは何だったのか……
0241名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/10(水) 17:23:38.18ID:+36jk5Ne0
12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある
0242名無しさん@ピンキー (ワッチョイ eb31-JoxV)2025/12/10(水) 17:46:24.87ID:8S1oSxU/0
サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね
0243名無しさん@ピンキー (ワッチョイ 5ba9-9Kdf)2025/12/10(水) 18:12:33.99ID:oWbkspSQ0
エロより5.2の方が先やろうね
0245名無しさん@ピンキー (ワッチョイ 1f24-f7l7)2025/12/10(水) 23:46:35.22ID:52U8cLKK0
Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ?
ああいうのって名前以外にどこ見ればわかるんや
0246名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 00:10:03.28ID:Iz/2UTdk0
そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど

調べるならhuggingfaceの説明に
expertとかMoEとかactive 〜Bって単語がなければdenseや

MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで!」とも「ワイはMoEではないで!」とも書かれへんのよな
0247名無しさん@ピンキー (ワッチョイ 1f24-f7l7)2025/12/11(木) 00:40:43.31ID:JxNz1+VZ0
>>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ
0248名無しさん@ピンキー (ワッチョイ 9f06-R95j)2025/12/11(木) 02:01:31.03ID:u8BNmyyG0
MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ
0249名無しさん@ピンキー (スプープ Sdbf-QaUS)2025/12/11(木) 04:36:22.66ID:DZ3tE5tfd
denseのオープンウェイトはプンルーやChutesで安く使う枠

DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな
0250名無しさん@ピンキー (ワッチョイ 0f36-QMIm)2025/12/11(木) 07:59:52.75ID:EtCEAmKx0
VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない?設定が悪いだけ?
0254名無しさん@ピンキー (ワッチョイ dbc6-jl2L)2025/12/11(木) 11:40:08.87ID:VL2OxEJQ0
NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です
0255名無しさん@ピンキー (ワッチョイ 9f32-zcGg)2025/12/11(木) 12:04:05.41ID:S56kIADo0
>>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう
0256名無しさん@ピンキー (ワッチョイ 0f36-QMIm)2025/12/11(木) 12:20:11.95ID:EtCEAmKx0
>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと?16%未満程度しか削減されないとなると思ったより効率よくないなぁ
0258名無しさん@ピンキー (ワッチョイ efad-7Tw0)2025/12/11(木) 13:18:35.19ID:A7ciRWbo0
>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる
0259名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/11(木) 13:48:03.58ID:mvR8vPpC0
5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ
0260名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 15:39:19.68ID:NSpHm0ci0
>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね?
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12〜15tps程度なんだけどこんなもんなのかな?
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど
0261名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0
ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど
0263名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 16:25:58.84ID:NSpHm0ci0
>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな?
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる
0264名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0
>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる
0265名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/11(木) 16:53:56.81ID:sudD0pCT0
DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ
0266名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 16:53:56.93ID:NSpHm0ci0
>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう!
0267名無しさん@ピンキー (スプープ Sdbf-QaUS)2025/12/11(木) 17:03:47.22ID:0qqrDFPDd
そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや
0268名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/11(木) 18:12:23.90ID:mvR8vPpC0
>>260
5070tiでも16tps出るから設定がおかしいやねんやで
0270名無しさん@ピンキー (オイコラミネオ MM3f-UCg5)2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM
moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd?オフロードってのもあるらしいね
0271名無しさん@ピンキー (ワッチョイ ef4a-oCzI)2025/12/11(木) 20:06:24.28ID:PbOlny610
Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか
0274名無しさん@ピンキー (アウアウ Sa7f-vjQy)2025/12/11(木) 21:06:02.86ID:D9fw3boNa
3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな
0276名無しさん@ピンキー (ブーイモ MM0f-D5qo)2025/12/11(木) 22:17:07.46ID:o/+Erv5jM
>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど
0277名無しさん@ピンキー (ワッチョイ fb20-XOYb)2025/12/11(木) 22:38:45.15ID:F6ZB/jyE0
https://arxiv.org/abs/2512.07474

living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる

コレは...ストレートに商売になるのでは?
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある
0278名無しさん@ピンキー (ワッチョイ ebb3-JoxV)2025/12/11(木) 23:24:51.93ID:JsJbVk5k0
てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか?」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか?」
とかの質問に答えてくれるンゴ?
いやそれよりはよ続き書けよ獏ちゃん先生

個人的には金田一耕助と会話してみたいンゴね
0279名無しさん@ピンキー (ワッチョイ db02-KVGb)2025/12/12(金) 02:59:12.69ID:dElWzZcB0
>>274
コンテキスト減らせば?
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも
0280名無しさん@ピンキー (ワッチョイ db11-zvJr)2025/12/12(金) 05:16:08.38ID:KJthHAFo0
magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。
0281名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/12(金) 05:57:54.70ID:tcykC2nr0
文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる
0282名無しさん@ピンキー (ワッチョイ 9f73-n2+a)2025/12/12(金) 07:08:21.29ID:YegEJxMo0
無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし 追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ(特に外部プロバイダ経由)といった感じで良い印象なかったけど機能するならほぼ必須だなと
0284名無しさん@ピンキー (ワッチョイ 0fa9-wN+g)2025/12/12(金) 11:15:46.94ID:g35J0BfC0
chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡
0285名無しさん@ピンキー (ワッチョイ 4fb7-UCg5)2025/12/12(金) 11:46:24.30ID:LcDKkn/+0
chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも
0286名無しさん@ピンキー (オッペケ Sr8f-GkWU)2025/12/12(金) 12:04:08.67ID:w1K9FJkvr
gptは5.2になるし
claudeは4.5になるし
geminiは3proになる
0293名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/13(土) 10:59:23.41ID:eyEHPiPz0
Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの?
性能落ちているだろうし普通のQwen next 80bで良くないか
0294名無しさん@ピンキー (ワッチョイ 8746-TY0I)2025/12/13(土) 11:34:44.38ID:xkcV40lU0
ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる
0296名無しさん@ピンキー (ワッチョイ 236b-AsBv)2025/12/13(土) 12:25:57.90ID:aRmVqPhP0
Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる
0303名無しさん@ピンキー (ワッチョイ 8747-elKO)2025/12/14(日) 13:44:27.07ID:FsStLVRy0
>>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな?
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる
0304名無しさん@ピンキー (ワッチョイ 3b49-r+g0)2025/12/14(日) 13:52:54.88ID:DJ4aKHpm0
phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか
0307名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 18:59:24.01ID:FsStLVRy0
shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか
0308名無しさん@ピンキー (ワッチョイ a249-O/3E)2025/12/14(日) 19:46:59.82ID:2D4/hyq50
Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ
0309名無しさん@ピンキー (ワッチョイ 7f69-4eOD)2025/12/14(日) 20:37:45.00ID:s9/KZp9y0
MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね
0310名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 20:49:33.56ID:FsStLVRy0
shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ
0312名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/14(日) 21:09:16.60ID:1lOcAup10
>>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや

その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど
0313名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 22:49:48.32ID:FsStLVRy0
>>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ
0314名無しさん@ピンキー (ワッチョイ 8765-ucLS)2025/12/15(月) 00:09:36.69ID:Q6uGDeH10
>>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ
レスを投稿する


ニューススポーツなんでも実況