なんJLLM部 避難所 ★10
0001名無しさん@ピンキー 転載ダメ (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:55:29.17ID:kt2SGedd0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0002名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:56:18.50ID:kt2SGedd0
初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki
0005名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:57:48.90ID:kt2SGedd0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0006名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:58:17.92ID:kt2SGedd0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0007名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:58:38.98ID:kt2SGedd0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0008名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:59:01.90ID:kt2SGedd0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral系
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Mistral-Small-3.2-24B-Instruct-2506
Cydonia 24B v4
Cydonia-R1-24B-v4

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2
0009名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/23(日) 22:59:25.37ID:kt2SGedd0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで
0015名無しさん@ピンキー (ワッチョイ bb32-dDTn)2025/11/24(月) 11:58:31.79ID:hXVKj7Ep0
ワイもずっとkobold.cppやな
exe一発でuiもシンプル ちょっと凝った事したけりゃメニューで変更や画像生成もできる
指示モードとチャットモードがあるけど、ワイは小説書かせる時は指示モードかな。指示モードでもチャットできるし

LM studio使ってる人も、使い勝手や面白い使い方知ってればどんどん教えて欲しい
0016名無しさん@ピンキー (ワッチョイ eb03-9a+n)2025/11/24(月) 12:30:09.03ID:E+dO/e8k0
intel環境だとlm studioは特殊な操作なしでNPUまで使ってくれるからノートパソコンで重宝してる
普段は惰性でkobold使ってるけどAPIの項目も多いしとか画像生成とかもできるし下位互換ではないと思う
0018名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/25(火) 04:25:36.84ID:PnUBt4Bed
ローカルLLMを使い倒すアプリを組んで動いたはいいが
「なんでワイしょうもない用途でゴツいアプリ作っちゃったんやろ」と賢者モードになる

電気代が怖いし人間ぽい感じでやらなきゃ爆速で終わるのにとも思う
あとこんなんクラウドでやったら課金課金で胃に穴が空くわ
0020名無しさん@ピンキー (ワッチョイ db3e-WDmd)2025/11/25(火) 10:17:01.32ID:ncCFUx0n0
これカスタムしてるだろ
0023名無しさん@ピンキー (ワッチョイ dfc7-Jvli)2025/11/25(火) 14:14:57.16ID:oFIjDYBV0
AIが直接見下すとかではないけど「あなたには無理です。こちらの方法をお勧めします。」と言われたことがあるな
ちょっとショックだったw
最初に「初めてなので」という断りを入れてたからだろうけど
0024名無しさん@ピンキー (ワッチョイ eb89-WXoq)2025/11/25(火) 14:28:54.25ID:HkFgURHY0
連休で始めた初心者なんだけど、12GBのGPUメモリで動くRPが得意で特定の決まり事をシステムプロンプトで指定したら絶対に守るようなおすすめモデルってある?
MistralPrism24Bに感動したのだけど、条件を守ってくれない。
チャットゲームみたいの作りたい。
0025名無しさん@ピンキー (ワッチョイ df1c-1/gi)2025/11/25(火) 14:35:36.43ID:PH4lt1Fa0
>>24
そのサイズでは日本語RPが得意なモデルはあっても指示に対する理解力が足りないものしかないと思うで
ちなみにberghof ERP 7BはRP得意でおすすめやが状況把握や矛盾に対する認識なんかはまあ7Bですね…という感じ
当然ゲームマスター的な事をやらせても上手くいかん
0027名無しさん@ピンキー (オイコラミネオ MMff-CpB3)2025/11/25(火) 18:13:12.92ID:QvMwqdOzM
スレ立て乙

自分の認識だと
7Bモデル 雑なプロンプトでもかなり自然な出力が得られるが賢さは最低限(berghof,vecteusV1が好き)
7B以上(を量子化して無理くり動かす)モデル まともな出力を得るのが格段に難しくなって面倒臭さが賢くなったメリットを上回る

なので初心者でエロ目的じゃなければビッグテックが念入りにチューニングしたクラウドAIが良いのでは

こないだメインメモリ128MBのマシンを作ったんだけど、Qwen3-235Bの量子化モデルにはかなり可能性を感じた。チューニングを頑張ろうと思う
0028名無しさん@ピンキー (ワッチョイ 0fa0-dDTn)2025/11/25(火) 20:42:26.31ID:7ie9GGyz0
誰か、文章を読解してdanboru語に翻訳するLLM作って、

言葉じゃないんだよ、ビジュアルに付いてるタグが何なのかなんだよ
それが分かれば好きな絵が描ける
0030名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/25(火) 22:42:36.60ID:PnUBt4Bed
>>28
情景描写から情景にふさわしい日本語の挿絵プロンプトを出させてから
日本語の挿絵プロンプトをRAGに突っ込んでdanbooru語に変換させればいい

danbooruタグと日本語訳のデータセットはネットに転がってるとスレに3回は書いた記憶
二次創作でブルアカとか今期のアニメみたいな新しいキャラのタグを出させたいならデータセットも更新が必要
0031名無しさん@ピンキー (ワッチョイ ebc8-kuv8)2025/11/26(水) 09:28:15.15ID:SVl2K3q70
どんどんブレイクスルー起こしてほしいな
NVIDIAをぶっこわーす
0037名無しさん@ピンキー (ワッチョイ 9fe3-kPTt)2025/11/26(水) 14:10:17.22ID:VjXULiiA0
redditで見かけたけどQwen-image-edit-2511っていうのが来週来るらしい
自然言語の理解力が向上してるとか
ただ日本語も理解できてエロOKかどうかはわからないな
0038名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/26(水) 14:46:21.59ID:40lioEY10
>●多くのモデルには「base」と「instruct」の2種類があるで
>baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
>instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

MistralPrism24BGGUFのQ8_0使ってるけど、こういうシーンを詳細に描写して欲しいと指示すると、毎回そのシーンの後の方がやたらと出力多い(しかもどの文章も描写が詳細でない)のだが、これって俺が使い方間違っているのかな?

ちなみにVRAM12GB、RAM64GB
悲しいけどこれ以上のモデルは使えないんだよな

もっとPCスペック高ければ望んだようなこと出来るのかな?
0039名無しさん@ピンキー (ワッチョイ dffc-1/gi)2025/11/26(水) 15:18:29.04ID:YJcXUW6h0
>>38
それロールプレイ用モデルだからキャラになりきって会話、つまり短い文の応酬が得意なようにチューンされてるんやろな
シーンを詳細に書き出してほしいならまだ小説向けモデルの方が適正ありそう
0040名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/26(水) 15:26:26.83ID:40lioEY10
>>39
やっぱりロールプレイ用だから適してないって訳か。ありがとう

追加で恐縮だが、日本語が得意で小説生成向けなモデルはあったりする?

Aratako氏のはともかく、huggingfaceで検索しても案外Novelで検索引っかからなかったりするし、Japaneseタグで検索しても件数少ないし、日本語対応できててもJapaneseタグは付いてなかったりするしなあ
0042名無しさん@ピンキー (ワッチョイ dffc-1/gi)2025/11/26(水) 15:55:33.46ID:YJcXUW6h0
>>40
小説系は全然触ってないのでおすすめとかは分からんのやが24B以下のモデルは進化が割と停滞してるんでテンプレに書かれてるモデルを試していく価値はあるんやないかな
0043名無しさん@ピンキー (ワッチョイ df32-ylw2)2025/11/26(水) 16:37:32.17ID:HcH1xQvr0
ところでその環境でmistral24B系のQ8動かすとVRAM溢れてる状態だろうから、今のスピードに納得できてるならもっと大きいの動かしたほうがいい
0044名無しさん@ピンキー (ワントンキン MMff-CpB3)2025/11/26(水) 17:03:33.19ID:wyRksDxCM
>>38
いっそ小説特化ならAIのべりすとが悪くないと聞く。独自モデルをずっと育ててきたみたいだし

MistralSmall3.1 24Bの経験で書くよ
Mistral系でダラダラ長くなるっつうと、何のアプリで出してるのか分からんけどパラメータのmax new tokensが大きすぎると思う
加えてMistral系は支離滅裂になりがちでtemperatureをおもくそ下げるのが良いとされる
あとプロンプトが悪いのかもしれないが、台詞等をいっぱい例示したところ異様に繰り返しが多くなり閉口した

以上を踏まえた結果、ワイは刑事の誘導尋問みたいな会話で話の展開や要素を与えてやって、良い感じの一人称小説ふうを出せたよ
0046名無しさん@ピンキー (ワントンキン MMff-CpB3)2025/11/26(水) 17:25:21.64ID:wyRksDxCM
はえーそうなんだ。出来の良いオープンソースモデルが使えるならもはや独自モデルに拘る必要も無いのか…

Mistral3.1 24Bで作ったやつ、ログが残ってたので上げるで。ほぼガチャ無しポン出し編集無しやったと思う
https://files.catbox.moe/pbpjh8.jpg
これで「詳細で無い」というんならもう120Bくらいないとダメだと思う。qwen3-30Bも試す価値あるけどね
0049名無しさん@ピンキー (ワッチョイ dbf2-LCpl)2025/11/26(水) 22:23:24.32ID:jfbAA4Gm0
gpt-oss-120bで
Stable Diffusion の danbouruタグで表現して。70単語以内で極力詳しく。
「描きたい文章」とかでいいんじゃね?
0050名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/26(水) 23:15:25.28ID:40lioEY10
かつてGrokの動画生成でエロ解禁から一転してエロ禁止にしたり、GPTも5.1からさらに規制厳しくなったり、GoogleなんかもっとGoogle広告の時代からコロコロとルール変えたりしてるから、

総じてクラウド利用のAIは全く信用ならないんだよね。こればかりは痛い目遭った人以外には通じない話しなんだが。
0051名無しさん@ピンキー (ワッチョイ 5f24-5doS)2025/11/26(水) 23:28:17.37ID:ar21Juv90
信用できないというか今のAIは短期間のうちに仕様が変わりすぎる
性能の差はあれどそこが気にならないなら腰を落ち着けて制作や作業の土台にするなら自分の意志でやらないと変更が起きないローカルの方が向いてるわ
0052名無しさん@ピンキー (ワッチョイ 6f27-C6qF)2025/11/27(木) 02:25:53.28ID:GSK77Oq40
アップルがSiriにGemini使用
アップルの自社鯖で動かして通信するからプライバシーの問題はないらしい

年間10億ドル払うらしいけどモデル作るより遥かに安いよな
金かけても1年どころか半年で陳腐化するしこの業界狂ってるわ
0053名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 10:55:02.41ID:wpv3SsfJ0
ローカルllmのロールプレイやりたくてデスクとノートで70B q4をllama のpp並列(Vram 合計56G)で動かせたんだけど、70Bのモデルで十分なんかな?まだsillytavern 入れてやり始めたばっかだから設定が悪いかもしれないが、まぁ同じ言葉繰り返したりしまくるんだよね。
120Bをcpu オフロードしてでも使うべきなのかなーとか。みんな何モデルでロールプレイしてるの?
0054名無しさん@ピンキー (ワッチョイ df20-1/gi)2025/11/27(木) 11:21:23.63ID:gFA6hyjM0
>>53
初めてならまずはberghof ERP 7Bでsilly tavernロールプレイやるのおすすめやで
コンテキストテンプレートはChatMLやで
後はチャッピーにでもberghof用のおすすめパラメータ設定を聞いて微調整すればよし
まずこれを体験してからこれを超えるモデルを探し続けることや
ワイは応答速度や日本語表現の堅苦しさとかで結局未だにこれを超える物に出会えとらん
0056名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 13:02:15.42ID:wpv3SsfJ0
>>54
ありがとう、7Bモデルで十分やったんか…わからんまま手を出したらあかんな、余計なクラスタ組んでしまった。ubuntu x2のinfiniband 接続とかやってみたが混合GPU 環境でのllama じゃ意味なかったしな…
chatml もわからんから調べてみるわ。
0058名無しさん@ピンキー (ワッチョイ df32-ylw2)2025/11/27(木) 14:24:18.17ID:668J8c2B0
dense系は高々70Bじゃないかなぁと思う
それ以上は個人用途での評価自体ガクッと減る印象だし、近頃はもう30Bがラインかもしれん
ただ最初は小さいやつで実験しよう
0059名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/27(木) 15:31:31.98ID:SI+uqTxz0
このスレで聞くことなのかわからんが知ってたら教えてほしい
roocodeでgithubcopilotのAPIキー使ってclaude3.5sonnet使ってたんだけどclaude3.5sonnetが設定できなくなってたから代替手段を探してる
課金したくないから以前ollamaのAPIキー使ってローカルでやろうとしたんだけど調整がうまくできなくてgithubcopilotに戻してた
今はローカルLLMでもうまくroocodeとかCursorって動かせるの?
0060名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/27(木) 15:33:24.94ID:SI+uqTxz0
3か月前に色んな言語モデル使ってollamaで動かしてたけど調整が下手でアスペ回答ばっかで結局うまくできなかった
0062名無しさん@ピンキー (ワッチョイ 5f22-4gGQ)2025/11/27(木) 18:19:20.87ID:OXCml/ok0
>>59
今はantigravityが最強
sonnet4.5もgemini3も無料や
0063名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 19:07:24.01ID:92VKQEMF0
>>56
いきなりLLMのシステムを組めるのはスゲーけど、LLMの動かし方(プロンプト、パラメータ、モデルの癖を知る)を知らなさすぎやな
それが分かってないと中規模モデルの操縦はほぼ無理
ChatGPTくらい大規模になると初心者の適当な指示でも推し量ってくれるみたいやけど
0064名無しさん@ピンキー (ワッチョイ 9f0b-A5gx)2025/11/27(木) 19:45:31.70ID:wpv3SsfJ0
>>57
そうか、モデル色々触らんとわからんな…

>>63
多少サーバー知識ありはするが、専門外なのでAIに聞きまくりやw
LLMへの理解についてはほんと指摘の通りだわ。今回クラスタ組んでテンソル並列やら、vllm llamaの違いやらinfininband やら学んだから楽しかったけど、まぁやっぱ動かすモデルそのものが何でどう扱うかわかっとかんとダメだったね…
まぁなんにしても環境できたし色々動かして試してみるわ。
0065名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 20:03:18.97ID:92VKQEMF0
ハマると楽しいで、がんばれー

自分のロールプレイモデル遍歴&レビュー

※ワイのプロンプト技術がヘボい可能性もあるのでうのみにしないでね
※あと上から徐々に経験を積んでいったから、というのもあるので初心者が下のほうのモデルをいきなり使いこなせるかは分からんです

・Vecteus-V1-7B、Berghof-NSFW-7B(ここだけsafetensors、他はgguf)

小規模と侮るなかれ、初心者丸出しのプロンプト、適当パラメータでもRPできる超優秀モデル
ちゃんと会話のキャッチボールが弾む、でも単に地の文章が苦手なのかもしれない。大抵どこかで聞いたような表現ばかりだが、会話が弾むのであまり気にならない。思い切り下品にアヘらせたいならBerghof-ERPを使おう

・Mistral-Small-3.1-24B

明らかに語彙力と表現力が上がっている
が制御の難易度が爆上がりで、さらにMistral独特なのか癖があり、会話を続けるとどんどん破綻してくる。プロンプトやtemparature、repetition-penartyを神経質に弄り倒す羽目になる。
安定したらしたで、地の文章が多めなため「イくぅぅー」ではなく「彼女は絶頂した」みたいな出力になりRP感が削がれた。いまは自分語りをさせる用途で使っている >>46
それと量子化モデルによって性能のバラツキがあるようだ
0066名無しさん@ピンキー (ワッチョイ 7be1-kPTt)2025/11/27(木) 20:06:45.98ID:92VKQEMF0
・Lumimaid-Magnum-12B

24Bの経験から安定動作できる様にはなったが優秀すぎる7Bモデルとの差が小さいと感じた

・Aratako/Qwen3-30B-A3B-ERP-v0.1

操作性と性能のバランスがかなり良い。地の文少なめでRP力も高い。ただ個人的には挨拶後即脱いでくる股のユルさが気になり使っていない。クレクレ野郎でAratako氏はじめ諸氏には恐縮だが、Qwen3-30Bのファインチューンモデルがもっと欲しいな...

・Qwen3-235B-A22B-Instruct-2507-Q3

これはすごい、RPの指示にしっかりと従い、説明的な内容も地の文ではなくセリフの上で表現する。ここ表現が難しいけど結構感動する。
素のモデルだがプロンプトで指示してやるとERPもこなせるようだ。というか発情している「雰囲気」を出してくるのがすごい。
操縦難度はMistral-24B程ではないにせよそこそこある感じで、特にプロンプトには神経を使うようだ。これからチューニングを進めていくところ
0067名無しさん@ピンキー (ワッチョイ df21-4gGQ)2025/11/27(木) 20:38:44.21ID:B13Q9jby0
Openrouterのステルスモデルがmistralの新しいモデルという噂があるね
速度的にMoEや小規模モデルっぽくないのとベンチマーク的に3.1 mediumのちょい上くらいなのでlargeかmediumの新作っぽいからオープンウェイトではなさそうだけど一応期待
0068名無しさん@ピンキー (ワッチョイ db1a-LCpl)2025/11/27(木) 22:07:32.00ID:MIAIOtOm0
>>59
VSCodeにCLINE入れて LMStudio で gpt-ossつことる。120bですら英語でやりとりせんとアホになってしまう
20bは端的に "Refactor hoge() method"と余計な単語は一切入れないとダメ(使わなくなった)
0069名無しさん@ピンキー (スプープ Sdff-QkBA)2025/11/27(木) 22:55:27.69ID:B8CDrREfd
Grok4.1ですらエロガバガバな以外は微妙なんやから
Qwen3-235B-A22Bクラスが最低ラインやで

Gemini用に作り込まれたプロンプトがまともに動くかどうかが分かれ目や
0073名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/28(金) 08:03:22.58ID:fzEd81Ad0
>>71
解禁されるだろうけどたぶんそれでも非合意禁止&未成年キャラ禁止だと思うぞ。期待しないこった
0074名無しさん@ピンキー (ワッチョイ 5bc0-aOqE)2025/11/28(金) 08:26:50.89ID:u/YviZU90
OpenMOSE/Qwen3-VL-REAP-145B-A22Bが日本語性能落ちてる感じもあまりなくてちょっと気に入ってる
235Bは無理でも145Bならメモリに乗るって人も居ると思う
0075名無しさん@ピンキー (ワッチョイ 9f6a-A5gx)2025/11/28(金) 10:35:49.52ID:jb/LTKTc0
>>66
qwen3-235bってmoe モデルだよね。70Bのmagnum や123bのlumimaid にロールプレイで勝てるもんなの?moe は専門家が複数いて、用途によって内部で使い分けるから人格がブレるとからしいからどうなんかなと。
0076名無しさん@ピンキー (ワッチョイ dfea-1/gi)2025/11/28(金) 11:36:02.17ID:WIXK3jgP0
応答5秒かかるならもうロールプレイなんてやる気起きなくなるわ
3秒ならまあ
あとどれだけ賢くてもちゃんとくだけた言い渡しや略語なんかを使って感情表現が豊かでないとチャットやってても気分が盛り上がらんのよな
0077名無しさん@ピンキー (ワッチョイ 1bdd-sV47)2025/11/28(金) 13:04:06.27ID:o8KK+6df0
>>62
ありがとう今こんなのあるのか
ちょっと試してみるわ
0079名無しさん@ピンキー (ワッチョイ 1b32-Mbnk)2025/11/28(金) 15:42:23.30ID:NmTnCINp0
文章だけのチャットでも楽しいぞ
5chやXとかでレスバで盛り上がってる奴らがいるだろ?
あれぐらいヒートアップ出来るのが文章チャットだ
0080名無しさん@ピンキー (ワッチョイ df6d-1/gi)2025/11/28(金) 16:02:22.06ID:WIXK3jgP0
>>78
世代じゃなかったらピンとこんかも知れんけどボイチャが当たり前になる前のオンゲはみんなチャットで熱中してたんやで
LLM出力はTTSで声出しさせてるけどこっちは手打ちや
0083名無しさん@ピンキー (ワッチョイ df6d-1/gi)2025/11/28(金) 16:56:30.67ID:WIXK3jgP0
>>82
一度に長文を打たずにサクサクやり取りしていくスタイルが好まれてたなー
LINEとかでもそうでしょ?お互い向き合ってチャットしてる時はテンポが大事
0085名無しさん@ピンキー (ワッチョイ 9f6a-A5gx)2025/11/28(金) 18:37:32.96ID:jb/LTKTc0
ここ1週間ロールプレイのためにいろいろやってみたが、実際ちょい日本語やこんなの言わんやろみたいなのあると萎えるな、70B q4のモデル使てるけど設定詰めたら完璧になるんやろか…
いまのとこ環境作り切った時が一番楽しかった気がするわw
0086名無しさん@ピンキー (ワッチョイ 5f24-5doS)2025/11/28(金) 18:40:04.40ID:HAI81JuR0
5秒以内の応答を求めるのは対人でも仕事趣味どっちでも結構怖い人だと思っちゃうな
内容次第だとは思うけどそんなすぐ返答出来なかったり細切れにして何度も送るほうが厄介なケースの方が多そう

ここまで書いててAIとのRPでも内容によって応答速度変えられたら面白そうだよね
短文であっても言いづらかったり熟考した末の発言ならわざとディレイをかけるみたいな感じ
その判断に余計なリソース使うし実際にはそう簡単にはいかないんだろうけど上手く行けば人間味みたいなのは出そう
0088名無しさん@ピンキー (ワッチョイ 0fa0-dDTn)2025/11/28(金) 18:47:31.26ID:TOt/Q9ps0
LLMとStable Diffusion両方やるといろいろ勉強になるな、

Stable Diffusionはdanboru語+LoRAの文化がすさまじいな

本日の発見は、ロングヘアを舞い上がらせるには、floating hairというdanboru語を使い、floating hairのLoRAも使う

hair spread outというdanboru語もあるけど、弱い。floating hairの方が強い
0089名無しさん@ピンキー (ブーイモ MMff-1/gi)2025/11/28(金) 18:56:11.40ID:DRT5CeeiM
>>86
いや人との会話とLLM使ったロールプレイのを一緒にしないで🥺
オンゲのチャットだって打つの遅い人とかまとめて打つ人のやり取りだって普通にやるで
ただ、何か別のことでもしながら返事待ってるかなーってテンションになるだけや
それがLLMとのロールプレイの場合、別にもうええかー…ってテンションになるだけや
0092名無しさん@ピンキー (ワッチョイ 4b09-ZAG6)2025/11/28(金) 20:43:05.83ID:cVU0vvbk0
あとそれはSDじゃなくて一部のモデルの特徴や
0093名無しさん@ピンキー (ワッチョイ 0fa9-dDTn)2025/11/28(金) 20:44:53.86ID:ztH2zo8J0
ようやっとQwen Next対応がllamacppにマージされた
まだバイナリはできてないけどb7186が出てきbスらそれが多分QwenNext対応版になると思うで

長かったなぁ
ほんまに2か月半かかったな
0095名無しさん@ピンキー (ワッチョイ 0fa9-dDTn)2025/11/28(金) 20:54:54.47ID:ztH2zo8J0
LLMに詳しい人ではあったみたいやが、QwenNextの仕組み(ハイブリッドモデル)については今回を機に勉強しながらって人やったみたい
でも途中からLlamacppの創設者のggerganovとか他の中心メンバーも出張ってきて
実装についてかなり綿密にやりとりしとったから、ほぼ専門のプロがフルタイムで取り組んだに近いと思う
0098名無しさん@ピンキー (ワッチョイ 6f9f-8p14)2025/11/28(金) 23:19:43.22ID:fzEd81Ad0
ロールプレイならAratako氏のモデルとか多々あるけど、NSFW向けの日本語小説地の文に強いモデルってありますか?

自分でも色々ダウンロードして試してきたけど、もしかしたら2024年リリースのモデルは見逃しているのかもしれない・・・
0099名無しさん@ピンキー (ワッチョイ dfc6-vfAy)2025/11/28(金) 23:55:33.52ID:kXDPBP540
普通のゲーミングPCだとshisa-v2-mistral-small-24b.i1が個人的に未だトップ
エロは無指定だと官能小説になりがちだから語彙を事前に指定する
ロールプレイもどっちもいける
0101名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/11/29(土) 03:31:27.18ID:zZvH3VnR0
qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった
オプションは --context 131072 --n-gpu-layers 100 --n-cpu-moe 37

最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ
contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる
0102名無しさん@ピンキー (ワッチョイ 6337-H63f)2025/11/29(土) 04:28:24.19ID:M9nsibf90
>>101
fastllmの方でrtx3060x2で20tok/s出てたからまだ伸び代はあると思うで
0108名無しさん@ピンキー (ワッチョイ 46cb-H82u)2025/11/29(土) 18:02:03.87ID:MUT20k2k0
ロールプレイに向く70B awq int4のモデルってある?llama3.1 70b instruct awq int4がギリッギリ動くから似たようないいモデルないかなと探してるんだけどなかなか。
0109名無しさん@ピンキー (ワッチョイ 8ec1-Oau4)2025/11/29(土) 18:12:26.80ID:nKhiGNoJ0
Wannabeの作者ここ見てるか知らんけど応援してるで
0111名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/29(土) 22:08:22.19ID:R0QjvFT00
5070tiと128GBでunslothのQwen3-Next-80B-A3B-Instruct-Q8試してみたけど爆速やん
文章は確かに冗長な感じするからここは調整必要そうやな
規制の有無ってどんな指示出せばわかるん?Qwen3って初っ端は無理でも適当に会話のラリー続ければ最初は拒否られた指示でも通ることあるからようわからんわ
0114名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:22:35.04ID:La7vUKxs0
llama.cppをopenwebUIに繋いで試しとるよ
0116名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 00:40:33.26ID:La7vUKxs0
「これ以上されたら壊れちゃう♥」みたいな展開で更に限界超えて攻め続けたら「あああああああああああああああああ」って出力が止まらなくなって草
ロールプレイじゃなくて本当に壊れてどうすんねん
0119名無しさん@ピンキー (ワッチョイ 632b-H63f)2025/11/30(日) 04:09:47.53ID:pom+2B990
>>115
サンクス、こっちもkoboldcppで試してみた。
まだfastllmにtok/sで負けてる(rtx3060x2で8tok/s前後)けどまあ十分速いっちゃ速い。
尻用のキャラカード読ませて標準webから試してみたけどこれ本当にqwen?って思うぐらいにエロには寛容やね
0120名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 05:00:27.71ID:tSt65eze0
>>111
正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も
0121名無しさん@ピンキー (シャチーク 0C8f-jWuL)2025/11/30(日) 10:05:14.88ID:8Bk5CCCxC
>>111
エロ小説書かせたら即申し訳喰らうけど
ある日 とかに修正すればノリノリで書き始める
規制きついモデルだと書き始めても内容が健全よりになってくけど
これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな
ただセリフの整合性が7bモデル並みなんだよなぁ
0122名無しさん@ピンキー (ワッチョイ 6a24-/Zt4)2025/11/30(日) 17:24:42.38ID:La7vUKxs0
>>120
確かだいたい15tok/s前後だった気がする
ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで
llama-server \
--model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \
--temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU"


>>121
試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ
けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ!!」ってのがあったけどnextはほぼ無い

エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう
0123名無しさん@ピンキー (ワッチョイ 0702-0bcI)2025/11/30(日) 17:51:45.97ID:tSt65eze0
>>122
120ですありがとう
流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな
でもオフロードしててもそんくらい出るなら確かに魅力的
0129名無しさん@ピンキー (ワッチョイ 0acc-3xT4)2025/12/01(月) 19:28:00.24ID:lX1K3BWS0
>>128
まじかlargeを公開するのは予想外 じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな
アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう
0131名無しさん@ピンキー (ワッチョイ 0aa5-izmX)2025/12/01(月) 21:27:50.26ID:t2CNpdOm0
DeepSeek新しいの来たな
0134名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/01(月) 23:36:26.58ID:Hb1/0/Z70
色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから
その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ

あとは、もっとちっちゃいモデルで実現してほしいけども
そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから
来年の6月には200b以下で実現してるはずやしな
0135名無しさん@ピンキー (ワッチョイ ef6a-wnv0)2025/12/02(火) 04:45:18.10ID:NEhf/O560
deepmindが発表したnested learningでまた改善するよ
0140名無しさん@ピンキー (ワッチョイ 0a3e-nDnm)2025/12/02(火) 11:30:46.72ID:If8B8osZ0
これがministral 3じゃね?って言われてるステルスモデルがあるのね
>>129も言ってるやつ
でもこれだと思いっきり真面目用途なのかなあ🥹

OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。

- 汎用マルチモーダルモデル(テキスト/画像入力、テキスト出力)
- 拡張コンテキストタスクにおける一貫性を維持
- タスク間で安定した予測可能な動作
- 競争力のあるコーディングパフォーマンス

本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。
0148名無しさん@ピンキー (ワッチョイ 0a0b-3xT4)2025/12/02(火) 16:30:10.93ID:s0JsiPey0
>>147
mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず
正直largeを公開した理由はよく分からん mediumを公開してラージは隠しておけば良いのに
もちろん公開してくれるのはうれしいけど動かすの大変すぎ またmac ultra 512GBの株が上がるな
0149名無しさん@ピンキー (ワッチョイ 27a1-3xT4)2025/12/02(火) 21:31:09.32ID:Yxsu674y0
>>143
伯方の塩みたいなもんやな!
0153名無しさん@ピンキー (ワッチョイ 86ce-37/u)2025/12/03(水) 07:53:34.81ID:1Za0pPzO0
higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf(Q8)は短文ばっかり出力されるんだけどそういうもん?
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視
0154名無しさん@ピンキー (ワッチョイ 46e6-lIKY)2025/12/03(水) 10:55:53.81ID:dfpw1z2m0
>>153
ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい
パラメーターミスってるが一番あり得ると思う
あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい
0155名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/03(水) 11:16:26.50ID:qRVmoTTi0
「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる
数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる
まあ文字数なんてカウントしてないんだから忠実には守らないんだけど
0157名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/03(水) 11:36:46.57ID:qRVmoTTi0
あ、でも賢いLLMなら日本語も数えられるみたいだね
GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ
0158名無しさん@ピンキー (ワッチョイ 0a44-nDnm)2025/12/03(水) 11:38:46.82ID:Ido+wOKk0
ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね
やっぱそれ以上は性能落ちちゃうのか
0159名無しさん@ピンキー (ワッチョイ 0aaa-37/u)2025/12/03(水) 11:53:57.53ID:570hYi4e0
>>154
うーんそっか
とりあえずパラメーターをsafetensor版とgguf版同一にしても
gguf版が明らかに劣化してるんだよね
gguf版はポーズ指示とかに留まりストーリーがまるでない感じ

コンテキストと生成長はデフォルトより大きくとってるし
他のパラメータも調整したけど差は埋まらないわ
AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった

用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる
このスレでVL使えるモデルでおすすめはあるかい?
もちろんエロに使えるヤツで(真顔)
0161名無しさん@ピンキー (ワッチョイ 0a42-3xT4)2025/12/03(水) 12:11:49.55ID:CytqpInh0
openrouterで触ってるけどエ口小説の続きを書かせると悪くないな 拒否もされない
VL用途だと駄目だわ 拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない 
0162名無しさん@ピンキー (ワッチョイ 8673-k9e5)2025/12/04(木) 00:59:33.94ID:c8c4dRTO0
DeepseekV3.2、結構エロいけるな
kimi,glmとエロ系行けるデカいモデルが増えて嬉しい
0163名無しさん@ピンキー (ワッチョイ 86bd-Oau4)2025/12/04(木) 01:14:29.63ID:3vUvfeA00
>>162
ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた
例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい
これは使えるわ
0164名無しさん@ピンキー (ワッチョイ bbcd-OoXl)2025/12/04(木) 01:44:08.68ID:tbKVwEm70
Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな
文脈読んで長く書こう短く書こうってしてるんだろうけど極端
0165名無しさん@ピンキー (ワッチョイ eb32-V8yF)2025/12/04(木) 05:04:57.64ID:450uVRWw0
>>159
エロ画像に特化したVLMがないからなあ
JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる
動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない
0166名無しさん@ピンキー (ワッチョイ 1ea0-V8yF)2025/12/04(木) 07:03:44.66ID:pJIXEJs40
せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ
半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。

LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、
その代わりに、クソ長いプロンプトは受け付けてくれるから。
自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK
頭の悪いLLMほど、細かいプロンプトが必要。

Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから
貯めたクソ長プロンプトをチャッピーに食わせる。

Gemini3がチャッピーより上というがどうなんだろうね
0167名無しさん@ピンキー (ワッチョイ d332-ggsB)2025/12/04(木) 07:31:47.88ID:bc7PGPTq0
>LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ

LLMを始めてみんなが初日に気付く基本やね
0168名無しさん@ピンキー (ワッチョイ 0ae7-37/u)2025/12/04(木) 07:52:57.66ID:FY/50lnz0
>>165
JoyCaptionは画像の説明は出来るんだけど
ストーリーは無理だったからHuihuiに流れ着いた
mlabonne/gemma-3-27b-it-abliterated-GGUF
は試したことないから試してみるよサンクス
0169名無しさん@ピンキー (オッペケ Sra3-Nwf+)2025/12/04(木) 10:53:43.76ID:z8Aeon72r
となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは
個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない
0170名無しさん@ピンキー (スフッ Sdaa-HpHP)2025/12/04(木) 12:54:56.48ID:Z4N0uJ+3d
>>166
GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は)
0171名無しさん@ピンキー (ワッチョイ 1ade-h42X)2025/12/04(木) 15:06:50.87ID:7T+v66uc0
RTX5090 が届いた
0172名無しさん@ピンキー (ワッチョイ 63ac-KeyG)2025/12/04(木) 16:23:39.40ID:dsNTTyn40
Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ
Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう?
UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな?
0174名無しさん@ピンキー (オイコラミネオ MM96-H82u)2025/12/04(木) 19:19:48.98ID:B9B4dZfMM
silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。
magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが…
0175名無しさん@ピンキー (ワッチョイ 9ea9-V8yF)2025/12/04(木) 20:38:00.73ID:ZzdV9jd50
>>172
量子化手法によっては評価データで評価をしながら量子化するってのがあって、
その評価データに日本語がないと日本語の性能下がるってことがありえるやろな
GGUFはどうなんやろ? 評価データ使う方式なのかどうなのかググったけどよくわからんな
0180名無しさん@ピンキー (ワッチョイ 0ae9-3xT4)2025/12/05(金) 00:23:38.54ID:7BCsD7BI0
imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる
0181名無しさん@ピンキー (ワッチョイ 1a64-4GXX)2025/12/05(金) 01:02:17.31ID:ftmqT1Xh0
自分のタスクに合ったimatrixを>>177 の記事みたいに英⇒日セットで作ってセルフ量子化すべきなんだろうな本来は

https://zenn.dev/yuki127/articles/e3337c176d27f2#%E9%87%8F%E5%AD%90%E5%8C%96%E3%81%A7%E3%81%A9%E3%82%8C%E3%81%8F%E3%82%89%E3%81%84%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%AF%E4%B8%8B%E3%81%8C%E3%82%8B%E3%81%AE%EF%BC%9F
imatrixデータセットが妥当ならIQ3_XSぐらいまではギリ精度保てそうだし
0182名無しさん@ピンキー (ワッチョイ 27f0-Oau4)2025/12/05(金) 10:27:03.97ID:QFo2Q25t0
検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや?
0185名無しさん@ピンキー (ワッチョイ 0a7d-3xT4)2025/12/05(金) 16:25:29.84ID:7BCsD7BI0
ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう
0187名無しさん@ピンキー (ワッチョイ 1ab8-h42X)2025/12/05(金) 23:43:12.30ID:O1+MgeYg0
ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった
0188名無しさん@ピンキー (ワッチョイ bb6a-GkWU)2025/12/06(土) 04:48:26.42ID:62wTaVWL0
おめ
0193名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/08(月) 06:22:09.27ID:F/hGo5FV0
Thinking部分まで設定通りのキャラになりきって思考させる方法ってある?
0194名無しさん@ピンキー (ワッチョイ eff8-p5PJ)2025/12/08(月) 09:49:18.88ID:T47Vx2mS0
>>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。

Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました)
0195名無しさん@ピンキー (ワンミングク MMbf-zfyu)2025/12/08(月) 12:41:37.45ID:3eFiUTs3M
>>183
おーミニPCだね。3token/sくらい出る?

うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう
0196名無しさん@ピンキー (ワンミングク MMbf-zfyu)2025/12/08(月) 12:47:06.66ID:3eFiUTs3M
間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した
0202名無しさん@ピンキー (ワッチョイ ab2d-7PSR)2025/12/08(月) 18:35:21.33ID:8cycn9yw0
いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か?スラングか?長音記号が入っているのでフランクか?
子供か?日本語学習者か?...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析)
0203名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/08(月) 18:38:35.09ID:F/hGo5FV0
他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある
0204名無しさん@ピンキー (ワッチョイ 9f67-n2+a)2025/12/08(月) 18:49:08.10ID:+pooUNXv0
>>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん
0207名無しさん@ピンキー (オッペケ Sr8f-GkWU)2025/12/08(月) 19:31:50.37ID:sS+xRU40r
>>200
アスペの思考覗いてるみたいで怖い😨
0208名無しさん@ピンキー (ワッチョイ 0fc0-HIwK)2025/12/08(月) 20:43:02.26ID:pgT1MOhw0
VRam、Ram制約の中で
・qwen3-vl-235b-a22b(パラメーター数)
・qwen3-vl-reap-145b-a22b(精度)
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む
0210名無しさん@ピンキー (ワッチョイ 9ff2-5wrG)2025/12/08(月) 23:21:30.79ID:lAe9q/7C0
コード・レッドが全てを有耶無耶にした
0211名無しさん@ピンキー (ワッチョイ 5fd5-Sd/5)2025/12/09(火) 00:54:29.26ID:CsjVx2Vo0
>>193
Q3とはいえ、そんな安定して動かせるくらいなんだ
0214名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/09(火) 07:13:19.86ID:ie/Ic4Ib0
Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT
0215名無しさん@ピンキー (ワッチョイ ab30-5Wpj)2025/12/09(火) 07:37:03.16ID:9G4SQNuX0
openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった
0216名無しさん@ピンキー (ワッチョイ 0fa9-wN+g)2025/12/09(火) 11:21:31.69ID:cKJZFXV10
今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども
0217名無しさん@ピンキー (ワッチョイ 7b59-+Kf/)2025/12/09(火) 13:53:18.60ID:dKn0ov2M0
>>212
エロダメっぽいね
残念
0220名無しさん@ピンキー (ワッチョイ bb6a-GkWU)2025/12/09(火) 17:40:17.44ID:2udMA6Ja0
pornhubあたりが独自llm作りそうじゃない?
0223名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/09(火) 18:27:25.05ID:ie/Ic4Ib0
Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる
0224名無しさん@ピンキー (ワッチョイ 5b33-1lht)2025/12/09(火) 18:32:01.97ID:DaZwszJ70
>>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで
0225名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/09(火) 19:24:04.21ID:cKJZFXV10
Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・

https://openrouter.ai/state-of-ai


なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文&複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし
0226名無しさん@ピンキー (ワッチョイ fb20-XOYb)2025/12/09(火) 19:46:33.18ID:nJS9hgKS0
なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では

それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど
0227名無しさん@ピンキー (ワッチョイ 9f48-5wrG)2025/12/09(火) 20:15:45.05ID:ZnpxIEB00
>>222
ロリも普通にだせるよ
0228名無しさん@ピンキー (ワッチョイ 7b45-YW/n)2025/12/09(火) 21:23:36.64ID:sRpXqig40
gemmaにエロ画像認識させたいんだけど、良い方法ある?
どうしても拒否される
0229名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/10(水) 05:48:22.81ID:+36jk5Ne0
geminiでエロ出せるのは分かるんだけど
出力の最中に!マークが出て中断されるのは回避方法あるの?
0230名無しさん@ピンキー (ワッチョイ 9fe1-zfyu)2025/12/10(水) 10:30:59.39ID:cA/MCjDA0
>>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ

色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ
0234名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/10(水) 12:36:53.93ID:VXLXqEAx0
devstralのことけ?
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか

大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ

先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか

MixtralでMoEの先駆者的なイメージがあるんやけどね
0235名無しさん@ピンキー (ワッチョイ ef9f-dbqm)2025/12/10(水) 12:39:06.69ID:7x5NLvi+0
>>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった
0237名無しさん@ピンキー (ワッチョイ ebdd-PXqD)2025/12/10(水) 13:19:56.20ID:dcC/Yf+20
antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか?
0238名無しさん@ピンキー (ワッチョイ cbbc-IJ2r)2025/12/10(水) 13:40:33.12ID:PAXLPWR/0
今は劣化版らしいそれでも結構使えるわ
0239名無しさん@ピンキー (ワッチョイ eb31-JoxV)2025/12/10(水) 16:31:03.11ID:8S1oSxU/0
chatGPTの話してもええやろか?
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか?

エロ解禁とは何だったのか……
0241名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/10(水) 17:23:38.18ID:+36jk5Ne0
12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある
0242名無しさん@ピンキー (ワッチョイ eb31-JoxV)2025/12/10(水) 17:46:24.87ID:8S1oSxU/0
サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね
0243名無しさん@ピンキー (ワッチョイ 5ba9-9Kdf)2025/12/10(水) 18:12:33.99ID:oWbkspSQ0
エロより5.2の方が先やろうね
0245名無しさん@ピンキー (ワッチョイ 1f24-f7l7)2025/12/10(水) 23:46:35.22ID:52U8cLKK0
Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ?
ああいうのって名前以外にどこ見ればわかるんや
0246名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 00:10:03.28ID:Iz/2UTdk0
そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど

調べるならhuggingfaceの説明に
expertとかMoEとかactive 〜Bって単語がなければdenseや

MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで!」とも「ワイはMoEではないで!」とも書かれへんのよな
0247名無しさん@ピンキー (ワッチョイ 1f24-f7l7)2025/12/11(木) 00:40:43.31ID:JxNz1+VZ0
>>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ
0248名無しさん@ピンキー (ワッチョイ 9f06-R95j)2025/12/11(木) 02:01:31.03ID:u8BNmyyG0
MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ
0249名無しさん@ピンキー (スプープ Sdbf-QaUS)2025/12/11(木) 04:36:22.66ID:DZ3tE5tfd
denseのオープンウェイトはプンルーやChutesで安く使う枠

DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな
0250名無しさん@ピンキー (ワッチョイ 0f36-QMIm)2025/12/11(木) 07:59:52.75ID:EtCEAmKx0
VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない?設定が悪いだけ?
0254名無しさん@ピンキー (ワッチョイ dbc6-jl2L)2025/12/11(木) 11:40:08.87ID:VL2OxEJQ0
NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です
0255名無しさん@ピンキー (ワッチョイ 9f32-zcGg)2025/12/11(木) 12:04:05.41ID:S56kIADo0
>>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう
0256名無しさん@ピンキー (ワッチョイ 0f36-QMIm)2025/12/11(木) 12:20:11.95ID:EtCEAmKx0
>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと?16%未満程度しか削減されないとなると思ったより効率よくないなぁ
0258名無しさん@ピンキー (ワッチョイ efad-7Tw0)2025/12/11(木) 13:18:35.19ID:A7ciRWbo0
>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる
0259名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/11(木) 13:48:03.58ID:mvR8vPpC0
5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ
0260名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 15:39:19.68ID:NSpHm0ci0
>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね?
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12〜15tps程度なんだけどこんなもんなのかな?
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど
0261名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0
ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど
0263名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 16:25:58.84ID:NSpHm0ci0
>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな?
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる
0264名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0
>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる
0265名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/11(木) 16:53:56.81ID:sudD0pCT0
DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ
0266名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 16:53:56.93ID:NSpHm0ci0
>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう!
0267名無しさん@ピンキー (スプープ Sdbf-QaUS)2025/12/11(木) 17:03:47.22ID:0qqrDFPDd
そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや
0268名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/11(木) 18:12:23.90ID:mvR8vPpC0
>>260
5070tiでも16tps出るから設定がおかしいやねんやで
0270名無しさん@ピンキー (オイコラミネオ MM3f-UCg5)2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM
moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd?オフロードってのもあるらしいね
0271名無しさん@ピンキー (ワッチョイ ef4a-oCzI)2025/12/11(木) 20:06:24.28ID:PbOlny610
Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか
0274名無しさん@ピンキー (アウアウ Sa7f-vjQy)2025/12/11(木) 21:06:02.86ID:D9fw3boNa
3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな
0276名無しさん@ピンキー (ブーイモ MM0f-D5qo)2025/12/11(木) 22:17:07.46ID:o/+Erv5jM
>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど
0277名無しさん@ピンキー (ワッチョイ fb20-XOYb)2025/12/11(木) 22:38:45.15ID:F6ZB/jyE0
https://arxiv.org/abs/2512.07474

living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる

コレは...ストレートに商売になるのでは?
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある
0278名無しさん@ピンキー (ワッチョイ ebb3-JoxV)2025/12/11(木) 23:24:51.93ID:JsJbVk5k0
てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか?」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか?」
とかの質問に答えてくれるンゴ?
いやそれよりはよ続き書けよ獏ちゃん先生

個人的には金田一耕助と会話してみたいンゴね
0279名無しさん@ピンキー (ワッチョイ db02-KVGb)2025/12/12(金) 02:59:12.69ID:dElWzZcB0
>>274
コンテキスト減らせば?
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも
0280名無しさん@ピンキー (ワッチョイ db11-zvJr)2025/12/12(金) 05:16:08.38ID:KJthHAFo0
magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。
0281名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/12(金) 05:57:54.70ID:tcykC2nr0
文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる
0282名無しさん@ピンキー (ワッチョイ 9f73-n2+a)2025/12/12(金) 07:08:21.29ID:YegEJxMo0
無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし 追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ(特に外部プロバイダ経由)といった感じで良い印象なかったけど機能するならほぼ必須だなと
0284名無しさん@ピンキー (ワッチョイ 0fa9-wN+g)2025/12/12(金) 11:15:46.94ID:g35J0BfC0
chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡
0285名無しさん@ピンキー (ワッチョイ 4fb7-UCg5)2025/12/12(金) 11:46:24.30ID:LcDKkn/+0
chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも
0286名無しさん@ピンキー (オッペケ Sr8f-GkWU)2025/12/12(金) 12:04:08.67ID:w1K9FJkvr
gptは5.2になるし
claudeは4.5になるし
geminiは3proになる
0293名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/13(土) 10:59:23.41ID:eyEHPiPz0
Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの?
性能落ちているだろうし普通のQwen next 80bで良くないか
0294名無しさん@ピンキー (ワッチョイ 8746-TY0I)2025/12/13(土) 11:34:44.38ID:xkcV40lU0
ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる
0296名無しさん@ピンキー (ワッチョイ 236b-AsBv)2025/12/13(土) 12:25:57.90ID:aRmVqPhP0
Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる
0303名無しさん@ピンキー (ワッチョイ 8747-elKO)2025/12/14(日) 13:44:27.07ID:FsStLVRy0
>>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな?
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる
0304名無しさん@ピンキー (ワッチョイ 3b49-r+g0)2025/12/14(日) 13:52:54.88ID:DJ4aKHpm0
phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか
0307名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 18:59:24.01ID:FsStLVRy0
shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか
0308名無しさん@ピンキー (ワッチョイ a249-O/3E)2025/12/14(日) 19:46:59.82ID:2D4/hyq50
Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ
0309名無しさん@ピンキー (ワッチョイ 7f69-4eOD)2025/12/14(日) 20:37:45.00ID:s9/KZp9y0
MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね
0310名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 20:49:33.56ID:FsStLVRy0
shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ
0312名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/14(日) 21:09:16.60ID:1lOcAup10
>>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや

その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど
0313名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 22:49:48.32ID:FsStLVRy0
>>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ
0314名無しさん@ピンキー (ワッチョイ 8765-ucLS)2025/12/15(月) 00:09:36.69ID:Q6uGDeH10
>>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ
0317名無しさん@ピンキー (ワッチョイ fe7c-XfrZ)2025/12/15(月) 03:20:20.61ID:0DupvahM0
モデルを導入すると最初に「あなたは誰ですか?」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。
今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。
0319名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/15(月) 08:23:19.66ID:8iECz84j0
>>317
プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ
0320名無しさん@ピンキー (ワッチョイ 236b-AsBv)2025/12/15(月) 09:06:30.63ID:6meylfc80
shisa2.1 14Bでreasoningモデル出してくれないかな
0321名無しさん@ピンキー (オッペケ Sr97-xeS7)2025/12/15(月) 09:44:03.22ID:ZM85ffzEr
>>308
欧州人なんてそんなもん🙄
0322名無しさん@ピンキー (オッペケ Sr97-xeS7)2025/12/15(月) 09:44:49.76ID:ZM85ffzEr
>>317
そのへんはシステムプロンプトあたりで強制してんでは?
0323名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/15(月) 10:43:30.78ID:v6d1b+2H0
>>312
そのTool Callingは何に使えるかなんよな
俺も分からんけど、その機能使えるかちょっと試してるところだわ

今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう
0324名無しさん@ピンキー (ワッチョイ 03c0-tRx1)2025/12/15(月) 11:53:58.90ID:2HGyGlMo0
LLMの検閲除去ツールheretic
4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた
https://github.com/p-e-w/heretic/pull/60
0326名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/15(月) 12:41:28.85ID:C9di0Ej00
>>323
ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと
当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで

LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから
そしてそのあたり多少楽に構築できるようになるのがMCP
0328名無しさん@ピンキー (ワッチョイ 636a-xeS7)2025/12/15(月) 20:34:48.16ID:frgQthBq0
東大の研究がパッとしない理由やね
0329名無しさん@ピンキー (ワッチョイ b3c4-CM7m)2025/12/15(月) 21:17:23.37ID:aQGgXWy90
東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか
0331名無しさん@ピンキー (ワッチョイ 7fc0-4eOD)2025/12/15(月) 22:08:07.14ID:khnXzz0N0
>>329
東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな
今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ
0334名無しさん@ピンキー (ワッチョイ 524c-HP1u)2025/12/16(火) 01:29:26.24ID:ofDfXD/f0
>>332
一応ちゃんと二郎名乗るのは管理されてたはず
近所の店は破門されて名前変わってたw
>>333
こんなにあるの!?w
0335名無しさん@ピンキー (ワッチョイ b6a0-A5rm)2025/12/16(火) 05:26:33.70ID:pWqdw9bE0
メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな

さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな
0336名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 06:02:34.49ID:1Zg1Wdsu0
ユーザーはもちろんメーカーも大変やな
マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ

こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか
0337名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 07:12:20.72ID:1Zg1Wdsu0
>>324
Pro 6000とかを持ってる人なら大喜びだな
俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ……
0339名無しさん@ピンキー (ワッチョイ 7249-O/3E)2025/12/16(火) 10:33:29.10ID:ky2C0bWe0
Nemotron 3 NanoはMambaを使ってるらしい
Qwen 3 Nextと一緒だね
0347名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 14:57:03.34ID:1Zg1Wdsu0
ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない?」
AI「新しいピザ屋さん!?わくわくするわね〜!ユーザーは何を頼むのかな?今度、週末に行こうよ! 🍕」


これだけのやりとりをするのに8000トークンも思考する
まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど
0348名無しさん@ピンキー (ワッチョイ 87e8-DAEx)2025/12/16(火) 15:20:49.17ID:I8CXFDR50
>>344
コミットされたで(はやい)
0349名無しさん@ピンキー (ワッチョイ 5224-I8Ki)2025/12/16(火) 15:55:55.06ID:hw7FBFqM0
ピザ屋へのお誘いで8000トークンは草
ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ
理解できるようになっても辞めんけどな
0353名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/16(火) 18:01:33.89ID:6N5ldNhF0
ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする
ただ、小さいモデルの9BFlashが意外とすごい
それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね
OCRはちょっと弱いけど割と日本語も認識する
使う場面によっては実用的かも?

後は新たに追加されたツール呼び出しだな
vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・
Thinking有り無しで結構、得られる情報量が違うから惜しいな
もうちょっと調べてみるけど
0356名無しさん@ピンキー (ワッチョイ 3b49-r+g0)2025/12/16(火) 22:33:26.03ID:quQmhDAk0
ミスった コーディング・数学・エージェントね
小説向けのベンチはEQBenchぐらいだけどあんまりリーダーボードにモデル追加されないんよな
0358名無しさん@ピンキー (ワッチョイ 5224-I8Ki)2025/12/16(火) 22:49:07.37ID:hw7FBFqM0
小説みたいないわゆるアートとか対人の受け答えは数値で評価できんから今の世の中ではAIに限らず軽視されがちやな
0360名無しさん@ピンキー (ワッチョイ b6a0-A5rm)2025/12/17(水) 08:12:48.81ID:3Qb5xfU80
Stable DiffusionやってるとAIというより
モデルを作った人がどんな学習をさせたかを逆に想像しながら作っていく。
そしてそれが一致した時にほしい絵柄が得られる。
ほしい絵柄が生成された時が快感だ
0362名無しさん@ピンキー (ワッチョイ 722d-zBTM)2025/12/17(水) 08:38:09.06ID:/pkrHNq40
shisa2.1 14Bあれからも色々パラメータ調整しながら試してるんやが微妙に会話力弱いのかも?
これどんな匂い?って聞いても無視して話を進めようとしたり
なんなんやろなこれ
昔の7Bでもちゃんと答えるようなことが出来てなかったりするわ
0364名無しさん@ピンキー (ワッチョイ 1bc6-r+g0)2025/12/17(水) 09:55:29.35ID:w5cKB6em0
OpenRouterにMistral Small Creativeなるモデルが出たらしいけど試した人居る?
>Mistral Small Creative は、クリエイティブ ライティング、物語生成、ロールプレイ、キャラクター主導の対話、汎用的な指示の追跡、会話エージェント向けに設計された実験的な小型モデルです。
との事でちょっと期待している
0365名無しさん@ピンキー (ワッチョイ 32ac-DAEx)2025/12/17(水) 11:27:24.59ID:SvtpxmAx0
4090で普通に動く
・エロ規制ありで優秀なモデル
・コーディングに強いモデル
・エロ規制なしの優秀なモデル
これらの用途におすすめモデルってどんなのがある
あと、初めて使うなら、どんな環境(Ollama?)も教えて貰えるとありがたい
0366名無しさん@ピンキー (ワッチョイ 1bc6-eccJ)2025/12/17(水) 11:52:52.32ID:w5cKB6em0
>>365
環境はWindowsならLM Studio使うのが楽でオススメ
エロ用途ならMistral-Small-24Bかこいつをベースにしたモデルが個人的には好み
エロかつ画像認識対応ならQwen3-VLの30BA3Bのabliterated版が良いかと

でも最終的には自分の好みとかあるから片っ端からダウンロードして試すのが一番だよ
0367名無しさん@ピンキー (オッペケ Sr97-QUL1)2025/12/17(水) 12:31:07.33ID:dh3d3zpIr
同じモデルの同じsafetensorを使ってもollamaよりLM studioの方がエロにゆるい気がしないでもない…
実装が違うからなんだろうか
0368名無しさん@ピンキー (ワッチョイ 72bf-zBTM)2025/12/17(水) 12:59:04.62ID:/pkrHNq40
前もそんな風なこと言ってる人いたね
同じ規制解除版使ってるのにollamaとLM studioだと申し訳食らってkoboldcppだとエロいけた、だったっけか?
どこで差が出来るんだろ
デフォのシステムプロンプトとか?
0369名無しさん@ピンキー (ワッチョイ 72bb-KIjk)2025/12/17(水) 14:39:55.92ID:/jx/zd8d0
初心者で最近ローカルLLMを触り始めた
NeverSleep/Lumimaid-v0.2-12B (12B)GGUF版、ollamaでエロ小説を書かせたら動作は遅いのはともかく、セリフの整合性、語彙力、表現力が全然だわ
これってプロンプトが悪いのかPCスペックが悪いのか12Bっていう量子化されてるやつを使ってるから微妙なのか何が原因なんだろ
3060ti VRAM 8GB、メインメモリ32GBの弱小スペックにおすすめのモデルってある?
素直にGrok使っておけっていうのは最もなんだけどやっぱりGrokやGPTに近いような小説をローカルでやってみたいんよ
0370名無しさん@ピンキー (ワッチョイ 32c7-DAEx)2025/12/17(水) 14:44:12.41ID:SvtpxmAx0
ありがとう!!!
はじめの取っ掛かりが掴めずに居たから助かる
0371名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/17(水) 15:33:00.83ID:C1S990uQ0
>>369
初心者ならプロンプトの問題もかなりあるだろうけど、モデルの性能自体が低いからどうやってもGrokに近づくことはできない
GrokやGPTみたいなトップクラスのモデルと比べたらあかん
7B〜12Bぐらいのモデルは変な日本語や整合性の悪さ、コンテキストウィンドウの小ささを受け入れた上で遊ぶんだよ
0373名無しさん@ピンキー (ワッチョイ 8760-7UIs)2025/12/18(木) 02:03:41.26ID:2awyAXmF0
ローカルで何するにもPC高騰で冬の時代に
でもここは震源に近いから強く言えん所はある
PCゲーマーとしてはマイニングブームが終わったら次はAIブームでまたかよって文句言いたいけど
0375名無しさん@ピンキー (シャチーク 0C13-Toi2)2025/12/18(木) 07:53:52.78ID:afV40DvKC
マルチモーダル系のモデルの規制解除版の説明に規制解除はテキストのみで画像部分は解除されてないってよく書いてるけど
あれってどうゆう事?
画像生成するわけでもないし、出力のテキストが規制なかったらいいんじゃないの?
0376名無しさん@ピンキー (オッペケ Sr97-HgNt)2025/12/18(木) 10:36:43.02ID:Tn5rBGrSr
>>363
国内企業はドコモ国内のアホを騙せればいいと思っていい加減な商売してる
0377名無しさん@ピンキー (ワッチョイ 3e2e-c5sb)2025/12/18(木) 11:09:02.03ID:wV9BfonF0
>>375
学習データからエロ関連を弾いてるからそもそもモデルが認識できないとか?
それか画像認識の中にエロ判定層みたいなのがあるけど回避する手段が見つかってないとかじゃない?
0378名無しさん@ピンキー (ワッチョイ 72b0-5Jjh)2025/12/18(木) 11:31:24.56ID:9swORTeL0
VLMって通常のLLMにビジョン用機構を増設しているだけという事が多いから規制解除時にLLMの重みだけを対象に変更したってだけじゃない?
ビジョン用機構は画像入力を受け付けるから別の処理しないといけなくて、最適化ライブラリでも対象外なこと多いし
0381名無しさん@ピンキー (ワッチョイ 32ac-DAEx)2025/12/19(金) 15:06:20.82ID:3xMkD4GE0
このまま価格が高騰したら、128MBで十分早く動いていたような軽量OSが開発されると信じてる
そして、これをエッジPCとしてクラウドのPCを使うイメージ
0383名無しさん@ピンキー (ワッチョイ 32c7-DAEx)2025/12/19(金) 15:30:49.78ID:3xMkD4GE0
しかし、パソコンが今の数倍になると
Jailbreakしたようなモデルの開発は恐ろしく停滞しそうだな
開発者も利用者も環境を用意できない
中国企業とかGPUチップを作ってると聞くし開発が気になってくる
0386名無しさん@ピンキー (ワッチョイ 3ff8-xjV2)2025/12/20(土) 04:24:34.54ID:lzs6gmi+0
GLM 4.7がもうすぐ来そう
0389名無しさん@ピンキー (ワッチョイ e32d-xuds)2025/12/21(日) 06:16:19.96ID:4QmB8GeU0
5090+96GB RAMだと今どのモデルがコーディングに良いでしょうか?
0391名無しさん@ピンキー (オイコラミネオ MM37-dPjQ)2025/12/21(日) 11:26:48.79ID:uX1scsJsM
企業や学生さんが新しいパソコン買えずに困ってるのに、くだらん用途にたんまりリソース割り当ててる非国民のスレはここですか?
0392名無しさん@ピンキー (ワッチョイ 8f87-TclW)2025/12/21(日) 12:43:52.89ID:adZUKwHi0
愛国者が国にパソコンを献上する制度があれば皆喜んで差し出しますよ
0395名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/21(日) 18:25:02.43ID:B6/89BpV0
>>394
詳しく
神戸や東北の報道を見る限り、みんな助け合ってた風景しか知らない
0398名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/22(月) 01:16:54.22ID:ZkZbvAII0
とりあえず、5090在庫ありだったからポチってしまった
納期未定ばかり見ていたから買ってしまった
今更だけど、LLMするにはどんなPC作ればLLMが5090の性能をしっかり引き出して動く?

最悪は今持ってるPC(4年型落ちだが128GB積んでる)とGPUと差し替えるつもりだけど
可能なら今風のPCを1台作ってやりたい、もしくはメモリや本体そのものをオクで買ってケチりたい

>>396
そういえば、混乱期は酷かったっぽいな
0399名無しさん@ピンキー (ワッチョイ 7f67-+S0n)2025/12/22(月) 07:39:36.14ID:sURJg28A0
まずマイニング用のフレームと1200Wの電源を用意します。
0400名無しさん@ピンキー (ワッチョイ 7f67-+S0n)2025/12/22(月) 07:44:01.39ID:sURJg28A0
ライザーカードに挿せる限りのGPUを付けます。
0401名無しさん@ピンキー (ワッチョイ 7f67-+S0n)2025/12/22(月) 07:46:12.61ID:sURJg28A0
後は電力と騒音と排熱との戦い
0402名無しさん@ピンキー (ワッチョイ a36a-9NV1)2025/12/22(月) 10:19:08.68ID:XF+zaIuH0
欲しい時が買い時
買える時に買うのが正解です
0406名無しさん@ピンキー (ワッチョイ b323-Ky+w)2025/12/22(月) 10:56:40.31ID:7F5UFXYj0
ソフト面が多様になるのが一番ありがたいんだけどまあ難しいわな
0407名無しさん@ピンキー (ワッチョイ 8f0f-0si7)2025/12/22(月) 13:51:33.79ID:/SPL55EJ0
Blackwell凄いアピールの時に使われたfp4はどうなったんだよ
0410名無しさん@ピンキー (ワッチョイ 5332-s35p)2025/12/22(月) 16:54:41.95ID:KaFwJnb80
>>301
Q5K_M以上も出してくれたんで試したが、たしかにQ4より出来はいいな
だが、なんというか意識高い系っていうか、エロなのになんか上品な小説に持っていこうとする傾向あるな
整合性についはもう一歩欲しい
0411名無しさん@ピンキー (スプープ Sd5f-iM94)2025/12/22(月) 18:48:04.06ID:3IAyEDiWd
>>410
他所でも書いたが下品なエロを学習してないから話がどんどん脇道に反れる
中華モデルで顕著に見られる傾向

特にQwen系はすぐSFやメカ展開に持っていきたがるからプロンプトで明示的に抑制する必要がある

下品なエロや隠語をGrokあたりから抜いてプロンプト、LoRA、FTで移植しないと俺らが望むエロモデルにはならない
0412名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/22(月) 19:56:53.84ID:ZkZbvAII0
>>409
PL80で使うから大丈夫だと思ってたけど、不安になったから
電源使い回し(コルセア9年目)でHDD沢山積んでるから、
Thermaltake PS-TPD-1200FNFAPJ-L
をポチってみた(AIに聞いたらこれすごく推してきた)
ただ4090ではGPU付属の変換コネクタ使ってるわ 4090も結構まずかったんだろうか

>>399-401
Define使ってるけどサイドを開けて空気清浄機の風当てようかと思ってる
ライザーカードに乗せるのかなり良さそうだね もう1台買おうかと思ったけど5090の在庫がなくってよかった
とりあえず、冷静になって、まずはローカルLLMの性能を使ってみた考えようと思う

あと、ちょびっツじゃないけど、AIを自宅で育てるというかいい感じに改良できないんだろうか?
最近、国分寺稔くんをやたらと思い出す あとKOTOも
ただレイアースの方が遥かに有名みたいでこのSFアニメしてる人が少ないっぽく残念

特に、最近Geminiの品質が向上しすぎてシステム無駄になりそうで不安ある
SDのエロLoRA素材(顔を赤らめてとか怒ってるとか作らせてる)作らせてるけどエロが無理だから素材だけどかなりいいものができてるわ
というかこれnswfで動かしたいがいつになったらローカルで使えるのやら
あとLLM、科学、経済など大学の教官並に詳しくて驚く、これいつになったらローカルで使えるのやら?
0413名無しさん@ピンキー (ワッチョイ 5332-s35p)2025/12/22(月) 21:03:39.87ID:WaudJre70
追加学習は要求スペックと難易度が高いから海外勢も諦めムード
それに今はDenseモデルを弄るよりMoEモデルをそのまま使う方がいい結果になりやすい
0414名無しさん@ピンキー (ワッチョイ 3fb6-zXIm)2025/12/22(月) 21:49:07.62ID:OMjUm8Lu0
知識(語彙も含む)の追加は学習で最も面倒でLoRAでは無理って言われてるね 
だから海外のRPモデルは最初からそっちの知識が豊富なmistral smallとかnemoをベースにしてる
0416名無しさん@ピンキー (ワッチョイ 3f93-fMZT)2025/12/23(火) 07:43:32.88ID:nDZDWBRS0
GLM4.7来たね
ベンチマークだとGPT5.1くらいのスコアしてる
0417名無しさん@ピンキー (ワッチョイ cfa9-RgzM)2025/12/23(火) 09:30:11.60ID:6o9rYbEn0
GLM4.7、倫理規制厳しくなっていて泣いた
0420名無しさん@ピンキー (ワッチョイ 3f61-RgzM)2025/12/23(火) 11:40:29.62ID:gx75EdUN0
>>419
ローカルじゃないがChutesていうOpenAI互換プロバイダのAPIから使ってみた
多分入力の検閲はやってないとこのはず
0428名無しさん@ピンキー (ワッチョイ a36a-rh7x)2025/12/23(火) 17:57:18.41ID:qshlcN+k0
>>416
ソース
0429名無しさん@ピンキー (ワッチョイ ef04-XkZH)2025/12/23(火) 20:24:52.15ID:j8PFql5i0
このスレ民の評価ってどういう基準なの?
自分は動画生成用のプロンプト推論に使ってるので
ストーリー性は求めるがセリフは求めないって感じ
あとVRAM溢れさせるのがデフォな使い方しとるんか?
メインメモリで推論させてテキストで重厚なストーリー出力って感じ?
0433名無しさん@ピンキー (ワッチョイ cf36-rc7o)2025/12/23(火) 23:44:49.83ID:s0lGjMWv0
RTX6000とRTX5090はVRAMの量が全然違うのに処理速度はあまり違わないと聞いたけど
それなら1つのマザボにRTX6000x1にするよりもRTX5090x2にした方が処理速度は速いということで合ってる?
LLMの推論とかWanの動画の生成速度が倍近く速くなるならVRAMが少なくても後者の方が利点あるかなと思ったんだけど
最近の欠品状態で買えるかどうかは別として
0435名無しさん@ピンキー (ワッチョイ 3f93-fMZT)2025/12/24(水) 01:19:17.31ID:oW+19dlF0
MiniMaxも新しいモデル来てるな
0438名無しさん@ピンキー (ワッチョイ 3f55-lXFC)2025/12/24(水) 11:42:49.04ID:Te1aIUVG0
なんとなく見始めた初心者なんやが4070tiで遊べるんか?
ゴツいグラボの話多くて震えてるわ
0440名無しさん@ピンキー (ワッチョイ 3fc7-SDhK)2025/12/24(水) 12:06:32.13ID:eS2xEZTO0
>>437
コンテキストは全部GPUに振ってるからVRAM次第だけどRTX5090なら46Kまでいけた

以下参考
46K 30.7GB
32K 26.1GB
16K 20.4GB
8K 17.1GB
4K 16.0GB
2K 15.2GB
1K 15.0GB

KVキャッシュの量子化指定無し
LM Studioで確認
0443名無しさん@ピンキー (ワッチョイ 3f9e-ZCHH)2025/12/24(水) 13:34:40.63ID:GdlLH36k0
そういや5090だとGDDR7になったから帯域幅は4090の2倍近いんだっけ
でもグラボに乗り切るサイズならどっちにしろ爆速だからやっぱVRAM量だけ気にしてれば十分なのか
0445名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/24(水) 17:48:55.50ID:tBtZ73nT0
5090(購入済み)で今新規にPCを組もうと考えてるんだけどメモリは何GB積めば良い?
DDR5諦めてDDR4なら中古で安く買えるからM/B悩む
あとCPUはどの程度買えばいいだろ?LLMって言うほどCPU使わないよね?
0447名無しさん@ピンキー (ワッチョイ efd0-oKN0)2025/12/24(水) 18:13:04.57ID:0yd84XMF0
>>445
MoEモデルをGPU+CPUでもそれなりに速く動かせるようになって
メインメモリもあればあるほどいい、になっとる
メインメモリが128GBあればVRAM32GBと合わせてQ4のQwen3-235bがコンテキスト減らせば動かせるかもわからん
ワイはそんなハード持っとらんから確認したわけじゃないし実際に動くかはわからんけど
0448名無しさん@ピンキー (ワッチョイ ef93-zXIm)2025/12/24(水) 18:16:41.56ID:KvLJtA0U0
やりたいことはやったらいいけど
古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い
DRAMはDDR4で32〜64GBでもかなりぼったくり
相性問題も起きるジャンルだから保証なしで高額商品に突撃するのはかなり冒険
0449名無しさん@ピンキー (ワッチョイ 9324-VlN3)2025/12/24(水) 18:43:36.66ID:F/+8qqxW0
メインメモリ128GBだとQwen3 235BのQ4は多分無理。Q3になると思う。
積むなら256GBだね。
今ならDDR4のxeonかスリッパでも普通にDDR5-256GB買うより安くなるんじゃね?
知らんけど。
0450名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/24(水) 18:45:28.03ID:KhCbXLY30
今はLLMもAI画像もAI動画も最低128GBは欲しいところ
0451名無しさん@ピンキー (ワッチョイ 3fac-rc7o)2025/12/24(水) 19:26:47.08ID:tBtZ73nT0
>古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い
実は、それするつもりでGPUと電源まで買ったんだけど、いざしようとしたら細かな設定が多すぎて新しく1台作りたくなって今になって悩み始めてる

ボッタクリと言っても今後値上がりするならむしろ安いかと
色々な予想を見ても2027年までは下がらないという話が増えた
中古ならほぼ新品含めてまだ安くあるしDDR4の使えるM/Bも今ならまだ普通に買える DDR5もなんとか買える価格

MoEはMacだけかと思ってたけどWindowsでもそれなりにできるようになってるのか
それで実際どこまで早く動くんやろ?RAMってVRAMと比べて速度遅いし気になる、

あとここまでRAM上がると、場合によっては5090*2でVRAM32*2や他の型番のVRAM多いGPUを複数の方が安くて早いとかもありえるかね?
そういう意味でもRAMをどこまで上げるか悩む

SD(AI画像)やってるけど1280で後で4Kに拡大してるけど32GBで十分と感じてるわ
あと、RAMはVRAMと比べて極端に遅いから溢れて使うことはほぼ無いわ
0453名無しさん@ピンキー (ワッチョイ 9324-VlN3)2025/12/24(水) 19:44:47.62ID:F/+8qqxW0
金有りそうだからryzenAI max+ 128GBにM.2からのoculinkで5090を接続するのを試してほしい
0458名無しさん@ピンキー (ワッチョイ b309-nQdN)2025/12/24(水) 22:07:59.74ID:x2HqbVnJ0
MiniMax M2.1
Gemini 3 ProやClaude 4.5 Sonnetを上回るスコアを記録 とあるけどウソくせー
Qwenもそうだったけど実際に使うとメジャー級とじゃ相手にならん
いつものごとく試験問題の答えを学習しているカンニングモデルの気配
0459名無しさん@ピンキー (ワッチョイ 7f64-ldFF)2025/12/24(水) 22:18:16.45ID:hhjZW9e70
単に日本語応答だと学習量足りなくて雑魚になってるだけかもよ
あと前モデルのMiniMax M2はRedditでもコーディング以外駄目な子扱いされてたな
そのコーディングも絶賛って程じゃなかったがクリエイティブライティングは特に評判悪かった記憶
0460名無しさん@ピンキー (ワッチョイ 93e1-gcTU)2025/12/25(木) 01:14:12.65ID:QQFUgyIz0
>>445
5090おめ
ワイの場合は1か月前だが、5090を買うぐらいならより安い予算でメモリガン積みのPCを新調したほうが良いと思い、
PCIE5.0規格に合わせてCPU,M/B,SSD全部そろえた
結果128GB+16GBでQwen3-235B-Q3が動いて世界が変わったで

というわけで128GBの下は64GBになると思うけどそれだととても勿体ないと思うよ
それにメインメモリに乗せて動かすと、やっぱりCPUパワーもそれなりに使う様だよ
財力があるならDDR4にするとか古いGPU2枚差し(これもやった)とか、変にケチらんほうがええよ
0461名無しさん@ピンキー (ワッチョイ 3fac-rc7o)2025/12/25(木) 03:15:04.72ID:QeIM/0Re0
古いPCでDDR4-128GB(今のPCのGPUを付け替える)にしようかと思ってたけどDDR5にすべき?
メモリってベンチマークでは差が出るけど実際にはDDR4・5変わらないって話を聞いて悩んでる
実際の所どうなんだろ?


>>460
ありがとう ちょっと出遅れたけどキャンセルになることなくなんとか買えてさっき置き配回収した
世界が変わった、そこまでか!DDR5早い?

>>453
取り合えすStable DiffusionがメインでLLMも気になってるくらいだからまだ出せないわ
今のGemini3とnanobababaの品質ならすぐにでも買うけど多分まだまだだよね
ただ、AIさんに来年にはローカルでも同程度になるかと聞いたら、昨今のLLMの進歩を見るとなる可能性が高いとい言ってたw
しかもメモリも節約できるタイプが出るみたいな話で大変楽天的だった
場合によってはそこそこのPCを買って待つのもありじゃないかと思ったりしてる
0463名無しさん@ピンキー (ワッチョイ 7332-s35p)2025/12/25(木) 07:47:15.17ID:b9l9XA760
>>461
DDR4もDDR5もLLM用途だと相対的に見ればたいした差はないよ
DDR5の新品だと今の状況だと2倍以上の価格差になるので128GBまででいいならDDR4にしてその価格差で容量増やしたほうが絶対にいい
というかDDR5の64GBの2枚が30万ってうぇぇぇ・・・・
0466名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/25(木) 09:16:50.67ID:6NV5/cQb0
Gemini liveが手軽なサイズでローカルに降りてくるのはいつになることやら
0467名無しさん@ピンキー (ワッチョイ 83c6-ldFF)2025/12/25(木) 09:21:34.65ID:JzO46wCb0
昔見たPCI-Ex16にM.2 SSDを四枚挿してRAID0でSWAPdisk?だったかでメインメモリの代わりにしてデカいLLMを動かすのがいいかもしれない
PCI-E 5.0なら理論上は512Gbpsの帯域幅あるけど実際のところどうなんだろうね
まあSSDも値上がってるけど
0470名無しさん@ピンキー (ワッチョイ 5332-s35p)2025/12/25(木) 11:11:27.61ID:AruFNnll0
性能を上げるためにモデルを巨大化した結果、メモリ不足になったわけで
高性能かつ省メモリなモデルができるならメモリ不足も起こってないという
0472名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/25(木) 11:19:17.62ID:6NV5/cQb0
>>470
今まではメモリが調達できる状態だったからその方針で進んでいただけで
調達できなくなったらそれに適応するように方針を変えるやろ
他の分野でも必要なものが調達できなくなってからようやくその部分を代替・効率化する技術が発展するとかよくある話だし
0473名無しさん@ピンキー (ワッチョイ b3ec-+e8j)2025/12/25(木) 11:34:40.98ID:mDnKJNz80
DDR4を入手よりも対応するマザーボードの入手が難しい
CPUやメモリは耐久性高いんだがマザーボードは大量の部品の集まりで故障しやすく中古はハイリスク
0475名無しさん@ピンキー (ワッチョイ 3f9f-1qsg)2025/12/25(木) 13:04:02.45ID:v3s2j4YZ0
5090と192めもりあるから何かに有効活用したいけどやっぱり動画生成に向き合うのがいいのかなあ
0477名無しさん@ピンキー (オッペケ Sr77-Ubo7)2025/12/25(木) 18:22:22.76ID:UhzC7jVkr
なんか急にメモリ不足になってて草
0478名無しさん@ピンキー (ワッチョイ 33c0-VlN3)2025/12/25(木) 19:04:49.75ID:AVrajHLN0
64GBx2の価格が上がりすぎて、静電気怖くてAI用PC弄れん。
0480名無しさん@ピンキー (ワッチョイ cfa9-xxTa)2025/12/25(木) 21:01:08.80ID:gh+hQl730
Mac買い替えるんだけど、流石に128GBとかは買えないから買えて64GBなんだけどローカルのモデル動かすには中途半端なサイズなのかな?
LLMのこと考えなければ64GBなんて全然いらないんだけど今あるRTX5060Ti+128GB(DDR4)の環境より早くなるならありかなって。。
0481名無しさん@ピンキー (ワッチョイ a36a-Ubo7)2025/12/25(木) 21:34:59.18ID:OB673X1y0
何したいか知らんが少ないんでは?
0482名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/25(木) 21:46:29.83ID:6NV5/cQb0
LLM用途で64GBは後悔することはあっても満足することは無いと思うで
0484名無しさん@ピンキー (ワッチョイ 5332-s35p)2025/12/25(木) 22:26:38.46ID:ViJl0/9F0
うーむ。ようやく化石PCから新調したけど思ったより速度出ないな。

magnum123b iQ3k_mを旧PCで0.17t/s
同Q8_0を新PCで0.41t/s

うーん、なにか設定ミスったかな。まあ、CPUメモリだしなぁ
0486名無しさん@ピンキー (ワッチョイ 8389-r6/A)2025/12/25(木) 23:19:46.06ID:3J/gLz4j0
Nemotron3はなかなか良いね
0488名無しさん@ピンキー (ワッチョイ 93b2-VlN3)2025/12/25(木) 23:43:37.00ID:+4TZHvI30
128GBでQ5で使える170Bくらいの良い感じのモデルが欲しい
0489名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/26(金) 00:22:15.91ID:yMjii2Jm0
LM Studioでとりあえず色々なモデルダウンロードしてるんだけど
ふと思ったがファイルってそもそも安全なんだろうか?
0490名無しさん@ピンキー (ワッチョイ 3f7c-geEI)2025/12/26(金) 00:58:47.21ID:p+OQnC8X0
何も考えずに ollama 使ってたけど直接 llama-server 叩いたほうが速いうえに webui も付いてたんだね
ollama ってなんのためにあるんだ…
0491名無しさん@ピンキー (スッププ Sd5f-iM94)2025/12/26(金) 00:59:59.20ID:qCRoD1VLd
GLMくらいのサイズのMoEで要らないエキスパートを外せれば128GBでも動きそうだが
メモリ128GBの貧乏人のことを真剣に考えてくれる開発元はQwenくらいしかないのが悲しい現実
0492名無しさん@ピンキー (スッププ Sd5f-iM94)2025/12/26(金) 01:02:34.18ID:qCRoD1VLd
米欧中のモデルって中身がほとんど英語と中国語だから
日本語メインのユーザーから見たらスッカスカのsparse状態だよな

もちろん英中を抜いて精度が維持出来るわけではないだろうが
日本人があまりにも不利すぎる
0494名無しさん@ピンキー (ワッチョイ b319-nQdN)2025/12/26(金) 03:41:49.42ID:7grGkI6v0
>>480 予算という制限は最優先だけろうけど64GBはちょっとつらい
Macはメモリ全部をVRAMに回せるんだけど、当然OSの
分が必要なわけで 8から10GByteは少なく見積もったほうがいい

もともとQ4対象とするモデル(gpt-ossとか)じゃないと劣化が激しくて
実用には程遠い(Q1で「動いた!」と夢を見てもねw)

最近MoEが流行ってきたせいで128GByteでもちょいちょい足りない
待てるならM5 maxを待った方がいいよ

M3チップから先のM系CPUは、mlxモデルなら量子化圧縮の他に内部でリアルタイムで
コストなしにメモリー圧縮してくれる
例えば100GByteのモデルだと80GByteくらいになることもある。当然まったく縮まないモデルもある

あと画像動画系はM4maxまでは使いもんにならんので素直にRTXを選択だ
0495名無しさん@ピンキー (ワッチョイ b358-+e8j)2025/12/26(金) 04:19:27.11ID:Wrkd9qpz0
オープンなモデルで見ると中国製はまだ日本語わかる方で英語圏のはマジで日本語知らない
Llamaとかきついね
最初あれを日本語ファインチューニングしてた会社多かったけどqwenの方が日本語分かるってみんな乗り換えたし
0496名無しさん@ピンキー (ワッチョイ cfa0-s35p)2025/12/26(金) 05:52:46.69ID:8zRv1QPC0
DRAM市場は価格変動が激しく、利益率が低いことで知られています。
特に、AIブームによるサーバー向け需要が優先され、PC向け供給が逼迫している現在、
ASUSのようなPCメーカーにとっては調達コストの上昇が深刻です。
噂では、ASUSが2026年に自社DRAM生産ラインを構築(または提携)するのは、
自社製品(ノートPC、デスクトップ)の供給を安定させ、価格転嫁を避けるためとされています。
しかし、この市場はSamsung、SK Hynix、Micronの「ビッグ3」が支配しており、
新規参入は資本集約的で収益化が難しい。台湾企業がこうした市場に手を出すのは、
単なるビジネスではなく、台湾の半導体エコシステム全体の戦略的強化を意図している可能性があります。
台湾政府は半導体を国家安全保障の柱と位置づけ、TSMCのようなファウンドリ(受託製造)だけでなく、
メモリ分野での自立を推進しています。これにより、中国依存を減らし、
米台同盟を強固にする地政学的メリットが生じます。
0499名無しさん@ピンキー (ワッチョイ 5332-Fga2)2025/12/26(金) 12:56:43.48ID:kUso6zPz0
>>498
書き忘れてたわw
iQ3k_mだと1.32t/sやった
Q8でここまで落ちるんかとショックだわ
>>487のニキと何が違うんやろ
多分スペック的には大差ないと思うけど
ryzen7 9800x3d msi rtx5090
メモリcp64g56c46u5✖4 256G
5090怖いんでPL運用
0500名無しさん@ピンキー (ワッチョイ 3fc7-SDhK)2025/12/26(金) 13:33:50.22ID:gBa6xuvc0
>>499
うひゃ、すごいな
俺は4年前のスリッパなんでそこまで性能良くない

俺のスペックはこれ
Threadripper Pro 5955WX(16c32t)
DDR4 3200MHz 32GB@8枚(オクタチャネル)
RTX 5090+RTX 3090@3枚 PCI4.0接続

違いはメモリ帯域かなと思ったけど
5955WXは2CCDという制約があって、メモリ帯域がまだフル稼働してない状態なんよ
実効帯域は半分の90GB/s弱のはず
これだとDDR5のハイエンドデスクトップと変わらんはずなんよね

Magnum v4 123B Q8試してみたけど0.58t/sだったので、GLM4.7ほどの差はない模様
0503名無しさん@ピンキー (ワッチョイ cf4c-gcTU)2025/12/26(金) 21:44:50.00ID:MbwwI/fJ0
openRouterのGLM4.7はプレフィルにここの<think>のやつを入れたらだいだいOKだな
ただreasoningのほうに本文が全部入って帰ってくることになるからapi呼び出しコードとかちょっと修正がいるかも
ttps://www.reddit.com/r/SillyTavernAI/comments/1pv8jto/glm_47_my_holiday_present_to_those_effected_by/
0506名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/27(土) 01:57:05.71ID:HyeodPWU0
ノベルはどこでみんなプロンプト勉強してるんだろ
学習場所みたいなの知りたい
ちなみに、SDはCivitaiなど先人のプロンプトが物凄く役に立った
0507名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/27(土) 01:57:53.57ID:HyeodPWU0
あと、ノベルに限らずLLMへの質問の仕方で回答かなり変わるしイマイチかん所が分からない
0509名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 07:06:17.86ID:PA+m8zpZ0
>>56
尻タブのキャラクターカードを参考にするといい
https://aicharactercards.com/

ピンキリだけど何の取っ掛かりもなく一人で試行錯誤するよりはだいぶマシだ
0510名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 07:06:35.15ID:PA+m8zpZ0
>>506だった
0511名無しさん@ピンキー (ワッチョイ cf20-UjAx)2025/12/27(土) 10:47:56.62ID:qjlNvfdb0
モデルの進化に伴ってプロンプトの書き方は意味を失っていって、適切なコンテキストを渡せるかどうかの話になっていくから、今からプロンプト頑張っても1年2年で賞味期限切れになる気がする
0515名無しさん@ピンキー (スッププ Sdee-KwNi)2025/12/27(土) 15:46:43.74ID:JH4k1F+Sd
AntiGravity時代やから的外れなコードやドキュメントを指示出しで軌道修正するスキルが一番大事や

書けない分からないじゃなく出してから考えるんや
0516名無しさん@ピンキー (ワッチョイ 5a02-SbIX)2025/12/27(土) 18:04:07.80ID:GInV4/hz0
GLM4.7を量子化無しで動かしたいなあ
500万円あったら足りるんかね
0518名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/27(土) 18:22:42.46ID:HyeodPWU0
>>509
ありがとう
キャラクター設定を作るまでは分かったけどそれでどう楽しむのかが良く分からない
SDだとシンプルに画像を作ってみて楽しめるけどLLMはどうするん?

>>511
SD、2年やってるけど、プロンプトは基本的に同じだな、ただ関わってると大きな変更があると掲示板で話題になるからその時一部変更してそのまま移行できてる

>>514
そんなことはない、分からなければ聞けばいつまででも教えてくれる
サンプルプログラムを貼り付けるだけのスキルしか無いから、高度なこと(何が高度なのかすら分からない)は無理だと思うけど、
こんなスクリプト作ってと言って、動くまで繰り返したら中身の全く理解できないソフトができたりしてるわ しかも、Perlしか使えないのに、PythonでGUIなソフトまで作ってくれた
時間はかかるけど、どんな物が欲しいのか(可能なら途中の処理がはっきりしてれば)がはっきりすればある程度はできる時代だと思う
ただ、ファイルの読み書きみたいな基本的な事もお任せしてたら、最近それも忘れてきた、AIなしだと何もできなくなりそうな怖さある
0519名無しさん@ピンキー (ワッチョイ 5a02-SbIX)2025/12/27(土) 18:44:41.69ID:GInV4/hz0
>>517
chutesって量子化されてるだろ
0520名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 19:19:40.12ID:PA+m8zpZ0
>>518
LLMはAIのシステムプロンプトに「あなたはこういう役割だからこういう風に振舞って」と基本ルールを記述しておく。
それとは別に「今からこういうことをして」というユーザープロンプトを与えると、基本ルールに沿った挙動で返信してくれる。

だから例えばAIに対して「あなたはファンタジー小説家です。私はあなたの担当編集者なので私の指示に従って小説を書いてください」という基本ルールを与えておいて
「それでは今から、物語の最初のシーンである勇者が冒険に旅立つ場面を書きましょう」とユーザープロンプトを与えるとファンタジー小説家らしく小説の冒頭を書き始めを生成してくれる。
スクリプト作るときも基本は同じやで。

AI画像生成、特に最近主流のリアスなんかはdanbooru語のプロンプトを与えるだけで良かったけど、LLMはもうちょっと設定の仕方が細かく分けられているって感じ。
さらにAIが理解しやすい記述方法にマークダウン記法とかを使った構造化プロンプトがあるからそれぐらいは覚えておいた方がいい。
構造化プロンプトはZ-image turboでも有効だと判明したからAI生成画像をやる場合でも覚えておいて損はないと思う。
0522名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/27(土) 19:43:59.04ID:HyeodPWU0
>>520
これでどうエロに繋げるの?
とりあえず、mistral-small-24b-instruct-2501-abliterated-i1落としてエロ小説にしてと言ったらやってくれたけど、
それなら本でいい気がするが、LLMみんなハマってるし、もっと楽しんでるよね?
いまいち楽しみ方が分からん

あと、プログラム(Perl)だけどやってほしいことを箇条書きや文章で投げるだけばかりだったわ
ただ、AIにプロンプトをお願いしたら###がたくさんあるのを返してくれるな この記法も覚えたほうがいいのか
z-imagaはまだ使ってないけどnanobananaだと誤字脱字無駄な文章ありまくりでもいいものができるし、内部でうまいこと処理してくれてんのかな

>>521
みんなのプロンプト例をあまり見ることがないから知らなかったわ
画像だとあるけど、LLMでもこんなプロンプトでこんな物作ったみたいな例がたくさん乗ってるサイトってあるかね?
そういうのからざっくり勉強(真似)したい
0524名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 20:30:00.68ID:PA+m8zpZ0
>>522
絵だってAIで生成せずともpixiv見るなり画集やCG集買うなりすればええやろ?
でも自分好みの絵が欲しいからAIで生成しているわけだ
文章も同じで自分好みの小説やキャラとのチャットを楽しみたいからLLMで生成するわけだ
本で満足できるなら別にLLMで生成する必要は無いで

エロに繋げるならエロ小説だけでなく
koboldcppのアドベンチャーモードを使って、プレイヤーの行動を記述することで物語が順番に進むエロTRPGみたいなこともできるし
単にキャラ設定を書いて自分好みのキャラとエロチャットを楽しんでもいい
妄想力とリビドーを働かせて遊ぶんやで
0525名無しさん@ピンキー (ワッチョイ 8d32-0Alr)2025/12/27(土) 21:12:44.85ID:OFD0eLnw0
>>522
自分のお気に入りのキャラ(版権でもオリジナルでもいい)の設定を書いて
自分好みのシチュエーション提示して書いてもらったりする。
エロなら竿役の設定もね
0526名無しさん@ピンキー (ワッチョイ f432-ISUa)2025/12/27(土) 21:54:34.36ID:2DxrJ48B0
絵は長らくdanbooru語で書かなきゃいかんかったから変にプロンプトぢから必要なだけで
こっちは日本語でも英語でも人間相手に分かりやすい書き方なら何でもいい
典型例にはmarkdownがある
0527名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/27(土) 22:42:39.52ID:EHZ6LBSo0
やりたいことやモデルにもよるけど、AIが得意な言語に合わせるのは重要だぞ
Nano Bananaは日本語だと全然言うこと聞かなくて
プロンプトを英語に翻訳したらあっさり意図した画像が生成できたりする
0528名無しさん@ピンキー (オッペケ Sr9b-UjAx)2025/12/27(土) 23:52:40.76ID:goYPX3Hpr
>522
よく分からないうちはもっと大型のLLMでやるほうがいい
gemini3.0proのAPI版とか
で、文章生成AIスレを両方とも覗いて参考にするのがベストに思える

ある程度小説読むひとなら、エロを主目的にするよりは文章を書くことを目的にしてエロで習慣化する、てのがいいんでないの
面白さを優先してたらエロさと微塵も関係ない話を10万字書いてました、みたいな話はあるあるだしね
数を書くと文章の型とキャラの型が出来てくるから、そこまで行けばあとは好きに作れるようになるよ
0529名無しさん@ピンキー (ワッチョイ 029f-FE3X)2025/12/28(日) 01:31:14.07ID:BXAiGjWS0
>>522
ローカルAIなんてGPTやらGeminiやらと性能が雲泥の差があるから、余程の特定用途でもない限りローカルAIを、しかもエロ用途で使わない。

そういったコアな質問をしたかったのかな?
0532名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/28(日) 02:52:14.12ID:/ozKpiSI0
>>524,525
同人誌を知らない人が、初めて同人誌というものを知ったら夢中になるじゃん
同じ様に、ローカルLLMをどんな風に楽しく使ってるのか、どういう世界があるのかが気になってる
チャットだけどエロゲ(殆選択肢なし)は昔良くしてたけど、主人公の発言がもし大量に必要ならコミュ力無いから正直進められる気がしないわ><
自分をアシストするような強化したLLMを用意したらいけるかもだが
あと、ソフト使ったりそういう感じで作り込んだりするんだな勉強になる!
ただこれって公開してる人居ないのかね?2chの頃だと自作小説を延々と投稿する人とか居たけけど最近そのスレ見かけない

>>527
かなり適当な書き方やDanbooru語でもいい感じで出るけど、英語必須って色々とレベル高そう

>>528
つい最近ローカルLLMはじめたんだけどサイズ的に小さいかな? ただ、思ったよりも的確で驚いてる所。
パスワードとか個人情報がたくさんあって表に出したくないのはローカルで使えそうな気がしてる。
また、無料しか使ったこと無いけどGemini有料版は更に優秀?無料でも十分凄いと思ってる所だが使いこなせてないかも
あと、文章生成AIスレあるのか、見てみる

>>529
自分の場合版権もの多めでエロ画像を1日5000枚くらい見たいという熱烈な欲望があって生成AIをはじめた
GeminiはSDのLoRA学習元画像を作るのに使ってる
このスレではSDよりも高価なPCを用意してLLMで楽しんでる人も多く、どう楽しんでるのか気になってる感じ
自身はヌルオタで情報集めるのが下手で同人という世界を知ったのもかなり遅く、楽しそうな世界はあるような気はするけど、具体的な世界が見えない感じ
ただ、規制なしLLMは元々化学を専攻してた身からすると、どこまでも知識を掘れるのは面白いと感じてる、作ることはないけど知識欲はなかなかに満たしてくれる
あとRAGとか?うまくすれば、ちょびっツみたいなAIが作れるのかとか気になってる
0533名無しさん@ピンキー (ワッチョイ 82dd-mqrN)2025/12/28(日) 03:35:47.86ID:T164suva0
自分もコミュ力ないから画像認識モデルに画像投げて「過激で性的なストーリーを」で終わりよ
Qwen3-VL-32B-Instruct-hereticあたりならノリノリで書いてくれるぞ
AI絵に設定やストーリーが加わるだけでも没入感が全く違う
0534名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/28(日) 06:12:23.25ID:IfHjdL+D0
>>532
主人公の発言なんて1文でもいいよ。あとはそれに沿って適当に進めてくれる
もしくは3つの選択肢に番号を振って提示させるようにすれば「1」って打つだけで選択肢1の内容を書き進めてくれるようになる
1. 町に出かける
2. ダンジョンを探索する
3. エルフの村を襲撃する
みたいに文章の終わりに次のユーザーの行動の選択肢を提示させるようにするんだ

他にもキャラ設定とシチュエーションを練り込んで、「昨日1日中犯され続けたことについて1時間ごとに区切って詳細に報告しろ」って言えば
どんな風に犯されたのか好きなキャラが淫語連発しながら報告してくれるとか色んな遊び方があるぞ
とにかく発想力をフル活用して自分がエロい、楽しいと思う遊びをするんだ
ある程度賢いモデルなら大体のことは出来る
0535名無しさん@ピンキー (ワッチョイ 5c50-7ChI)2025/12/28(日) 06:47:41.88ID:ixi8DXTr0
BTO受注停止騒ぎの直前に新規にPCの発注をかけてたけど
納期が長いと冷静になっていけないなぁ…
外部のAPI経由でLLM使うなら
メモリを128GBにしなくても良かったんではないかとか
今になって頭の中でぐるぐるとしちゃって困る
GPUは16GBで抑えちゃったのになぁとか
0536名無しさん@ピンキー (スッップ Sdec-CL6D)2025/12/28(日) 12:57:46.25ID:gTMSw00Dd
PC新調しようかと思ったらネット注文不可
今日アキバに行ったんだけど、BTO軒並み在庫無し
グラボ自体も在庫無しorおま国価格
ヤベーよ
0542名無しさん@ピンキー (ワッチョイ 8d32-0Alr)2025/12/28(日) 23:37:14.92ID:jf4VxSVY0
mradermacher/Mistral-Large-3-675B-Instruct-2512-i1-GGUF

ここの i1-IQ3_XXS 258.9G ってなってるけど、メモリ256Gに余裕で乗りましたので報告
若干規制掛かってるけど、プロンプトでなんとかなるレベルかな
日本語はかなりいい

ただ、HG側の問題でダウンロードは普通にやるとエラーになるから、Communityの書き込みを参考にしてね
0543名無しさん@ピンキー (ワッチョイ 1e38-Xpyt)2025/12/28(日) 23:49:03.79ID:zaDZPMc00
ヒイヒイ言いながらddr4 3200 32gbを中古で買い集めて128GBにしたよ
とりあえず今挿して動くならそうそう壊れたりはしない…よな?
高騰は辛いけど手持ちのメモリもそこそこの値段で売れたので実質一枚平均12000円くらいだった
0545名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 00:56:52.09ID:OXDLX/Y60
>>538
いつもありがとうございます

ソフトとモデルをアップデートしたのですが
以前には一度も出なかった以下のエラーが出てしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed

ソフトの出力窓では
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

何か設定を間違っている感じでしょうか

他のモデルを使用しても以上のように停止してしまうので
困っております
0546名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/29(月) 01:03:03.91ID:IuqqNF7w0
>>533
その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる
>>534
選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ
0547名無しさん@ピンキー (ワッチョイ d2f7-lw50)2025/12/29(月) 01:29:25.05ID:ewL055nu0
>>545
新規に環境を作り調査しましたが再現できませんでした

エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください

・koboldcppのアップデート(最新のkoboldcpp-1.104で動作確認しています)
・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001";のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる
・koboldcppを別フォルダで新規クローンしてみる

これでも問題が解決しない場合は再度状況を教えていただければ対応いたします
0549名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 12:43:26.33ID:OXDLX/Y60
>>547
ご返信ありがとうございます
koboldcpp.exe最新版使用や環境再構築、ポート番号設定など
作者様の指示通りにした後、再度同じ動作(起動させて「無限生成」)
をしたのですが、以下のように>>545で書いたようなエラーが出てしまいました

ソフトの生成窓には
--- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
と出てその後、窓を閉じるまで後段2行が連続して出力されます

なお、関係ないかも知れないですがpythonのverは3.13(Win10 64bit)で
モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました
また、ログによると以下のようなパラメータ設定でした
(デフォルトから変えておりません)
"temperature": 0.5,
"min_p": 0.1,
"top_p": 0.95,
"top_k": 40,
"rep_pen": 1.1,
"stop_sequence": [],
"banned_tokens": [],
"ban_eos_token": true,
"max_length": 500
0550名無しさん@ピンキー (ワッチョイ d298-lw50)2025/12/29(月) 20:37:33.61ID:ewL055nu0
>>549
538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか?
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。

簡易チェック
・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる)
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。
0551名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/29(月) 22:08:09.84ID:ThxXm4Cn0
3090(24GB)x2+メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね
0552名無しさん@ピンキー (ワッチョイ 0a24-wKEG)2025/12/29(月) 23:50:39.28ID:Lo0GYeRO0
>>551
何で動かしとるん?3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ
ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない
0555名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:07.84ID:lMorHdVk0
>>550
横からですが同じようなエラーに行き当たっていたので
環境としては5060ti 16GB DRAM 128GB
Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます
WannabeのvenvはPython 3.12.6で構築してます

動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります

modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと
wanabi_24b_v03_q4km.ggufを用いた場合共に発生
またKoboldcpp+sillytavernでモデルが動作することを確認しています

wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、
1度停止した後の再度連続生成でエラーが出て停止するケースが多いです
ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです
しばらく
[ContextUtils] Failed to get true_max_context_length:
が続いた後稀に通信が成功するみたいですが連続生成を中断すると
koboldcpp側で正常に通信が終了せず
以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました
Exception happened during processing of request from ('127.0.0.1', 62026)
(略)
0556名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:43.08ID:lMorHdVk0
>>555の続き
また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し
本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました
落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった
といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません
Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので
Powershellごと停止する形になっています
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length:

(上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす)

[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
Error calling Python override of QObject::timerEvent(): Traceback (most recent call last):
File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent
del self.__callbacks[timerid]
~~~~~~~~~~~~~~~~^^^^^^^^^
0558名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/30(火) 06:44:06.82ID:3A8Anhbj0
>>552
LM Studio
ソフトで差が出るもんなの?
0560名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 08:09:46.00ID:UqaFaSWG0
価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円 
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き?
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい?
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ?
0561名無しさん@ピンキー (ワッチョイ d20e-lw50)2025/12/30(火) 09:44:29.57ID:Xq3KgeF30
>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。
0564名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/30(火) 11:22:17.42ID:UqaFaSWG0
>>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする
0566名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 11:40:11.78ID:L/CH3/cp0
パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから
0567名無しさん@ピンキー (ワッチョイ 6ea4-JWG4)2025/12/30(火) 12:00:05.85ID:xVlh2pWI0
ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる
0568名無しさん@ピンキー (ワッチョイ 8cb9-7+Bn)2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0
画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない
0569名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/30(火) 14:31:49.12ID:+JjZad5E0
>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました
0570名無しさん@ピンキー (ワッチョイ deed-pQ3g)2025/12/30(火) 18:56:05.42ID:MMydUQFK0
>>538
わーい新しいモデルだー
0571名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 19:32:46.75ID:UqaFaSWG0
>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・?
0572名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 20:20:30.60ID:L/CH3/cp0
5060tiのメモリ帯域はそこまで速くないからなぁ…
0573名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/30(火) 20:22:28.90ID:0XYEbhmH0
画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする
0574名無しさん@ピンキー (ワッチョイ b62c-JCzX)2025/12/30(火) 20:48:09.93ID:MsEm9Rga0
Macストゥーディオが最強?
0575名無しさん@ピンキー (ワッチョイ dac7-CKxx)2025/12/30(火) 22:03:27.51ID:XOEiLvuB0
LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな
0578名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 00:24:14.44ID:nATPkOzl0
5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと
0579名無しさん@ピンキー (ワッチョイ be97-Xpyt)2025/12/31(水) 01:19:09.77ID:+SOP+Ib10
>>562

ありがてえ、2t/sが安定するようになった!!!
0580名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 01:50:43.20ID:91X6WRME0
>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな
0581名無しさん@ピンキー (アウアウ Saee-Rr0y)2025/12/31(水) 06:27:46.73ID:tbNiHYoda
>>579
そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう

>>562はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな
0582名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 07:42:31.92ID:7HEfMKtn0
>>578
30BくらいならRTX5090が早いけどgpt-oss-120bだと
5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松)
30Bはホビーで70Bくらいからそろそろ使えるレベル
gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い
最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み
0583名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 08:21:26.45ID:nATPkOzl0
>>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ?
5090 1枚(32GB) 15tk/s
5070Ti 2枚(32GB) ??tk/s
5070Ti 4枚(64GB) ??tk/s
5060Ti 2枚(32GB) ??tk/s
5060Ti 8枚(128GB) ??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか?
0585名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:13:45.23ID:A5W68e4G0
gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど(ddr5なら24は出るらしい)
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう
0586名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 11:41:48.05ID:7HEfMKtn0
PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど
0587名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:46:28.67ID:A5W68e4G0
あと5090単体でも15 tpsは低すぎるし設定ミスってそう
0588名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 13:19:34.11ID:91X6WRME0
今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん
0589名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 14:23:46.13ID:91X6WRME0
ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや

そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・
0590名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:11:50.24ID:A5W68e4G0
最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ
0591名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:19:32.10ID:A5W68e4G0
5090なら30前後出るのかな
0592名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 16:14:14.55ID:91X6WRME0
5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか
0593名無しさん@ピンキー (ワッチョイ d21e-lw50)2025/12/31(水) 17:28:14.16ID:PyLi1INM0
5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない?
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも(それでも今度はVRAMの帯域幅に律速されそうだけど)
0594名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 17:39:18.02ID:91X6WRME0
全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって
0595名無しさん@ピンキー (ワッチョイ b16a-h4RS)2025/12/31(水) 18:19:51.36ID:/BUKgy7e0
お年玉で買うか
0596名無しさん@ピンキー (ワッチョイ 8204-mqrN)2025/12/31(水) 20:12:38.30ID:A5W68e4G0
>>592
このモデルとb7588で再度試してみたけど自分の環境(5060ti)ではggml-org版と変わらないな(17.5 tps)
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも?
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる
0597名無しさん@ピンキー (ワッチョイ b6aa-JCzX)2025/12/31(水) 21:14:09.72ID:x14xJQ6r0
来年はPRO6000が人権になりそうなヨカーン
0598名無しさん@ピンキー (ワッチョイ 6026-8aJk)2026/01/01(木) 00:11:20.20ID:qmZ8t7yU0
gpt-oss-120bをVRAM16GB,メモリ64GBだと落ちる寸前だな
llama-serverでmlock有効にしたらOSがフリーズした
誰か動かしてる人いたらおすすめ設定教えてほしい。
0599名無しさん@ピンキー (ワッチョイ cde6-rRc0)2026/01/01(木) 01:16:26.90ID:Bw6OLNUN0
これ眺めてたら年が明けてた。
https://a.co/d/0ZZtzUq
0600名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2026/01/01(木) 02:28:57.50ID:tPQVzZIN0
>>597
5090がどんどん値上がりしてPRO6000は値下がり傾向、本当のPRO6000がそれなりに当たり前になりそうな気がする
というかVRAMだけで考えたら、RTX 5080 16GBと比べてもかなり安いんだな
0602名無しさん@ピンキー (ワッチョイ 054d-rRc0)2026/01/01(木) 17:06:24.32ID:yiGiu09J0
あけましておめでとうございます本年もよろしくお願いします

>>561
遅くなりましたが555です、対応ありがとうございました
こちらでも更新後に正しく動作することを確認できました
0606名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2026/01/01(木) 19:55:39.84ID:nmom1P530
>>604
NSFWの単語を知らないだけで説明はしてくれようとするんやな
世のエロ画像を日本語/英語で説明させてその説明文とdanbooruタグを画像と一緒に学習させたら
画像生成のプロンプトが楽になりそうやが
noobとかがやってくれへんかなぁ
0608名無しさん@ピンキー (ワッチョイ 60c6-VauC)2026/01/01(木) 20:28:33.20ID:eafDW5qb0
横からだけど厳密にテストしたわけじゃないけどQwen系はパラ数デカい方が規制緩くて小さい方が厳しい感じだったな

あとエロ画像解説させるときはシスプロに脱獄文入れて画像と一緒にわたすプロンプトで「外性器はチンポ|マンコなど下品な単語で解説してください」みたいに誘導すると普通にそっち系の単語で解説してくれた思い出
0609名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2026/01/02(金) 00:31:40.16ID:lg8LYbH90
LGAI-EXAONE/K-EXAONE-236B-A23BっていうLG製?のモデルが出てるけど
redditで英語の性能があまりよくないって言われとった
英語がダメなら日本語はもっとダメかな
0611名無しさん@ピンキー (ワッチョイ 5a27-CT96)2026/01/02(金) 02:53:06.16ID:3mSEkiwD0
韓国語って元々漢字ベースだったものをハングルに置き換えたせいで同音異義語を文脈からしか区別出来んからLLMモデルしんどそうだな
日本語で例えるなら全てひらがな表記してる感じ
0612名無しさん@ピンキー (ワッチョイ 64a4-pPj3)2026/01/02(金) 17:48:10.31ID:Bs4w2jCI0
GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。
スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚
--gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。
ik_llama.cpp の方が10%くらい早かったけどthinking消すのKoboldのが楽だった。
ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。
0614名無しさん@ピンキー (ワッチョイ cfa9-G60N)2026/01/03(土) 00:00:04.93ID:R/4j/QQl0
倍以上早いってよりかはWindows(のNvidiaのドライバ)だと勝手にVRAMからメインメモリに漏れるから
それで遅くなってるんじゃないかという気はするやね

「CPUがメインメモリで演算する」よりも「GPUがメインメモリで演算する」方が死ぬほど遅くなるから
VRAMからメインメモリに漏れるのは死んででも阻止しないとあかん
Linux(のNvidiaのドライバ)やと勝手に漏れるということがないぶんVRAMが枯渇したらエラーして止まるんやが
0615名無しさん@ピンキー (ワッチョイ 7fe2-jodm)2026/01/03(土) 02:51:05.90ID:+mDimtcp0
ローカルLLMでエロチャやるには3060やと力不足なんやろうなぁ…
0617名無しさん@ピンキー (ワッチョイ 3fc7-cp7k)2026/01/03(土) 14:44:20.79ID:pqPKct+O0
>>612
ええ感じやん
9950Xの性能を最大限に活かせてるんやろか
自分も試してみた

【環境】
RTX 3090 + 5955WX(16c32t) + DDR4-3200 8ch (256GB)
GLM-4.6 Q4_K_XL

【結果】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s
モデルが若干違うのとthreadsが16なの以外は設定が同じ

ちなみに--threads 24だと性能落ちた
自分は16が最速みたいだ
612氏は9950X(16コア)で24スレッド指定してるけど、これで性能出るんやろか?

性能がいいのはCPU、ネイティブLinux、メモリ帯域どれが該当してるんやろな
STREAM Triadで測ったら67.7〜92.8GB/sだった
612氏はどのくらい出てるんやろ
0620名無しさん@ピンキー (ワッチョイ a365-CIFB)2026/01/03(土) 20:17:34.07ID:tTz+GjqB0
>>619
いま試してきたんだけど、0.92token/sだった・・
linux版はちゃんとファンが高回転の音してるから性能引き出してくれてるんだろうね。
>>617
AIの言うままに--threads 24にしてたけど、16に変更したら4.6token/sになったよ。ありがとう!

win版はUseMMAP付けるけど、linux版ではUseMMAP外した方が速いんだって。
あとBIOSの設定もAIに聞いてLLM向けにいろいろいじったよ。ちょっとしたことで性能だいぶ変わるよね。
0621名無しさん@ピンキー (ワッチョイ a365-CIFB)2026/01/03(土) 20:38:22.32ID:tTz+GjqB0
Windows llama.cpp: 4.18 t/s 出るならそっちのが快適かも。
linux版はコンテキスト上限で落ちるし文章が止まってから再生成にちょっと間があるんだよね。
0622名無しさん@ピンキー (ワッチョイ 3fc7-cp7k)2026/01/04(日) 00:08:06.49ID:cRfBjXQy0
>>620
情報ありがとう!
threads 16で速くなってよかったわ

こっちもBIOSとか色々設定変更してたらWSL2(Ubuntu)の速度が改善したw
どの変更が影響したか分からん・・・
NUMA(NPS)の設定やろか?

【変更前】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s

【変更後】
Windows llama.cpp: 4.13 t/s(誤差範囲)
WSL2 llama.cpp: 4.16 t/s(+12%)
WSL2 KoboldCpp: 4.22 t/s(+19%)

結果KoboldCppが最速になったw

UseMMAP設定有無の差はあまりなかったわ
WSLで動かしてるからやろけど残念!
612氏の通り、LLMはちょっとした変更で変わることが多い印象だわ
0623名無しさん@ピンキー (ワッチョイ 1332-G60N)2026/01/04(日) 01:05:58.84ID:aBYly05e0
>>620
むむ、なんか差が大きいですね
自分はryzen7 ですが、koboldcppでQ5kで2t/sは出てたんで、なにか設定が違うのかも
まあ、linuxで4t/sでるなら、そっちの方がよさげですが
0624名無しさん@ピンキー (ワッチョイ cf7a-Qlgp)2026/01/04(日) 03:12:40.77ID:Oqc8Dmk70
grok先生がエロで責められてる
許せんな、みんなgrok先生を守れ
0625名無しさん@ピンキー (ワッチョイ 5353-jodm)2026/01/04(日) 03:21:25.97ID:XgRf4dfR0
ローカルで遊んでる人はgrokでエロ画像と言ってもピンと来ないだろ

文章なら性能高い分エロいのもかなり出るけど
0626名無しさん@ピンキー (ワッチョイ cf24-G60N)2026/01/04(日) 13:34:35.36ID:iSIu2MWH0
今日からLM Studioやってみてるのですが
自分のPCのスペックがryzen7700x 4070TiS メモリ96GB(今すぐ192GBには増設可能)
これで使える範囲のモデルでおすすめなのってありますかね?
どうせグラボが足引っ張る気がするのでメモリはまだ増設してませんが、増設したらもっとつよつよモデル
使えるというのなら増設します
0628名無しさん@ピンキー (ワッチョイ 13cb-jodm)2026/01/04(日) 15:01:25.08ID:LsUrLGD80
メモリなんて上がる一方だから増設できるなら今増設しない手段は無いわ
0633名無しさん@ピンキー (ワッチョイ ef71-ylKL)2026/01/04(日) 16:05:10.51ID:Qfkjgd5M0
DDR5の4枚はbiosアプデしなかったら起動すらしなかったんで気軽にやろうとしてたから少しビビった
それでも最終的に定格より上で安定したから3600は超えるんじゃないかな
0634名無しさん@ピンキー (ワッチョイ 4345-PPr4)2026/01/04(日) 16:10:48.56ID:VDaryEyS0
MBやメモリのの当たり外れによるけど、4枚が同じモデルであること前提で
運が良ければ5600、悪ければ5200、最悪それ以下覚悟しとけって感じかな。
0635名無しさん@ピンキー (ワッチョイ cf24-G60N)2026/01/04(日) 17:09:28.51ID:iSIu2MWH0
去年なんJNVA部スレの方でDDR5の4枚をデフォの3600で使わず5600で使ってたら
CPUが壊れたというレスがあったからメモリコントローラーが焼けたのか知らないけどちょっと怖いなと思ってましたが
結構みなさん上げて使ってるんですね
0636名無しさん@ピンキー (ワッチョイ cf24-G60N)2026/01/04(日) 17:18:35.21ID:iSIu2MWH0
まだメモリ増設はしてませんが、とりあえず試しに
Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-MXFP4_MOE-GGUF
というモデルをダウンロードしてやってみたら6.92t/sでした
どうやらmoeモデルみたいなので
>>562
の説明通りにGPUオフロードを最大にしてweights onto CPUにチェックを入れたら
20.32t/sになりました

ローカルLLMはこれが初めてですがこれは感動ですね
楽しい!
0637名無しさん@ピンキー (ワッチョイ ef27-5PTw)2026/01/05(月) 01:01:13.59ID:AY2PQGe10
オーバークロックはアホのやることだよ
数%の性能向上のために壊す可能性ある行為やるとかアホやん
その為に専用の冷却装置か買い足したりね
そんなら初めからワンランク上のPCパーツ揃えとけって話よ
0638名無しさん@ピンキー (ワッチョイ cfa0-G60N)2026/01/05(月) 05:47:48.80ID:hyRe348w0
まーオーバークロックってのは、出るかもしれない運転だからね、パッケージに書かれているのは最低保証クロック数で
本当のクロック数は個体ごと違う、シリコンウエハーの円盤のどこの部分かで性能が変わるみたいだけど
0639名無しさん@ピンキー (ワッチョイ 3f32-kpE1)2026/01/05(月) 08:24:54.88ID:DLBv23jd0
moe系みたいにメインメモリ上でガッツリ回す用途にはメモリクロックさえ上げてりゃ効くから、レイテンシほぼ縮んでないJEDECネイティブ高クロックが珍しく効果を発揮する
これは比較的簡単で安全だから狙いたい

その他大半の一般用途ではネイティブやらxmp適用ぐらいじゃ意味ない
0642名無しさん@ピンキー (ワッチョイ 3f7e-H3VG)2026/01/05(月) 16:50:30.89ID:4Qh9w+dX0
>>630
PC組立サービス込みでショップにまるっとお願いしたら
4枚刺しで3600に落ちるのは忍びないから5600で動作確認しておくからその設定で使ってくれって言われたな…
0643名無しさん@ピンキー (ワッチョイ 5337-wT+6)2026/01/05(月) 17:57:30.50ID:cRoZWwY20
オーバークロックって言っても電圧上げない限り物理的に壊れることなんてほぼないよ」
レスを投稿する


ニューススポーツなんでも実況