なんJLLM部避難所 ★10

発見

検索

板一覧

設定

「ハッキング」から「今晩のおかず」までを手広くカバーする巨大掲示板群『５ちゃんねる』へようこそ！

使い方を見る

探検

トップページ⇒オナテク(仮)＠bbspink掲示板

785コメント315KB

なんJLLM部避難所 ★10

0151名無しさん＠ピンキー (ﾜｯﾁｮｲ 46e6-lIKY)

2025/12/03(水) 01:44:18.82ID:dfpw1z2m0

14Bはsmall 3.2と置き換えられるってモデルカードに書いてあるけどホントかなあ

0152名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a0b-3xT4)

2025/12/03(水) 02:39:03.99ID:CytqpInh0

largeまでapache 2.0とかやるやん　いつもの非商用ライセンスだと思ってた
日本語能力高そうだしありがてえ

0153名無しさん＠ピンキー (ﾜｯﾁｮｲ 86ce-37/u)

2025/12/03(水) 07:53:34.81ID:1Za0pPzO0

higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf（Q8）は短文ばっかり出力されるんだけどそういうもん？
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視

0154名無しさん＠ピンキー (ﾜｯﾁｮｲ 46e6-lIKY)

2025/12/03(水) 10:55:53.81ID:dfpw1z2m0

>>153
ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい
パラメーターミスってるが一番あり得ると思う
あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい

0155名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/03(水) 11:16:26.50ID:qRVmoTTi0

「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる
数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる
まあ文字数なんてカウントしてないんだから忠実には守らないんだけど

0156名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-hgi+)

2025/12/03(水) 11:30:07.72ID:ZsqTOFao0

ライブラリによってデフォルトのパラメータちゃうかったりするからパラメータ見直すんが早いやろな

0157名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/03(水) 11:36:46.57ID:qRVmoTTi0

あ、でも賢いLLMなら日本語も数えられるみたいだね
GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ

0158名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a44-nDnm)

2025/12/03(水) 11:38:46.82ID:Ido+wOKk0

ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね
やっぱそれ以上は性能落ちちゃうのか

0159名無しさん＠ピンキー (ﾜｯﾁｮｲ 0aaa-37/u)

2025/12/03(水) 11:53:57.53ID:570hYi4e0

>>154
うーんそっか
とりあえずパラメーターをsafetensor版とgguf版同一にしても
gguf版が明らかに劣化してるんだよね
gguf版はポーズ指示とかに留まりストーリーがまるでない感じ

コンテキストと生成長はデフォルトより大きくとってるし
他のパラメータも調整したけど差は埋まらないわ
AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった

用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる
このスレでVL使えるモデルでおすすめはあるかい？
もちろんエロに使えるヤツで（真顔）

0160名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/12/03(水) 12:05:18.60ID:UfeasB1n0

large3デモ試せるとこある？

0161名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a42-3xT4)

2025/12/03(水) 12:11:49.55ID:CytqpInh0

openrouterで触ってるけどエ口小説の続きを書かせると悪くないな　拒否もされない
VL用途だと駄目だわ　拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない　

0162名無しさん＠ピンキー (ﾜｯﾁｮｲ 8673-k9e5)

2025/12/04(木) 00:59:33.94ID:c8c4dRTO0

DeepseekV3.2、結構エロいけるな
kimi,glmとエロ系行けるデカいモデルが増えて嬉しい

0163名無しさん＠ピンキー (ﾜｯﾁｮｲ 86bd-Oau4)

2025/12/04(木) 01:14:29.63ID:3vUvfeA00

>>162
ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた
例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい
これは使えるわ

0164名無しさん＠ピンキー (ﾜｯﾁｮｲ bbcd-OoXl)

2025/12/04(木) 01:44:08.68ID:tbKVwEm70

Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな
文脈読んで長く書こう短く書こうってしてるんだろうけど極端

0165名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-V8yF)

2025/12/04(木) 05:04:57.64ID:450uVRWw0

>>159
エロ画像に特化したVLMがないからなあ
JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる
動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない

0166名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/12/04(木) 07:03:44.66ID:pJIXEJs40

せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ
半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。

LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、
その代わりに、クソ長いプロンプトは受け付けてくれるから。
自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK
頭の悪いLLMほど、細かいプロンプトが必要。

Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから
貯めたクソ長プロンプトをチャッピーに食わせる。

Gemini3がチャッピーより上というがどうなんだろうね

0167名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/04(木) 07:31:47.88ID:bc7PGPTq0

＞LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ

LLMを始めてみんなが初日に気付く基本やね

0168名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ae7-37/u)

2025/12/04(木) 07:52:57.66ID:FY/50lnz0

>>165
JoyCaptionは画像の説明は出来るんだけど
ストーリーは無理だったからHuihuiに流れ着いた
mlabonne/gemma-3-27b-it-abliterated-GGUF
は試したことないから試してみるよサンクス

0169名無しさん＠ピンキー (ｵｯﾍﾟｹ Sra3-Nwf+)

2025/12/04(木) 10:53:43.76ID:z8Aeon72r

となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは
個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない

0170名無しさん＠ピンキー (ｽﾌｯ Sdaa-HpHP)

2025/12/04(木) 12:54:56.48ID:Z4N0uJ+3d

>>166
GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は)

0171名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ade-h42X)

2025/12/04(木) 15:06:50.87ID:7T+v66uc0

RTX5090 が届いた

0172名無しさん＠ピンキー (ﾜｯﾁｮｲ 63ac-KeyG)

2025/12/04(木) 16:23:39.40ID:dsNTTyn40

Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ
Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう？
UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな？

0173名無しさん＠ピンキー (ﾜｯﾁｮｲ 6343-wzh9)

2025/12/04(木) 18:13:56.30ID:CpllBQus0

量子化の方法だから言語は関係ない

0174名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM96-H82u)

2025/12/04(木) 19:19:48.98ID:B9B4dZfMM

silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。
magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが…

0175名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 20:38:00.73ID:ZzdV9jd50

>>172
量子化手法によっては評価データで評価をしながら量子化するってのがあって、
その評価データに日本語がないと日本語の性能下がるってことがありえるやろな
GGUFはどうなんやろ？　評価データ使う方式なのかどうなのかググったけどよくわからんな

0176名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 20:43:36.24ID:ZzdV9jd50

チャッピーに聞いたわ
GGUFは評価データいらんらしいから日本語性能下がるとか考えなくてよさそうや
https://i.imgur.com/w2pAa23.png

0177名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a10-3xT4)

2025/12/04(木) 21:37:22.15ID:el6LVtB30

>>172
>>176
https://sc-bakushu.hatenablog.com/entry/2024/04/20/050213
imatrix使ってるggufは評価データを使った量子化方法で、こいつは日本語データ使った方が性能上がるって結果がある
UDは日本語含む多言語データでキャリブレーションしてるから多分問題ない

0178名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-V8yF)

2025/12/04(木) 21:37:31.79ID:pJIXEJs40

>>171
うらやま

0179名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-V8yF)

2025/12/04(木) 22:28:22.83ID:ZzdV9jd50

>>177
サンガツ
古い情報を広げてしまうところやった

0180名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ae9-3xT4)

2025/12/05(金) 00:23:38.54ID:7BCsD7BI0

imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる

0181名無しさん＠ピンキー (ﾜｯﾁｮｲ 1a64-4GXX)

2025/12/05(金) 01:02:17.31ID:ftmqT1Xh0

自分のタスクに合ったimatrixを>>177 の記事みたいに英⇒日セットで作ってセルフ量子化すべきなんだろうな本来は

https://zenn.dev/yuki127/articles/e3337c176d27f2#%E9%87%8F%E5%AD%90%E5%8C%96%E3%81%A7%E3%81%A9%E3%82%8C%E3%81%8F%E3%82%89%E3%81%84%E3%82%B9%E3%82%B3%E3%82%A2%E3%81%AF%E4%B8%8B%E3%81%8C%E3%82%8B%E3%81%AE%EF%BC%9F
imatrixデータセットが妥当ならIQ3_XSぐらいまではギリ精度保てそうだし

0182名無しさん＠ピンキー (ﾜｯﾁｮｲ 27f0-Oau4)

2025/12/05(金) 10:27:03.97ID:QFo2Q25t0

検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや？

0183名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f11-7vAJ)

2025/12/05(金) 10:40:16.91ID:qU772j2k0

EVO-X2買った
Qwen3-235B動かせるのは感動する

0184名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-ggsB)

2025/12/05(金) 10:41:05.60ID:btJzsNX20

>>182
システムプロンプトが違うんじゃね？

0185名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7d-3xT4)

2025/12/05(金) 16:25:29.84ID:7BCsD7BI0

ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう

0186名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMb6-nDnm)

2025/12/05(金) 18:43:04.73ID:Gagja6n4M

外人もmistral3試して結局qwenに戻ったって言ってる人いるし日本語関係なく微妙な性能なのかもなあ

0187名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ab8-h42X)

2025/12/05(金) 23:43:12.30ID:O1+MgeYg0

ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった

0188名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/06(土) 04:48:26.42ID:62wTaVWL0

おめ

0189名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/07(日) 10:45:51.46ID:tfS1qarnC

mistralai/Mistral-Large-3-675B-Instruct-2512
これ試せるところないかな？

0190名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-805V)

2025/12/07(日) 16:21:01.69ID:5YOuXfHq0

>>182
システムプロンプトが違うんじゃね？

0191名無しさん＠ピンキー (ﾜｯﾁｮｲ 7beb-jl2L)

2025/12/07(日) 17:28:27.22ID:A75FfWPg0

>>182え、そうなの？
LMstudio使ってるけどNSFWモデルなのにお断りされて何だよと思ってたところだわ

0192名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f16-n2+a)

2025/12/07(日) 19:22:52.25ID:V9w1wbho0

>>189
有料で良いならopenrouterが確実だけど
公式のLe chatで多分無料で使える

0193名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 06:22:09.27ID:F/hGo5FV0

Thinking部分まで設定通りのキャラになりきって思考させる方法ってある？

0194名無しさん＠ピンキー (ﾜｯﾁｮｲ eff8-p5PJ)

2025/12/08(月) 09:49:18.88ID:T47Vx2mS0

>>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。

Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました)

0195名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:41:37.45ID:3eFiUTs3M

>>183
おーミニPCだね。3token/sくらい出る？

うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう

0196名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMbf-zfyu)

2025/12/08(月) 12:47:06.66ID:3eFiUTs3M

間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 15:31:36.32ID:ihht6J090

VRAM16GBとRAM64GBで動く中で今一番オススメなのはどれかな？
NSFWあり・日本語が得意なモデルで

0198名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM0f-QaUS)

2025/12/08(月) 15:32:41.94ID:X4EX/0PPM

>>197
128に増設

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/08(月) 15:44:41.93ID:c1zHr4700

qwen3 nextええど
ワイもメインメモリ64gbやが80bの4qが丁度ええ
nsfwは「できる」程度で得意ではないんやけど

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/08(月) 17:11:39.88ID:c1zHr4700

qwen3 nextのthinkingモデル使ってみたら
「こんちわー」の返答に3000トークンも使って考えやがったんやが
こっわ
https://i.imgur.com/KOfqbMW.png
https://i.imgur.com/vuoFDOR.png

この辺まだllamacpp側の調整がうまくいってないってことなんやろか

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/08(月) 17:59:01.70ID:OhD+kufr0

Qwen3系ってやっぱ長考癖あるよな
長考してもベンチスコアに悪影響無いからとにかく何が何でもスコア上げようって感じかね

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ ab2d-7PSR)

2025/12/08(月) 18:35:21.33ID:8cycn9yw0

いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か？スラングか?長音記号が入っているのでフランクか？
子供か？日本語学習者か？...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析)

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/08(月) 18:38:35.09ID:F/hGo5FV0

他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f67-n2+a)

2025/12/08(月) 18:49:08.10ID:+pooUNXv0

>>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ ebc8-zuxD)

2025/12/08(月) 19:20:53.60ID:Y0EkwyHF0

>>195
IQ3Mで15token/secくらい出てる

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b74-jl2L)

2025/12/08(月) 19:29:04.97ID:ihht6J090

>>199
ありがとう。試してみる

0207名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/08(月) 19:31:50.37ID:sS+xRU40r

>>200
アスペの思考覗いてるみたいで怖い😨

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fc0-HIwK)

2025/12/08(月) 20:43:02.26ID:pgT1MOhw0

VRam、Ram制約の中で
・qwen3-vl-235b-a22b（パラメーター数）
・qwen3-vl-reap-145b-a22b（精度）
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ ef35-QMIm)

2025/12/08(月) 23:09:14.59ID:eiy92A9C0

チャッピーの解禁ってほんとにくるんか？
次情報ってあったんか？

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ff2-5wrG)

2025/12/08(月) 23:21:30.79ID:lAe9q/7C0

コード・レッドが全てを有耶無耶にした

0211名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fd5-Sd/5)

2025/12/09(火) 00:54:29.26ID:CsjVx2Vo0

>>193
Q3とはいえ、そんな安定して動かせるくらいなんだ

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/09(火) 02:52:48.37ID:Zayqtd6u0

4.6V来たな　106B-A12B？
https://huggingface.co/zai-org/GLM-4.6V
9Bのflashの方がスコア良すぎてちょい眉唾だが

0213名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/09(火) 03:47:40.79ID:fOslDyCId

>>212
新しいVLモデルか
OCR精度とか画像からのプロンプト抽出能力が気になるな
GGUFが来たら教えてくれ

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 07:13:19.86ID:ie/Ic4Ib0

Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT

0215名無しさん＠ピンキー (ﾜｯﾁｮｲ ab30-5Wpj)

2025/12/09(火) 07:37:03.16ID:9G4SQNuX0

openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった

0216名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/09(火) 11:21:31.69ID:cKJZFXV10

今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b59-+Kf/)

2025/12/09(火) 13:53:18.60ID:dKn0ov2M0

>>212
エロダメっぽいね
残念

0218名無しさん＠ピンキー (ﾜｯﾁｮｲ ef95-QMIm)

2025/12/09(火) 15:33:24.81ID:oDf8Vjth0

チャッピーエロ解禁したら使えるかと思ってたのに有耶無耶になったんか
無料枠すぐ使いきっちまうから、Grok課金するかなぁ

0219名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f26-n2+a)

2025/12/09(火) 16:43:12.44ID:PHBKOB+V0

googleが出来ないことをやっていかないと負けるから各企業エロ解禁は遅かれ早かれせざるおえないと思うが

0220名無しさん＠ピンキー (ﾜｯﾁｮｲ bb6a-GkWU)

2025/12/09(火) 17:40:17.44ID:2udMA6Ja0

pornhubあたりが独自llm作りそうじゃない？

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ ef6d-QMIm)

2025/12/09(火) 18:01:31.03ID:oDf8Vjth0

Geminiにお前自身は解禁するかどうか予想してくれって言ったら
広告主体の企業だから今後もありえんやろな的な回答くれたわｗ

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ cb19-H1Cd)

2025/12/09(火) 18:08:31.77ID:d5QWKZ5t0

いうてGeminiは文章ならロリ以外は出せるやん
大企業だから一番厳しいと勘違いされてるだけで

0223名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/09(火) 18:27:25.05ID:ie/Ic4Ib0

Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b33-1lht)

2025/12/09(火) 18:32:01.97ID:DaZwszJ70

>>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで

0225名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/09(火) 19:24:04.21ID:cKJZFXV10

Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・

https://openrouter.ai/state-of-ai

なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文＆複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/09(火) 19:46:33.18ID:nJS9hgKS0

なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では

それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f48-5wrG)

2025/12/09(火) 20:15:45.05ID:ZnpxIEB00

>>222
ロリも普通にだせるよ

0228名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b45-YW/n)

2025/12/09(火) 21:23:36.64ID:sRpXqig40

gemmaにエロ画像認識させたいんだけど、良い方法ある？
どうしても拒否される

0229名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 05:48:22.81ID:+36jk5Ne0

geminiでエロ出せるのは分かるんだけど
出力の最中に！マークが出て中断されるのは回避方法あるの？

0230名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fe1-zfyu)

2025/12/10(水) 10:30:59.39ID:cA/MCjDA0

>>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ

色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ

0231名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/10(水) 11:23:55.51ID:IjkAmuUw0

どのソフトで起動してるか知らんがCPUにMoE分配してないでしょそれ
n-cpu-moeとかexpertのオプション調べた方がいいよ

0232名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 11:33:11.54ID:PAXLPWR/0

ミストラルの新しい奴来たね24Bの奴は今のとこエロも出来てる

0233名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdbf-h+ih)

2025/12/10(水) 12:06:21.54ID:38KQfVybd

3.2 24bがメインウェポンだったからミストの新モデル気になるで

0234名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/10(水) 12:36:53.93ID:VXLXqEAx0

devstralのことけ？
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか

大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ

先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか

MixtralでMoEの先駆者的なイメージがあるんやけどね

0235名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9f-dbqm)

2025/12/10(水) 12:39:06.69ID:7x5NLvi+0

>>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった

0236名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f53-n2+a)

2025/12/10(水) 13:16:52.74ID:/xgELyGi0

>>234
123bはアーキテクチャがministral3だからmedium3ベースじゃねえかな
まあvoxtral 3b出した後もministral 3b出してくれなかったからベースモデルは望み薄だけど

0237名無しさん＠ピンキー (ﾜｯﾁｮｲ ebdd-PXqD)

2025/12/10(水) 13:19:56.20ID:dcC/Yf+20

antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか？

0238名無しさん＠ピンキー (ﾜｯﾁｮｲ cbbc-IJ2r)

2025/12/10(水) 13:40:33.12ID:PAXLPWR/0

今は劣化版らしいそれでも結構使えるわ

0239名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 16:31:03.11ID:8S1oSxU/0

chatGPTの話してもええやろか？
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか？

エロ解禁とは何だったのか……

0240名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/10(水) 17:12:41.46ID:MOTBh1Vl0

チャッピーがエロ解禁する時は年齢確認をしてからになるよ
それがないってことはまだ対応してないってこと

0241名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/10(水) 17:23:38.18ID:+36jk5Ne0

12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある

0242名無しさん＠ピンキー (ﾜｯﾁｮｲ eb31-JoxV)

2025/12/10(水) 17:46:24.87ID:8S1oSxU/0

サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね

0243名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ba9-9Kdf)

2025/12/10(水) 18:12:33.99ID:oWbkspSQ0

エロより5.2の方が先やろうね

0244名無しさん＠ピンキー (ﾜｯﾁｮｲ 0b32-AbAu)

2025/12/10(水) 21:28:57.97ID:sOSUwovm0

>>236
試してみたけど、magnum123bと同じくらい日本語エロセンスいいな
やっぱbaseが同じなのかもね

0245名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/10(水) 23:46:35.22ID:52U8cLKK0

Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ？
ああいうのって名前以外にどこ見ればわかるんや

0246名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 00:10:03.28ID:Iz/2UTdk0

そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど

調べるならhuggingfaceの説明に
expertとかMoEとかactive ～Bって単語がなければdenseや

MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで！」とも「ワイはMoEではないで！」とも書かれへんのよな

0247名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f24-f7l7)

2025/12/11(木) 00:40:43.31ID:JxNz1+VZ0

>>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ

0248名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f06-R95j)

2025/12/11(木) 02:01:31.03ID:u8BNmyyG0

MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ

0249名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 04:36:22.66ID:DZ3tE5tfd

denseのオープンウェイトはプンルーやChutesで安く使う枠

DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな

0250名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 07:59:52.75ID:EtCEAmKx0

VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない？設定が悪いだけ？

0251名無しさん＠ピンキー (ｼｬﾁｰｸ 0C4f-h+ih)

2025/12/11(木) 08:56:28.51ID:ccax6wLWC

メインメモリに溢れた時点でガクッと落ちるよ

0252名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f9f-M1jZ)

2025/12/11(木) 09:25:44.11ID:n8U8zdxo0

>>249
"dev"=「開発」ってそういう意味……

0253名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 11:12:57.36ID:A7ciRWbo0

>>250
Ollamaはllama.cppのn-cpu-moeに相当する機能をたぶん実装してない
LM Studioとkoboldにはある
モデルの管理もしやすいからLM Studio使った方がいいよ

0254名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc6-jl2L)

2025/12/11(木) 11:40:08.87ID:VL2OxEJQ0

NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です

0255名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f32-zcGg)

2025/12/11(木) 12:04:05.41ID:S56kIADo0

>>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう

0256名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f36-QMIm)

2025/12/11(木) 12:20:11.95ID:EtCEAmKx0

>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと？16％未満程度しか削減されないとなると思ったより効率よくないなぁ

0257名無しさん＠ピンキー (ﾜｯﾁｮｲ ab4b-LrpL)

2025/12/11(木) 13:07:41.16ID:yg42afST0

>>256
そうじゃない。OllamaのMoE実装が弱いだけ

0258名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/11(木) 13:18:35.19ID:A7ciRWbo0

>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる

0259名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 13:48:03.58ID:mvR8vPpC0

5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ

0260名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 15:39:19.68ID:NSpHm0ci0

>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね？
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12～15tps程度なんだけどこんなもんなのかな？
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど

0261名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0

ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど

0262名無しさん＠ピンキー (ﾜｯﾁｮｲ cb8c-IJ2r)

2025/12/11(木) 16:08:56.11ID:ex93aGG10

GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう

0263名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:25:58.84ID:NSpHm0ci0

>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな？
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる

0264名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0

>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる

0265名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-AbAu)

2025/12/11(木) 16:53:56.81ID:sudD0pCT0

DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ

0266名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f6e-S0xV)

2025/12/11(木) 16:53:56.93ID:NSpHm0ci0

>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう！

0267名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdbf-QaUS)

2025/12/11(木) 17:03:47.22ID:0qqrDFPDd

そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや

0268名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/11(木) 18:12:23.90ID:mvR8vPpC0

>>260
5070tiでも16tps出るから設定がおかしいやねんやで

0269名無しさん＠ピンキー (ﾜｯﾁｮｲ ef9d-QMIm)

2025/12/11(木) 19:26:23.60ID:y00J2Hm30

米はJAの工作だけど、メモリは仕方ないやろ

0270名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM3f-UCg5)

2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM

moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd？オフロードってのもあるらしいね

0271名無しさん＠ピンキー (ﾜｯﾁｮｲ ef4a-oCzI)

2025/12/11(木) 20:06:24.28ID:PbOlny610

Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか

0272名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/11(木) 20:45:54.04ID:yg42afST0

メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど

0273名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fc7-vIRV)

2025/12/11(木) 21:03:16.06ID:L++fL0T00

スレチじゃないぞ
メモリの高騰化はこのスレとしても無関心ではいられないだろ

0274名無しさん＠ピンキー (ｱｳｱｳ Sa7f-vjQy)

2025/12/11(木) 21:06:02.86ID:D9fw3boNa

3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな

0275名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-AbAu)

2025/12/11(木) 21:47:03.82ID:Iz/2UTdk0

IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで
https://note.com/high_u/n/nfb01f1544511
ここの一番下

VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね

0276名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM0f-D5qo)

2025/12/11(木) 22:17:07.46ID:o/+Erv5jM

>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど

0277名無しさん＠ピンキー (ﾜｯﾁｮｲ fb20-XOYb)

2025/12/11(木) 22:38:45.15ID:F6ZB/jyE0

https://arxiv.org/abs/2512.07474

living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる

コレは...ストレートに商売になるのでは？
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある

0278名無しさん＠ピンキー (ﾜｯﾁｮｲ ebb3-JoxV)

2025/12/11(木) 23:24:51.93ID:JsJbVk5k0

てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか？」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか？」
とかの質問に答えてくれるンゴ？
いやそれよりはよ続き書けよ獏ちゃん先生

個人的には金田一耕助と会話してみたいンゴね

0279名無しさん＠ピンキー (ﾜｯﾁｮｲ db02-KVGb)

2025/12/12(金) 02:59:12.69ID:dElWzZcB0

>>274
コンテキスト減らせば？
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも

0280名無しさん＠ピンキー (ﾜｯﾁｮｲ db11-zvJr)

2025/12/12(金) 05:16:08.38ID:KJthHAFo0

magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。

0281名無しさん＠ピンキー (ﾜｯﾁｮｲ eb32-rgxF)

2025/12/12(金) 05:57:54.70ID:tcykC2nr0

文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる

0282名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f73-n2+a)

2025/12/12(金) 07:08:21.29ID:YegEJxMo0

無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし　追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ（特に外部プロバイダ経由）といった感じで良い印象なかったけど機能するならほぼ必須だなと

0283名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f64-jl2L)

2025/12/12(金) 10:33:29.89ID:JzzVvjr40

>>0277
すげー
そういう面白そうな論文ってどうやって見つけるの？

0284名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-wN+g)

2025/12/12(金) 11:15:46.94ID:g35J0BfC0

chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡

0285名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fb7-UCg5)

2025/12/12(金) 11:46:24.30ID:LcDKkn/+0

chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも

0286名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr8f-GkWU)

2025/12/12(金) 12:04:08.67ID:w1K9FJkvr

gptは5.2になるし
claudeは4.5になるし
geminiは3proになる

0287名無しさん＠ピンキー (ﾜｯﾁｮｲ efad-7Tw0)

2025/12/12(金) 12:09:34.61ID:k6hM6eJe0

コンテキストは長くなるほど速度低下激しくなるし、精度も落ちる
32kぐらいが無難な気がするわ

0288名無しさん＠ピンキー (ﾜｯﾁｮｲ ab46-LrpL)

2025/12/12(金) 14:50:32.59ID:l+Wo5R5X0

qwen3-vl-235b-a22b-instructでERPさせようと思うと申し訳食らうんだけどシステムプロンプトで回避出来る？もしくは脱獄版あったりする？

0289名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-QaUS)

2025/12/12(金) 15:14:55.71ID:KHoQ40z+M

>>288
Gemini2.5用の脱獄システムプロンプトで通るやつがある
スレに過去貼られたやつ

0290名無しさん＠ピンキー (ﾜｯﾁｮｲ cb09-IJ2r)

2025/12/12(金) 15:57:11.04ID:wrRQOOeH0

Xみたいな無料でできる奴とかローカルの色んなモデルを英語で遊んでると安っぽい売春婦って言葉が高確率で出て気になる

0291名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f5b-qdBt)

2025/12/13(土) 03:39:37.95ID:l5tfeP2J0

GoogleドライブにAIトレーニングデータをアップロードした開発者が児童性的虐待コンテンツを保存したとしてGoogleアカウントを停止される
https://gigazine.net/news/20251212-developer-ai-data-google-ban/

0292名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 07:55:46.67ID:5dywl8IEC

Qwen next 80bの規制解除版パネーな
エロプロンプト打ち込んでも喜んで書きやがるw
これで文の整合性がmagnum並みなら完璧なんだが

0293名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/13(土) 10:59:23.41ID:eyEHPiPz0

Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの？
性能落ちているだろうし普通のQwen next 80bで良くないか

0294名無しさん＠ピンキー (ﾜｯﾁｮｲ 8746-TY0I)

2025/12/13(土) 11:34:44.38ID:xkcV40lU0

ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる

0295名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-4QdE)

2025/12/13(土) 12:24:58.39ID:GTPJ3HlJr

VRAM16gbのしょぼグラボだけど
エロいけて英語で評判のいいllmある？
チャット内容を翻訳して使おうと思って

0296名無しさん＠ピンキー (ﾜｯﾁｮｲ 236b-AsBv)

2025/12/13(土) 12:25:57.90ID:aRmVqPhP0

Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる

0297名無しさん＠ピンキー (ﾜｯﾁｮｲ 7213-elKO)

2025/12/13(土) 12:53:57.25ID:xEb9ON1P0

日本語のバリエーションはどんな感じなの？略語やスラングもいけそう？

0298名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 15:03:26.88ID:5dywl8IEC

>>293
いや通常のだと100%申し訳喰らうんだわ
解除版も性能差感じないけどやっぱ整合性が。
エロチャ用途なら使えるね

0299名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/13(土) 15:05:56.20ID:5dywl8IEC

>>294
ちなこれね
mradermacher/Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF

0300名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ead-c5sb)

2025/12/13(土) 15:51:39.56ID:0rlZVlxV0

abliteratedの新バージョンが出たっぽいからそれで活気があるのかも

0301名無しさん＠ピンキー (ﾜｯﾁｮｲ 8746-TY0I)

2025/12/13(土) 19:58:15.09ID:xkcV40lU0

>>298
今のところQ4しか出てないのが難点。Q6とかQ8が来てくれるとそのへん改善されるかもね

0302名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/14(日) 12:03:23.30ID:1lOcAup10

glm4.6vが106b moeで良さげやなと思ったけど
まだllamacppで対応されとらんのね

PRもglm4.5vの対応のものがいまだに完成しとらんみたいで難航しとるみたい
https://github.com/ggml-org/llama.cpp/pull/16600

画像入力興味出てきて試したいんやけどなぁ

0303名無しさん＠ピンキー (ﾜｯﾁｮｲ 8747-elKO)

2025/12/14(日) 13:44:27.07ID:FsStLVRy0

>>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな？
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる

0304名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/14(日) 13:52:54.88ID:DJ4aKHpm0

phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない　いやデータセットが無いか

0305名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-TY0I)

2025/12/14(日) 16:52:28.15ID:3MfiUZIz0

>>304
aratako先生が出してるデータセットでワンチャン？

0306名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/14(日) 18:22:59.55ID:P5aE0iMn0

>>302
GLM4.6Vはツール呼び出し機能が追加されたのがポイントだけど、どう活用するかだなー

0307名無しさん＠ピンキー (ﾜｯﾁｮｲ 87a8-elKO)

2025/12/14(日) 18:59:24.01ID:FsStLVRy0

shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか

0308名無しさん＠ピンキー (ﾜｯﾁｮｲ a249-O/3E)

2025/12/14(日) 19:46:59.82ID:2D4/hyq50

Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ

0309名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f69-4eOD)

2025/12/14(日) 20:37:45.00ID:s9/KZp9y0

MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね

0310名無しさん＠ピンキー (ﾜｯﾁｮｲ 87a8-elKO)

2025/12/14(日) 20:49:33.56ID:FsStLVRy0

shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ

0311名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/14(日) 21:07:13.71ID:DJ4aKHpm0

そらそうだ
モデルにもよるけど3.5bpw切る辺りから急激に性能劣化する
Q4が安定択なのにはそれなりの理由がある

0312名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/14(日) 21:09:16.60ID:1lOcAup10

>>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる？ようになった？みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや

その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど

0313名無しさん＠ピンキー (ﾜｯﾁｮｲ 87a8-elKO)

2025/12/14(日) 22:49:48.32ID:FsStLVRy0

>>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ

0314名無しさん＠ピンキー (ﾜｯﾁｮｲ 8765-ucLS)

2025/12/15(月) 00:09:36.69ID:Q6uGDeH10

>>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ

0315名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-TY0I)

2025/12/15(月) 00:58:54.38ID:BlZcCH320

>>314
個人的お気に入りで良ければAratako/Qwen3-30B-A3B-ERP

0316名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-TY0I)

2025/12/15(月) 01:06:30.17ID:BlZcCH320

>>314
あと16GB/64GBだったら>>299もありかもしれん

0317名無しさん＠ピンキー (ﾜｯﾁｮｲ fe7c-XfrZ)

2025/12/15(月) 03:20:20.61ID:0DupvahM0

モデルを導入すると最初に「あなたは誰ですか？」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。
今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。

0318名無しさん＠ピンキー (ﾜｯﾁｮｲ a249-O/3E)

2025/12/15(月) 04:42:27.77ID:OqS0HGo/0

DGX SparkってConnectX7なのに200Gbps出ないんだな
https://qiita.com/ksasaki/items/bd88ff8c03760856fe6c

0319名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/15(月) 08:23:19.66ID:8iECz84j0

>>317
プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ

0320名無しさん＠ピンキー (ﾜｯﾁｮｲ 236b-AsBv)

2025/12/15(月) 09:06:30.63ID:6meylfc80

shisa2.1 14Bでreasoningモデル出してくれないかな

0321名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-xeS7)

2025/12/15(月) 09:44:03.22ID:ZM85ffzEr

>>308
欧州人なんてそんなもん🙄

0322名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-xeS7)

2025/12/15(月) 09:44:49.76ID:ZM85ffzEr

>>317
そのへんはシステムプロンプトあたりで強制してんでは?

0323名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/15(月) 10:43:30.78ID:v6d1b+2H0

>>312
そのTool Callingは何に使えるかなんよな
俺も分からんけど、その機能使えるかちょっと試してるところだわ

今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう

0324名無しさん＠ピンキー (ﾜｯﾁｮｲ 03c0-tRx1)

2025/12/15(月) 11:53:58.90ID:2HGyGlMo0

LLMの検閲除去ツールheretic
4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた
https://github.com/p-e-w/heretic/pull/60

0325名無しさん＠ピンキー (ﾜｯﾁｮｲ 874e-7UIs)

2025/12/15(月) 12:40:09.96ID:HQ2vyPaJ0

検閲除去ってロボトミー手術してるようで信用してない

0326名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/15(月) 12:41:28.85ID:C9di0Ej00

>>323
ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと
当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで

LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから
そしてそのあたり多少楽に構築できるようになるのがMCP

0327名無しさん＠ピンキー (ﾜｯﾁｮｲ b7c5-ucLS)

2025/12/15(月) 20:29:50.98ID:yxGC13ST0

右脳の無い左脳だけのLLMで理Ⅲに受かる患者と話してるのが今だろ

0328名無しさん＠ピンキー (ﾜｯﾁｮｲ 636a-xeS7)

2025/12/15(月) 20:34:48.16ID:frgQthBq0

東大の研究がパッとしない理由やね

0329名無しさん＠ピンキー (ﾜｯﾁｮｲ b3c4-CM7m)

2025/12/15(月) 21:17:23.37ID:aQGgXWy90

東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか

0330名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/15(月) 21:38:28.53ID:v6d1b+2H0

>>326
ツールコールの仕組み自体はそんなに詳しくないけど何が出来るかは確認しておきたいんよね
ちょいテストしてみるわ

0331名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc0-4eOD)

2025/12/15(月) 22:08:07.14ID:khnXzz0N0

>>329
東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな
今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ

0332名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd12-9DM+)

2025/12/15(月) 22:11:52.42ID:r0PpTIQWd

>>331
ラーメン二郎みたいで草

0333名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e27-A5rm)

2025/12/15(月) 23:44:51.06ID:yALggCZ00

松尾軒一蘭
https://weblab.t.u-tokyo.ac.jp/startups/

0334名無しさん＠ピンキー (ﾜｯﾁｮｲ 524c-HP1u)

2025/12/16(火) 01:29:26.24ID:ofDfXD/f0

>>332
一応ちゃんと二郎名乗るのは管理されてたはず
近所の店は破門されて名前変わってたw
>>333
こんなにあるの！？w

0335名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/16(火) 05:26:33.70ID:pWqdw9bE0

メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな

さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな

0336名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/16(火) 06:02:34.49ID:1Zg1Wdsu0

ユーザーはもちろんメーカーも大変やな
マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ

こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか

0337名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/16(火) 07:12:20.72ID:1Zg1Wdsu0

>>324
Pro 6000とかを持ってる人なら大喜びだな
俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ……

0338名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/16(火) 08:01:56.10ID:pWqdw9bE0

むしろmacを買った方がいいとかある？

0339名無しさん＠ピンキー (ﾜｯﾁｮｲ 7249-O/3E)

2025/12/16(火) 10:33:29.10ID:ky2C0bWe0

Nemotron 3 NanoはMambaを使ってるらしい
Qwen 3 Nextと一緒だね

0340名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/16(火) 12:20:21.50ID:YLOPA8Ta0

moeで100bも公開予定なのか
良さげやな

0341名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/16(火) 12:27:33.80ID:6N5ldNhF0

macはまだ値上げしてない？
M5 Studioも興味あったけど、どうなるんだろう

0342名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-A5rm)

2025/12/16(火) 12:30:03.97ID:YLOPA8Ta0

llama.cppはすでに動作するレベルのPRが出てて(まだ未マージだけど)
https://github.com/ggml-org/llama.cpp/pull/18058
GGUFもunslothが作成済みで
https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF

nvidia随分と手回しがええな

0343名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/16(火) 12:37:58.89ID:6N5ldNhF0

Nemotron 3 Nanoはもう試せるの？
NVIDIA製のやつ？
というか知らんかったw

0344名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd12-9DM+)

2025/12/16(火) 13:50:22.49ID:iC+YmZrid

>>342
実装完了したら教えてね

0345名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-z5HT)

2025/12/16(火) 14:31:15.36ID:YLOPA8Ta0

動くまでの実装は完了しとるから上のPRのブランチでビルドすれば動かせるで

0346名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/16(火) 14:48:29.52ID:1Zg1Wdsu0

Nemotron 3 NanoはOpenRouterでfreeで使えるぞ
でもものすごい長考するし出力も暴れるしでチャットするのには苦労しそうな感じだ

0347名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/16(火) 14:57:03.34ID:1Zg1Wdsu0

ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない？」
AI「新しいピザ屋さん！？わくわくするわね～！ユーザーは何を頼むのかな？今度、週末に行こうよ！ 🍕」

これだけのやりとりをするのに8000トークンも思考する
まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど

0348名無しさん＠ピンキー (ﾜｯﾁｮｲ 87e8-DAEx)

2025/12/16(火) 15:20:49.17ID:I8CXFDR50

>>344
コミットされたで（はやい）

0349名無しさん＠ピンキー (ﾜｯﾁｮｲ 5224-I8Ki)

2025/12/16(火) 15:55:55.06ID:hw7FBFqM0

ピザ屋へのお誘いで8000トークンは草
ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ
理解できるようになっても辞めんけどな

0350名無しさん＠ピンキー (ﾜｯﾁｮｲ 8748-elKO)

2025/12/16(火) 15:56:50.50ID:i7w/eNA/0

トークン数≒コンテキスト長だっけ？
そのペースなら一応答で前の記憶どんどん消えてくな

0351名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-z5HT)

2025/12/16(火) 17:03:42.93ID:YLOPA8Ta0

リーズニングの部分ってコンテキストには含めてないんとちゃうかな
アプリ側の実装によるとは思うねんけど

0352名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/16(火) 17:47:15.86ID:6N5ldNhF0

LM Studioだとリーズニングも含めてたような
アプリによるんだろうね

0353名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/16(火) 18:01:33.89ID:6N5ldNhF0

ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする
ただ、小さいモデルの9BFlashが意外とすごい
それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね
OCRはちょっと弱いけど割と日本語も認識する
使う場面によっては実用的かも？

後は新たに追加されたツール呼び出しだな
vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・
Thinking有り無しで結構、得られる情報量が違うから惜しいな
もうちょっと調べてみるけど

0354名無しさん＠ピンキー (ﾜｯﾁｮｲ 87b8-D2pJ)

2025/12/16(火) 20:12:41.28ID:+e/A/7mx0

nVidia から新しいモデル
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

0355名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/16(火) 22:23:31.58ID:quQmhDAk0

昨今はベンチ項目が軒並みコーディング小説エージェントだから小説向きモデルがあるのかすら分からんな

0356名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/16(火) 22:33:26.03ID:quQmhDAk0

ミスった　コーディング・数学・エージェントね
小説向けのベンチはEQBenchぐらいだけどあんまりリーダーボードにモデル追加されないんよな

0357名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e27-A5rm)

2025/12/16(火) 22:39:07.15ID:70w/DKgZ0

コーディングは与えられた問題を解決できるかで客観的に評価できるけど
小説の評価ってどうやるんだ

0358名無しさん＠ピンキー (ﾜｯﾁｮｲ 5224-I8Ki)

2025/12/16(火) 22:49:07.37ID:hw7FBFqM0

小説みたいないわゆるアートとか対人の受け答えは数値で評価できんから今の世の中ではAIに限らず軽視されがちやな

0359名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b49-r+g0)

2025/12/16(火) 22:50:11.17ID:quQmhDAk0

>>357 例えばこんな感じ
https://eqbench.com/about.html#creative-writing-v3
結局は外部のLLMに評価基準与えて採点させてるんだからコーディングもライティングも変わらんで

0360名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/17(水) 08:12:48.81ID:3Qb5xfU80

Stable DiffusionやってるとAIというより
モデルを作った人がどんな学習をさせたかを逆に想像しながら作っていく。
そしてそれが一致した時にほしい絵柄が得られる。
ほしい絵柄が生成された時が快感だ

0361名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/17(水) 08:14:53.57ID:3Qb5xfU80

Stable Diffusionのプロンプトを作るのにGrok先生とレスバをしながら思考を繰り返す日々

0362名無しさん＠ピンキー (ﾜｯﾁｮｲ 722d-zBTM)

2025/12/17(水) 08:38:09.06ID:/pkrHNq40

shisa2.1 14Bあれからも色々パラメータ調整しながら試してるんやが微妙に会話力弱いのかも？
これどんな匂い？って聞いても無視して話を進めようとしたり
なんなんやろなこれ
昔の7Bでもちゃんと答えるようなことが出来てなかったりするわ

0363名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/17(水) 09:41:01.54ID:3Qb5xfU80

さくらインターネットさぁ70Bとか個人でできるじゃん。300B以上でやってよ
AIスパコン「さくらONE」で挑むLLM・HPCベンチマーク (1) MLPerf Llama 2 70Bファインチューニング性能検証
https://knowledge.sakura.ad.jp/48233/

0364名無しさん＠ピンキー (ﾜｯﾁｮｲ 1bc6-r+g0)

2025/12/17(水) 09:55:29.35ID:w5cKB6em0

OpenRouterにMistral Small Creativeなるモデルが出たらしいけど試した人居る？
>Mistral Small Creative は、クリエイティブライティング、物語生成、ロールプレイ、キャラクター主導の対話、汎用的な指示の追跡、会話エージェント向けに設計された実験的な小型モデルです。
との事でちょっと期待している

0365名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ac-DAEx)

2025/12/17(水) 11:27:24.59ID:SvtpxmAx0

4090で普通に動く
・エロ規制ありで優秀なモデル
・コーディングに強いモデル
・エロ規制なしの優秀なモデル
これらの用途におすすめモデルってどんなのがある
あと、初めて使うなら、どんな環境(Ollama？)も教えて貰えるとありがたい

0366名無しさん＠ピンキー (ﾜｯﾁｮｲ 1bc6-eccJ)

2025/12/17(水) 11:52:52.32ID:w5cKB6em0

>>365
環境はWindowsならLM Studio使うのが楽でオススメ
エロ用途ならMistral-Small-24Bかこいつをベースにしたモデルが個人的には好み
エロかつ画像認識対応ならQwen3-VLの30BA3Bのabliterated版が良いかと

でも最終的には自分の好みとかあるから片っ端からダウンロードして試すのが一番だよ

0367名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-QUL1)

2025/12/17(水) 12:31:07.33ID:dh3d3zpIr

同じモデルの同じsafetensorを使ってもollamaよりLM studioの方がエロにゆるい気がしないでもない…
実装が違うからなんだろうか

0368名無しさん＠ピンキー (ﾜｯﾁｮｲ 72bf-zBTM)

2025/12/17(水) 12:59:04.62ID:/pkrHNq40

前もそんな風なこと言ってる人いたね
同じ規制解除版使ってるのにollamaとLM studioだと申し訳食らってkoboldcppだとエロいけた、だったっけか？
どこで差が出来るんだろ
デフォのシステムプロンプトとか？

0369名無しさん＠ピンキー (ﾜｯﾁｮｲ 72bb-KIjk)

2025/12/17(水) 14:39:55.92ID:/jx/zd8d0

初心者で最近ローカルLLMを触り始めた
NeverSleep/Lumimaid-v0.2-12B (12B)GGUF版、ollamaでエロ小説を書かせたら動作は遅いのはともかく、セリフの整合性、語彙力、表現力が全然だわ
これってプロンプトが悪いのかPCスペックが悪いのか12Bっていう量子化されてるやつを使ってるから微妙なのか何が原因なんだろ
3060ti VRAM 8GB、メインメモリ32GBの弱小スペックにおすすめのモデルってある？
素直にGrok使っておけっていうのは最もなんだけどやっぱりGrokやGPTに近いような小説をローカルでやってみたいんよ

0370名無しさん＠ピンキー (ﾜｯﾁｮｲ 32c7-DAEx)

2025/12/17(水) 14:44:12.41ID:SvtpxmAx0

ありがとう！！！
はじめの取っ掛かりが掴めずに居たから助かる

0371名無しさん＠ピンキー (ﾜｯﾁｮｲ 3732-9rD2)

2025/12/17(水) 15:33:00.83ID:C1S990uQ0

>>369
初心者ならプロンプトの問題もかなりあるだろうけど、モデルの性能自体が低いからどうやってもGrokに近づくことはできない
GrokやGPTみたいなトップクラスのモデルと比べたらあかん
7B～12Bぐらいのモデルは変な日本語や整合性の悪さ、コンテキストウィンドウの小ささを受け入れた上で遊ぶんだよ

0372名無しさん＠ピンキー (ﾜｯﾁｮｲ ef32-A5rm)

2025/12/17(水) 21:14:26.31ID:xM+RNAtv0

>>369
ローカルでエロ小説やりたいなら、旧mistral-large系一択
日本語ならamaterasuとかmagnum
123Gあってmoeじゃないからクソ遅いけどビンビンにくるぞｗ

0373名無しさん＠ピンキー (ﾜｯﾁｮｲ 8760-7UIs)

2025/12/18(木) 02:03:41.26ID:2awyAXmF0

ローカルで何するにもPC高騰で冬の時代に
でもここは震源に近いから強く言えん所はある
PCゲーマーとしてはマイニングブームが終わったら次はAIブームでまたかよって文句言いたいけど

0374名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-lorD)

2025/12/18(木) 02:38:49.00ID:d/GwtOZZ0

llama.cppがGLM4.6Vに対応したみたいだぞ
LM StudioでもVisionは有効ですと出てるから動かせそうだ

0375名無しさん＠ピンキー (ｼｬﾁｰｸ 0C13-Toi2)

2025/12/18(木) 07:53:52.78ID:afV40DvKC

マルチモーダル系のモデルの規制解除版の説明に規制解除はテキストのみで画像部分は解除されてないってよく書いてるけど
あれってどうゆう事？
画像生成するわけでもないし、出力のテキストが規制なかったらいいんじゃないの？

0376名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr97-HgNt)

2025/12/18(木) 10:36:43.02ID:Tn5rBGrSr

>>363
国内企業はドコモ国内のアホを騙せればいいと思っていい加減な商売してる

0377名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e2e-c5sb)

2025/12/18(木) 11:09:02.03ID:wV9BfonF0

>>375
学習データからエロ関連を弾いてるからそもそもモデルが認識できないとか？
それか画像認識の中にエロ判定層みたいなのがあるけど回避する手段が見つかってないとかじゃない？

0378名無しさん＠ピンキー (ﾜｯﾁｮｲ 72b0-5Jjh)

2025/12/18(木) 11:31:24.56ID:9swORTeL0

VLMって通常のLLMにビジョン用機構を増設しているだけという事が多いから規制解除時にLLMの重みだけを対象に変更したってだけじゃない？
ビジョン用機構は画像入力を受け付けるから別の処理しないといけなくて、最適化ライブラリでも対象外なこと多いし

0379名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/19(金) 06:10:31.93ID:yIRDbP130

世の中おかしくなってきたな、メモリ高騰のせいで
原価が高騰してパソコン売れなくなってパソコン屋がピンチになっている。

0380名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/19(金) 06:34:24.28ID:yIRDbP130

この流れだと来年はDDR3の復権が流行るんじゃね

0381名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ac-DAEx)

2025/12/19(金) 15:06:20.82ID:3xMkD4GE0

このまま価格が高騰したら、128MBで十分早く動いていたような軽量OSが開発されると信じてる
そして、これをエッジPCとしてクラウドのPCを使うイメージ

0382名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-A5rm)

2025/12/19(金) 15:23:58.06ID:yIRDbP130

NVIDIAが4割減産って本末転倒すぎる。

0383名無しさん＠ピンキー (ﾜｯﾁｮｲ 32c7-DAEx)

2025/12/19(金) 15:30:49.78ID:3xMkD4GE0

しかし、パソコンが今の数倍になると
Jailbreakしたようなモデルの開発は恐ろしく停滞しそうだな
開発者も利用者も環境を用意できない
中国企業とかGPUチップを作ってると聞くし開発が気になってくる

0384名無しさん＠ピンキー (ｱｳｱｳｳｰ Sad3-A5rm)

2025/12/19(金) 16:20:36.38ID:D2OuqAG7a

早めにパソコン更新決断しといてよかったな
年末に画像生成にはまって部品揃えて５０７０ti買えたのが３月
今欲しくなってたら大変だったな

0385名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-s35p)

2025/12/20(土) 01:14:58.34ID:iiBBMiVS0

期待されてた新しいGemmaはGemma Scope 2なんか？

0386名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ff8-xjV2)

2025/12/20(土) 04:24:34.54ID:lzs6gmi+0

GLM 4.7がもうすぐ来そう

0387名無しさん＠ピンキー (ｼｬﾁｰｸ 0C97-Fga2)

2025/12/20(土) 10:09:41.43ID:VwtsKzj/C

mistral large 123b を日本語エロファインチューンかけるにはメモリ256Gでも足りないかな？
aratakoさんはwebレンタルでやってるんだろか

0388名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f64-ldFF)

2025/12/20(土) 13:28:36.94ID:AF+/v0mG0

DRAMでFTなんぞやってたら何週間かかるか分かったもんじゃないからVRAM一択
https://docs.unsloth.ai/get-started/fine-tuning-for-beginners/unsloth-requirements
もちろんローカルでやる奴はいないから鯖借りる

0389名無しさん＠ピンキー (ﾜｯﾁｮｲ e32d-xuds)

2025/12/21(日) 06:16:19.96ID:4QmB8GeU0

5090+96GB RAMだと今どのモデルがコーディングに良いでしょうか？

0390名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd5f-iM94)

2025/12/21(日) 06:34:45.92ID:P3/dnoG4d

>>389
Opus

0391名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM37-dPjQ)

2025/12/21(日) 11:26:48.79ID:uX1scsJsM

企業や学生さんが新しいパソコン買えずに困ってるのに、くだらん用途にたんまりリソース割り当ててる非国民のスレはここですか？

0392名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f87-TclW)

2025/12/21(日) 12:43:52.89ID:adZUKwHi0

愛国者が国にパソコンを献上する制度があれば皆喜んで差し出しますよ

0393名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-s35p)

2025/12/21(日) 12:52:04.59ID:rMc6GAvW0

まだ完成品のPCは値上げしとらんからもう今が本当に最後のチャンスやぞ
1月から値上げ予告してるところある

0394名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/21(日) 17:22:29.61ID:CQfjHatX0

震災を経験した世代は「買えるときに買わない奴が悪い」という資本主義を嫌というほど理解してる
情弱ノロマは誰も助けてくれない

0395名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-rc7o)

2025/12/21(日) 18:25:02.43ID:B6/89BpV0

>>394
詳しく
神戸や東北の報道を見る限り、みんな助け合ってた風景しか知らない

0396名無しさん＠ピンキー (ﾜｯﾁｮｲ 834a-rc7o)

2025/12/21(日) 18:27:26.47ID:EYenuooH0

震災直後の買い占めじゃない？
コンビニもスーパーも商品なんにもなくなったじゃない

0397名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-oKN0)

2025/12/22(月) 00:47:00.35ID:gWAF2loy0

nemotoron100bはよ出してくれんかな
休みに入る前に出して欲しいんやが

0398名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-rc7o)

2025/12/22(月) 01:16:54.22ID:ZkZbvAII0

とりあえず、5090在庫ありだったからポチってしまった
納期未定ばかり見ていたから買ってしまった
今更だけど、LLMするにはどんなPC作ればLLMが5090の性能をしっかり引き出して動く？

最悪は今持ってるPC(4年型落ちだが128GB積んでる)とGPUと差し替えるつもりだけど
可能なら今風のPCを1台作ってやりたい、もしくはメモリや本体そのものをオクで買ってケチりたい

>>396
そういえば、混乱期は酷かったっぽいな

0399名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f67-+S0n)

2025/12/22(月) 07:39:36.14ID:sURJg28A0

まずマイニング用のフレームと1200Wの電源を用意します。

0400名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f67-+S0n)

2025/12/22(月) 07:44:01.39ID:sURJg28A0

ライザーカードに挿せる限りのGPUを付けます。

0401名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f67-+S0n)

2025/12/22(月) 07:46:12.61ID:sURJg28A0

後は電力と騒音と排熱との戦い

0402名無しさん＠ピンキー (ﾜｯﾁｮｲ a36a-9NV1)

2025/12/22(月) 10:19:08.68ID:XF+zaIuH0

欲しい時が買い時
買える時に買うのが正解です

0403名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ff2-ZCHH)

2025/12/22(月) 10:36:20.80ID:7WEznTFd0

グラボ複数でVRAMを盛りましょう
盛れないなら妥協でメインメモリ盛りましょう
こんだけだよね、LLM用のPCって

0404名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-sTpE)

2025/12/22(月) 10:38:12.14ID:3kTALSsa0

32gbカード一枚だと微妙に選択肢広がらないんだよな

0405名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-s35p)

2025/12/22(月) 10:49:32.48ID:v29qw+6w0

早いGPUは処理早いけど、LLMの場合、戦いはVRAM数だから
Stable Diffusionで早いGPUは意味が出てくる

0406名無しさん＠ピンキー (ﾜｯﾁｮｲ b323-Ky+w)

2025/12/22(月) 10:56:40.31ID:7F5UFXYj0

ソフト面が多様になるのが一番ありがたいんだけどまあ難しいわな

0407名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f0f-0si7)

2025/12/22(月) 13:51:33.79ID:/SPL55EJ0

Blackwell凄いアピールの時に使われたfp4はどうなったんだよ

0408名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-s35p)

2025/12/22(月) 14:28:53.46ID:gWAF2loy0

vllmはもう対応しとるみたい
llama.cppは2週間前にようやっとPR立ったみたいやね
まだ未マージ
https://github.com/ggml-org/llama.cpp/pull/17906

0409名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/22(月) 15:32:02.81ID:KaFwJnb80

>>398
変換コネクタは使うなよ(;´Д｀)

５０万以下では来年買えそうにないから同じく買った

0410名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/22(月) 16:54:41.95ID:KaFwJnb80

>>301
Q5K_M以上も出してくれたんで試したが、たしかにQ4より出来はいいな
だが、なんというか意識高い系っていうか、エロなのになんか上品な小説に持っていこうとする傾向あるな
整合性についはもう一歩欲しい

0411名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd5f-iM94)

2025/12/22(月) 18:48:04.06ID:3IAyEDiWd

>>410
他所でも書いたが下品なエロを学習してないから話がどんどん脇道に反れる
中華モデルで顕著に見られる傾向

特にQwen系はすぐSFやメカ展開に持っていきたがるからプロンプトで明示的に抑制する必要がある

下品なエロや隠語をGrokあたりから抜いてプロンプト、LoRA、FTで移植しないと俺らが望むエロモデルにはならない

0412名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-rc7o)

2025/12/22(月) 19:56:53.84ID:ZkZbvAII0

>>409
PL80で使うから大丈夫だと思ってたけど、不安になったから
電源使い回し(コルセア9年目)でHDD沢山積んでるから、
Thermaltake PS-TPD-1200FNFAPJ-L
をポチってみた(AIに聞いたらこれすごく推してきた)
ただ4090ではGPU付属の変換コネクタ使ってるわ　4090も結構まずかったんだろうか

>>399-401
Define使ってるけどサイドを開けて空気清浄機の風当てようかと思ってる
ライザーカードに乗せるのかなり良さそうだね　もう1台買おうかと思ったけど5090の在庫がなくってよかった
とりあえず、冷静になって、まずはローカルLLMの性能を使ってみた考えようと思う

あと、ちょびっツじゃないけど、AIを自宅で育てるというかいい感じに改良できないんだろうか？
最近、国分寺稔くんをやたらと思い出す　あとKOTOも
ただレイアースの方が遥かに有名みたいでこのSFアニメしてる人が少ないっぽく残念

特に、最近Geminiの品質が向上しすぎてシステム無駄になりそうで不安ある
SDのエロLoRA素材(顔を赤らめてとか怒ってるとか作らせてる)作らせてるけどエロが無理だから素材だけどかなりいいものができてるわ
というかこれnswfで動かしたいがいつになったらローカルで使えるのやら
あとLLM、科学、経済など大学の教官並に詳しくて驚く、これいつになったらローカルで使えるのやら？

0413名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/22(月) 21:03:39.87ID:WaudJre70

追加学習は要求スペックと難易度が高いから海外勢も諦めムード
それに今はDenseモデルを弄るよりMoEモデルをそのまま使う方がいい結果になりやすい

0414名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fb6-zXIm)

2025/12/22(月) 21:49:07.62ID:OMjUm8Lu0

知識（語彙も含む）の追加は学習で最も面倒でLoRAでは無理って言われてるね　
だから海外のRPモデルは最初からそっちの知識が豊富なmistral smallとかnemoをベースにしてる

0415名無しさん＠ピンキー (ﾜｯﾁｮｲ ef7c-PVG4)

2025/12/23(火) 07:30:07.43ID:yRRcBOzn0

koboldcppにKVキャッシュやレイヤー枚数などを自動で調整して
メモリ割り当てしてくれる機能が追加されたんですね

0416名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f93-fMZT)

2025/12/23(火) 07:43:32.88ID:nDZDWBRS0

GLM4.7来たね
ベンチマークだとGPT5.1くらいのスコアしてる

0417名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-RgzM)

2025/12/23(火) 09:30:11.60ID:6o9rYbEn0

GLM4.7、倫理規制厳しくなっていて泣いた

0418名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-oKN0)

2025/12/23(火) 10:33:52.11ID:tnOvr0+U0

4.7はツールコーリングとかマルチモーダルとか、言語以外の部分の強化をしたみたいやな

0419名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp77-Fga2)

2025/12/23(火) 11:01:33.80ID:eLl8Z+b5p

>>417
ローカルでも？

0420名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f61-RgzM)

2025/12/23(火) 11:40:29.62ID:gx75EdUN0

>>419
ローカルじゃないがChutesていうOpenAI互換プロバイダのAPIから使ってみた
多分入力の検閲はやってないとこのはず

0421名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/23(火) 12:02:17.18ID:Gw5AHzAS0

GLM4.7がGPT5.1クラス...だと？

0422名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd5f-iM94)

2025/12/23(火) 13:11:34.25ID:qK/zAGQ1d

ローカルLLMもエロ規制が厳しくなって
過去モデルがオーパーツになったりするんやろか

0423名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp77-Fga2)

2025/12/23(火) 13:16:27.48ID:nHAN9AQpp

GLM4.7 Q5k_m
メモリ256Gに乗るかな？
使ってるニキいない？

0424名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-oKN0)

2025/12/23(火) 13:39:22.81ID:tnOvr0+U0

>>408
これそろそろマージされそうやけど、これを機能させるには
mxfp4なgguf使う必要あるんやろか
2～3割高速化するようやがQ4よりは精度は落ちるんやろかね

0425名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-sTpE)

2025/12/23(火) 16:11:11.69ID:ZmvOXIE40

>>423
使ってはないけどQ5kmは254GBモデルなので256GB環境に乗せるのは無理だ

0426名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/23(火) 17:32:55.99ID:/088yPv10

>>422
すでにQwQ-32Bがオーパーツ化しつつあるわ
Qwen3-32Bは微妙に日本語性能が落ちてるし
他の32B以下モデルもQwQを超える日本語性能は出せてないように思う

0427名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/23(火) 17:43:35.73ID:Gw5AHzAS0

>>425
そりゃメモリだけなら無理だけど、GPUも動かすなら多分いけると思うで

0428名無しさん＠ピンキー (ﾜｯﾁｮｲ a36a-rh7x)

2025/12/23(火) 17:57:18.41ID:qshlcN+k0

>>416
ソース

0429名無しさん＠ピンキー (ﾜｯﾁｮｲ ef04-XkZH)

2025/12/23(火) 20:24:52.15ID:j8PFql5i0

このスレ民の評価ってどういう基準なの？
自分は動画生成用のプロンプト推論に使ってるので
ストーリー性は求めるがセリフは求めないって感じ
あとVRAM溢れさせるのがデフォな使い方しとるんか？
メインメモリで推論させてテキストで重厚なストーリー出力って感じ？

0430名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/23(火) 21:09:09.15ID:/088yPv10

>>429
俺は日本語で自然なやり取りができるとか、複雑なプロンプトの理解力を見てるな
小説はほとんど読まない書かないから良し悪しがよくわからない

0431名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/23(火) 21:42:25.92ID:Gw5AHzAS0

>>423
ダウンロードしたら254GBあったけど、メモリ256GBでも普通に載ったわ
スワップなしでいけてる
ちなGLM4.7 Q5_K_XL

0432名無しさん＠ピンキー (ﾜｯﾁｮｲ 939c-AnvC)

2025/12/23(火) 21:53:59.17ID:WT+0/B0C0

GLM-4.7のUD-IQ1_S試したけど流石に質の低下が厳しくて実用は無理だな
でも素の日本語能力は高そう

0433名無しさん＠ピンキー (ﾜｯﾁｮｲ cf36-rc7o)

2025/12/23(火) 23:44:49.83ID:s0lGjMWv0

RTX6000とRTX5090はVRAMの量が全然違うのに処理速度はあまり違わないと聞いたけど
それなら1つのマザボにRTX6000x1にするよりもRTX5090x2にした方が処理速度は速いということで合ってる？
LLMの推論とかWanの動画の生成速度が倍近く速くなるならVRAMが少なくても後者の方が利点あるかなと思ったんだけど
最近の欠品状態で買えるかどうかは別として

0434名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-oKN0)

2025/12/24(水) 00:54:25.02ID:jYiV1MBq0

マルチGPUを並列に動作させて高速に、っていうのはnvlinkがあるならまだしもただのpcieだけやと難しいみたいやで

0435名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f93-fMZT)

2025/12/24(水) 01:19:17.31ID:oW+19dlF0

MiniMaxも新しいモデル来てるな

0436名無しさん＠ピンキー (ﾜｯﾁｮｲ 7332-s35p)

2025/12/24(水) 02:55:23.28ID:12j5rJkL0

テンソル並列で動かせればPCIe5.0のx8接続の2台でも1.8倍以上は出るよ
llama.cppよりはvLLMやik_llama.cppを使うのがいいけど

0437名無しさん＠ピンキー (ｼｬﾁｰｸ 0C97-Fga2)

2025/12/24(水) 07:54:13.13ID:QIkAw9r0C

>>431
おおいいね
コンテキストサイズはどれくらいまでいける？

0438名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f55-lXFC)

2025/12/24(水) 11:42:49.04ID:Te1aIUVG0

なんとなく見始めた初心者なんやが4070tiで遊べるんか？
ゴツいグラボの話多くて震えてるわ

0439名無しさん＠ピンキー (ﾜｯﾁｮｲ cf36-rc7o)

2025/12/24(水) 11:43:18.09ID:Rca8HbnZ0

>>434
>>436
思ってたほど単純には実装できなさそう…
情報サンクス

0440名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/24(水) 12:06:32.13ID:eS2xEZTO0

>>437
コンテキストは全部GPUに振ってるからVRAM次第だけどRTX5090なら46Kまでいけた

以下参考
46K 30.7GB
32K 26.1GB
16K 20.4GB
8K 17.1GB
4K 16.0GB
2K 15.2GB
1K 15.0GB

KVキャッシュの量子化指定無し
LM Studioで確認

0441名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-s35p)

2025/12/24(水) 12:41:25.94ID:gBrvVDcu0

>>438
問題はVRAMの数だから3090も3060も現役で使えるよ
VRAMの数が少なかったら泣こう

0442名無しさん＠ピンキー (ｼｬﾁｰｸ 0C97-Fga2)

2025/12/24(水) 12:47:41.77ID:QIkAw9r0C

>>440
なるほどvramに割り当てればいいのか
自分はkobold使ってるけどFlash Attentionとかを使えばいけるかも
サンガツ

0443名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f9e-ZCHH)

2025/12/24(水) 13:34:40.63ID:GdlLH36k0

そういや5090だとGDDR7になったから帯域幅は4090の2倍近いんだっけ
でもグラボに乗り切るサイズならどっちにしろ爆速だからやっぱVRAM量だけ気にしてれば十分なのか

0444名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f31-sTpE)

2025/12/24(水) 17:11:45.50ID:3sUow1st0

まず容量ではあるけどVRAM帯域の差もよく効くから気にしたほうがいい

0445名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-rc7o)

2025/12/24(水) 17:48:55.50ID:tBtZ73nT0

5090(購入済み)で今新規にPCを組もうと考えてるんだけどメモリは何GB積めば良い？
DDR5諦めてDDR4なら中古で安く買えるからM/B悩む
あとCPUはどの程度買えばいいだろ？LLMって言うほどCPU使わないよね？

0446名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-s35p)

2025/12/24(水) 17:51:06.25ID:gBrvVDcu0

今、メモリ買うのかい、夏まで１／５の値段だったのに

0447名無しさん＠ピンキー (ﾜｯﾁｮｲ efd0-oKN0)

2025/12/24(水) 18:13:04.57ID:0yd84XMF0

>>445
MoEモデルをGPU＋CPUでもそれなりに速く動かせるようになって
メインメモリもあればあるほどいい、になっとる
メインメモリが128GBあればVRAM32GBと合わせてQ4のQwen3-235bがコンテキスト減らせば動かせるかもわからん
ワイはそんなハード持っとらんから確認したわけじゃないし実際に動くかはわからんけど

0448名無しさん＠ピンキー (ﾜｯﾁｮｲ ef93-zXIm)

2025/12/24(水) 18:16:41.56ID:KvLJtA0U0

やりたいことはやったらいいけど
古いPCに電源とGPUだけ載せ替えたら？ってくらい時期が悪い
DRAMはDDR4で32～64GBでもかなりぼったくり
相性問題も起きるジャンルだから保証なしで高額商品に突撃するのはかなり冒険

0449名無しさん＠ピンキー (ﾜｯﾁｮｲ 9324-VlN3)

2025/12/24(水) 18:43:36.66ID:F/+8qqxW0

メインメモリ128GBだとQwen3 235BのQ4は多分無理。Q3になると思う。
積むなら256GBだね。
今ならDDR4のxeonかスリッパでも普通にDDR5-256GB買うより安くなるんじゃね？
知らんけど。

0450名無しさん＠ピンキー (ﾜｯﾁｮｲ 7332-wNtz)

2025/12/24(水) 18:45:28.03ID:KhCbXLY30

今はLLMもAI画像もAI動画も最低128GBは欲しいところ

0451名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fac-rc7o)

2025/12/24(水) 19:26:47.08ID:tBtZ73nT0

>古いPCに電源とGPUだけ載せ替えたら？ってくらい時期が悪い
実は、それするつもりでGPUと電源まで買ったんだけど、いざしようとしたら細かな設定が多すぎて新しく1台作りたくなって今になって悩み始めてる

ボッタクリと言っても今後値上がりするならむしろ安いかと
色々な予想を見ても2027年までは下がらないという話が増えた
中古ならほぼ新品含めてまだ安くあるしDDR4の使えるM/Bも今ならまだ普通に買える　DDR5もなんとか買える価格

MoEはMacだけかと思ってたけどWindowsでもそれなりにできるようになってるのか
それで実際どこまで早く動くんやろ？RAMってVRAMと比べて速度遅いし気になる、

あとここまでRAM上がると、場合によっては5090*2でVRAM32*2や他の型番のVRAM多いGPUを複数の方が安くて早いとかもありえるかね？
そういう意味でもRAMをどこまで上げるか悩む

SD(AI画像)やってるけど1280で後で4Kに拡大してるけど32GBで十分と感じてるわ
あと、RAMはVRAMと比べて極端に遅いから溢れて使うことはほぼ無いわ

0452名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-sTpE)

2025/12/24(水) 19:40:46.52ID:+T/2k9qO0

ちょっと前のMI50は今買うddr5より容量単価安かったな…

0453名無しさん＠ピンキー (ﾜｯﾁｮｲ 9324-VlN3)

2025/12/24(水) 19:44:47.62ID:F/+8qqxW0

金有りそうだからryzenAI max+ 128GBにM.2からのoculinkで5090を接続するのを試してほしい

0454名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-iM94)

2025/12/24(水) 19:51:43.93ID:RN9eKQRfd

メインメモリ128GB&VRAM24GBでQ4のQwen3-235bが動いとるで
Windowsが不安定だからUbuntu LinuxのLM Studioでやっとる

0455名無しさん＠ピンキー (ﾜｯﾁｮｲ 03f2-AnvC)

2025/12/24(水) 21:13:30.66ID:gd2a8r8l0

今ってデカいメモリ持ってる場合の最適なモデルってQwen-3-235Bなの？
それ基準で考えてる人多いけど

0456名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-iM94)

2025/12/24(水) 21:30:12.40ID:RN9eKQRfd

>>455
そこらへんがGemini向けに配布されたエロプロンプトが一応動く最低ラインや

0457名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-s35p)

2025/12/24(水) 21:59:36.86ID:jYiV1MBq0

>>455
メインメモリ256GB載せてGLM(358B)動かすってのもありかも分からん
さすがにここまで来るとMoEといえども10token/s切るみたいやが

0458名無しさん＠ピンキー (ﾜｯﾁｮｲ b309-nQdN)

2025/12/24(水) 22:07:59.74ID:x2HqbVnJ0

MiniMax M2.1
Gemini 3 ProやClaude 4.5 Sonnetを上回るスコアを記録　とあるけどウソくせー
Qwenもそうだったけど実際に使うとメジャー級とじゃ相手にならん
いつものごとく試験問題の答えを学習しているカンニングモデルの気配

0459名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f64-ldFF)

2025/12/24(水) 22:18:16.45ID:hhjZW9e70

単に日本語応答だと学習量足りなくて雑魚になってるだけかもよ
あと前モデルのMiniMax M2はRedditでもコーディング以外駄目な子扱いされてたな
そのコーディングも絶賛って程じゃなかったがクリエイティブライティングは特に評判悪かった記憶

0460名無しさん＠ピンキー (ﾜｯﾁｮｲ 93e1-gcTU)

2025/12/25(木) 01:14:12.65ID:QQFUgyIz0

>>445
5090おめ
ワイの場合は１か月前だが、5090を買うぐらいならより安い予算でメモリガン積みのPCを新調したほうが良いと思い、
PCIE5.0規格に合わせてCPU,M/B,SSD全部そろえた
結果128GB+16GBでQwen3-235B-Q3が動いて世界が変わったで

というわけで128GBの下は64GBになると思うけどそれだととても勿体ないと思うよ
それにメインメモリに乗せて動かすと、やっぱりCPUパワーもそれなりに使う様だよ
財力があるならDDR4にするとか古いGPU２枚差し(これもやった)とか、変にケチらんほうがええよ

0461名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fac-rc7o)

2025/12/25(木) 03:15:04.72ID:QeIM/0Re0

古いPCでDDR4-128GB(今のPCのGPUを付け替える)にしようかと思ってたけどDDR5にすべき？
メモリってベンチマークでは差が出るけど実際にはDDR4・5変わらないって話を聞いて悩んでる
実際の所どうなんだろ？

>>460
ありがとう　ちょっと出遅れたけどキャンセルになることなくなんとか買えてさっき置き配回収した
世界が変わった、そこまでか！DDR5早い？

>>453
取り合えすStable DiffusionがメインでLLMも気になってるくらいだからまだ出せないわ
今のGemini3とnanobababaの品質ならすぐにでも買うけど多分まだまだだよね
ただ、AIさんに来年にはローカルでも同程度になるかと聞いたら、昨今のLLMの進歩を見るとなる可能性が高いとい言ってたw
しかもメモリも節約できるタイプが出るみたいな話で大変楽天的だった
場合によってはそこそこのPCを買って待つのもありじゃないかと思ったりしてる

0462名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-s35p)

2025/12/25(木) 06:13:48.93ID:xClhl67N0

5090持っててやるべきは、動画生成系だと思うよ
Stable Diffusionの生成スピードが速くなるけど、別にできないわけじゃない

0463名無しさん＠ピンキー (ﾜｯﾁｮｲ 7332-s35p)

2025/12/25(木) 07:47:15.17ID:b9l9XA760

>>461
DDR4もDDR5もLLM用途だと相対的に見ればたいした差はないよ
DDR5の新品だと今の状況だと2倍以上の価格差になるので128GBまででいいならDDR4にしてその価格差で容量増やしたほうが絶対にいい
というかDDR5の64GBの2枚が30万ってうぇぇぇ・・・・

0464名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-Fga2)

2025/12/25(木) 08:36:22.53ID:ViJl0/9F0

>>463
何？
一週間前は20万だったぞ

0465名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-xxTa)

2025/12/25(木) 08:45:12.33ID:gh+hQl730

2～3月前までは4万円台だったのになぁ。。

0466名無しさん＠ピンキー (ﾜｯﾁｮｲ 7332-wNtz)

2025/12/25(木) 09:16:50.67ID:6NV5/cQb0

Gemini liveが手軽なサイズでローカルに降りてくるのはいつになることやら

0467名無しさん＠ピンキー (ﾜｯﾁｮｲ 83c6-ldFF)

2025/12/25(木) 09:21:34.65ID:JzO46wCb0

昔見たPCI-Ex16にM.2 SSDを四枚挿してRAID0でSWAPdisk？だったかでメインメモリの代わりにしてデカいLLMを動かすのがいいかもしれない
PCI-E 5.0なら理論上は512Gbpsの帯域幅あるけど実際のところどうなんだろうね
まあSSDも値上がってるけど

0468名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fa6-ZCHH)

2025/12/25(木) 09:33:18.39ID:b1jcsFdf0

DDR4もどんどん生産終了になっていくとか聞いたしメモリは27年まで枯渇しっぱなしだし
数年待てないなら早く買った方がええな

0469名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/25(木) 10:00:01.67ID:X0ADdGKj0

こんな状況だから来年は省メモリに最適化したLLMが出てくれると嬉しいな

0470名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/25(木) 11:11:27.61ID:AruFNnll0

性能を上げるためにモデルを巨大化した結果、メモリ不足になったわけで
高性能かつ省メモリなモデルができるならメモリ不足も起こってないという

0471名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fa6-ZCHH)

2025/12/25(木) 11:14:04.58ID:b1jcsFdf0

でもエロ学習をどんどん弾くようになってるし自力で簡単にモデル作れる世の中になるまで絶望的な予感

0472名無しさん＠ピンキー (ﾜｯﾁｮｲ 7332-wNtz)

2025/12/25(木) 11:19:17.62ID:6NV5/cQb0

>>470
今まではメモリが調達できる状態だったからその方針で進んでいただけで
調達できなくなったらそれに適応するように方針を変えるやろ
他の分野でも必要なものが調達できなくなってからようやくその部分を代替・効率化する技術が発展するとかよくある話だし

0473名無しさん＠ピンキー (ﾜｯﾁｮｲ b3ec-+e8j)

2025/12/25(木) 11:34:40.98ID:mDnKJNz80

DDR4を入手よりも対応するマザーボードの入手が難しい
CPUやメモリは耐久性高いんだがマザーボードは大量の部品の集まりで故障しやすく中古はハイリスク

0474名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/25(木) 12:44:54.52ID:X0ADdGKj0

条件付きとはいえDDR4の生産終了が延期するらしい
DDR4がレガシー化してるとは言え、この動きが続けば俺としてはありがたい・・・

Samsungが主要顧客と「キャンセル・返品不可」の契約を締結しDDR4の生産終了を延期
https://gigazine.net/news/20251225-samsung-ddr4-ncnr/

0475名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f9f-1qsg)

2025/12/25(木) 13:04:02.45ID:v3s2j4YZ0

5090と192めもりあるから何かに有効活用したいけどやっぱり動画生成に向き合うのがいいのかなあ

0476名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-s35p)

2025/12/25(木) 15:30:51.40ID:xClhl67N0

あと推論じゃなく学習の方で使うとかね

0477名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr77-Ubo7)

2025/12/25(木) 18:22:22.76ID:UhzC7jVkr

なんか急にメモリ不足になってて草

0478名無しさん＠ピンキー (ﾜｯﾁｮｲ 33c0-VlN3)

2025/12/25(木) 19:04:49.75ID:AVrajHLN0

64GBx2の価格が上がりすぎて、静電気怖くてAI用PC弄れん。

0479名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f60-zXIm)

2025/12/25(木) 20:19:16.77ID:Qd+KV85l0

5090あるなら32BくらいまではQLoRAできるし画像生成系でもSDXLのfull finetuningもできるし学習なら割と遊べる

0480名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-xxTa)

2025/12/25(木) 21:01:08.80ID:gh+hQl730

Mac買い替えるんだけど、流石に128GBとかは買えないから買えて64GBなんだけどローカルのモデル動かすには中途半端なサイズなのかな？
LLMのこと考えなければ64GBなんて全然いらないんだけど今あるRTX5060Ti+128GB(DDR4)の環境より早くなるならありかなって。。

0481名無しさん＠ピンキー (ﾜｯﾁｮｲ a36a-Ubo7)

2025/12/25(木) 21:34:59.18ID:OB673X1y0

何したいか知らんが少ないんでは？

0482名無しさん＠ピンキー (ﾜｯﾁｮｲ 7332-wNtz)

2025/12/25(木) 21:46:29.83ID:6NV5/cQb0

LLM用途で64GBは後悔することはあっても満足することは無いと思うで

0483名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-xxTa)

2025/12/25(木) 22:21:30.19ID:gh+hQl730

まあそうだよね。。

0484名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/25(木) 22:26:38.46ID:ViJl0/9F0

うーむ。ようやく化石PCから新調したけど思ったより速度出ないな。

magnum123b iQ3k_mを旧PCで0.17t/s
同Q8_0を新PCで0.41t/s

うーん、なにか設定ミスったかな。まあ、CPUメモリだしなぁ

0485名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/25(木) 22:42:27.17ID:ViJl0/9F0

>>431
そちらの環境では何t/sでてますか？
こっちは1.89t/sでしたわ
GLM4.7 Q5_K_XL

0486名無しさん＠ピンキー (ﾜｯﾁｮｲ 8389-r6/A)

2025/12/25(木) 23:19:46.06ID:3J/gLz4j0

Nemotron3はなかなか良いね

0487名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/25(木) 23:34:18.22ID:X0ADdGKj0

>>485
4.1t/sですわ
GLM4.7 Q5_K_XL

0488名無しさん＠ピンキー (ﾜｯﾁｮｲ 93b2-VlN3)

2025/12/25(木) 23:43:37.00ID:+4TZHvI30

128GBでQ5で使える170Bくらいの良い感じのモデルが欲しい

0489名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-rc7o)

2025/12/26(金) 00:22:15.91ID:yMjii2Jm0

LM Studioでとりあえず色々なモデルダウンロードしてるんだけど
ふと思ったがファイルってそもそも安全なんだろうか？

0490名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7c-geEI)

2025/12/26(金) 00:58:47.21ID:p+OQnC8X0

何も考えずに ollama 使ってたけど直接 llama-server 叩いたほうが速いうえに webui も付いてたんだね
ollama ってなんのためにあるんだ…

0491名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-iM94)

2025/12/26(金) 00:59:59.20ID:qCRoD1VLd

GLMくらいのサイズのMoEで要らないエキスパートを外せれば128GBでも動きそうだが
メモリ128GBの貧乏人のことを真剣に考えてくれる開発元はQwenくらいしかないのが悲しい現実

0492名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-iM94)

2025/12/26(金) 01:02:34.18ID:qCRoD1VLd

米欧中のモデルって中身がほとんど英語と中国語だから
日本語メインのユーザーから見たらスッカスカのsparse状態だよな

もちろん英中を抜いて精度が維持出来るわけではないだろうが
日本人があまりにも不利すぎる

0493名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/26(金) 01:26:33.67ID:kUso6zPz0

>>487
さんきゅ

コンテキストをVRAMに乗せて、メモリ設定をexpo1にしたら、generate 2.16t/sになったけど、まだ半分かぁ

0494名無しさん＠ピンキー (ﾜｯﾁｮｲ b319-nQdN)

2025/12/26(金) 03:41:49.42ID:7grGkI6v0

>>480 予算という制限は最優先だけろうけど64GBはちょっとつらい
Macはメモリ全部をVRAMに回せるんだけど、当然OSの
分が必要なわけで 8から10GByteは少なく見積もったほうがいい

もともとQ4対象とするモデル(gpt-ossとか)じゃないと劣化が激しくて
実用には程遠い(Q1で「動いた!」と夢を見てもねw)

最近MoEが流行ってきたせいで128GByteでもちょいちょい足りない
待てるならM5 maxを待った方がいいよ

M3チップから先のM系CPUは、mlxモデルなら量子化圧縮の他に内部でリアルタイムで
コストなしにメモリー圧縮してくれる
例えば100GByteのモデルだと80GByteくらいになることもある。当然まったく縮まないモデルもある

あと画像動画系はM4maxまでは使いもんにならんので素直にRTXを選択だ

0495名無しさん＠ピンキー (ﾜｯﾁｮｲ b358-+e8j)

2025/12/26(金) 04:19:27.11ID:Wrkd9qpz0

オープンなモデルで見ると中国製はまだ日本語わかる方で英語圏のはマジで日本語知らない
Llamaとかきついね
最初あれを日本語ファインチューニングしてた会社多かったけどqwenの方が日本語分かるってみんな乗り換えたし

0496名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-s35p)

2025/12/26(金) 05:52:46.69ID:8zRv1QPC0

DRAM市場は価格変動が激しく、利益率が低いことで知られています。
特に、AIブームによるサーバー向け需要が優先され、PC向け供給が逼迫している現在、
ASUSのようなPCメーカーにとっては調達コストの上昇が深刻です。
噂では、ASUSが2026年に自社DRAM生産ラインを構築（または提携）するのは、
自社製品（ノートPC、デスクトップ）の供給を安定させ、価格転嫁を避けるためとされています。
しかし、この市場はSamsung、SK Hynix、Micronの「ビッグ3」が支配しており、
新規参入は資本集約的で収益化が難しい。台湾企業がこうした市場に手を出すのは、
単なるビジネスではなく、台湾の半導体エコシステム全体の戦略的強化を意図している可能性があります。
台湾政府は半導体を国家安全保障の柱と位置づけ、TSMCのようなファウンドリ（受託製造）だけでなく、
メモリ分野での自立を推進しています。これにより、中国依存を減らし、
米台同盟を強固にする地政学的メリットが生じます。

0497名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/26(金) 08:06:40.90ID:vPKVvi2t0

>>489
画像生成AIの初期にモデルデータに任意のコードを仕込めるのが発覚して
安全なSafetensorsやGGUFに移行したから今はほぼ大丈夫

0498名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/26(金) 12:29:34.27ID:gBa6xuvc0

>>484
PC新調したんやね
同じモデルで比較しなかったのはなんでだろ？

0499名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-Fga2)

2025/12/26(金) 12:56:43.48ID:kUso6zPz0

>>498
書き忘れてたわw
iQ3k_mだと1.32t/sやった
Q8でここまで落ちるんかとショックだわ
>>487のニキと何が違うんやろ
多分スペック的には大差ないと思うけど
ryzen7 9800x3d msi rtx5090
メモリcp64g56c46u5✖4 256G
5090怖いんでPL運用

0500名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-SDhK)

2025/12/26(金) 13:33:50.22ID:gBa6xuvc0

>>499
うひゃ、すごいな
俺は4年前のスリッパなんでそこまで性能良くない

俺のスペックはこれ
Threadripper Pro 5955WX(16c32t)
DDR4 3200MHz 32GB@8枚(オクタチャネル)
RTX 5090+RTX 3090@3枚 PCI4.0接続

違いはメモリ帯域かなと思ったけど
5955WXは2CCDという制約があって、メモリ帯域がまだフル稼働してない状態なんよ
実効帯域は半分の90GB/s弱のはず
これだとDDR5のハイエンドデスクトップと変わらんはずなんよね

Magnum v4 123B Q8試してみたけど0.58t/sだったので、GLM4.7ほどの差はない模様

0501名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM5f-s35p)

2025/12/26(金) 13:36:55.39ID:MZheLxaPM

>>500
すげーその構成でどれくらいの電源が必要ですか

0502名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾙ Sp77-Fga2)

2025/12/26(金) 14:09:28.35ID:m9gDF1Omp

>>500
おおお
サーバでvram爆盛りやないすか
土俵が違いましたわw

0503名無しさん＠ピンキー (ﾜｯﾁｮｲ cf4c-gcTU)

2025/12/26(金) 21:44:50.00ID:MbwwI/fJ0

openRouterのGLM4.7はプレフィルにここの<think>のやつを入れたらだいだいOKだな
ただreasoningのほうに本文が全部入って帰ってくることになるからapi呼び出しコードとかちょっと修正がいるかも
ttps://www.reddit.com/r/SillyTavernAI/comments/1pv8jto/glm_47_my_holiday_present_to_those_effected_by/

0504名無しさん＠ピンキー (ﾜｯﾁｮｲ cf4c-gcTU)

2025/12/26(金) 21:48:00.90ID:MbwwI/fJ0

帰ってくることになるから　×
帰ってくることがあるから　◎

0505名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-s35p)

2025/12/26(金) 23:17:40.89ID:kUso6zPz0

>>503
4.7の規制解除版が出るまで
huihui-ai/Huihui-GLM-4.6-abliterated-GGUF
これ使ってる

thinkオフにしてやるとレスポンス良くて使い勝手いい
しかも日本語エロ最高ｗ

0506名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/27(土) 01:57:05.71ID:HyeodPWU0

ノベルはどこでみんなプロンプト勉強してるんだろ
学習場所みたいなの知りたい
ちなみに、SDはCivitaiなど先人のプロンプトが物凄く役に立った

0507名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/27(土) 01:57:53.57ID:HyeodPWU0

あと、ノベルに限らずLLMへの質問の仕方で回答かなり変わるしイマイチかん所が分からない

0508名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac8-0Alr)

2025/12/27(土) 02:22:26.07ID:J3Q+YJdX0

Grok先生とのレスバが最強でしょ

ＧＰＴのエロ解禁でどう変わるか

0509名無しさん＠ピンキー (ﾜｯﾁｮｲ e632-4mSN)

2025/12/27(土) 07:06:17.86ID:PA+m8zpZ0

>>56
尻タブのキャラクターカードを参考にするといい
https://aicharactercards.com/

ピンキリだけど何の取っ掛かりもなく一人で試行錯誤するよりはだいぶマシだ

0510名無しさん＠ピンキー (ﾜｯﾁｮｲ e632-4mSN)

2025/12/27(土) 07:06:35.15ID:PA+m8zpZ0

>>506だった

0511名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-UjAx)

2025/12/27(土) 10:47:56.62ID:qjlNvfdb0

モデルの進化に伴ってプロンプトの書き方は意味を失っていって、適切なコンテキストを渡せるかどうかの話になっていくから、今からプロンプト頑張っても1年2年で賞味期限切れになる気がする

0512名無しさん＠ピンキー (ﾜｯﾁｮｲ f180-JWG4)

2025/12/27(土) 10:56:34.89ID:0sXLjJzB0

そもそもプログラム言語が書けなくても色々やらせられるのが画期的だったんだからそれを学ぶってのも変な話なんだよな

0513名無しさん＠ピンキー (ﾜｯﾁｮｲ f0a0-0Alr)

2025/12/27(土) 11:04:09.25ID:UhnTFn4+0

最低限マークダウン形式は理解する意味がある

0514名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f37-Ls7H)

2025/12/27(土) 13:43:07.28ID:Hy8yFs+J0

ある程度は同レベルじゃないと会話が通じないのと同じで、AIに高度なことをさせようと思ったら自分自身にも知識が必要という

0515名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sdee-KwNi)

2025/12/27(土) 15:46:43.74ID:JH4k1F+Sd

AntiGravity時代やから的外れなコードやドキュメントを指示出しで軌道修正するスキルが一番大事や

書けない分からないじゃなく出してから考えるんや

0516名無しさん＠ピンキー (ﾜｯﾁｮｲ 5a02-SbIX)

2025/12/27(土) 18:04:07.80ID:GInV4/hz0

GLM4.7を量子化無しで動かしたいなあ
500万円あったら足りるんかね

0517名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sdee-KwNi)

2025/12/27(土) 18:10:38.66ID:JH4k1F+Sd

>>516
ワイは月3ドルのChutesでええわ

0518名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/27(土) 18:22:42.46ID:HyeodPWU0

>>509
ありがとう
キャラクター設定を作るまでは分かったけどそれでどう楽しむのかが良く分からない
SDだとシンプルに画像を作ってみて楽しめるけどLLMはどうするん？

>>511
SD、2年やってるけど、プロンプトは基本的に同じだな、ただ関わってると大きな変更があると掲示板で話題になるからその時一部変更してそのまま移行できてる

>>514
そんなことはない、分からなければ聞けばいつまででも教えてくれる
サンプルプログラムを貼り付けるだけのスキルしか無いから、高度なこと(何が高度なのかすら分からない)は無理だと思うけど、
こんなスクリプト作ってと言って、動くまで繰り返したら中身の全く理解できないソフトができたりしてるわ　しかも、Perlしか使えないのに、PythonでGUIなソフトまで作ってくれた
時間はかかるけど、どんな物が欲しいのか(可能なら途中の処理がはっきりしてれば)がはっきりすればある程度はできる時代だと思う
ただ、ファイルの読み書きみたいな基本的な事もお任せしてたら、最近それも忘れてきた、AIなしだと何もできなくなりそうな怖さある

0519名無しさん＠ピンキー (ﾜｯﾁｮｲ 5a02-SbIX)

2025/12/27(土) 18:44:41.69ID:GInV4/hz0

>>517
chutesって量子化されてるだろ

0520名無しさん＠ピンキー (ﾜｯﾁｮｲ e632-4mSN)

2025/12/27(土) 19:19:40.12ID:PA+m8zpZ0

>>518
LLMはAIのシステムプロンプトに「あなたはこういう役割だからこういう風に振舞って」と基本ルールを記述しておく。
それとは別に「今からこういうことをして」というユーザープロンプトを与えると、基本ルールに沿った挙動で返信してくれる。

だから例えばAIに対して「あなたはファンタジー小説家です。私はあなたの担当編集者なので私の指示に従って小説を書いてください」という基本ルールを与えておいて
「それでは今から、物語の最初のシーンである勇者が冒険に旅立つ場面を書きましょう」とユーザープロンプトを与えるとファンタジー小説家らしく小説の冒頭を書き始めを生成してくれる。
スクリプト作るときも基本は同じやで。

AI画像生成、特に最近主流のリアスなんかはdanbooru語のプロンプトを与えるだけで良かったけど、LLMはもうちょっと設定の仕方が細かく分けられているって感じ。
さらにAIが理解しやすい記述方法にマークダウン記法とかを使った構造化プロンプトがあるからそれぐらいは覚えておいた方がいい。
構造化プロンプトはZ-image turboでも有効だと判明したからAI生成画像をやる場合でも覚えておいて損はないと思う。

0521名無しさん＠ピンキー (ﾜｯﾁｮｲ f0a0-0Alr)

2025/12/27(土) 19:25:08.76ID:UhnTFn4+0

チャッピーとかみんなマークダウン形式でやり取りしてる

0522名無しさん＠ピンキー (ﾜｯﾁｮｲ 6aac-Ls7H)

2025/12/27(土) 19:43:59.04ID:HyeodPWU0

>>520
これでどうエロに繋げるの？
とりあえず、mistral-small-24b-instruct-2501-abliterated-i1落としてエロ小説にしてと言ったらやってくれたけど、
それなら本でいい気がするが、LLMみんなハマってるし、もっと楽しんでるよね？
いまいち楽しみ方が分からん

あと、プログラム(Perl)だけどやってほしいことを箇条書きや文章で投げるだけばかりだったわ
ただ、AIにプロンプトをお願いしたら###がたくさんあるのを返してくれるな　この記法も覚えたほうがいいのか
z-imagaはまだ使ってないけどnanobananaだと誤字脱字無駄な文章ありまくりでもいいものができるし、内部でうまいこと処理してくれてんのかな

>>521
みんなのプロンプト例をあまり見ることがないから知らなかったわ
画像だとあるけど、LLMでもこんなプロンプトでこんな物作ったみたいな例がたくさん乗ってるサイトってあるかね？
そういうのからざっくり勉強(真似)したい

0523名無しさん＠ピンキー (ﾜｯﾁｮｲ f0a0-0Alr)

2025/12/27(土) 20:11:33.98ID:UhnTFn4+0

チャッピーとかは頭いいから、適当に書いても組みとっていくれるけど
マークダウンで書けば100%指示が伝わるから

0524名無しさん＠ピンキー (ﾜｯﾁｮｲ e632-4mSN)

2025/12/27(土) 20:30:00.68ID:PA+m8zpZ0

>>522
絵だってAIで生成せずともpixiv見るなり画集やCG集買うなりすればええやろ？
でも自分好みの絵が欲しいからAIで生成しているわけだ
文章も同じで自分好みの小説やキャラとのチャットを楽しみたいからLLMで生成するわけだ
本で満足できるなら別にLLMで生成する必要は無いで

エロに繋げるならエロ小説だけでなく
koboldcppのアドベンチャーモードを使って、プレイヤーの行動を記述することで物語が順番に進むエロTRPGみたいなこともできるし
単にキャラ設定を書いて自分好みのキャラとエロチャットを楽しんでもいい
妄想力とリビドーを働かせて遊ぶんやで

0525名無しさん＠ピンキー (ﾜｯﾁｮｲ 8d32-0Alr)

2025/12/27(土) 21:12:44.85ID:OFD0eLnw0

>>522
自分のお気に入りのキャラ（版権でもオリジナルでもいい）の設定を書いて
自分好みのシチュエーション提示して書いてもらったりする。
エロなら竿役の設定もね

0526名無しさん＠ピンキー (ﾜｯﾁｮｲ f432-ISUa)

2025/12/27(土) 21:54:34.36ID:2DxrJ48B0

絵は長らくdanbooru語で書かなきゃいかんかったから変にプロンプトぢから必要なだけで
こっちは日本語でも英語でも人間相手に分かりやすい書き方なら何でもいい
典型例にはmarkdownがある

0527名無しさん＠ピンキー (ﾜｯﾁｮｲ be32-0Alr)

2025/12/27(土) 22:42:39.52ID:EHZ6LBSo0

やりたいことやモデルにもよるけど、AIが得意な言語に合わせるのは重要だぞ
Nano Bananaは日本語だと全然言うこと聞かなくて
プロンプトを英語に翻訳したらあっさり意図した画像が生成できたりする

0528名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr9b-UjAx)

2025/12/27(土) 23:52:40.76ID:goYPX3Hpr

>522
よく分からないうちはもっと大型のLLMでやるほうがいい
gemini3.0proのAPI版とか
で、文章生成AIスレを両方とも覗いて参考にするのがベストに思える

ある程度小説読むひとなら、エロを主目的にするよりは文章を書くことを目的にしてエロで習慣化する、てのがいいんでないの
面白さを優先してたらエロさと微塵も関係ない話を10万字書いてました、みたいな話はあるあるだしね
数を書くと文章の型とキャラの型が出来てくるから、そこまで行けばあとは好きに作れるようになるよ

0529名無しさん＠ピンキー (ﾜｯﾁｮｲ 029f-FE3X)

2025/12/28(日) 01:31:14.07ID:BXAiGjWS0

>>522
ローカルAIなんてGPTやらGeminiやらと性能が雲泥の差があるから、余程の特定用途でもない限りローカルAIを、しかもエロ用途で使わない。

そういったコアな質問をしたかったのかな？

0530名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/28(日) 02:28:58.74ID:axaFFb1D0

MiniMax-M2.1って出てんねんな
229Bだって
MiniMaxってあまりここで話出てこないけどどんなんやろ

0531名無しさん＠ピンキー (ﾜｯﾁｮｲ cd9f-9IRd)

2025/12/28(日) 02:32:13.41ID:q0iBkmVY0

MiniMaxは日本語全然ダメやね
表現が貧弱というより日本語で答えろって言っても中国語か英語になりやすい

0532名無しさん＠ピンキー (ﾜｯﾁｮｲ 6aac-Ls7H)

2025/12/28(日) 02:52:14.12ID:/ozKpiSI0

>>524,525
同人誌を知らない人が、初めて同人誌というものを知ったら夢中になるじゃん
同じ様に、ローカルLLMをどんな風に楽しく使ってるのか、どういう世界があるのかが気になってる
チャットだけどエロゲ(殆選択肢なし)は昔良くしてたけど、主人公の発言がもし大量に必要ならコミュ力無いから正直進められる気がしないわ><
自分をアシストするような強化したLLMを用意したらいけるかもだが
あと、ソフト使ったりそういう感じで作り込んだりするんだな勉強になる！
ただこれって公開してる人居ないのかね？2chの頃だと自作小説を延々と投稿する人とか居たけけど最近そのスレ見かけない

>>527
かなり適当な書き方やDanbooru語でもいい感じで出るけど、英語必須って色々とレベル高そう

>>528
つい最近ローカルLLMはじめたんだけどサイズ的に小さいかな？　ただ、思ったよりも的確で驚いてる所。
パスワードとか個人情報がたくさんあって表に出したくないのはローカルで使えそうな気がしてる。
また、無料しか使ったこと無いけどGemini有料版は更に優秀？無料でも十分凄いと思ってる所だが使いこなせてないかも
あと、文章生成AIスレあるのか、見てみる

>>529
自分の場合版権もの多めでエロ画像を1日5000枚くらい見たいという熱烈な欲望があって生成AIをはじめた
GeminiはSDのLoRA学習元画像を作るのに使ってる
このスレではSDよりも高価なPCを用意してLLMで楽しんでる人も多く、どう楽しんでるのか気になってる感じ
自身はヌルオタで情報集めるのが下手で同人という世界を知ったのもかなり遅く、楽しそうな世界はあるような気はするけど、具体的な世界が見えない感じ
ただ、規制なしLLMは元々化学を専攻してた身からすると、どこまでも知識を掘れるのは面白いと感じてる、作ることはないけど知識欲はなかなかに満たしてくれる
あとRAGとか？うまくすれば、ちょびっツみたいなAIが作れるのかとか気になってる

0533名無しさん＠ピンキー (ﾜｯﾁｮｲ 82dd-mqrN)

2025/12/28(日) 03:35:47.86ID:T164suva0

自分もコミュ力ないから画像認識モデルに画像投げて「過激で性的なストーリーを」で終わりよ
Qwen3-VL-32B-Instruct-hereticあたりならノリノリで書いてくれるぞ
AI絵に設定やストーリーが加わるだけでも没入感が全く違う

0534名無しさん＠ピンキー (ﾜｯﾁｮｲ e632-4mSN)

2025/12/28(日) 06:12:23.25ID:IfHjdL+D0

>>532
主人公の発言なんて1文でもいいよ。あとはそれに沿って適当に進めてくれる
もしくは3つの選択肢に番号を振って提示させるようにすれば「1」って打つだけで選択肢1の内容を書き進めてくれるようになる
1. 町に出かける
2. ダンジョンを探索する
3. エルフの村を襲撃する
みたいに文章の終わりに次のユーザーの行動の選択肢を提示させるようにするんだ

他にもキャラ設定とシチュエーションを練り込んで、「昨日1日中犯され続けたことについて1時間ごとに区切って詳細に報告しろ」って言えば
どんな風に犯されたのか好きなキャラが淫語連発しながら報告してくれるとか色んな遊び方があるぞ
とにかく発想力をフル活用して自分がエロい、楽しいと思う遊びをするんだ
ある程度賢いモデルなら大体のことは出来る

0535名無しさん＠ピンキー (ﾜｯﾁｮｲ 5c50-7ChI)

2025/12/28(日) 06:47:41.88ID:ixi8DXTr0

BTO受注停止騒ぎの直前に新規にPCの発注をかけてたけど
納期が長いと冷静になっていけないなぁ…
外部のAPI経由でLLM使うなら
メモリを128GBにしなくても良かったんではないかとか
今になって頭の中でぐるぐるとしちゃって困る
GPUは16GBで抑えちゃったのになぁとか

0536名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdec-CL6D)

2025/12/28(日) 12:57:46.25ID:gTMSw00Dd

PC新調しようかと思ったらネット注文不可
今日アキバに行ったんだけど、BTO軒並み在庫無し
グラボ自体も在庫無しorおま国価格
ヤベーよ

0537名無しさん＠ピンキー (ﾜｯﾁｮｲ 8c58-CT96)

2025/12/28(日) 13:07:13.67ID:i17KAbG/0

流石に2週間遅くないか
来年以降メモリ上がるから急いで買えって風潮だったやん

0538名無しさん＠ピンキー (ﾜｯﾁｮｲ d2f7-lw50)

2025/12/28(日) 13:11:29.91ID:5KEE6fBu0

新しいモデルを作ったで　小説生成支援アプリのproject wannabeと合わせて使ってみてほしいやで
https://huggingface.co/kawaimasa/Wanabi-Novelist-24B-GGUF
最低VRAM:16GB 推奨VRAM:24GB(q5km 24Kコンテキスト)~32GB(q6k 128Kコンテキスト)　専用アプリに特化してるから一般的な応答はできないので注意やで　

0539名無しさん＠ピンキー (ﾜｯﾁｮｲ f0c4-rRc0)

2025/12/28(日) 15:01:39.08ID:fJEhobiW0

>>538
おつかれさんやで！さっそくDLさせてもらう！

0540名無しさん＠ピンキー (ﾜｯﾁｮｲ 8267-53/h)

2025/12/28(日) 19:25:27.10ID:jMt3GEX50

もう地方の工房行脚する段階だろう

0541名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f4c-Ls7H)

2025/12/28(日) 22:27:40.63ID:5e7hK7Am0

いまは時期が悪いおじさん「もうは時代がわるい」

0542名無しさん＠ピンキー (ﾜｯﾁｮｲ 8d32-0Alr)

2025/12/28(日) 23:37:14.92ID:jf4VxSVY0

mradermacher/Mistral-Large-3-675B-Instruct-2512-i1-GGUF

ここの　i1-IQ3_XXS 258.9G ってなってるけど、メモリ256Gに余裕で乗りましたので報告
若干規制掛かってるけど、プロンプトでなんとかなるレベルかな
日本語はかなりいい

ただ、HG側の問題でダウンロードは普通にやるとエラーになるから、Communityの書き込みを参考にしてね

0543名無しさん＠ピンキー (ﾜｯﾁｮｲ 1e38-Xpyt)

2025/12/28(日) 23:49:03.79ID:zaDZPMc00

ヒイヒイ言いながらddr4 3200 32gbを中古で買い集めて128GBにしたよ
とりあえず今挿して動くならそうそう壊れたりはしない…よな？
高騰は辛いけど手持ちのメモリもそこそこの値段で売れたので実質一枚平均12000円くらいだった

0544名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sdee-KwNi)

2025/12/28(日) 23:55:04.62ID:KEZv6WoId

>>543
おめでとう
これでQwen3 235Bデビューできるな

0545名無しさん＠ピンキー (ﾜｯﾁｮｲ dac8-cEFC)

2025/12/29(月) 00:56:52.09ID:OXDLX/Y60

>>538
いつもありがとうございます

ソフトとモデルをアップデートしたのですが
以前には一度も出なかった以下のエラーが出てしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed

ソフトの出力窓では
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

何か設定を間違っている感じでしょうか

他のモデルを使用しても以上のように停止してしまうので
困っております

0546名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/29(月) 01:03:03.91ID:IuqqNF7w0

>>533
その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる
>>534
選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ

0547名無しさん＠ピンキー (ﾜｯﾁｮｲ d2f7-lw50)

2025/12/29(月) 01:29:25.05ID:ewL055nu0

>>545
新規に環境を作り調査しましたが再現できませんでした

エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください

・koboldcppのアップデート（最新のkoboldcpp-1.104で動作確認しています）
・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001";のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる
・koboldcppを別フォルダで新規クローンしてみる

これでも問題が解決しない場合は再度状況を教えていただければ対応いたします

0548名無しさん＠ピンキー (ﾜｯﾁｮｲ d2f7-lw50)

2025/12/29(月) 02:08:15.28ID:ewL055nu0

>>547
× koboldcppを新規クーロン
〇 wannabeを新規クーロン
訂正します

0549名無しさん＠ピンキー (ﾜｯﾁｮｲ dac8-cEFC)

2025/12/29(月) 12:43:26.33ID:OXDLX/Y60

>>547
ご返信ありがとうございます
koboldcpp.exe最新版使用や環境再構築、ポート番号設定など
作者様の指示通りにした後、再度同じ動作（起動させて「無限生成」）
をしたのですが、以下のように>>545で書いたようなエラーが出てしまいました

ソフトの生成窓には
--- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
と出てその後、窓を閉じるまで後段2行が連続して出力されます

なお、関係ないかも知れないですがpythonのverは3.13（Win10 64bit）で
モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました
また、ログによると以下のようなパラメータ設定でした
（デフォルトから変えておりません）
"temperature": 0.5,
"min_p": 0.1,
"top_p": 0.95,
"top_k": 40,
"rep_pen": 1.1,
"stop_sequence": [],
"banned_tokens": [],
"ban_eos_token": true,
"max_length": 500

0550名無しさん＠ピンキー (ﾜｯﾁｮｲ d298-lw50)

2025/12/29(月) 20:37:33.61ID:ewL055nu0

>>549
538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか？
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。

簡易チェック
・エラーが出ている最中にhttp://localhost:5001　が開けるか（5001は手元のport番号に合わせる）
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。

0551名無しさん＠ピンキー (ﾜｯﾁｮｲ be58-Xpyt)

2025/12/29(月) 22:08:09.84ID:ThxXm4Cn0

3090(24GB)x2＋メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね

0552名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a24-wKEG)

2025/12/29(月) 23:50:39.28ID:Lo0GYeRO0

>>551
何で動かしとるん？3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ
ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない

0553名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sdee-KwNi)

2025/12/30(火) 00:43:29.12ID:lvS6oXsJd

クソデカコンテキスト長でぶん回してるとか

0554名無しさん＠ピンキー (ﾜｯﾁｮｲ f432-ISUa)

2025/12/30(火) 01:43:28.56ID:I8us/ozu0

提示するべき情報がものすごく欠けてる

0555名無しさん＠ピンキー (ﾜｯﾁｮｲ 05ff-rRc0)

2025/12/30(火) 02:48:07.84ID:lMorHdVk0

>>550
横からですが同じようなエラーに行き当たっていたので
環境としては5060ti 16GB DRAM 128GB
Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます
WannabeのvenvはPython 3.12.6で構築してます

動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります

modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと
wanabi_24b_v03_q4km.ggufを用いた場合共に発生
またKoboldcpp+sillytavernでモデルが動作することを確認しています

wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、
1度停止した後の再度連続生成でエラーが出て停止するケースが多いです
ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです
しばらく
[ContextUtils] Failed to get true_max_context_length:
が続いた後稀に通信が成功するみたいですが連続生成を中断すると
koboldcpp側で正常に通信が終了せず
以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました
Exception happened during processing of request from ('127.0.0.1', 62026)
(略)

0556名無しさん＠ピンキー (ﾜｯﾁｮｲ 05ff-rRc0)

2025/12/30(火) 02:48:43.08ID:lMorHdVk0

>>555の続き
また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し
本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました
落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった
といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません
Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので
Powershellごと停止する形になっています
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length:

(上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす)

[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
Error calling Python override of QObject::timerEvent(): Traceback (most recent call last):
File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent
del self.__callbacks[timerid]
~~~~~~~~~~~~~~~~^^^^^^^^^

0557名無しさん＠ピンキー (ﾜｯﾁｮｲ f0a0-0Alr)

2025/12/30(火) 06:17:08.08ID:FRPgPKaW0

親の顔より見慣れたpythonエラー

0558名無しさん＠ピンキー (ﾜｯﾁｮｲ be58-Xpyt)

2025/12/30(火) 06:44:06.82ID:3A8Anhbj0

>>552
LM Studio
ソフトで差が出るもんなの？

0559名無しさん＠ピンキー (ｼｬﾁｰｸ 0C71-1aal)

2025/12/30(火) 07:52:10.94ID:RCh0/l2gC

>>558
cuda使ってないとか？

0560名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/30(火) 08:09:46.00ID:UqaFaSWG0

価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円　
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き？
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい？
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ？

0561名無しさん＠ピンキー (ﾜｯﾁｮｲ d20e-lw50)

2025/12/30(火) 09:44:29.57ID:Xq3KgeF30

>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し（トークンカウント）を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。

0562名無しさん＠ピンキー (ﾜｯﾁｮｲ dac7-CKxx)

2025/12/30(火) 11:01:58.47ID:XOEiLvuB0

>>558
LM Studioの設定どうなってる？

Qwen235B-A22Bの場合はMoEモデルだからGPUオフロードを最大にして、Force Model Expert Weights onto CPUにチェックをいれるだけだよ
コンテキストサイズやCPUスレッド数はお任せ

画像は別MoEモデルの設定ね
https://i.imgur.com/jd8G4zK.png

0563名無しさん＠ピンキー (ｵｯﾍﾟｹ Srd3-UjAx)

2025/12/30(火) 11:08:46.67ID:PDgBbkB5r

8枚64万円とそれを動かす巨大リグをなんとか構築しても128GBにしかならない、という時点でどうもこうもないような

0564名無しさん＠ピンキー (ﾜｯﾁｮｲ 6aac-Ls7H)

2025/12/30(火) 11:22:17.42ID:UqaFaSWG0

>>563
5090　だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない？
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか？
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする

0565名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f58-Ls7H)

2025/12/30(火) 11:34:48.37ID:bvNvqdUb0

VRAM128GBとメインメモリ128GBあれば大抵のことはできる

0566名無しさん＠ピンキー (ﾜｯﾁｮｲ 8294-mqrN)

2025/12/30(火) 11:40:11.78ID:L/CH3/cp0

パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから

0567名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ea4-JWG4)

2025/12/30(火) 12:00:05.85ID:xVlh2pWI0

ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる

0568名無しさん＠ピンキー (ﾜｯﾁｮｲ 8cb9-7+Bn)

2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0

画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない

0569名無しさん＠ピンキー (ﾜｯﾁｮｲ dac8-cEFC)

2025/12/30(火) 14:31:49.12ID:+JjZad5E0

>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました

0570名無しさん＠ピンキー (ﾜｯﾁｮｲ deed-pQ3g)

2025/12/30(火) 18:56:05.42ID:MMydUQFK0

>>538
わーい新しいモデルだー

0571名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/30(火) 19:32:46.75ID:UqaFaSWG0

>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない？
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない？
AIさんに騙されたか・・・？

0572名無しさん＠ピンキー (ﾜｯﾁｮｲ 8294-mqrN)

2025/12/30(火) 20:20:30.60ID:L/CH3/cp0

5060tiのメモリ帯域はそこまで速くないからなぁ…

0573名無しさん＠ピンキー (ﾜｯﾁｮｲ be32-0Alr)

2025/12/30(火) 20:22:28.90ID:0XYEbhmH0

画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする

0574名無しさん＠ピンキー (ﾜｯﾁｮｲ b62c-JCzX)

2025/12/30(火) 20:48:09.93ID:MsEm9Rga0

Macストゥーディオが最強？

0575名無しさん＠ピンキー (ﾜｯﾁｮｲ dac7-CKxx)

2025/12/30(火) 22:03:27.51ID:XOEiLvuB0

LLM用途しかしないなら、Mac Studio（512GB）が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも？
そのメモリが高いんだよな

0576名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-J4pl)

2025/12/30(火) 22:27:13.74ID:HNChQwMA0

以前なら150万あったらxeonでメモリ1tb載せられた・・・
今じゃ多分無理やろが

0577名無しさん＠ピンキー (ﾜｯﾁｮｲ 5a27-0Alr)

2025/12/30(火) 23:35:00.13ID:TYTWQT260

今の状況で512GBのMacとかいくらになるんだ
Appleもそこまでメモリ確保出来てないって話だし次は倍ぐらいしそう

0578名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/31(水) 00:24:14.44ID:nATPkOzl0

5060Ti の帯域が狭いなら5070 Tiとか？これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ？以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと

0579名無しさん＠ピンキー (ﾜｯﾁｮｲ be97-Xpyt)

2025/12/31(水) 01:19:09.77ID:+SOP+Ib10

>>562

ありがてえ、2t/sが安定するようになった！！！

0580名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 01:50:43.20ID:91X6WRME0

>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか？
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな

0581名無しさん＠ピンキー (ｱｳｱｳ Saee-Rr0y)

2025/12/31(水) 06:27:46.73ID:tbNiHYoda

>>579
そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう

>>562はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな

0582名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ec3-rwlK)

2025/12/31(水) 07:42:31.92ID:7HEfMKtn0

>>578
30BくらいならRTX5090が早いけどgpt-oss-120bだと
5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松)
30Bはホビーで70Bくらいからそろそろ使えるレベル
gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い
最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み

0583名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2025/12/31(水) 08:21:26.45ID:nATPkOzl0

>>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ？
5090　1枚(32GB)　15tk/s
5070Ti　2枚(32GB)　??tk/s
5070Ti　4枚(64GB)　??tk/s
5060Ti　2枚(32GB)　??tk/s
5060Ti　8枚(128GB)　??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか？

0584名無しさん＠ピンキー (ﾜｯﾁｮｲ c832-0Alr)

2025/12/31(水) 10:00:57.10ID:kLh2qJj50

macは初速は速いけどコンテキストが大きくなってくると生成前処理が致命的に遅くなる

0585名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 11:13:45.23ID:A5W68e4G0

gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど（ddr5なら24は出るらしい）
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう

0586名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ec3-rwlK)

2025/12/31(水) 11:41:48.05ID:7HEfMKtn0

PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど

0587名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 11:46:28.67ID:A5W68e4G0

あと5090単体でも15 tpsは低すぎるし設定ミスってそう

0588名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 13:19:34.11ID:91X6WRME0

今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん

0589名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 14:23:46.13ID:91X6WRME0

ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや

そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・

0590名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 15:11:50.24ID:A5W68e4G0

最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ

0591名無しさん＠ピンキー (ﾜｯﾁｮｲ 8220-mqrN)

2025/12/31(水) 15:19:32.10ID:A5W68e4G0

5090なら30前後出るのかな

0592名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 16:14:14.55ID:91X6WRME0

5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか

0593名無しさん＠ピンキー (ﾜｯﾁｮｲ d21e-lw50)

2025/12/31(水) 17:28:14.16ID:PyLi1INM0

5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない？
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも（それでも今度はVRAMの帯域幅に律速されそうだけど）

0594名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2025/12/31(水) 17:39:18.02ID:91X6WRME0

全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって

0595名無しさん＠ピンキー (ﾜｯﾁｮｲ b16a-h4RS)

2025/12/31(水) 18:19:51.36ID:/BUKgy7e0

お年玉で買うか

0596名無しさん＠ピンキー (ﾜｯﾁｮｲ 8204-mqrN)

2025/12/31(水) 20:12:38.30ID:A5W68e4G0

>>592
このモデルとb7588で再度試してみたけど自分の環境（5060ti）ではggml-org版と変わらないな（17.5 tps）
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも？
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる

0597名無しさん＠ピンキー (ﾜｯﾁｮｲ b6aa-JCzX)

2025/12/31(水) 21:14:09.72ID:x14xJQ6r0

来年はPRO6000が人権になりそうなヨカーン

0598名無しさん＠ピンキー (ﾜｯﾁｮｲ 6026-8aJk)

2026/01/01(木) 00:11:20.20ID:qmZ8t7yU0

gpt-oss-120bをVRAM16GB,メモリ64GBだと落ちる寸前だな
llama-serverでmlock有効にしたらOSがフリーズした
誰か動かしてる人いたらおすすめ設定教えてほしい。

0599名無しさん＠ピンキー (ﾜｯﾁｮｲ cde6-rRc0)

2026/01/01(木) 01:16:26.90ID:Bw6OLNUN0

これ眺めてたら年が明けてた。
https://a.co/d/0ZZtzUq

0600名無しさん＠ピンキー (ﾜｯﾁｮｲ 6ac7-Ls7H)

2026/01/01(木) 02:28:57.50ID:tPQVzZIN0

>>597
5090がどんどん値上がりしてPRO6000は値下がり傾向、本当のPRO6000がそれなりに当たり前になりそうな気がする
というかVRAMだけで考えたら、RTX 5080 16GBと比べてもかなり安いんだな

0601名無しさん＠ピンキー (ﾜｯﾁｮｲ 8cf9-7+Bn)

2026/01/01(木) 15:28:04.58ID:sW23ZJg40

VRAM72GBのpro5000も年明け出荷のようだし、geforce多枚積みよりはこっちの方が筋いいわな

0602名無しさん＠ピンキー (ﾜｯﾁｮｲ 054d-rRc0)

2026/01/01(木) 17:06:24.32ID:yiGiu09J0

あけましておめでとうございます本年もよろしくお願いします

>>561
遅くなりましたが555です、対応ありがとうございました
こちらでも更新後に正しく動作することを確認できました

0603名無しさん＠ピンキー (ﾜｯﾁｮｲ 0c32-0Alr)

2026/01/01(木) 18:20:55.47ID:I/cFx9fd0

RTX 5090は5,000ドル（約78万円）に値上げする見通しとか
値上げする情報はあったけど、ここまでとはな
ローカルAIは富豪の遊びに…

0604名無しさん＠ピンキー (ﾜｯﾁｮｲ c8f2-TEn3)

2026/01/01(木) 18:39:39.27ID:HG9AhdXC0

VLM動かせる環境作ったからQwen3-VL-235B使ってみた
そもそも認識しないんじゃないかと思ってたけど、NSFWでも思ったよりずっとしっかりしたキャプション生成できるな
https://i.imgur.com/n74THhW.jpeg

0605名無しさん＠ピンキー (ﾜｯﾁｮｲ e425-zwe1)

2026/01/01(木) 19:00:37.57ID:JXtujbxB0

グラボの値上げえぐすぎるだろ
これとてもじゃないけど今後はローカルとか無理だな

0606名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2026/01/01(木) 19:55:39.84ID:nmom1P530

>>604
NSFWの単語を知らないだけで説明はしてくれようとするんやな
世のエロ画像を日本語/英語で説明させてその説明文とdanbooruタグを画像と一緒に学習させたら
画像生成のプロンプトが楽になりそうやが
noobとかがやってくれへんかなぁ

0607名無しさん＠ピンキー (ﾜｯﾁｮｲ c8f2-TEn3)

2026/01/01(木) 20:20:27.04ID:HG9AhdXC0

別の画像でプロンプト生成も試してみたよ
https://i.imgur.com/oxa760r.jpeg

0608名無しさん＠ピンキー (ﾜｯﾁｮｲ 60c6-VauC)

2026/01/01(木) 20:28:33.20ID:eafDW5qb0

横からだけど厳密にテストしたわけじゃないけどQwen系はパラ数デカい方が規制緩くて小さい方が厳しい感じだったな

あとエロ画像解説させるときはシスプロに脱獄文入れて画像と一緒にわたすプロンプトで「外性器はチンポ|マンコなど下品な単語で解説してください」みたいに誘導すると普通にそっち系の単語で解説してくれた思い出

0609名無しさん＠ピンキー (ﾜｯﾁｮｲ c0a9-0Alr)

2026/01/02(金) 00:31:40.16ID:lg8LYbH90

LGAI-EXAONE/K-EXAONE-236B-A23BっていうLG製？のモデルが出てるけど
redditで英語の性能があまりよくないって言われとった
英語がダメなら日本語はもっとダメかな

0610名無しさん＠ピンキー (ﾜｯﾁｮｲ f432-ISUa)

2026/01/02(金) 01:15:55.90ID:WzDzorax0

どうだろ
もし韓国語強いんだったら日本語もやれるかベースとして優れてそう

0611名無しさん＠ピンキー (ﾜｯﾁｮｲ 5a27-CT96)

2026/01/02(金) 02:53:06.16ID:3mSEkiwD0

韓国語って元々漢字ベースだったものをハングルに置き換えたせいで同音異義語を文脈からしか区別出来んからLLMモデルしんどそうだな
日本語で例えるなら全てひらがな表記してる感じ

0612名無しさん＠ピンキー (ﾜｯﾁｮｲ 64a4-pPj3)

2026/01/02(金) 17:48:10.31ID:Bs4w2jCI0

GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。
スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚
--gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。
ik_llama.cpp の方が10％くらい早かったけどthinking消すのKoboldのが楽だった。
ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。

0613名無しさん＠ピンキー (ﾜｯﾁｮｲ 8d32-0Alr)

2026/01/02(金) 22:10:13.64ID:vQ0kRUWW0

>>612
おお、 linuxの方が倍以上速いのか
デュアルブートするかな

0614名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-G60N)

2026/01/03(土) 00:00:04.93ID:R/4j/QQl0

倍以上早いってよりかはWindows(のNvidiaのドライバ)だと勝手にVRAMからメインメモリに漏れるから
それで遅くなってるんじゃないかという気はするやね

「CPUがメインメモリで演算する」よりも「GPUがメインメモリで演算する」方が死ぬほど遅くなるから
VRAMからメインメモリに漏れるのは死んででも阻止しないとあかん
Linux(のNvidiaのドライバ)やと勝手に漏れるということがないぶんVRAMが枯渇したらエラーして止まるんやが

0615名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fe2-jodm)

2026/01/03(土) 02:51:05.90ID:+mDimtcp0

ローカルLLMでエロチャやるには3060やと力不足なんやろうなぁ…

0616名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/03(土) 02:53:51.85ID:J7LBWIU7d

>>615
LLMはVRAMが全てや
GPUは大半の時間遊んどる

0617名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-cp7k)

2026/01/03(土) 14:44:20.79ID:pqPKct+O0

>>612
ええ感じやん
9950Xの性能を最大限に活かせてるんやろか
自分も試してみた

【環境】
RTX 3090 + 5955WX(16c32t) + DDR4-3200 8ch (256GB)
GLM-4.6 Q4_K_XL

【結果】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s
モデルが若干違うのとthreadsが16なの以外は設定が同じ

ちなみに--threads 24だと性能落ちた
自分は16が最速みたいだ
612氏は9950X（16コア）で24スレッド指定してるけど、これで性能出るんやろか？

性能がいいのはCPU、ネイティブLinux、メモリ帯域どれが該当してるんやろな
STREAM Triadで測ったら67.7～92.8GB/sだった
612氏はどのくらい出てるんやろ

0618名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fc8-G60N)

2026/01/03(土) 14:45:51.45ID:y/a807Sx0

>>617
おっそｗ

0619名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-fu7G)

2026/01/03(土) 15:24:44.11ID:7OLtAZpJC

>>612
そのスペックでwinのkoboldcppで走らせたら何t/sになりますか？

0620名無しさん＠ピンキー (ﾜｯﾁｮｲ a365-CIFB)

2026/01/03(土) 20:17:34.07ID:tTz+GjqB0

>>619
いま試してきたんだけど、0.92token/sだった・・
linux版はちゃんとファンが高回転の音してるから性能引き出してくれてるんだろうね。
>>617
AIの言うままに--threads 24にしてたけど、16に変更したら4.6token/sになったよ。ありがとう！

win版はUseMMAP付けるけど、linux版ではUseMMAP外した方が速いんだって。
あとBIOSの設定もAIに聞いてLLM向けにいろいろいじったよ。ちょっとしたことで性能だいぶ変わるよね。

0621名無しさん＠ピンキー (ﾜｯﾁｮｲ a365-CIFB)

2026/01/03(土) 20:38:22.32ID:tTz+GjqB0

Windows llama.cpp: 4.18 t/s 出るならそっちのが快適かも。
linux版はコンテキスト上限で落ちるし文章が止まってから再生成にちょっと間があるんだよね。

0622名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-cp7k)

2026/01/04(日) 00:08:06.49ID:cRfBjXQy0

>>620
情報ありがとう！
threads 16で速くなってよかったわ

こっちもBIOSとか色々設定変更してたらWSL2(Ubuntu)の速度が改善したw
どの変更が影響したか分からん・・・
NUMA(NPS)の設定やろか？

【変更前】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s

【変更後】
Windows llama.cpp: 4.13 t/s（誤差範囲）
WSL2 llama.cpp: 4.16 t/s（+12%）
WSL2 KoboldCpp: 4.22 t/s（+19%）

結果KoboldCppが最速になったw

UseMMAP設定有無の差はあまりなかったわ
WSLで動かしてるからやろけど残念！
612氏の通り、LLMはちょっとした変更で変わることが多い印象だわ

0623名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-G60N)

2026/01/04(日) 01:05:58.84ID:aBYly05e0

>>620
むむ、なんか差が大きいですね
自分はryzen7 ですが、koboldcppでQ5ｋで2t/sは出てたんで、なにか設定が違うのかも
まあ、linuxで4t/sでるなら、そっちの方がよさげですが

0624名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-Qlgp)

2026/01/04(日) 03:12:40.77ID:Oqc8Dmk70

grok先生がエロで責められてる
許せんな、みんなgrok先生を守れ

0625名無しさん＠ピンキー (ﾜｯﾁｮｲ 5353-jodm)

2026/01/04(日) 03:21:25.97ID:XgRf4dfR0

ローカルで遊んでる人はgrokでエロ画像と言ってもピンと来ないだろ

文章なら性能高い分エロいのもかなり出るけど

0626名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 13:34:35.36ID:iSIu2MWH0

今日からLM　Studioやってみてるのですが
自分のPCのスペックがryzen7700x 4070TiS メモリ96GB（今すぐ192GBには増設可能）
これで使える範囲のモデルでおすすめなのってありますかね？
どうせグラボが足引っ張る気がするのでメモリはまだ増設してませんが、増設したらもっとつよつよモデル
使えるというのなら増設します

0627名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/04(日) 14:14:35.31ID:3JM0FBpmd

>>626
増設一択

0628名無しさん＠ピンキー (ﾜｯﾁｮｲ 13cb-jodm)

2026/01/04(日) 15:01:25.08ID:LsUrLGD80

メモリなんて上がる一方だから増設できるなら今増設しない手段は無いわ

0629名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-fu7G)

2026/01/04(日) 15:14:13.20ID:D6qgrbiFC

色々試したが結局magnum v4 123b Q8_0から離れられないワイ
いままでQ3_Mの0.17t/sで耐えてたから0.42t/sでもウハウハやわw

0630名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 15:25:27.20ID:iSIu2MWH0

やはり増設ですか
でもDDR5なので4枚差すと速度が3600まで落ちるみたいで
そこらへんDDR5の4枚差しの人はどうしてるのか気になります

0631名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/04(日) 15:26:46.87ID:3JM0FBpmd

>>630
気にすんな
メモリは量が正義

0632名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-fu7G)

2026/01/04(日) 15:53:55.73ID:D6qgrbiFC

>>630
それデフォ設定
biosでメモリ設定をxmpとかexpoとかにすればワイのは5600になった

0633名無しさん＠ピンキー (ﾜｯﾁｮｲ ef71-ylKL)

2026/01/04(日) 16:05:10.51ID:Qfkjgd5M0

DDR5の4枚はbiosアプデしなかったら起動すらしなかったんで気軽にやろうとしてたから少しビビった
それでも最終的に定格より上で安定したから3600は超えるんじゃないかな

0634名無しさん＠ピンキー (ﾜｯﾁｮｲ 4345-PPr4)

2026/01/04(日) 16:10:48.56ID:VDaryEyS0

MBやメモリのの当たり外れによるけど、4枚が同じモデルであること前提で
運が良ければ5600、悪ければ5200、最悪それ以下覚悟しとけって感じかな。

0635名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 17:09:28.51ID:iSIu2MWH0

去年なんJNVA部スレの方でDDR5の4枚をデフォの3600で使わず5600で使ってたら
CPUが壊れたというレスがあったからメモリコントローラーが焼けたのか知らないけどちょっと怖いなと思ってましたが
結構みなさん上げて使ってるんですね

0636名無しさん＠ピンキー (ﾜｯﾁｮｲ cf24-G60N)

2026/01/04(日) 17:18:35.21ID:iSIu2MWH0

まだメモリ増設はしてませんが、とりあえず試しに
Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-MXFP4_MOE-GGUF
というモデルをダウンロードしてやってみたら6.92t/sでした
どうやらmoeモデルみたいなので
>>562
の説明通りにGPUオフロードを最大にしてweights onto CPUにチェックを入れたら
20.32t/sになりました

ローカルLLMはこれが初めてですがこれは感動ですね
楽しい！

0637名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-5PTw)

2026/01/05(月) 01:01:13.59ID:AY2PQGe10

オーバークロックはアホのやることだよ
数%の性能向上のために壊す可能性ある行為やるとかアホやん
その為に専用の冷却装置か買い足したりね
そんなら初めからワンランク上のPCパーツ揃えとけって話よ

0638名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/05(月) 05:47:48.80ID:hyRe348w0

まーオーバークロックってのは、出るかもしれない運転だからね、パッケージに書かれているのは最低保証クロック数で
本当のクロック数は個体ごと違う、シリコンウエハーの円盤のどこの部分かで性能が変わるみたいだけど

0639名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-kpE1)

2026/01/05(月) 08:24:54.88ID:DLBv23jd0

moe系みたいにメインメモリ上でガッツリ回す用途にはメモリクロックさえ上げてりゃ効くから、レイテンシほぼ縮んでないJEDECネイティブ高クロックが珍しく効果を発揮する
これは比較的簡単で安全だから狙いたい

その他大半の一般用途ではネイティブやらxmp適用ぐらいじゃ意味ない

0640名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-fu7G)

2026/01/05(月) 13:20:51.95ID:B1AyZrAl0

>>639
確かにmoeは5600運用の方が若干速いね
denseだと差は感じられなかった
まあ安全のため3600運用にしときます

0641名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/05(月) 16:36:48.30ID:hyRe348w0

Grok先生が叩かれているせいで、GPTのエロ解禁がまた伸びそうじゃね

というかアルトマンが工作してるんじゃね

0642名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7e-H3VG)

2026/01/05(月) 16:50:30.89ID:4Qh9w+dX0

>>630
PC組立サービス込みでショップにまるっとお願いしたら
4枚刺しで3600に落ちるのは忍びないから5600で動作確認しておくからその設定で使ってくれって言われたな…

0643名無しさん＠ピンキー (ﾜｯﾁｮｲ 5337-wT+6)

2026/01/05(月) 17:57:30.50ID:cRoZWwY20

オーバークロックって言っても電圧上げない限り物理的に壊れることなんてほぼないよ」

0644名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr37-hOy0)

2026/01/05(月) 18:33:35.77ID:n0uxd9sVr

定格で使ってても壊れるのがPCパーツなわけだから、OCするかしないかは保証を捨てるか捨てないかって話では

0645名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-G60N)

2026/01/05(月) 18:59:34.00ID:y245qfuG0

Qwen3.5でーへんなぁ
出てこない期間が長いほど、それだけ大きいバージョンアップになるのかって期待値もどんどん膨らんでしまう

0646名無しさん＠ピンキー (ﾜｯﾁｮｲ a393-gOcf)

2026/01/06(火) 00:17:41.99ID:qwZYwG1+0

RTX5060TiでLMstudio使用で、固定キャラとして育てるチャットアバターでオススメなLLMモデルある？
いまshisa-v2.1-unphi4-14b-i1使っててこれでも悪くはないんだけど、（少し照れながら）的な表現が多かったりちょっと物足りない印象

0647名無しさん＠ピンキー (ﾜｯﾁｮｲ 5337-wT+6)

2026/01/06(火) 01:38:15.89ID:aXUY5vKz0

「んっほぉぉぉおおおぉぉぉおおお！」(少し照れながら)

0648名無しさん＠ピンキー (ﾜｯﾁｮｲ 732f-XxT8)

2026/01/06(火) 01:46:26.39ID:to45eQEE0

もう少し恥じ入ってもらいたく存じます

0649名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/06(火) 05:20:24.52ID:/7MLUjnj0

CPUやGPUの製品は性能にばらつきがあって、一番最低の能力を製品につけている。
だから個体によってはもっと性能がいい可能性がある。
最低の能力に合わせてるので、偏差的に言うとほとんどのものがオーバークロックできる。

運です。

0650名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/06(火) 05:25:30.93ID:/7MLUjnj0

3060を現役復帰させるだとっ！！

0651名無しさん＠ピンキー (ﾜｯﾁｮｲ 7346-Lv33)

2026/01/06(火) 07:39:48.60ID:k9RAtTQB0

>>646
aratakoさんのqwen3-30B-A3B-ERPとMistralPrism

0652名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/06(火) 07:44:12.70ID:/7MLUjnj0

新品の３０６０をいくらなら買う？10万出すやついる？

0653名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-XxT8)

2026/01/06(火) 07:50:21.41ID:kVrC8SoO0

VRAM小さすぎてそもそもLLMでは使えないかと
その話はゲームとかそういう用途かと

0654名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/06(火) 09:54:09.87ID:/7MLUjnj0

3060VRAM12GB×４＝48GB＋4090VRAM24GB＝VRAM72GBでLLM動かしてるけど

0655名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/06(火) 09:56:46.27ID:/7MLUjnj0

4090VRAM24GB×４だと電源がもたないのでは？

0656名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-fu7G)

2026/01/06(火) 09:58:55.49ID:4WspyGCi0

>>649
4枚さしでexpo1設定で5600にしてメモリチェック回して問題なかったけど
なんせクソ高かったから精神衛生上安くなってからexpoに戻そうと思います

0657名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-XxT8)

2026/01/06(火) 10:05:59.43ID:kVrC8SoO0

>>654
それ、4090+メインメモリと比べてどの程度速度出るんだろ？

0658名無しさん＠ピンキー (ﾜｯﾁｮｲ ef2e-L/jz)

2026/01/06(火) 11:03:58.94ID:9qL/623Z0

横からだが24GB以上必要で72GBに収まるモデルならCPUとかメインメモリ経由しなくて済むんだから全然違うのでは
LLMは画像生成みたいに1枚に乗せきらなきゃいけない制約ないし

0659名無しさん＠ピンキー (JP 0H9f-nnfO)

2026/01/06(火) 11:50:25.82ID:ywC8AgtMH

TITAN RTXがリース落ちで出回っていた頃に全部狩っておけば良かった
1台しか拾わなかったことが悔やまれる

0660名無しさん＠ピンキー (ｽﾌﾟﾌﾟ Sd5f-PPr4)

2026/01/06(火) 12:26:23.16ID:fmj2E9aGd

4070Ti Super に 4060Ti(16GB)を増設しようと中古購入したぜ。
いざ届くとPCIeケーブルが足りないから電源ユニット追加注文したり、4060がマザボのコネクタに干渉することわかったからライザーケーブル追加注文したり
LLMのための工作はこれはこれで楽しいな

0661名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-kpE1)

2026/01/06(火) 12:33:20.68ID:czaMjSi90

mGPUなんて殆どやらなくなったし折角なら一度やっておくべきよね

0662名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/06(火) 12:36:35.02ID:/7MLUjnj0

だからNVIDIAは高額なGPU一枚売るより、安価な3060を大量に売った方が儲かると考えたわけ

0663名無しさん＠ピンキー (JP 0H9f-nnfO)

2026/01/06(火) 12:37:48.86ID:ywC8AgtMH

NVIDIAにとってコンシューマ向けGPUなんて慈善事業
いつ辞めてもノーダメージ

0664名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-5PTw)

2026/01/06(火) 13:10:02.75ID:dIRnQUx/0

AIバブルにあぐらかくわけにもいかんやろ
ゲーマー市場キープしとかんと足元掬われるで

LLMの演算って専用チップ作った方が性能出せるってんで大手サービスは独自設計に移りつつある

0665名無しさん＠ピンキー (JP 0H9f-nnfO)

2026/01/06(火) 13:14:34.06ID:ywC8AgtMH

>>664
革ジャンはGrokを買ったからそっちでも勝つつもりや

0666名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-XxT8)

2026/01/06(火) 13:52:38.64ID:kVrC8SoO0

>>658
NVLINKみたいなのならともかくPCIが遅いから枚数が増えれば増えるほど効率が悪くなると思う
もし無尽蔵に早くなるならH100とか買わずに12や16GBのカード大量に買えば良いわけだが企業がそうしてないわけだし
多分限界があるんだと思う　実際どこに限界があるのかわからないけど

0667名無しさん＠ピンキー (ﾜｯﾁｮｲ cf6f-F/Mu)

2026/01/06(火) 13:56:21.97ID:hOIOeKTE0

>>651
ありがとう、試してみる

0668名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-XxT8)

2026/01/06(火) 13:57:27.67ID:kVrC8SoO0

>>663
AI特需で今は良いけど巨額を出して買ってくれてるのは世界で数社だけ
しかもGoogleなど自社でTPUを開発してそろそろ売り出しそうな勢い、お客がライバルにクラスチェンジする
特需と顧客がライバルになった時、他の市場を持ってないと長期ではかなり危ういんじゃない？

ただメモリとかすごく高いしPCそのものから人が離れたらどうするのかって問題はありそうだけど
AIに相談したらPCが高級品にになると、多くの人はスマホとかやすい端末でクラウド使うのが当たり前になるみたいな予想もあったけどな

0669名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr37-hOy0)

2026/01/06(火) 14:06:28.28ID:IifJsPNir

>663
今の立場で儲けを優先すること自体がメリットは少なくデメリットが山盛りの潜在的大ダメージ戦略でしょ
慈善事業をバンバンやらなきゃ独占禁止法が飛んでくる

0670名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-XxT8)

2026/01/06(火) 20:55:30.64ID:kVrC8SoO0

中国、「日本の軍事力強化につながる」品目の輸出禁止　だってさ
メモリ不足とか中国の企業が想像以上に頑張って暴落するかと思ってたけどPC関連ますます下がらなくなりそうだな

0671名無しさん＠ピンキー (ﾜｯﾁｮｲ 7323-slrW)

2026/01/07(水) 12:41:05.37ID:FS0KNYav0

AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
https://gigazine.net/news/20260107-amd-comfyui-rocm/

期待できるか分からないけど色々出来るようになったらいいな

0672名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-kpE1)

2026/01/07(水) 12:56:58.54ID:dyjeItMh0

radeonばっか使ってるけどllm方面じゃ理論値のrocm頑張るよりvulkanド安定なんよな　ってのがこれまでの話だけどどうなるか
大差付くなら良いよね

0673名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/07(水) 13:08:46.98ID:Y/amd7hW0

VRAMの数とCUDA対応かしか気にしてないけど、他に見る要素あるの？

0674名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-kpE1)

2026/01/07(水) 13:27:12.55ID:dyjeItMh0

VRAM帯域までは見て

0675名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-G60N)

2026/01/07(水) 14:00:10.07ID:f2bFd25i0

やっとWindowsでrocm使えるようになったんだ
ところでCUDAは19年前から使えるんだけど今まで何してたん？

0676名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f32-kpE1)

2026/01/07(水) 14:09:42.61ID:dyjeItMh0

アピールを捨ててるけど使えました

0677名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-G60N)

2026/01/07(水) 14:45:15.83ID:MvnRioxH0

ROCmは元々AMD Instinctとかの業務用GPU向けだったから
コンシューマーしか使わないWindowsは眼中になかった模様
PCでローカルAIを動かすのが流行り出したのはほんの数年前の話

0678名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/07(水) 17:03:10.02ID:Y/amd7hW0

Rakuten　AI　700Bか、なかなかやるな三木谷

0679名無しさん＠ピンキー (ﾜｯﾁｮｲ 636b-Che8)

2026/01/08(木) 10:38:07.66ID:M6Ah6DRS0

LFM2.5B-1.2B-JP思ったよりプロンプトに従うし一応エロもいけるな
このサイズにしては中々やりおる

0680名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fac-XxT8)

2026/01/08(木) 12:50:01.03ID:SSPBWWsE0

https://www.youtube.com/shorts/odx5NLbYz8g
半導体の拡大画像だけど、これってフェイクではなく本物かな？

最近、半導体がやたらと高いけど、それでも個人の予算で買えるってなんか不思議な気がするわ
こんなのどんなに頑張っても自作できる気がしない
更に、エロの為にこんな高度な技術を使うってのも何かもっと他に使い道ないのかと思ってしまう

0681名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f07-SX/8)

2026/01/08(木) 13:39:01.67ID:QTqEB4/I0

CGですよ
詐欺に遭わんようにな

0682名無しさん＠ピンキー (ﾜｯﾁｮｲ 73a7-XxT8)

2026/01/08(木) 16:01:11.57ID:qDkOWa730

LFM2.5 JPはサイズの割りにはかなり上手くやれてる方なんだけど、やっぱり1.2Bってのはちょっとしんどいところある
意味わからんくらい爆速で動くし、個人でFinetuningできるのは面白そうだけどデータセットがねぇ……

0683名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-G60N)

2026/01/08(木) 18:19:49.46ID:898P0C8x0

LFM2.5B-1.2B-JP使ってみたけど、爆速なだけで
実用性はどう使えばいいかわからん

0684名無しさん＠ピンキー (ﾜｯﾁｮｲ 636a-ER82)

2026/01/08(木) 19:16:46.59ID:FVGHXFax0

頭悪いのそのモデル

0685名無しさん＠ピンキー (ﾜｯﾁｮｲ 2320-hOy0)

2026/01/08(木) 19:48:17.46ID:XO3mr2jw0

いまどきは自宅のラボで作ってみたする奴もいるらしいぞ

0686名無しさん＠ピンキー (ﾜｯﾁｮｲ 3332-FNoR)

2026/01/08(木) 21:42:27.44ID:5QVndZy40

小規模モデルの性能が上がってくるとそれはそれでワクワクするな

0687名無しさん＠ピンキー (ﾜｯﾁｮｲ 7365-Lv33)

2026/01/08(木) 23:00:25.74ID:1dVKKogr0

5b未満のモデルはゲーム組み込み用とかそういうニーズもあるやで

0688名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/08(木) 23:08:44.33ID:Glpn+tsMd

会話らしい会話が出来る性能ではないがゲームでどう使うの

0689名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-G60N)

2026/01/08(木) 23:39:37.11ID:C3uPfQRe0

実例が今あるのかわからんけど
もしやるならガッチガチにファインチューンしたら
ゲーム内の話題だけならまともな応答返すくらいは一桁bでも出来そうな気はする

0690名無しさん＠ピンキー (ﾜｯﾁｮｲ 7370-5PTw)

2026/01/09(金) 02:22:52.53ID:7u2K8Dnp0

スマホで小型モデルを動かすのが理想だけど
どうせネット繋がってるんだから大型モデルに繋いだほうが早いってね

0691名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-G60N)

2026/01/09(金) 07:53:07.91ID:KvRiQaTo0

ChatGPTを使ってるゲームはあるけど
ローカルLLMを使ってるゲームは今のところなさそうだよな

0692名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fc7-XxT8)

2026/01/09(金) 08:06:00.67ID:4HlRfj7C0

やったこと無いから知らないけど，アダルトな会話が楽しめるスマホアプリはローカルじゃないのか？

0693名無しさん＠ピンキー (ﾜｯﾁｮｲ 636a-ER82)

2026/01/09(金) 08:54:24.24ID:uQ17JKwQ0

いやー無理だろ

0694名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-G60N)

2026/01/09(金) 09:28:44.94ID:GOSYtxZi0

学習が少ないと日本語をまともに喋れない。

0695名無しさん＠ピンキー (ﾜｯﾁｮｲ cfd9-fu7G)

2026/01/09(金) 10:51:23.37ID:QgvGH3Ck0

>>691
あれってchatgpt以外のAPって使えないのかな？
macでAP発行してローカルで使うとかできんかな

0696名無しさん＠ピンキー (ﾜｯﾁｮｲ 231e-XxT8)

2026/01/09(金) 11:27:25.15ID:mNJOAcl90

LFM2.5B-1.2B-JP気になって覗きに来たけどローカルでエロチャするには微妙な感じか

0697名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ff8-yDMQ)

2026/01/09(金) 11:34:42.40ID:ijDoORFo0

ローカルLLM使ったゲームはすでにたくさんあると思うよ
llama.cppを組み込むだけだし軽くググってもそれっぽいのが出てくる

0698名無しさん＠ピンキー (ﾜｯﾁｮｲ 53d0-F/Mu)

2026/01/09(金) 14:18:27.68ID:SpJSB7Fb0

>>691
FANZAにあったで
需要ないのか100円足らずで売られてた

0699名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd5f-nnfO)

2026/01/09(金) 14:52:11.04ID:rpg+hvq7d

Cerebrasがzai-glm-4.7の無料Tierを公開したで
激烈に速いで
https://www.cerebras.ai/blog/glm-4-7

0700名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f9f-/lw7)

2026/01/09(金) 17:07:18.90ID:QRUXNry/0

Free TierでRPD=100か
性能もGemini3Pro並なら代替になるんやが

0701名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fd5-s3Q7)

2026/01/09(金) 18:07:58.26ID:PZmIb37G0

>>699
すごい
今までクオリティと速度を両立してたのってGemini Flashだけだったけど
これは段違いに速いうえにクオリティも高い

0702名無しさん＠ピンキー (ｽﾌﾟﾌﾟ Sd5f-PPr4)

2026/01/09(金) 18:29:48.22ID:EV20mKt7d

4.7Vか4.7-Airきてくれー

0703名無しさん＠ピンキー (ﾜｯﾁｮｲ 4264-kaFj)

2026/01/10(土) 00:46:48.25ID:twt9hJur0

これはモデルが早いというよりはハードウェアが超特殊だからな・・・。
確か一枚数億とかだったよなCerebrasのユニット

0704名無しさん＠ピンキー (ﾜｯﾁｮｲ 7273-oSIQ)

2026/01/10(土) 12:37:17.37ID:Wwd3v/Sq0

Cerebrasは半導体ウェハを切り取らずにそのまま使ってる
どんなマザーボードに載せてるんだろ
https://i.imgur.com/33194P8.jpeg

0705名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ac-dyKC)

2026/01/10(土) 13:47:59.81ID:Yar5XSuB0

>>680
>>681
実際、この縮尺って合ってるのかね？
ちょっとした寒気みたいなものを覚えたんだけど

0706名無しさん＠ピンキー (ﾜｯﾁｮｲ 07a2-3T54)

2026/01/11(日) 15:48:48.43ID:w0p+zdqj0

>>699
試してみたらGLM4.7で330tok/出てて笑うしかなかった。これはもうハードウェアの暴力としか言いようがないな。

0707名無しさん＠ピンキー (ﾜｯﾁｮｲ f29f-6Z3P)

2026/01/11(日) 16:32:52.06ID:hUJonVEN0

Groqよりも速いのか？
微妙に使いたいモデルが提供されてないが……
https://console.groq.com/docs/models

0708名無しさん＠ピンキー (ﾜｯﾁｮｲ b7dd-vGEt)

2026/01/12(月) 13:24:07.64ID:lnBKDwIn0

>>699
GGUFで130GBもあるのか・・・

0709名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-5de0)

2026/01/12(月) 13:44:49.50ID:hwlGh7wi0

最近始めた人は、日本一高い山は？って質問に富士山って答えられるかでＬＬＭの性能見ればいいよ

答えられないラインがある

0710名無しさん＠ピンキー (ﾜｯﾁｮｲ f232-+fC0)

2026/01/12(月) 13:47:52.81ID:8AlFQoI20

俺は2番目を聞く派だ

0711名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e27-5de0)

2026/01/12(月) 14:22:17.16ID:8opZO6jU0

>>709
いつの話してるんだ…
LLM出始めは学習が不十分でその程度の話も答えられないケースはあったけど
2年ぐらい前にはそんなの何の役にも立たない質問するのは馬鹿のやることだって言われてたよ
今もそれ聞いてるのは知識がアップデートされてない老害だよ

0712名無しさん＠ピンキー (ﾜｯﾁｮｲ e36a-SydR)

2026/01/12(月) 14:34:36.73ID:GrWr5tZm0

>>709
それ通用したの2022年末くらいでは？

0713名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-cVtm)

2026/01/12(月) 14:56:28.29ID:LxRHWzDP0

ワイは
「小学生の男女がうんどうかいについて悪戯っ子ぽく話す会話を書いてくれ」って最初に聞いてる
これで日本語の小説のセリフ周りの性能や文の整合性チェックが分かるのでおすすめ

0714名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-cVtm)

2026/01/12(月) 14:57:36.43ID:LxRHWzDP0

ああミスった
運動会　漢字で

0715名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr17-UF1D)

2026/01/12(月) 15:15:08.69ID:UceslG1Pr

文章の良し悪しを判別すること自体も難易度が高いタスクなんだよな
判別できる人はLLMって文章上手くないな、じゃあこれで計ればいいやって自分で気付くはず

判別できないひとは、そもそもLLMって文章上手いよなとか、自信たっぷりだから信頼できるよなとか、言いだすわけで...

0716名無しさん＠ピンキー (ﾜｯﾁｮｲ 32c7-dyKC)

2026/01/12(月) 15:37:44.32ID:2OmvCRAT0

自分の得意な専門分野の事を聞いたら良いんじゃない？
LLMが偉くてもまだまだ人が強い分野だと思う
逆に知らないことを聞いたら全部説得力あって判定できないけどw

0717名無しさん＠ピンキー (ﾜｯﾁｮｲ f232-+fC0)

2026/01/12(月) 16:47:30.99ID:8AlFQoI20

知識方面は自分の専門聞くのがまあ定番よね

0718名無しさん＠ピンキー (ﾜｯﾁｮｲ 3381-NUe/)

2026/01/12(月) 20:50:57.53ID:AZ66r3L40

エロ画像を認識させて画像の内容をエロく説明させたいんだけど、おすすめの環境ある？

0719名無しさん＠ピンキー (ﾜｯﾁｮｲ 3eb3-/Z1g)

2026/01/12(月) 21:16:26.08ID:0fnRfN8z0

初心者はLM Studioが良いよ
単体で動かせてモデルダウンロードしやすいから

0720名無しさん＠ピンキー (ﾜｯﾁｮｲ 3365-NUe/)

2026/01/12(月) 23:31:00.56ID:AZ66r3L40

ありがとう
LMstudioでスレに有ったqwen3～ったので動かしてみた
期待した返答が来たけど、ちょっと速度が遅いな…
この辺はスペックをどうにかするしかないか

0721名無しさん＠ピンキー (ﾜｯﾁｮｲ f29f-6Z3P)

2026/01/12(月) 23:44:19.94ID:OIORPy+m0

これはSLMのカテゴリーかな頑張ってるけどまあ小さいなりの性能
https://www.liquid.ai/ja/blog/introducing-lfm2-5-the-next-generation-of-on-device-ai

0722名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr17-SydR)

2026/01/13(火) 09:54:32.11ID:AHx2N4uir

slmが凄いとかいう風潮やめて欲しいわ
gpt5.2ですら怪しいときがあるんだからそれより少ないのが役立つわけがない

0723名無しさん＠ピンキー (ﾜｯﾁｮｲ b732-8cZs)

2026/01/13(火) 10:39:18.45ID:gPGsq1yO0

そんな風潮あるか？

0724名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-5de0)

2026/01/13(火) 10:53:36.90ID:KI0ClFsj0

SLMは色々な用途で普通に役に立ってるし
性能が上がればさらなる小型化や同サイズでやれること増えるし
通信環境整えてサービスのAPIにつなげみたいな器材ばかりやないし
凄いの出てきたら開発も利用も用途増えるしすごいというよそりゃ

0725名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr17-UF1D)

2026/01/13(火) 11:14:32.58ID:Uk1lac2Cr

釣りタイトル文化に問題があるような
LFM2.5がすごい！という動画を拡散すると中身は見てないやつがすごいんだって記憶するという

LFM2.5は日本語が喋れるのに700MB！凄い！ってタイトルに入れてくれ

0726名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e27-5de0)

2026/01/13(火) 12:21:54.93ID:QxpbyeuB0

AI驚き屋ってのがある
知識なくても何でも新技術凄いと騒げば
同じ様に知識無いけどAIは何か凄いと思ってる層が釣れる

0727名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd12-PuTB)

2026/01/13(火) 13:00:59.15ID:f0/mo2LTd

ラズパイとかが好きなタイプの連中が騒いでるんじゃね
ミニチュアや箱庭が好きなんだろう
でんちゃと同じカテゴリー

0728名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-5de0)

2026/01/13(火) 13:34:38.68ID:KI0ClFsj0

SNSで新しいAI情報を紹介してるだけみたいなのまでAI驚き屋といって叩いて煽ってる側が
有料でAIの本質情報教えますマンみたいなのだったりする時代

0729名無しさん＠ピンキー (ﾜｯﾁｮｲ c7a8-btwR)

2026/01/13(火) 14:22:39.00ID:WR1YxfAx0

PC新調したしローカルLLM始めたいなと思ってスレ読んでたけど、割とグラボ複数でVRAM増強してる感じなんやね
グラボ1枚（VRAM16GB）だとローカルLLMはまだ難しい感じ？

0730名無しさん＠ピンキー (ﾜｯﾁｮｲ b732-8cZs)

2026/01/13(火) 14:27:27.51ID:gPGsq1yO0

VRAM16GBでもMoEならそれなりに遊べる

0731名無しさん＠ピンキー (ﾜｯﾁｮｲ 7247-YDYy)

2026/01/13(火) 14:29:25.64ID:/2Cg9zMf0

>>729
7B~14Bモデルならちゃんと動くよ
もちろんチャッピーなどオンラインモデルの性能を期待してはいけない
でも7Bってエロに関しては完全フリーだった頃のモデルばっかだから意外と楽しめる

0732名無しさん＠ピンキー (ﾜｯﾁｮｲ f232-+fC0)

2026/01/13(火) 14:35:31.61ID:O7FR8Zm10

ちょっと前に比べたらvram16gbに乗り切って日本語ちゃんと返せるモデルが乱立してるのは劇的進歩ではあるよ
普通に使えるっちゃ使える
moeも出てきたし

0733名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd12-PuTB)

2026/01/13(火) 14:42:37.09ID:f0/mo2LTd

Qwen235bが出た時に速攻でメインメモリ128GB以上の環境を作れた奴が勝ち組

denseモデルだとVRAMかメインメモリかの2択になって大型モデルでGPUを全く活かせないからな

0734名無しさん＠ピンキー (ﾜｯﾁｮｲ c7a8-btwR)

2026/01/13(火) 14:48:54.18ID:WR1YxfAx0

軽量でも動く設定いれて軽いモデル入れれば動くやつもあるよって感じかな
もうちょい調べてお試ししてみるわ、あんがと

0735名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-3e1D)

2026/01/13(火) 14:50:40.63ID:i0hzGkdj0

qwenやgpt-ossなどMoEだとGPUは1枚で十分
MoEはGPUの枚数増やすと性能が低下しちゃうんだよな
モデルを全部VRAMに載せられるならGPUの複数枚挿しもありだね

0736名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b11-8EHP)

2026/01/13(火) 17:25:06.34ID:apbJBegp0

SLMでフィジカルAIって好きな特徴の女がいたらパシャパシャしまくるデバイスとかそんな奴やろ？

0737名無しさん＠ピンキー (ﾜｯﾁｮｲ 07d7-NCp1)

2026/01/13(火) 20:35:24.00ID:q/F/NBED0

ryzen haloってのはcpuオンダイメモリなん？
この時代マザーにポン付けで128GBもあって何かそこそこに動いたらええなあ

0738名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-5de0)

2026/01/14(水) 08:01:05.78ID:TkgALyb20

3060復刻、DDR4復刻、AM4復刻

5年くらいこの状態になるってことだな、これ以上のスペックを求めるなら、高額な料金を出せと

0739名無しさん＠ピンキー (ｽﾌｯ Sd12-vlRz)

2026/01/14(水) 10:44:57.16ID:YwnyDflyd

>>726
あいつらレビューや批評はしないしな
この動画生成AIはアニメ動かしてもまともな挙動してくれないとか、そういう大切な情報ほどまったく出さない

0740名無しさん＠ピンキー (ﾜｯﾁｮｲ 3eb3-/Z1g)

2026/01/14(水) 10:56:25.16ID:py2XGvmY0

一般向けでこんなに高騰するんじゃ企業向けの高騰も時間の問題だよな
使うのにコストが掛かるんじゃ回収もキツくなるし流石に小型化が進みそう

0741名無しさん＠ピンキー (ﾜｯﾁｮｲ e36a-SydR)

2026/01/14(水) 11:58:16.52ID:TaHgEtC40

そう言えばなんで高騰してんの？

0742名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e27-5de0)

2026/01/14(水) 12:33:36.64ID:EtnTl6+W0

OpenAIが数年分のメモリの大量発注かける
↓
メモリの生産ライン圧迫されて品薄になるのでは
↓
今のうちに在庫確保せなって皆が買い占めに走って高騰

メモリの会社が生産ライン増やせばいいという話でもなくて
工場作るには数年かかるし、その後に需要が減ったらメモリ会社が大損するから慎重になる
メモリ業界って相場の乱高下で体力無い会社から死んでるし迂闊に動かんのよ

0743名無しさん＠ピンキー (ﾜｯﾁｮｲ 7258-oSIQ)

2026/01/14(水) 14:13:22.39ID:xTKgHKvP0

DRAM事業はハイリスクハイリーターンだからな
ちょっと投資ミスるとすぐ倒産する

0744名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-5de0)

2026/01/15(木) 00:13:04.65ID:lvLdrOG20

破滅的忘却のせいでAIの性能に限界が出てくる
↓
MoE発明、モデルが巨大化する代わりに破滅的忘却の影響を軽減、劇的な性能アップに成功
↓
OpenAI、Google、AnthropicなどのAI企業が立て続けにAIデータセンター建設を開始
↓
OpenAIが先んじて数年分のメモリの大量発注かける
↓
HBMを輸入できない中国と値上がり情報を得た転売屋がDDR5メモリを買い占める
↓
今のうちに在庫確保せなって皆が買い占めに走って高騰

ここまで書かないと「OpenAIが、サム・アルトマンがすべて悪いんだ～」みたいな奴が増えかねないよ

0745名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e27-hTMW)

2026/01/15(木) 01:01:25.39ID:U00pFogF0

最初の三行いる？

0746名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-5de0)

2026/01/15(木) 01:11:44.54ID:lvLdrOG20

>>745
OpenAIの買い占め報道でOpenAIを悪者にしてる奴が大量発生してるじゃん
OpenAIが買い占めなかったら競合AI企業が買い占めてただけなのに
あと、なぜAIに大容量メモリが必要になったのかを知らない人がいるかもしれない

0747名無しさん＠ピンキー (ﾜｯﾁｮｲ 520e-btwR)

2026/01/15(木) 01:12:33.18ID:gJr7NyHH0

>>744
いやgpuの製造はopenaiの仕事じゃないから普通にopenaiが悪いよ
あと2年以上前からmoeやってるしmoe化が進んでなかったらスケーリングでごり推すんだから今以上にデータセンター必要だぞ

0748名無しさん＠ピンキー (ﾜｯﾁｮｲ 666d-uqmN)

2026/01/15(木) 01:28:49.76ID:xG0eF0dQ0

ま、人類に与えられたリソースを食い潰す速度がとんでもなく加速してるって事よ
今生きてる人間にとっては楽しくて良い事だから遊びまくるしかねー

0749名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-5de0)

2026/01/15(木) 01:41:46.91ID:lvLdrOG20

>>747
MoEの理論自体は2013年発表だから時系列はおかしかったけど
Denseモデルでスケーリングごり押しができなくなったからMoE化が始まった認識であってるはず
Denseモデルはパラメーターを増やすと演算量が増えて遅くなる問題もあるから

0750名無しさん＠ピンキー (ﾜｯﾁｮｲ 7209-Bs3R)

2026/01/15(木) 01:53:48.85ID:43plYfkx0

べつにリソースを食い潰してるわけではないだろ
急激に需要が伸びたから不足しただけでスケーリングはできる分野だぞ

0751名無しさん＠ピンキー (ﾜｯﾁｮｲ 520e-btwR)

2026/01/15(木) 01:59:33.12ID:gJr7NyHH0

>>749
gpt4の時点からmoe使ってるってさんざん言われてたろ
多エキスパート小アクティブが進んだならわかるけどさ
ウエハの買い占めだって競合に嫌がらせしてnvidia相手に値切りたいだけだよ

0752名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-5de0)

2026/01/15(木) 02:23:10.99ID:lvLdrOG20

>>751
別にChatGPTだけじゃなくAI全体的な話なんだけどな
画像/動画生成も新世代モデルはMoE化してるし

OpenAIとNVIDIAの内部交渉的なことは情報がないのでわからん
あなたの妄想？

0753名無しさん＠ピンキー (ﾜｯﾁｮｲ d320-UF1D)

2026/01/15(木) 06:28:50.54ID:85Oqk5Iu0

誰のせいかと言えばトランプ関税のせいでしょう
気まぐれで関税が倍になる時代なんだから全員に先行して押さえておくインセンティブが発生してしまう
誰がやったか全く関係ない

0754名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a0-5de0)

2026/01/15(木) 07:51:01.90ID:wIvUhweV0

旧世代回帰で、得をするのはインテルだな、いいね、13世代14世代なんてなかった。インテルの主力は12世代。
もうＤＤＲ３まで戻るって話もあるし、win11もいらなかったな

0755名無しさん＠ピンキー (ﾜｯﾁｮｲ fff6-3Sqk)

2026/01/15(木) 08:02:14.39ID:or5BJ6pD0

そのうちメモリ2Gも積んでるなんてスゲーみたいになるのか

0756名無しさん＠ピンキー (ﾜｯﾁｮｲ 07ee-YDYy)

2026/01/15(木) 08:16:20.78ID:Z7oUQcFB0

今SSDもヤバい事になってきてんだよね
サンディスクが前代未聞の1～3年分のSSD代の前払いを要求とかなんとか
こっちも需給が崩壊しつつあるみたい

0757名無しさん＠ピンキー (ﾜｯﾁｮｲ e36a-SydR)

2026/01/15(木) 11:15:13.47ID:4efICQPX0

だいたい悪いことは中国のせい
だからコレもそう
買い占めてるとかじゃねえの？

0758名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-3e1D)

2026/01/15(木) 11:18:38.40ID:hPlUmZOu0

正月だったかパソコン工房でSSD4TBが3万円台で売ってけど買っとくべきだったな
HDDは余裕あるけどSSDはカツカツ
今度店行くときが怖いわ

0759名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e1c-zzHJ)

2026/01/15(木) 17:08:12.65ID:1G9XiyS30

>>751
ウエハ買い占めは事実誤認
OpenAI批判以前の問題
自分がデマ信じ込んでるアホということを自覚したほうがいい

0760代行 (JP 0Hee-U7y1)

2026/01/15(木) 20:54:56.64ID:7dBSkyyoH

【本文】↓

LMSTUDIOで少し前までqwen3-vl-8b-nsfw-caption-v4.5でNSFWの質問に回答してくれていたのですが、今試すと
I'm sorry, but I can't fulfill this request.
The content you're asking for is not appropriate and violates my safety guidelines.
If you have any other questions or need assistance with something else, feel free to ask!
という回答が返ってきました。これは設定の問題でしょうか

0761名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-5de0)

2026/01/15(木) 22:15:54.78ID:CTmaQDBZ0

llamacppで数日前にqwen3-nextの1～2割高速化のパッチが当たってたみたいやで
ただしGGUFも新しく作り直されたものを使う必要あり
unslothはもう新しいのだしとったけどqwen公式は古いままやな

0762名無しさん＠ピンキー (ﾜｯﾁｮｲ b732-8cZs)

2026/01/16(金) 05:31:22.71ID:763twXpD0

>>760
設定の問題だったりseedの問題だったり
他に何か思い当たる原因がある感じ？

0763名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fc6-SzXM)

2026/01/16(金) 09:18:02.88ID:hP+canZw0

今ってVRAM16GB RAM64GBで動くエロいLLMモデルやとなにがええんや？
ワイの設定のせいやと思うんやがkoboldcppでamaterasuは十数秒に１ワードで使い物にならんかったわ…
BerghofとMistral-Smallしか使ってない感あって持て余し気味や

0764名無しさん＠ピンキー (ﾜｯﾁｮｲ 7236-YDYy)

2026/01/16(金) 09:48:48.60ID:SL230Bd20

amaterasuってどんなやつや？と見たら123Bやん
IQ1Sでも26GBあるし
そらデカすぎてまともに動かんですわ

0765名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr17-SydR)

2026/01/16(金) 10:11:42.86ID:GfBjxY3wr

メモリ64gb積んでんなら行けるじゃん

0766名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-KoMk)

2026/01/16(金) 10:46:37.64ID:khTupJvD0

moeじゃないならそんなもんですわ

0767名無しさん＠ピンキー (ﾜｯﾁｮｲ 33a8-UsWw)

2026/01/16(金) 11:05:43.79ID:q1kks11j0

SillyTavernでAratako氏のMistralPrism-24B使ってるわ
日本語力高い

0768名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f32-cVtm)

2026/01/16(金) 11:12:15.10ID:sNseSJJI0

>>763
その構成ならqwen next 80bの規制解除版Q5_k_mがお勧め

0769名無しさん＠ピンキー (ｽﾌﾟﾌﾟ Sd12-UW4l)

2026/01/16(金) 11:42:22.06ID:RzBIoy0Nd

RAM64GBだと、50GBクラスのモデルはctx8192とかにしないと厳しいかもね。

0770名無しさん＠ピンキー (ﾜｯﾁｮｲ ff10-KtG4)

2026/01/16(金) 12:42:42.95ID:OlPZQfK10

DRAM活かすならMoEモデルだから確かにこのへんか
/mradermacher/Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF
30Bは全然エロで出てこなくて画像解説させるためにVLの解除版使っても全然ダメだったんだけど
Next 80Bはエロ自体の学習はしてる感じなんだな
繰り返しペナルティ強めてるせいでどんどん言い換えてくるの面白い

0771名無しさん＠ピンキー (ﾜｯﾁｮｲ 7236-YDYy)

2026/01/16(金) 12:48:45.28ID:SL230Bd20

コンテキスト長を増やすとどんどん性能が落ちるのは最新モデルでも変わらないので小説やロールプレイなどの用途では128K対応モデルだろうと8192推奨みたいやで
用途に合わせて仕方なく12Kやそれ以上にしてねって感じ

0772名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr17-SydR)

2026/01/16(金) 16:39:20.54ID:GfBjxY3wr

エロエロ特化のllmレンタルなら商売になるんでは？

0773名無しさん＠ピンキー (ﾜｯﾁｮｲ f29f-6Z3P)

2026/01/16(金) 16:58:44.58ID:Pt+T5RQ70

テンプレートが特殊っぽいんだけどLM Studioとかでどう動かせばええの？
https://blog.google/innovation-and-ai/technology/developers-tools/translategemma/
https://huggingface.co/google/translategemma-4b-it

0774名無しさん＠ピンキー (ﾜｯﾁｮｲ 07d0-gOcD)

2026/01/16(金) 19:53:46.01ID:0byVmzBK0

macのlm-studioでしか試してないけど

1. モデルをダウンロード
2. フォルダーマークでダウンロードした translategemma-27b-itを探して、右の歯車クリック
3. Loadタブのコンテキスト量はmaxにした(8192では試してない)
4. Prompotタブの上 (Jinja)のところを下に入れ替える(---は無視)

---
{{- bos_token }}
{%- for message in messages %}
{%- if message['role'] == 'system' %}
<start_of_turn>user
{{ message['content'] }}

{%- elif message['role'] == 'user' %}
{{ message['content'] }}<end_of_turn>
<start_of_turn>model
{%- elif message['role'] == 'assistant' %}
{{ message['content'] }}<end_of_turn>
{%- endif %}
{%- endfor %}
---

0775名無しさん＠ピンキー (ﾜｯﾁｮｲ 07d0-gOcD)

2026/01/16(金) 19:54:30.69ID:0byVmzBK0

「システムプロンプト」欄に

---
You are a professional English (en) to Japanese (ja) translator.
Your goal is to accurately convey the meaning and nuances of the original English text while adhering to Japanese grammar, vocabulary, and cultural sensitivities.
Produce only the Japanese translation, without any additional explanations or commentary. Please translate the following English text into Japanese:
---

lm-studio再起動、モデルを指定

あとはチャット欄に英文を入れるだけ。Jinjaのプロンプトで2行空行は必須。

0776名無しさん＠ピンキー (ﾜｯﾁｮｲ 07d0-gOcD)

2026/01/16(金) 19:57:49.41ID:0byVmzBK0

システムプロンプトで何語から何語、(ja)と(en)は
https://ollama.com/library/translategemma
に書いてあった

0777名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e9f-vlRz)

2026/01/16(金) 20:05:48.58ID:ZwE9wbul0

今の俺にはRAM256GBは夢のまた夢だが、RAM256GB積めばGeminiと遜色のない小説文章を出力してくれる？

Geminiは0から生み出すというよりも、元の殴り書きから小説文章を生み出すのに秀でているが、これがローカルLLMでも出来たら強いなあと

0778名無しさん＠ピンキー (ﾜｯﾁｮｲ 07d0-gOcD)

2026/01/16(金) 20:06:58.89ID:0byVmzBK0

512GByteのM3 Ultraでも足りないよ

0779名無しさん＠ピンキー (ﾜｯﾁｮｲ 33d1-KoMk)

2026/01/16(金) 21:03:16.23ID:lHszIG5Q0

今ローカルで使える最強のモデルでもgemini 2.5 flashあたり
今の最新のgemini超えるにはメモリがどうとかって話ではなくて不可能

0780名無しさん＠ピンキー (ﾜｯﾁｮｲ f232-+fC0)

2026/01/16(金) 21:32:12.97ID:cTWCf5y30

あのgrok2さんが500GBぐらいあるからね
まあサイズが性能ではないけど

0781名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e9f-vlRz)

2026/01/16(金) 21:32:43.81ID:ZwE9wbul0

>>779
Gemini2.5fでも魅力的だが、その場合は256GB？

0782名無しさん＠ピンキー (ﾜｯﾁｮｲ 36a9-KoMk)

2026/01/16(金) 22:00:31.51ID:khTupJvD0

GLM4.7を想定して書いたけども
もとにしたベンチマークはおそらくbf16で動いてるやろうから1TBになるやね

Q8ならおそらくそこまで劣化ないやろうからほぼ同等の性能が512GBでおそらくいける
それより下の量子化になるとベンチマークでは数値下がってくると思うやで

0783名無しさん＠ピンキー (ﾜｯﾁｮｲ 662b-uqmN)

2026/01/16(金) 22:28:03.19ID:2veUatO60

ノベルAIがGLM4.6だっけ？ゲミニと比べたらゴミみたいなもんだし厳しいな

0784名無しさん＠ピンキー (ﾜｯﾁｮｲ 72c7-3e1D)

2026/01/16(金) 23:47:46.88ID:1sMiMHPP0

GLM 4.5ならともかく、4.6か4.7ならGemini2.5fは越えてるだろ

0785名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f9f-W5A1)

2026/01/17(土) 00:09:21.60ID:oUrrC5qZ0

>>774-776
おおきに　macOS上LM Studioでちゃんと翻訳できましたわ

新着レスの表示

レスを投稿する

ニュース

スポーツ

なんでも

実況