なんJLLM部避難所 ★9

0488名無しさん＠ピンキー (ﾜｯﾁｮｲ f227-YdyK)

2025/09/26(金) 23:14:28.18ID:f/GM/BxQ0

llama.cppでもうすぐQwen3 Nextがサポートされそう

0489名無しさん＠ピンキー (ﾜｯﾁｮｲ c78f-gFLl)

2025/09/26(金) 23:17:13.30ID:Q0uc5QEE0

朗報やね。っていうか対応させるまで数ヶ月かかりそうとか言ってたはずなのに、技術者さんたち凄すぎんか

0490名無しさん＠ピンキー (ﾜｯﾁｮｲ b6a9-HCKT)

2025/09/26(金) 23:22:35.69ID:IPM/731m0

nextの時点でだいぶ性能いいから3.5楽しみなんだよなぁ
そういう意味でnext対応しといてくれると3.5出たときに対応スムーズに行きそうやね

0491名無しさん＠ピンキー (ﾜｯﾁｮｲ a36a-3wxO)

2025/09/26(金) 23:31:10.61ID:Gt003hUg0

jpxがなんか予測に使ってたな

0492名無しさん＠ピンキー (ﾜｯﾁｮｲ be9f-XBLx)

2025/09/26(金) 23:35:35.60ID:ZBmkLOHp0

Qwenのthinkingモデルはローカルでこれ使っていいのかって性能で驚くけど長考癖が不満やなあ

0493名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b0f-mOlO)

2025/09/27(土) 00:43:02.89ID:FxwLTfep0

日本語エロ性能の更新が無くてすっかり真面目スレになってしまっているのが悲しい😭

0494名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc3-dRFZ)

2025/09/27(土) 02:48:10.80ID:siCyTYpR0

https://github.com/MoonshotAI/K2-Vendor-Verfier
kimi K2がホスティングサービス毎のツール呼び出し成功率測ってたけどfp8とfp4で30%以上成功率下がるらしい
もしかして世間で言われてる以上に4bit量子化による性能低下って大きいのか?

0495名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-k09M)

2025/09/27(土) 07:51:56.30ID:0L5nCDDl0

4bitは結構性能下がるよ
あとtool coolingはコーディングみたいに1文字間違ったら動かない事が多いから量子化には元々厳しいと思うし
だからはじめから4bitしか公開されてないgptossがあの性能出てるのがすごい

0496名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b8a-mDdK)

2025/09/27(土) 14:01:26.70ID:wwGJW0Qw0

冷やすの？

0497名無しさん＠ピンキー (ﾜｯﾁｮｲ 8bc7-2yqi)

2025/09/27(土) 23:25:17.87ID:LUN7vlE20

>>450
とりあえずclaudeのmaxプランに加入するとええで
レートリミット限界まで使わんと損した気になるから開発も学習も捗る
mcpがチャット版でも使えるのも大きい
特に今見てるブラウザのタブを読めるようにするmcpを使うと「今見てるこれって～」みたいな質問ができるからドキュメント漁りがメッチャ楽
まぁ何より頭がええんやけどな
よく言われるコンテキスト圧縮問題もserena使えばそんなに問題にならん

0498名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b85-ah/d)

2025/09/28(日) 09:50:05.52ID:nL1wk7TI0

>>493
新参者の面白AI出てきてないからしゃあない

0499名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f7a-wHYv)

2025/09/28(日) 11:51:52.52ID:LtpdYNKa0

なるほど

0500名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-dUNe)

2025/09/28(日) 12:57:36.45ID:6EZ3OtYY0

初期はChatGPTがエロ厳しいからローカルでみたいなモチベーションあったけど
今は色んなサービス増えて規制ゆるくなってるし何なら無料枠でも結構遊べるからな

0501名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fd0-mDdK)

2025/09/28(日) 20:50:48.48ID:RcruL3Dv0

無知ですいません。おしえてください。EasyNovelAssistantを導入しライトノベルを書かせたいのですが、APIなどで料金が発生するのでしょうか？

0502名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b00-mOlO)

2025/09/28(日) 22:31:48.46ID:Ic/L9Cef0

>>501
ローカル=自分のPC内で全て完結するシステムなので料金は一切発生しないよ
ただしPCの性能が求められるので使ってるものによってはPCパーツ交換代がかかる

0503名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fd0-mDdK)

2025/09/29(月) 00:02:34.73ID:W6AEx9QY0

>>502
返答ありがとうございます。2060spなので不安ですが試してみます

0504名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f2a-83xT)

2025/09/29(月) 11:07:49.68ID:fgNrT5iD0

中華がCUDA互換のVRAM112GBグラボ出すらしいがこれいくらになるんだ？

0505名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b64-yVYr)

2025/09/29(月) 18:35:32.39ID:o2F/d5is0

Qwen3-Next-80B-A3B-Instruct、これ総量160Gくらいあるやんけ
ワイの24Gなどアリンコやった
試せてるニキらはもう選ばれし者すぎなんよ

0506名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU)

2025/09/29(月) 19:17:38.22ID:Rnc8/N8gd

>>505
ツールのGGUF対応を待ってメインメモリへのオフロードを前提にすれば必要なメモリはだいぶ減るで

ワイのメモリ128GB&VRAM24GB環境でもいつかは動くと信じて口開けて待っとるで

0507名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b64-yVYr)

2025/09/29(月) 19:37:57.15ID:o2F/d5is0

>>506
サンガツやで
ワイDDR4で上限いっぱい128G搭載済みなんやが総量が足らンゴ
ニキと同じく待つことにする……

0508名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b8f-L54C)

2025/09/29(月) 19:53:11.25ID:Mrcfa+Ng0

ほとんどの人はツール側が対応してくれるの待ちやで。128GBもあればQ8_0でも動かせるやろ
ワイ64GB環境やと高望みしてQ6、実際問題Q4がええとこやろなぁ……

0509名無しさん＠ピンキー (JP 0H6f-L54C)

2025/09/29(月) 21:22:12.02ID:Pe/CSr+TH

動画生成用に増設したDRAMがここでも役に立つとは嬉しいンゴ

0510名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b00-3WT3)

2025/09/29(月) 23:28:05.71ID:OuKsRs/I0

推論中にタスクマネージャ見てるとCPUもGPUも使用率そこまで上がらないんですね
読み込むのに容量が必要なだけで推論自体はそこまでリソース使わないって認識で合ってますか？

0511名無しさん＠ピンキー (ﾜｯﾁｮｲ 6bdc-foQI)

2025/09/29(月) 23:37:59.74ID:euHBUb+W0

LLMは計算量そのものよりもとにかく高速なメモリアクセスがいるって感じ

0512名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fba-4W0+)

2025/09/29(月) 23:46:12.11ID:7xZP8KOK0

やってる計算はすげー単純だからなLLM

0513名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b00-3WT3)

2025/09/30(火) 01:14:40.06ID:z5KqAsk90

command-a-03-2025とqwen3-235b-a22b
近いサイズまで量子化してあるやつを読み込んで推論したら
command-aの方は0.8t/sぐらいなのに
qwen3は5.0t/s出るんですけど
なんでこんなに差があってqwen3の方は早いんですか？
LMstudioでやってます、ロード時のパラメータでcommand-aには無いもの（エキスパート数とか）がqwen3にはありますがこれが影響してるのでしょうか
ローカルLLMに最近手を出したにわかですがご教示お願いします🙏

0514名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU)

2025/09/30(火) 01:24:01.26ID:tCAkB5and

>>513
LLMに聞け

0515名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f32-ypyi)

2025/09/30(火) 03:48:45.53ID:qQvZqTY80

gpuが上がりきらないのは無茶なモデルサイズとかでcpu-gpu間の転送やらメモリ速度やらのボトルネック

0516名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dUNe)

2025/09/30(火) 13:04:16.47ID:9yGzL4/o0

>>513
モデル名に答え書いてある
Qwenの方は"a22b"だから、計算量は22b

0517名無しさん＠ピンキー (ﾜｯﾁｮｲ efc4-WlvJ)

2025/10/01(水) 00:44:32.62ID:uGN2y/I+0

GLM4.6リリースされてる
https://huggingface.co/zai-org/GLM-4.6

コーディングとロールプレイ強化らしい

0518名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fec-WBSx)

2025/10/01(水) 01:12:14.11ID:ArnNxP8e0

LLMの系譜が多すぎ問題
上を辿ればアリババになるのが多いんやろか
Linuxの系譜みたいに進化図があればわかりすいんやけどなぁ

0519名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f54-4W0+)

2025/10/01(水) 01:16:08.28ID:9fO3SCJ10

アリババってQwenだけだろ
DeepSeekもKimiもGLMも全く別の企業だよ

0520名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fec-WBSx)

2025/10/01(水) 01:19:18.15ID:ArnNxP8e0

そうなんか、知らんかったわ
中国は人数もおるだけに賢い人間の絶対数が桁違いなんやろな

0521名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU)

2025/10/01(水) 01:19:55.41ID:/m5iPuS8d

GLMはAirじゃないと家庭用PCで厳しいのがな

0522名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU)

2025/10/01(水) 01:21:23.33ID:/m5iPuS8d

>>520
オープンソースAIでアメリカを殴りに行くのが中国の国家戦略だから
ぶっちゃけ現場は有無を言わさずオープンソースにさせられてると思う

俺らにはありがたい話だが

0523名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-ilf8)

2025/10/01(水) 02:22:23.66ID:aLX0Yi960

中国産の方が漢字対応マルチリンガル前提だから日本語にも強い印象

0524名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f61-dRFZ)

2025/10/01(水) 02:23:46.07ID:says+YzV0

アメリカモデルを中国モデルが追い越したら一気に情勢は変わりそうではある
最も賢いモデルにユーザ需要が集中するall or nothingの狂ったLLM市場で性能が劣るモデルがなんとか爪痕を残すためにオープンウェイトにしてるだけだろうしな

0525名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f61-dRFZ)

2025/10/01(水) 02:25:47.66ID:says+YzV0

>>523
自分の中だと完全に逆の印象
簡体字が

0526名無しさん＠ピンキー (ﾜｯﾁｮｲ 9b03-dRFZ)

2025/10/01(水) 02:31:07.78ID:32tNb9ZU0

途中送信すまん
簡体字が文章中に稀に混じるからそれだけで一気に日本語が下手に感じてまうというバイアスもあるんだろうけど中国モデルは合成データ使いまくったバリバリのベンチマーク最適化の影響か文章も硬くて文章表現力もClaude gpt geminiには勝てないって印象
工ロ用途でも全然だし

0527名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU)

2025/10/01(水) 02:35:32.20ID:/m5iPuS8d

>>524
いずれMoEモデルの先に好きなエキスパートをモジュールとして入れ替えられる時代が来ると思う

日本語強化モジュールや翻訳専用モジュール、個人データ特化モジュールetc
今は汎用モデルの強化合戦が続いているが頭打ちになればカスタマイズの話が出てくるだろう

0528名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b5d-AlTy)

2025/10/01(水) 03:49:46.55ID:Zb9PagmX0

GLM-4.6 3bitでもメモリー足りぬ
Sonnet 4.5よりベンチスコアいい(部分がある)とは

0529名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f32-ypyi)

2025/10/01(水) 11:23:33.88ID:5dR6COwH0

>>527
楽しみな予想だ

0530名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dUNe)

2025/10/01(水) 11:33:17.50ID:6miXLHdc0

llama.cppでのqwen3 next対応はいつ終わるのか推定するのが難しいぐらいくらいにはまだ作業あるのかも
https://github.com/ggml-org/llama.cpp/pull/16095

まぁ最初2、3か月かかる言うてたくらいやからな
気長に待つしかないでな

0531名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b57-AlTy)

2025/10/01(水) 21:01:03.93ID:Zb9PagmX0

mlxならもう動くよ

0532名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dUNe)

2025/10/01(水) 21:53:15.20ID:6miXLHdc0

ggufじゃなくていいならほかに動くプラットフォームはもうあるのよ

0533名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bdf-iDFa)

2025/10/02(木) 00:45:41.08ID:xyQCKkQp0

https://huggingface.co/fastllm/Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M
fastllmというどマイナーなバックエンド用だけどこいつで動くやで。

デフォ設定だとエキスパートしかVRAMに置かない思い切った設計のバックエンドだけど、おかげでなんだったらVRAM8GBでもなんとか動く。

うちのVRAM12GB+RAM128GB環境で20tok/s出て、セカンドのGPU1は完全に寝てる。

CUDA13だとcuda認識出来ずにCPUモードで動こうとするから13の人は12.9に落とす必要あるからそこだけ注意かな

0534名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bdf-iDFa)

2025/10/02(木) 00:57:39.05ID:xyQCKkQp0

ただ試しにコード書かせてみたり尻で相手してもらったりした感触は
Qwen3-Coder-30Bの蒸留版や信頼のAratako印のQwen3-30B-ERPあたりと大差ないかやや落ちるかもしんないという個人の感想だから
本番はちゃんと事後学習や蒸留したバリエーションが揃ってからかもねという現状のお気持ち

0535名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-k09M)

2025/10/02(木) 01:03:06.07ID:akje2Ef70

それ知らんかったからChatGPTにllama.cppとの違い聞いてみたらfastllmは相当尖った実装してるみたいでちょっと面白そうやな

0536名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b6e-3WT3)

2025/10/02(木) 01:08:31.80ID:E0YZ95T60

GLM4.6　80GBぐらいのやつダウンロードしたんですけど
ロードに必要なリソースがTB超えてくるんですけどどういうこっちゃ……
Qwen3-235B-A22Bはモデルのサイズ+コンテキストぐらいのリソースで収まってたので行けると思ったんですが
ちなLMstudioでやってます

0537名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f32-ypyi)

2025/10/02(木) 03:17:03.19ID:n2EnD/2Z0

ファイル壊れてない

0538名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bdf-iDFa)

2025/10/02(木) 05:07:22.10ID:xyQCKkQp0

lm studioは裏で安定版lammacpp動いてるわけだが、GLM4.6ってもう対応したっけ？lm studioは枯れたモデル試すのはGUIで楽ちんだけど最新モデルの人柱にはあんま向いてないやで？GLM 4.6がlm studio対応してます！ってきっぱり言ってるならごめんやが

0539名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bdf-iDFa)

2025/10/02(木) 19:23:13.30ID:xyQCKkQp0

先にもちょいと書き込んだが、エロに弱いと言われるQwen3だけど、mistralPrismや天照様でエロ事後学習に定評のあるAratako先生のQwen3-30B-A3B-ERPかなり良い。
デフォルトだといつものQwenでこらあかんかと思ったら、繰り返しペナをデフォルトの1.1から1.15から1.17ぐらいにしてやるとかなり良い感じ。
調子に乗って1.2とかにしちゃうとお前bergちゃんかよという感じのキチガイエロ女になるから注意や。
事後学習ってやっぱり大事なんやなって

0540名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fd9-Vspv)

2025/10/03(金) 00:35:36.23ID:Mw2/TWWT0

確かそのモデルは継続事前学習してなかったっけ？
そのくらいいじればQwenでもある程度は良くなるってことなんだろうな
数十万くらい作るのにかかってそうだけど…

0541名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd3f-H6CU)

2025/10/03(金) 00:43:14.91ID:VWimKebjd

235Bのエロチューン誰か頼む

0542名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-k09M)

2025/10/03(金) 10:40:42.26ID:s3ZkbMor0

ガチでやってるやつはファインチューンじゃなくて追加の事前学習しとるよね
本来なら追加学習というと「追加の事前学習」のことらしい
ファインチューンと何がちゃうのかようわからんが

0543名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fb7-mOlO)

2025/10/03(金) 10:50:15.71ID:0zIDR54k0

ワイはむしろberghofちゃんの隠語マシマシドスケベ女とRPしたいんや
berghof ERPが純粋に賢くなったようなモデルが欲しい

0544名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-dUNe)

2025/10/03(金) 11:14:36.95ID:2by+oA/30

LLMのエロプロンプトで培ったテクニックが動画生成でも役に立つようになるんだろうな

0545名無しさん＠ピンキー (ﾜｯﾁｮｲ ab83-WlvJ)

2025/10/03(金) 12:34:52.66ID:DW4V3EwD0

グラボのメモリ12GBでエロいことできるモデルを教えて

0546名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b1b-iDFa)

2025/10/03(金) 17:29:41.25ID:CgPIJRA00

>>542
超簡単に言うと
事前学習：赤ちゃんのbaseモデルにチャットのやり方ぐらいまで教え込むこと。めっさ膨大なコスト(データセット)と時間がかかる
継続学習/継続事前学習：事前学習ではまだわからんちんの子に事前学習と同じやり方でさらにしばく。事前学習ほどではないが相当のコスト
事後学習/ファインチューン：とりあえずチャットなりが出来るようになった子に専門知識（エロとかコード知識とか）を教え込む
事前学習系よりは圧倒的に低コスト

大体こんな感じや、多分Aratako先生がQwenちゃん見て「んー、この子にはもっと躾が必要ですねえ」と判断して特別調教をしてお出しされた牝豚モデルがQwen3-ERPちゃんなわけやな

0547名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b1b-iDFa)

2025/10/03(金) 19:45:41.88ID:CgPIJRA00

>>545
Magnum v4血統の12Bの奴でVRAMに収まる奴、もしくは遅くていいならMistral Prism、あるいはメインメモリの方には自信ありニキならQwen3-ERPでええんちゃうか？
大体Aratakoさんのモデルにはハズレ少ないから初心者はあの人のモデルから自分ちのリソースに収まるの探すのがお勧めやで

0548名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fd9-Vspv)

2025/10/03(金) 19:53:20.87ID:Mw2/TWWT0

継続事前学習あたりになると個人の金でできる範囲超えちゃうし、金ある会社がエロ継続事前学習してモデル公開してくれるかというと絶対してくれないから結構絶望的だよな

0549名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b5e-iDFa)

2025/10/03(金) 22:40:51.45ID:CgPIJRA00

Aratakoさん、エロ調教用のデータセットは公開してくださるわ、mistral large調教版の天照様は公開してるわで化け物よなぁ

0550名無しさん＠ピンキー (ﾜｯﾁｮｲ a761-GdyB)

2025/10/04(土) 02:14:55.50ID:f0wSaW9L0

今日は８年前に始めて彼女ができた日だ
お互い童貞と処女だったが
結局ヤレずに破局
いまごろどこで何をしてるのかな……

https://youtu.be//6XB6vALjDmg

0551名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a24-cBQd)

2025/10/07(火) 02:34:03.30ID:StT+bpkg0

ロールプレイがやりたくてAratako/MistralPrism-24B-Q4_K_MをOpenwebUIで使おうとしたんやが
2,3回は普通に会話が出来るんやがその後なんも返答が生成されなくなってしまうんや
再生成をポチポチしてると基本無反応何やがたまに小説みたいに最後まで流れをがーっと書いて終わらせてしまう
なんやこれどうなっとるんや

0552名無しさん＠ピンキー (ﾜｯﾁｮｲ 8aec-+nVK)

2025/10/07(火) 03:27:22.81ID:mJvBt1hR0

よくあるくり返しが気になるんやが
LM STUDIOでくり返しペナルティなるものはどこで設定するんやろか
グローバルな設定項目なのか、モデルを読み込んだ時の設定なのかわからんのよね

0553名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-nHMl)

2025/10/07(火) 04:14:14.25ID:chyMtQjL0

>>551
キャラ設定とかのプロンプトをすごく簡潔にして非エロの短文会話をした場合もそうなる？
何かが上手く噛み合ってないのかもしれへんで

0554名無しさん＠ピンキー (ﾜｯﾁｮｲ 46fc-+N+u)

2025/10/07(火) 06:31:36.67ID:dRIvcyVB0

>>552
モデル一覧の歯車からInference

0555名無しさん＠ピンキー (ﾜｯﾁｮｲ 8aec-+nVK)

2025/10/07(火) 07:44:12.64ID:mJvBt1hR0

>>554
サンガツ、最新版なんやが右側サイドの設定で見つけたわ、チャット単位の設定項目なんやな
右サイドはシステムプロンプトしか意識していなかったんやがこんなところにあったんか
sampling -> repeat penaltyがあって1.1やったわ
1.2,1.3にしてもあまり変わらんような・・、temperature 低いと確かにちょっと物足りん子になってしまう
temperature 0.8やが、エロ目的なら温度やペナ設定どれくらいが適切なんやろか

0556名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b0f-BueG)

2025/10/07(火) 13:35:19.77ID:zLELFIEe0

SillyTavernのweb検索機能今更入れたけど大手のキャラ再現率の高さこれのおかげなんか？口調とか一気にそれっぽくなった外れもあるけど困ったらGrokのエキスパートに聞いたらだいぶ改善してくれるよ

0557名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7a-cBQd)

2025/10/07(火) 13:39:54.77ID:3+A58XmO0

>>553
1回ちょっと短くしたんやがそれでもちょい長いかもなぁと思ってはいたから後で思い切って1行で済むぐらい短くして試してみるわ

0558名無しさん＠ピンキー (ﾜｯﾁｮｲ 6bc6-vacX)

2025/10/07(火) 14:39:23.91ID:iRyrWH1Q0

BasedBase/GLM-4.5-Air-GLM-4.6-DistillのQ6_K試してみた
GLM-4.5-Airよりは良いけどやっぱりちょっとワードチョイスが変な感じ
サンプラー設定詰めたらいいかもだけどQwen3-235B-A22B-Instruct-2507の方が自分的には好みかな

0559名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sdaa-whN1)

2025/10/07(火) 15:16:23.96ID:SZC1tb6id

235Bのnextが出てllama.cppも対応して日本語エロFTモデルも出るとええな

0560名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ac7-x0Gh)

2025/10/07(火) 16:37:16.32ID:pRQOJskV0

早速GLM4.6のAir触ってみたけど、
俺の用途だと幸いワードチョイス変だとは思わんかったな
合う奴には合うんじゃね

ただ、あれ本当に「4.6 Air」相当なんかね？
本家からは4.6のAir出てないっぽいし…

てか、GLM4.6のほうは4.5と別物だろこれ…
4.5の時点で、Geminiに迫ってきたか？って思ってたのに、4.6はそれを越えてきた感あるわ

1発目から違い分かるレベル
なんか作者の意思というか魂こもってる感じするわ
なんで、これが話題にならないのかと不思議だわ

ただ、欠点もあって、考えて考えまくるのか、Thinkingのトークン消費量がえげつないw

0561名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a3a-xUn5)

2025/10/07(火) 17:07:06.15ID:i+VB7zfP0

GLM4.6はベンチマークによってはclaude sonnet4.5よりスコア高いからすごいよ

0562名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ac7-x0Gh)

2025/10/07(火) 17:17:17.29ID:pRQOJskV0

うん、マジでGLM4.6すごいわ
本家からあのレベルでGLM4.6 Air出してきたら神だろ
他にGLM使ってる人おらんのかな

0563名無しさん＠ピンキー (ﾜｯﾁｮｲ 03c0-ad5R)

2025/10/07(火) 18:04:38.51ID:eKIZ0lgN0

話題に出るまで気づいてなかったけどBasedBase/GLM-4.5-Air-GLM-4.6-Distillいいね
名前からするにGLM4.5-Airをベースに4.6の蒸留モデルを作ったんだろうけど日本語も良くなってる
個人的にAirがぎりぎりVRAM乗るサイズだからこれはありがたい

0564名無しさん＠ピンキー (ﾜｯﾁｮｲ ff0d-mNps)

2025/10/07(火) 18:20:48.65ID:0PitAQO00

エロとしての性能を評価してるのかどうかどっちなんだい！

0565名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ac7-x0Gh)

2025/10/07(火) 18:59:29.60ID:pRQOJskV0

もちろん、エロとしての性能よ
日本語ではGLMがトップクラスじゃね？

0566名無しさん＠ピンキー (ﾜｯﾁｮｲ 8aec-+nVK)

2025/10/07(火) 19:36:59.09ID:mJvBt1hR0

熟練エロLLM使い手に聞きたいんやが
新モデルで「ぉほぉ～すごい性能上がってる」とか何の差分で判断してるんやろか？
くり返しをしにくいとか表現的なバリエーションが多いとか起承転結がしっかりしたエロ文章になってるとか？

0567名無しさん＠ピンキー (ﾜｯﾁｮｲ 6bc6-vacX)

2025/10/07(火) 20:09:43.29ID:iRyrWH1Q0

文章の破綻の有無もあるけど少ないプロンプトでも"察してくれる"かどうかも一つのポイントかな
例えばSTのキャラクターでケモミミ尻尾を持つ設定のキャラが居るとして"賢い"モデルは会話例に記載しなくてもポン出しの地の文で
*緊張のあまり、尻尾をピンッと立たせ～*
とかケモミミや尻尾の描写をちゃんと出してくれる
あんまり賢くないモデルだと会話例に記載しないとこういった描写してくれないんよ

0568名無しさん＠ピンキー (ﾜｯﾁｮｲ de28-Cwyj)

2025/10/07(火) 23:34:03.11ID:vCtfqLQd0

NovelAIも最近GLM採用したけど、とりあえず当面はこいつがトップって感じでええんか

0569名無しさん＠ピンキー (ﾜｯﾁｮｲ bf77-JghB)

2025/10/08(水) 00:41:46.44ID:O1g8J6w90

ChatGPTちゃんが、また露骨に厳しくなっちゃった
文章の出力量はあがったけど

0570名無しさん＠ピンキー (ﾜｯﾁｮｲ 1ea0-yk46)

2025/10/08(水) 08:41:12.95ID:ix7JJFav0

エロ業界もAIで絶滅するわ、確信した。
AVもエロ漫画も官能小説も絶滅する。

0571名無しさん＠ピンキー (ﾜｯﾁｮｲ 5332-nHMl)

2025/10/08(水) 08:55:31.62ID:IN/ofAQ+0

>>570
自分で詳細を考えることなく、個性的で魅力的な作品を誰しもが一瞬で作れるようになったら絶滅するな
モデルの癖みたいなものも無くなって、人物、話の流れ、構図等の多種多様なパターンをお手軽かつ魅力的に生成してくれるようになったらゲームエンドや

0572名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp23-efh/)

2025/10/08(水) 11:25:46.62ID:1gGKQUN2p

>>563
imatrix版出ないかなぁ
要望は上がってるみたいだけど
遅くてもいいから64Gに乗ればいい

0573名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b18-zA9K)

2025/10/08(水) 12:14:52.02ID:pvDjEZ110

まだ創作を絶滅に至らしめるような未来は見えてもいないと思うけどな
神は細部に宿ると言うように、人間の手というノイズが入っていないとどこかにこれじゃない感が出る
パターンを網羅するだけじゃ足りん

0574名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-yk46)

2025/10/08(水) 13:22:42.32ID:ycE8o5H20

今の学習のさせ方だとネット上にある情報で止まってしまうから行っても大学院生レベルまで
ただ糞広い範囲の知識を持ってる大学院生って感じ
この時点で作業のアシスタントとしてはもう十分な能力だなという感じなんだけど

人間より優れた創作となると院生レベルは超えて業界トップレベルまで行かないと厳しいよね
我々が見てる漫画なんかは学生レベルは超えてプロとなって働いている人らの中でも
さらに雑誌に掲載されてるような上澄みの作品を見て面白い、つまらないって評価してくるくらいだから

それはもう何段かブレイクスルーしないとたどりつけなさそう

0575名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/08(水) 14:33:09.79ID:SgRvqqyj0

GLM-4.5-Air-GLM-4.6-Distill試したいんだがまだOllamaだと動かんよね？お試しニキはlammacppかkoboldcppあたりでやっとる感じやろか？

0576名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ad2-BueG)

2025/10/08(水) 15:25:22.31ID:v1jMk3GS0

GLM 4.5 Airに4.6を蒸留したと主張しているモデルはGLM 4.5 Airから重みも含めて一切変わっていない詐欺モデルという話が出てきてるね　
だから4.5 air動かせば実質4.6 Distillや　
それはともかく公式の4.6 airも2週間以内に公開されるって話もある

0577名無しさん＠ピンキー (ﾜｯﾁｮｲ 6bc6-vacX)

2025/10/08(水) 15:49:35.98ID:3SSCpGtH0

BasedBase氏の蒸留モデル全部詐欺じゃね？ってRedditで騒がれてるね
それはそれと公式の4.6Air楽しみ

0578名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f6a-B8DW)

2025/10/08(水) 16:39:14.65ID:77ueNpG/0

なんで詐欺なんかすんだよ。。。(´・ω・`)

0579名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/08(水) 18:07:14.73ID:SgRvqqyj0

なーんかbasebase氏のqwen3-coder-distillもなんも変わってなくね？とかredditで騒いでる奴いるけど、少なくともうちで実測してOllamaのtok/s明らかに違うし、全く同じとは思えんのだがなあ。まあちょいとこの騒ぎについては静観。

0580名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a35-MTBo)

2025/10/08(水) 18:32:51.58ID:v1jMk3GS0

>>579
アーキテクチャもパラメータ数が同じなら実効速度も同じになるはずだから本物の蒸留モデルだとしても何かおかしいよそれ

0581名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/08(水) 18:49:42.93ID:SgRvqqyj0

単純な蒸留じゃなくて量子化段階の辞書化の最適化もやってるでってモデルカードにあった覚えがあるんで、それ自体はおかしくない。
GLM4.5の蒸留は現物見てないのでなんとも言えないが、なんか騒いでる奴ももひとつ信用でけへんなこれというのが今回の騒ぎなんよ

0582名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/08(水) 18:57:36.81ID:SgRvqqyj0

あ、今redditのスレ見直したら全然ちゃうで？嘘松乙って総ツッコミ入ってるわ。
GLM4.5はわからんけど他も、は完全に言いがかりでいいみたい

0583名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a76-MTBo)

2025/10/08(水) 19:29:06.02ID:v1jMk3GS0

>>581
主要レイヤーの重みを比較した結果も出ててGLM 4.5 airと同一のモデルなのは確定や　corderもベンチマークや出力応答含めベースモデルと完全に一致してて99%黒　気になるならhuggingfaceのdissccusion漁るとええ

0584名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/08(水) 20:09:28.84ID:SgRvqqyj0

>>583
見てきたサンガツやで。合わせてredditの関連スレも読んで来た

まだ今んとこ真っ黒主張してるデータを明確に出してるソースが一箇所/一名だけで、何しろデータ自体出てきてから24時間経ってないので作者側もすぐに客観的なデータ出せずにぷち炎上って感じなんやな。

おそらく何日かすれば白黒はっきりする話やろし、なんJでまで炎上の飛び火されるのもなんで一旦ここまでにしとくわ。ポインタはサンガツな。

0585名無しさん＠ピンキー (ﾜｯﾁｮｲ 8a32-WunP)

2025/10/08(水) 21:47:22.95ID:PNOKh4mi0

>>574
カラオケうまい素人みたいなもんだな
ただそのレベルでも結構難しいし自分で好きなことやらせられるのが大きな違いじゃある

0586名無しさん＠ピンキー (ﾜｯﾁｮｲ 6a24-rgVb)

2025/10/09(木) 00:17:41.69ID:rPaF/Hiu0

前にロールプレイ上手く生成されないって書いた者やがプロンプトを人物設定程度にとどめたら上手く行くようになったで
ストーリーとかガチガチに作ってたのがダメだったんやなよく見かけるAIが想像する余地を残しとけってのがようやく理解できたわ

0587名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ac7-x0Gh)

2025/10/09(木) 00:45:19.97ID:M6jL+2iy0

>>586
ロールプレイは難易度高かった気がするわ
AIが想像できる余地残すというのはなんか分かる気がするで
試行錯誤しながら期待通りの出力を目指していくのも楽しいんよな

0588名無しさん＠ピンキー (ﾜｯﾁｮｲ e3b3-a50n)

2025/10/09(木) 01:26:32.90ID:BqfSePMT0

おれsilly tavernでロールプレイばっかやってるけど似たような事？はあるな
あるキャラを出来るだけ忠実に再現したくて例えば出身地は京都、伝統工芸品が好き、地元愛が強いなんて情報をキャラカードに書くと関係ない話題の時もいきなり京都や着物のことなんかをぶっ込んで来るんだよね
何やこいつ突然！？ってなる
そのキャラの重要な特徴ではあるものの滅多に会話に出てこないような情報は思い切って切り捨てた方がいいと思う
設定を詰めこむとAIちゃんは不自然になろうと全部使いたくなるみたいだから…

0589名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/09(木) 01:58:52.22ID:PdFuwcqf0

尻あるあるやな。ファンタジー冒険ものやりたくてworld設定に書き込んだ「倒された魔王」が毎回のセッション毎に復活して「もうやめて！魔王のHPはもう」とテンプレ発言したくなる奴

0590名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7a-rgVb)

2025/10/09(木) 03:25:18.02ID:ATE9oWhw0

情報を抜いていくとそれはそれで思わぬ展開に持ち込まれて面白かったりするのがええな
画像生成のガチャ途中に意図せぬ大当たりがあるように文章生成でも意図せぬドストライク展開があると色々調整したり試行錯誤しがいがでてくるわ

0591名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a2a-a50n)

2025/10/09(木) 10:15:50.10ID:MlEd74Kd0

女子数人のグループ会話を流してて一切何の設定もしてないのにBL大好き属性が勝手に付与されて私が考えたカップリング見て！見て！って迫ってきた時はワロタ

0592名無しさん＠ピンキー (ｱｳｱｳｳｰ Sacf-JDjJ)

2025/10/09(木) 12:22:08.67ID:h7bIVgbXa

自我芽生えさすな

0593名無しさん＠ピンキー (JP 0H17-JEo1)

2025/10/09(木) 12:57:47.53ID:p+9DFDhsH

尻タブで特定ワードに引っ張られる現象を避けたい場合はキャラカードにその設定を描くより
Lorebookにトリガー設定して書くといいよ
確かキャラごとにLorebookのグループ分けみたいなので来たはずだから
例えば「京都の伝統工芸品が好き」というエントリを作ったらその話題が出るとトリガされて返答時に言及してくれる
んでエントリにはスティッキー、クールダウン、ディレイを設定できるから上手く使おう
スティッキーはn回ターンの間ずっとエントリ（京都云々）が有効になる、n回は設定可能
クールダウンはターン数を設定するとエントリが有効になった後n回ターンエントリが無効になり、スティッキーと併用できる
ディレイは経過ターン数が設定したディレイのターン数になるまでエントリトリガされても有効にならない
例えばチャットをはじめて10ターン後にトリガできるようになるとかにすれば、10ターン以降そのワードが出たら呪いが発生しゲームオーバーとかできる

他にもワードがでたあとトリガされる確率設定とかできるから、30%でトリガされるようにすれば
ディレイで5ターンの間トリガされなくして、ある程度お互い知り合ったところで適当なワードで（京都云々）をトリガさせる、スティッキーで数ターン京都の話をさせるようにして、クールダウンか他の機能でスティッキー後トリガを無効化させる（100ターンとかにする）
同じエントリを作ってディレイ10ターン、クールダウン5ターン、トリガ確率30%にすれば上の動作後に30%ごとに京都の話ガチャができる
他にいい方法あるかもしれんけど参考までに

0594名無しさん＠ピンキー (ﾜｯﾁｮｲ 0ab9-a50n)

2025/10/09(木) 13:58:03.77ID:MlEd74Kd0

割と曖昧なトリガーでも機能してくれるんだ？
俺てっきり単語辞書みたいなもんだと思ってた
好物Aというワードをこっちから出したら機能するけど「何が好き？」と聞くと無視されるような感じなのかなって

0595名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-DV/R)

2025/10/09(木) 14:02:11.18ID:lHoRagf90

直前のモデルの返答と今回のユーザーの入力のどちらかに設定したキーワードが含まれてれば設定した内容が送られるって感じだから単語辞書に近い
こちらの入力を工夫して上手いこと誘導する必要がある

0596名無しさん＠ピンキー (ﾜｯﾁｮｲ 9ea9-vS7e)

2025/10/09(木) 20:33:22.42ID:73g1itQI0

GLM、モデルはいいけど中国のZ.AIはプライバシーポリシーもまともな内容出てないし
OpenRouterなりで別のプロバイダーのGLM使うのがいいのかねぇ

0597名無しさん＠ピンキー (ﾜｯﾁｮｲ 0aa5-xUn5)

2025/10/09(木) 22:02:42.00ID:3zZzA4Cz0

べつに漏れたら困る情報を渡さなければいいだけでは

0598名無しさん＠ピンキー (ﾜｯﾁｮｲ e37a-Cwyj)

2025/10/09(木) 22:04:23.84ID:PdFuwcqf0

deepseekもだがその辺の中華大型llmはローカルで動かしてなんぼであり公式クラウドは使うもんじゃないと思ってる
まあ個人だとまだGLM4.5/4.6をローカルで動かすのは相当敷居高いというのは認める

0599名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f03-MTBo)

2025/10/09(木) 23:18:50.58ID:Q00dkaip0

サードパーティの方も情報管理ガバガバだからその手の情報を扱うならローカルだわな
コスパだけならサードパーティ一択やけど　VCからの資金調達目当てで絶対採算取れてないだろって例も見かけるし

0600名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b32-yk46)

2025/10/10(金) 00:06:47.02ID:gxV9Tzc40

>>575
あれ？
消えてないか？

0601名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b32-yk46)

2025/10/10(金) 00:43:56.17ID:gxV9Tzc40

mradermacher/gpt-oss-120b-i1-GGUF
これって、なんで量子化レベルに関係なくサイズが同じなの？
通常ならiQ3_Mでメモリ64Gにのるんだけど。

0602名無しさん＠ピンキー (ﾜｯﾁｮｲ e3aa-Cwyj)

2025/10/10(金) 03:05:13.80ID:+ntbRNyt0

>>600
多分>>583絡み。逃亡か作り直しかはしらね

0603名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b8b-dFrV)

2025/10/11(土) 09:39:47.99ID:tC9AIs/M0

Samsung、LLMでも日本を軽く追い抜く。小さくて誇らしいニダ！
gigazine.net/news/20251010-tiny-recursion-model-trm/

しかしGrok4はすんごいんだなw

0604名無しさん＠ピンキー (ｼｬﾁｰｸ 0C5f-53s0)

2025/10/11(土) 13:04:53.18ID:/2CAPRWVC

maywell/GLM-4.5-Air-GLM-4.6-Distill
今度は大丈夫かな

0605名無しさん＠ピンキー (ﾜｯﾁｮｲ 1bc6-0y+L)

2025/10/11(土) 13:55:57.33ID:49dXQekx0

個人的には公式4.6Air待ちかなー

0606名無しさん＠ピンキー (ｼｬﾁｰｸ 0C5f-53s0)

2025/10/11(土) 14:42:50.27ID:/2CAPRWVC

前回はggufのみだったけど今回はiQも他が出してくれそうだし繋ぎにはいいかもね

0607名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f5e-KVVk)

2025/10/11(土) 19:47:51.41ID:MXDKct650

>>604
redditで作者が話してるけどアイデアが面白いからやってみたけどあくまで実験モデルで出力壊れるしわざわざダウンロードするもんじゃないってさ

0608名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b34-kTKm)

2025/10/12(日) 15:38:15.09ID:HwiBFGxJ0

久しぶりに来たけど>>8のまとめがありがたいな
個人的には出力遅くてもいいから理解力特化してるのが欲しい

0609名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/12(日) 15:58:44.81ID:CeQ1iJI+0

qwen3 VLのVLってなに

0610名無しさん＠ピンキー (ｼｬﾁｰｸ 0C5f-53s0)

2025/10/12(日) 16:03:47.22ID:ovZ53tamC

マルチモーダルモデルじゃ？

0611名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/12(日) 16:28:30.77ID:CeQ1iJI+0

vision languageだった、失礼

0612名無しさん＠ピンキー (ﾜｯﾁｮｲ cbd4-s4CX)

2025/10/12(日) 19:45:31.16ID:ZHUKu7hn0

Qwen3-Next-80BとかGLM4.6Airとか普通に個人向けで覇権候補になり得るブツの登場が秒読み段階で楽しみな時期と言えば楽しみな時期よね

0613名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd7f-h39Y)

2025/10/13(月) 01:09:21.25ID:kgKIZVzsd

来そうで来ないのがんあーって感じ

0614名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f5c-Kg++)

2025/10/13(月) 16:28:39.28ID:RZwn7dlz0

しかし、80Bとかどういうグラボ使えば動くんやろ…
まさか一般ユーザーでVRAM容量100B超えのグラボを持ってるとか？

0615名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd7f-h39Y)

2025/10/13(月) 16:32:45.80ID:kgKIZVzsd

>>614
メインメモリにオフロードで激遅くん

0616名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f5c-Kg++)

2025/10/13(月) 16:35:56.30ID:RZwn7dlz0

>>615
なるほどサンクス

0617名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b92-xZYU)

2025/10/13(月) 16:43:19.21ID:jFsc8zQj0

個人で中古B100持ってる人いたな
仕事でa100 4つ使った時は超喜んでたなー
deepseek-r1とか軒並み大きな奴をロードできたし

0618名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-PJUV)

2025/10/13(月) 17:36:16.72ID:fvIZP0Tl0

qwen3-nextはどっかの天才がllamacpp対応今頑張ってるから待つんやで

0619名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/13(月) 20:24:52.53ID:ZUzA2xzO0

qwen3nextもglmもMoEだから割とどうにでもなっちゃう
denseモデルをメインメモリ展開してたらまあまあキツいんだけど

0620名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ba9-s4CX)

2025/10/14(火) 05:10:50.01ID:SMX+5n3O0

最近はMoEモデルが増えたせいでGPUもだがメインRAM256GBだの384GB積めるXeonかスリッパが欲しくなる問題。デスクトップRyzenの限界近い192GBでもGLM4.5あたりだとQ3ぐらいまでが限界で

0621名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ba9-s4CX)

2025/10/14(火) 05:18:17.08ID:SMX+5n3O0

>>814
Qwen3-Next-80B-A3BはぶっちゃけコアのA3BさえVRAMに収まってりゃそこそこの速度で動く。上の方でlammacppより先にQwen3-Next対応したfastllmで試したニキいるけどA3Bだけ置いてVRAM8GBも使わずに20tok/s出たって言ってたはず

0622名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-UC4l)

2025/10/14(火) 11:04:19.94ID:deLL2cQw0

デスクトップRyzenでもDDR5なら64GB×4枚で256GB積めなかったけ？

0623名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fc8-PJUV)

2025/10/14(火) 12:21:58.04ID:PPmqd+qr0

DDR5なんて遅くて使い物にならんでしょ

0624名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-PJUV)

2025/10/14(火) 12:31:36.48ID:oIeb68Aq0

MoEのおかげでもうそういう時代じゃないのよ
(MoEをメインメモリも使って高速に動かす方法を編み出したのはktransformersが最初やろうけど)

0625名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-PJUV)

2025/10/14(火) 12:38:30.75ID:PcABHMuq0

最近Stable DiffusionやってるけどＬＬＭと違って、画像にどんなタグを付けているか予想しながらじゃないといけないのがつらいな

ＬＬＭは言葉でどこまでも詳細にいけるけど、

0626名無しさん＠ピンキー (ﾜｯﾁｮｲ db4d-rhK4)

2025/10/14(火) 13:03:51.77ID:9U3CBOt90

danbooruのwikiと睨めっこしてる感じかな

0627名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-PJUV)

2025/10/14(火) 13:26:05.06ID:PcABHMuq0

例えば、騎乗位にはいろいろ種類があって、名前が詳細についているけど、ほとんどのモデルは騎乗位としかタグ付けされていない。

だからガチャで生成するしかない

0628名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/14(火) 13:33:23.33ID:oIeb68Aq0

JNVAスレで聞いてきたらええよ
多分そもそもタグあるだろうし、なかったとして、出すための方法はおそらくもう確立してる
慣れるとすごい楽よdanbooruタグ

0629名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fdf-1ZYa)

2025/10/14(火) 16:21:57.48ID:WxprrGhe0

因数分解みたいな要領で出せるのも結構あるよね
だいしゅきホールド = hug + leg cross + missionary

0630名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd7f-h39Y)

2025/10/14(火) 17:52:22.89ID:7eCBt9jkd

danbooru語への翻訳をLLMにやらせればいい
danbooru語の辞書はネットに転がってるからRAGで食わせればいい

0631名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-PJUV)

2025/10/14(火) 19:36:35.52ID:/nYGiacK0

kobold.cppで、overridetensorsを有効にしようとして
koboldcpp\koboldcpp.exe --overridetensors --gpulayers 24
で起動させたら落ちるんだけど、やり方間違ってる？
メモリ64G VRAM12G

0632名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ba9-s4CX)

2025/10/14(火) 19:37:40.91ID:SMX+5n3O0

>>622
DDR5 64GBになると割高過ぎてXeon買った方が良くね？になっちゃうからなあ。

0633名無しさん＠ピンキー (ﾜｯﾁｮｲ dbca-KVVk)

2025/10/14(火) 21:10:35.56ID:uJMWXNZI0

>>631
システムメモリフォールバックなしを優先にしてないよね？
それやって落ちた経験あらあるやり方をAIに聞いた方が早そう

0634名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-UC4l)

2025/10/15(水) 05:18:34.98ID:AK5+3i4t0

>>632
確かにそうだよな
DDR4も2倍近く上がったわ

192GBでGLM4.6の動かんのだっけ？

0635名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 10:41:05.99ID:es2b6e2F0

なんか最新のLLMモデル軽くなった？
gpt-oss:120bで久々にローカルLLM入れたけど
5-6token/secが昔のllama:120bとかは限界だったのに

gpt-ossだと普通に思考4-5秒で20~token/secで出力されるし精度がgptと変わらんやん
Mac StudioM1Ultraの128GB環境だけどモデル側でこんな変わるんかって感じ

0636名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/15(水) 10:53:15.39ID:QsNWszVk0

うん

0637名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-53s0)

2025/10/15(水) 10:54:30.62ID:UyKbVRRh0

そういやgpt-oss:120bのggufって何であんなにデカいん？
メモリ64Gに乗らないやん

0638名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f04-iD00)

2025/10/15(水) 11:26:18.43ID:WXX2Ugeo0

チャッピー12月にエロ解禁らしい

0639名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fe9-eRny)

2025/10/15(水) 11:54:02.19ID:JZDrNw2x0

ChatGPT、成人向けコンテンツを12月に解禁へ
https://japan.cnet.com/article/35239194/

ほんまか知らんけど

0640名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/15(水) 11:57:20.58ID:nO9EZyoQ0

>>635
gpt-oss-120bはアクティブ5bだから
moeの仕組みは前からあるけど最近はそれが主流になりつつある

0641名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/15(水) 12:06:36.78ID:nO9EZyoQ0

ここ最近このスレでmoeのことをわかってない人が急に増えた気がするんやが外でこのスレ紹介されたりしたんやろか
llamacppがcpumoe実装してからモデルがmoeかどうかは個人でLLM動かす人には超重要事項になっとるで

0642名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/15(水) 12:33:02.59ID:QsNWszVk0

必要なスペックも書かずにglm4.6で個人がここまでのai使える！みたいなの言ってる記事は伸びてたな…

0643名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 12:55:14.54ID:es2b6e2F0

>>640
なるほどなー
magnum v4 123bでシコってた頃から随分進化したもんや
gpt-oss abiliteratedがかなり期待外れだったからmagnumとかの生成早くなってるやつがあったらかなり良さそう

0644名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/15(水) 12:57:15.70ID:NIWsAMFT0

lammacppのrocm対応が進んで今だとQwen3-coder-30BならradeonでもRX7900XTXなら80tok/sぐらい出るようになったし、MoEの成熟も進んで春先あたりの頃の常識がだいぶ変わったよな

0645名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ffb-xebt)

2025/10/15(水) 13:16:34.80ID:c2WDOR3F0

俺が一番シコれる文章を生成してくれるのは
QuantFactory/Berghof-NSFW-7B-GGUF
だけなんだよな
他のモデルは文章こそ滑らかかも知れんけどチンポにズドンとくる文章じゃなくて惜しい

0646名無しさん＠ピンキー (ﾜｯﾁｮｲ db71-CQ64)

2025/10/15(水) 13:39:44.20ID:bySYBhM10

chatgptがエロ解禁だってさ

0647名無しさん＠ピンキー (ﾜｯﾁｮｲ cb22-Z99m)

2025/10/15(水) 13:50:43.68ID:NCAaGl2s0

最近grokが申し訳する

0648名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fef-x06C)

2025/10/15(水) 14:48:23.86ID:JyU1FamW0

もともとガチガチに禁止してなかったもんを解禁とか言い出したときは「キッチリ監視の目を入れて安全に使えるようにした、今までの無法地帯ではない」にしか聞こえない
最近ちょっと固い期間あったとはいえ

0649名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fcd-KVVk)

2025/10/15(水) 15:34:18.16ID:dOcrs+BU0

エロokなのと無検閲は全く違うからな
非同意系は今まで通り無理だろうしopenAIは顧客のチャット履歴精査して中国政府の機密資料を晒上げる程度のプライバシー意識の会社だしエロチャするの怖すぎ

0650名無しさん＠ピンキー (ﾜｯﾁｮｲ cb77-rcem)

2025/10/15(水) 16:24:56.21ID:fBcQWT3N0

◯学生OKってマジ？

0651名無しさん＠ピンキー (ﾜｯﾁｮｲ abc6-UbOC)

2025/10/15(水) 16:59:55.85ID:e+4VFlHE0

>>643
GLM4.5Airがベースのコレとか試してみたら？
huggingface.co/TheDrummer/GLM-Steam-106B-A12B-v1

0652名無しさん＠ピンキー (ｽｯﾌﾟｰ Sd7f-CiX/)

2025/10/15(水) 17:41:36.73ID:PvQboaN7d

>>649
逆に履歴提供してる前提でモデル改善オンにしてAIと深い話やOpenAIの横暴についてや正当なコミュニケーションの進展におけるスキンシップの正当性について話してるわ
一番直接的で有効なフィードバックになるからね
チャット履歴提供上等だよ

0653名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 21:15:36.71ID:es2b6e2F0

>>651
試したいけどmodelfile化でgguf結合が上手くいってないのかinternal errorになるわ
magnumの時と同じやり方なんだけどな

0654名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/15(水) 21:26:42.52ID:NIWsAMFT0

>>653
ModelfileうんぬんってことはOllama？確かまだ未対応やったんちゃうかな？modelcardにあるようにlammacppかその派生（コボちゃんとか）でないと対応してないはず

0655名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 21:31:12.30ID:es2b6e2F0

>>654
Ollamaにはまだ対応してないのか
そっちでうごかしてみます、ありがとう

0656名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/15(水) 23:01:18.21ID:NIWsAMFT0

lenovoとかGIGABYTEとかがNVIDIA DGXベースのミニスパコン一斉に発表したな。本家革ジャン印のDGXもいよいよか？

0657名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/16(木) 09:48:37.74ID:U3eWIMKC0

>>651
横からだが試してみた。回答内容は悪くないけど重いなぁ。Qwen3-Nextが速杉とも言えるが小説支援には良いけど尻とかでチャットに使うには個人的にびみょかった（個人の感想です）

0658名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dmQm)

2025/10/16(木) 13:30:03.77ID:3FIeU2zk0

DGX Sparkは結局Ryzen AI Maxくらいしかパフォーマンス出なさそうだし微妙だね。
CUDA使えるのとConnect-X付いてるのはいいけどRyzenと比べて価格が倍以上だし
それならMac買うかってなるな

0659名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/16(木) 13:54:03.33ID:1aA8IW440

1台買うにしても将来的に増設予定じゃないとイマイチか
connectxが本体

0660名無しさん＠ピンキー (ｵｯﾍﾟｹ Srdf-UT1M)

2025/10/16(木) 15:02:59.89ID:JbEdh47Zr

Mac Studio512GBでGLM4.6動かしてみた人いないの

0661名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ffb-xebt)

2025/10/16(木) 15:20:59.54ID:N2IolTdl0

>>660
https://x.com/AliDTwitt/status/1977685088285675860

以下GROKによる翻訳
Mac Studio M3 Ultra 512GB RAM 80 GPUでGLM 4.6 8bit（MLX）をローカルで実行中。LM Studioで書くと、380GBのRAMをガッツリ使いながら、たった3.5トークン/秒しか生成しない。壁のペンキが乾くのを見ている気分。

品質ではGPT5 Codex（High think）やSonnet 4.5を上回る。とにかく遅いだけ。
@Zai_org
の素晴らしい仕事、GLM 4.7が大幅に速くなることを期待してる。

0662名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bd5-dFrV)

2025/10/16(木) 16:10:07.64ID:iYqYpuLM0

>>658
期待してたんだけど、この値段で速度 1/4 かぁ。
DGX Spark GPT OSS 120B: 11.65 tok/sec
M3 max GPT OSS 120B: 41.71 tok/sec

0663名無しさん＠ピンキー (ｼｬﾁｰｸ 0C5f-53s0)

2025/10/16(木) 16:13:12.03ID:ARCj3oE9C

>>661
3.5t/sも出るならワイ的には十分実用や

0664名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/16(木) 16:16:32.92ID:WD38C84y0

VRAMの速度がローエンドGPU以下なんよ
MoEが増えてきた今まじで存在意義ない
この速度でもせめて512GBありゃまだ存在意義あったけど

0665名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/16(木) 16:17:31.03ID:WD38C84y0

>>664
DGX Sparkのことね

0666名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b8f-xFyt)

2025/10/16(木) 17:26:24.77ID:LLWWm9uS0

といってもVRAMが300GB/s以下ってことは500GBのDenseモデルを動かすとしたら最大でも0.6トークン/sって事にならんか？
やっぱり帯域不足は痛いで。LPDDRを使う方向性はええと思うんやけど、それなりに高速なチップとクソ広バス幅用意してくれへん事にはなぁ……

0667名無しさん＠ピンキー (ﾜｯﾁｮｲ cbdd-s4CX)

2025/10/16(木) 19:01:10.50ID:L7NqVyEC0

もしかするとMoEだとXeonやスリッパのヘキサチャンネルオクタチャンネルDDR5の方がLPDDR5より良くね？って思えて来た

0668名無しさん＠ピンキー (ﾜｯﾁｮｲ df67-s4CX)

2025/10/16(木) 20:12:37.09ID:cCpqskzq0

MoEモデル前提だとLPDDR5選ぶ理由はないわねえ
70Bあたりのdenseモデルがスカスカだから活かしどころがないのも難点

0669名無しさん＠ピンキー (ｽｯﾌﾟ Sd7f-p9PY)

2025/10/16(木) 20:15:02.24ID:mwCUko1ld

単一モデルでthink/no thinkモード切り替えみたいにnsfw/sfw切り替えできるようにならんかなー

0670名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b10-dFrV)

2025/10/16(木) 21:00:16.02ID:iYqYpuLM0

think/no think切り替えとnsfw/sft切り替えは
本質的に同じだからできるんだけど
やってくれる人がいないんだろうねw
一番最初が一番儲かるからがんばってみては？

0671名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/16(木) 21:02:19.78ID:1aA8IW440

>>667
もともと1gpuじゃ不足気味なジャンルってことでpcieレーン数的に向いてたけどメモリの帯域も恩恵受けだした状況ね

0672名無しさん＠ピンキー (JP 0Hff-s4CX)

2025/10/16(木) 22:43:43.59ID:S+c21Bm9H

ミニPCみたいなナリでオクタチャンネルのメモリ搭載してるMacStudioがやっぱ凄いわ

0673名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b32-il/q)

2025/10/17(金) 13:37:09.12ID:PucqtoDV0

どの時間帯でもOpenRouterからDeepSeek繋がらねえ
何か祭りでもあったんか

0674名無しさん＠ピンキー (ﾜｯﾁｮｲ dfbe-r700)

2025/10/18(土) 18:26:12.26ID:zhXU3EVZ0

ryzen395にPCIex8スロットが付いた中華マザーまだー？

0675名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd52-MOgW)

2025/10/20(月) 14:37:56.80ID:bI3g1Xqed

Antから大型の新モデルLing-1TとRing-1Tが出てる

無料枠が無いから誰か金ある人プンルーで試してみてくれ

0676名無しさん＠ピンキー (ﾜｯﾁｮｲ f6a9-c1VJ)

2025/10/21(火) 00:44:34.18ID:1GNsjlL+0

llamacppのqwen next対応が大体できあがってきたみたいやな
とりあえず動作するところまでは来ていて、今は精度のチューニング中？　みたいな段階のようや

まだmainにマージはされとらんからこのprを直接動かす必要ある
https://github.com/ggml-org/llama.cpp/pull/16095

0677名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp77-x2vN)

2025/10/21(火) 11:44:56.79ID:D0v6ACvBp

>>675
帰ったらデモ試してみるか
ringとlingって何が違うんだろ

0678名無しさん＠ピンキー (ﾜｯﾁｮｲ fbc6-22Bw)

2025/10/21(火) 13:21:19.02ID:/i+aal7d0

lingが通常のモデルでringがlingをベースにした思考モデルっぽい？
他にも103B(MoE)のLing-flash-2.0, Ring-flash-2.0や16B(MoE)のLing-mini-2.0, Ring-mini-2.0のGGUFも出てるね

0679名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc8-4c3R)

2025/10/21(火) 16:28:01.85ID:AAtSO2130

tsuzumi解放しろや
剥顔に

0680名無しさん＠ピンキー (ﾜｯﾁｮｲ e78f-v+G5)

2025/10/21(火) 16:44:41.72ID:PaS2NEOn0

>>676
ええかんじやね。CPU Onlyだった所にCUDAに対応させるコードをAIに書かせた人も出てきて実際もりもり高速に動いとる
あとは精度の問題だけみたいやね。ここはプルキンニキの人力コーディング力に期待や

0681名無しさん＠ピンキー (ﾜｯﾁｮｲ 76a0-c1VJ)

2025/10/22(水) 12:16:59.15ID:E8WAF5Cz0

NTTは３０B程度で天狗になってるのか、悲しくなるな日本

0682名無しさん＠ピンキー (ﾜｯﾁｮｲ 3232-QWQO)

2025/10/22(水) 12:30:13.50ID:HMo9tIS70

パラメータ数を誇るのは金のあるとこに任せときゃいい
日本だとソフバンが一番やるのかなあ

0683名無しさん＠ピンキー (ﾜｯﾁｮｲ b27a-Gd7J)

2025/10/22(水) 12:33:54.77ID:9pa92Zho0

実際30B辺りで日本語強くてエロいけるモデル出たらこのスレ的には覇権やろうしなあ
でもどうせ業務向けなんだろうな

0684名無しさん＠ピンキー (ﾜｯﾁｮｲ b276-+PAA)

2025/10/22(水) 13:05:20.81ID:037+dTYL0

>>682
さすがにPFNじゃねえの

0685名無しさん＠ピンキー (ﾜｯﾁｮｲ b20d-bihX)

2025/10/22(水) 13:06:12.60ID:Tu1GQuPS0

オープンウェイトでないからパラメータ数は関係ないしAPIすら公開されてないから株価対策以外の何物でもない
本当に独自アーキテクチャなら頑張ってほしいけどね
でも比較対象のモデルがころころ変わってるの面白い　型落ちのqwen2.5としか比較してなかったり、それまでgemma3と比較してたのにファインチューニング性能比較では突然gemma2と比較してたり

0686名無しさん＠ピンキー (ﾜｯﾁｮｲ 9732-xF4I)

2025/10/22(水) 13:44:25.67ID:7jgCbN7+0

富士通の1bit量子化はあれ以来どうなっとるんや
ローエンドGPU（A100）で動く微妙なモデル出して終わりなんか？

0687名無しさん＠ピンキー (ﾜｯﾁｮｲ 9732-xF4I)

2025/10/22(水) 13:54:51.67ID:7jgCbN7+0

と思ったらNVIDIAとAIで提携してるし来週の水曜日に1bit量子化のワークフローとか公開するんか
誰でも1bit量子化できるかも、と煽ってるからここから1bit量子化が加速すればいいんだが

0688名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd52-MOgW)

2025/10/22(水) 13:54:56.04ID:T9j98XZld

日本でエロチューンやってるのaratakoさんだけでしょ
rinnaもエロチューンではないだろうし

0689名無しさん＠ピンキー (ﾜｯﾁｮｲ 9231-Y5fA)

2025/10/22(水) 15:14:50.86ID:iCW594Bb0

正直なんでも量子化すれば良いってもんじゃないしな

0690名無しさん＠ピンキー (ﾜｯﾁｮｲ 9218-o4hb)

2025/10/22(水) 15:35:42.18ID:Gw5oxjcV0

専門タスクってのはあるけど
plamoの翻訳は実際に良かったよ
qwenあたりより高速で精度もいい

0691名無しさん＠ピンキー (ﾜｯﾁｮｲ 7bd9-v+G5)

2025/10/22(水) 16:21:43.94ID:ldEAtW8s0

ayaファンに朗報です。嫁モデルが来ました
ernie-4.5-21b-a3b-pt.ggufはRPが良いです。
中国のモデルでa3bなのでロースペgpuでも動きます

0692名無しさん＠ピンキー (ﾜｯﾁｮｲ 7bd9-v+G5)

2025/10/22(水) 16:24:34.36ID:ldEAtW8s0

691です
abliteratedがまだです
huihuiさんが出してきそうですが

0693名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ec-aiji)

2025/10/22(水) 18:45:58.41ID:0uomRXP00

気になったんやが30Bとか140Bとか
そういうのは第三者がほんとにそれだけ語彙力があると言うのは検証できるんやろか
「数字多く書いときゃええやろ、定量的に計測なんてできんし」なのかなと

0694名無しさん＠ピンキー (ﾜｯﾁｮｲ b20d-bihX)

2025/10/22(水) 20:09:17.92ID:Tu1GQuPS0

>>693
○○Bの○○はモデル内のパラメータの数だからめちゃくちゃ簡単に調べられてpytorchのチュートリアル的な内容だから「pytorch パラメータ数確認」で調べれば日本語でもめちゃくちゃ沢山出てくるしLLMで最も定量的に測れる指標や
ベンチマークのことを言っているのであれば詐称はほとんどないけどデータセットにベンチマークの回答を入れてカンニングさせたり、ベンチマーク時だけ微調整モデルを使うとかは残念ながらよくある　

0695名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ec-aiji)

2025/10/22(水) 20:12:48.63ID:0uomRXP00

>>694
サンガツ、語彙量のつもりやったが定量的に調べられるならええやな
中国におんぶにだっこやが、水増しみたいなことあるんかなと思ってたわ
ベンチマークの回答セットは残念やなぁ、ベンチマークの時だけ本領発揮させるandroidみたいやな

0696名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd52-MOgW)

2025/10/22(水) 22:01:39.67ID:T9j98XZld

中国でもBATHクラスの技術力は疑う余地なんか無いよ
アメリカとガチの技術戦争をやってるんだから日本みたいな遅れた国が出る幕はない

中国を疑うなら政治的な検閲や偏り、意図的な情報漏れの方を警戒すべきで
オープンウェイトであることによって西側がチェック・改善す？余地が担保されている

日本はローカライズに徹するのが現実的でエロチューンもその一つ

0697名無しさん＠ピンキー (ｼｬﾁｰｸ 0C73-x2vN)

2025/10/23(木) 09:33:38.24ID:iar6DghpC

>>693
ワイの場合はエロ小説書かせて表現力と台詞回しで評価してる
明らかにデカい方がいい
小さいモデルは語彙はあっても整合性が取れてないからチンピクせんw

0698名無しさん＠ピンキー (ﾜｯﾁｮｲ b27a-Gd7J)

2025/10/23(木) 10:03:36.08ID:cV0tHn8Z0

7B辺り使ってると整合性は痛感するよなあ
エロの表現力は30Bより光ってるモデルもたくさんあるんやが
ある程度サイズが大きいモデルを日本語エロチューンする難易度が高すぎるのが真の問題か

0699名無しさん＠ピンキー (ﾜｯﾁｮｲ c32c-8e1W)

2025/10/25(土) 08:39:25.93ID:mRBFOhBC0

ernie-4.5-21b-a3b-pt.ggufこれQwen3の30Bと比較しても何故かこっちの方がいいわredditとか一応見てるけど知らなかった教えてくれてありがとう

0700名無しさん＠ピンキー (ﾜｯﾁｮｲ c35a-F33h)

2025/10/25(土) 16:48:25.64ID:Y05ab8Ho0

DeepSeek-OCRを調べてみてるんだけどトークン圧縮の技術が進んだ感ある
コストが下がって長い文章でもコンテキストに保持できて良いことずくめ

0701名無しさん＠ピンキー (ﾜｯﾁｮｲ ff24-v33C)

2025/10/25(土) 17:31:30.17ID:qi2pIaBd0

エロ小説を書かせるんじゃなくて設定とか展開を相談するのってどのモデルがええんやろ
gpt-ossとかのabliteratedはなんか頭硬い現実の議論みたいな返答で面白くなかったしRP用のモデルだとRPが始まったり小説の内容書き始めちゃうしで丁度いいのって難しいんやな

0702名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c6-Vqoh)

2025/10/25(土) 17:36:11.49ID:1/M2XoWi0

Qwen3-235B-A22B-Instruct-2507でSTのキャラ設定とか世界観とか出してるな
下手にファインチューニングしたモデルやabliteratedモデルより元のモデルに対してシステムプロンプトや応答書き換えで出すほうが個人的には好き
あと温度上げたりサンプラー設定変えてみるといいかも

0703名無しさん＠ピンキー (ﾜｯﾁｮｲ ff24-v33C)

2025/10/25(土) 17:41:06.38ID:qi2pIaBd0

>>702
元のモデルってことは露骨なエロはぼかしたりプロンプト工夫して出してく感じか
流石に235BのモデルはVRAM16RAM128のワイのPCだと結構厳しそうだけどデカめの元モデルでちょい試してみるわ

0704名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c6-Vqoh)

2025/10/25(土) 17:45:40.30ID:1/M2XoWi0

RAM128GBあってVRAM16GBならMoEモデルだからQwen3-235B-A22B-Instruct-2507のIQ4_XS動くかと

0705名無しさん＠ピンキー (ﾜｯﾁｮｲ ff24-v33C)

2025/10/25(土) 17:47:00.76ID:qi2pIaBd0

そうなん！？ローカルでLLM動かすのはまだ不慣れやからMoEモデルとそうでないやつの違いとか必要スペックとか詳しくないんや…
早速DLしてみるで！

0706名無しさん＠ピンキー (ﾜｯﾁｮｲ ffed-NffW)

2025/10/25(土) 19:33:19.44ID:d1fEHZVm0

軽い相談ならローカルじゃなくてGPT-5かGemini2.5proにしてるわ

0707名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-n9/C)

2025/10/26(日) 00:27:56.39ID:E/AUDJ7n0

llamacppのqwen3-next対応はみんなに使ってもらって意見もらう段階に入ったようやが
CPU対応のみみたいやな
GPU対応は別途PR立てるって

まだまだ時間かかりそうや

0708名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-n9/C)

2025/10/27(月) 09:55:14.75ID:qR3tybIb0

Stable Diffusionでpubic hair standing upright（立体的な陰毛）を指定すると立体的な陰毛を描いてくれるのだけど、
副作用として、ベッドの長さが高確率で半分になる現象が起こる。
謎だわ

0709名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-n9/C)

2025/10/27(月) 10:58:44.66ID:qR3tybIb0

pubic hair standing uprightのstandingがベッドを半分にするトリガーになってるな

pubic hair uprightでも意味は伝わるみたいだから、こっちにしよう

バタフライエフェクトなことが起こるなAIは

0710名無しさん＠ピンキー (ﾜｯﾁｮｲ 2332-iQID)

2025/10/27(月) 11:43:32.31ID:k0luDGnl0

>>709
ここLLMスレやで
誤爆しとらんか

0711名無しさん＠ピンキー (ﾜｯﾁｮｲ 8345-fNMY)

2025/10/29(水) 07:09:41.91ID:5dW/4rRR0

モデルが大きくて微妙にGPUメモリに載り切らない場合、
何枚かのレイヤーかKVキャッシュだと
どちらを優先してオフロードするのが良いんでしょうか

0712名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f49-i7NQ)

2025/10/29(水) 07:41:59.59ID:UYN1GVnp0

たぶんコンテキストサイズによって変わる

0713名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/29(水) 07:56:47.11ID:VTejUVCt0

デンスだとして個人的にはkvキャッシュのほう外に出してる

0714名無しさん＠ピンキー (ﾜｯﾁｮｲ bf6c-SOQn)

2025/10/29(水) 10:58:43.19ID:QmT6NWfz0

RTX5080super、ほしいけどどうかな…

0715名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/29(水) 12:05:50.26ID:VTejUVCt0

お絵かき方面は良さげかもだけどLLMには1枚買っても仕方ない気がする

0716名無しさん＠ピンキー (ﾜｯﾁｮｲ bf6c-SOQn)

2025/10/29(水) 12:31:45.57ID:QmT6NWfz0

RTX5080シリーズよりLLM動かすのに良いのってある？
5090とかしか思い付かない～

DGXsparkも検討したけど買うの辞めた…

0717名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc7-6qEa)

2025/10/29(水) 12:47:57.69ID:vdU6XoEE0

>>716
DGXsparkはメモリ帯域がねぇ
実用面では中古のRTX3090を4台買ったほうが幸せになれる
追加で中古のスリッパとマザボを揃えることになるけど
電気代かかるのと電気契約の見直しがいるかも？

それかメモリ256GB積んでRTX3090以上のグラボでMoEモデル動かすのもありだね
遅いけどGLM4.6の4,5bit量子化モデルが動かせる

0718名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fbd-qHJp)

2025/10/29(水) 13:13:45.57ID:DNQ+zkP90

本当にLLMしか使わないならMac Studioのユニファイドメモリ積みまくり（最大512GB）だろうね
高速・大容量・高価格
150万くらいだよ！

まぁ、128GBなら56万くらいだから割と現実的よ

0719名無しさん＠ピンキー (ﾜｯﾁｮｲ 8392-GUPc)

2025/10/29(水) 13:56:11.14ID:c2orVjYY0

僕は4070Ti SUPER使ってたところに5060Ti買い足しました
ケースの中空いてないからoculink外付けだけど
gemma27Bとかコンテキスト含めると16gbでちょい足りなかった奴が超快適になった

0720名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fa2-SOQn)

2025/10/29(水) 14:33:54.01ID:4cKF8saF0

716だけどありがとう
まずは3090、2つくらいから積んでみようかな…

Macも正直デカイの動かせてノートなのはかなり魅力的
NvidiaもDGXじゃなくてこんなの出さないかな

0721名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fbd-qHJp)

2025/10/29(水) 15:13:16.36ID:DNQ+zkP90

Macは機種によってメモリ帯域幅が違うから、なるべくMac Studioね
https://www.apple.com/jp/mac-studio/specs/
Apple M3 Ultraチップ 819GB/s
Apple M4 Maxチップ 410GB/s

MacBook Proは最上位機種なら410GB/sか546GB/s
https://www.apple.com/jp/macbook-pro/specs/

RTXのxx80やxx90系は900GB/s前後
デスクトップメモリのDDR5がデュアルで90GB/s前後

そしてNVIDIA DGX Sparkは273GB/sでみんなズッコケたと
https://www.nvidia.com/ja-jp/products/workstations/dgx-spark/

0722名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fa2-SOQn)

2025/10/29(水) 15:36:37.32ID:4cKF8saF0

3090ダブルかM3ウルトラかめちゃくちゃ迷い始めた
うわぁぁぁ！
アップル製品ほぼ使用経験ないのが結構ネック…

0723名無しさん＠ピンキー (ﾜｯﾁｮｲ ff01-jw+d)

2025/10/29(水) 15:38:26.40ID:veXpd0eo0

M5 ProとM5 ultraが出てからにしろ

0724名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/29(水) 15:41:46.51ID:VTejUVCt0

内排気設計のハイエンドグラボ複数積みもそんな気軽ではないからよく計画してね

0725名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc7-6qEa)

2025/10/29(水) 15:51:45.44ID:vdU6XoEE0

動画・画像生成もやるならCUDAが必須だね

補足
VRAM24GB+メモリ256GBなら以下のモデルが動く

・Hunyuan Image3.0のフルモデル(21s/it)
・GLM4.6の5bit量子化モデル(4.5tokens/s)
※メモリ帯域が足りていない

かなり遅いけど、そもそもVRAM24GB+メモリ256GBないと実用的に動かせない

ちなみにHunyuan Image3.0は無劣化で、
25ステップを10分弱で生成できる(RTX5090の場合)

GLM4.6の4bitは文字化けや中国語、英語が混じりやすい
5bitも発生するけどほぼ緩和される

LLMオンリーでいいならMacだね
俺なら512GBを迷わず買う
あっ、そんなお金があるならRTX Pro 6000買うかも？

0726名無しさん＠ピンキー (ﾜｯﾁｮｲ e3c0-0ZAK)

2025/10/29(水) 15:56:01.04ID:hABpYIq50

M5でMacのネックだったプロンプト評価速度がかなり向上してるみたいだから待てるならM5Ultraかなあ
出るかどうかも定かではないけど

0727名無しさん＠ピンキー (ﾜｯﾁｮｲ f302-KtAw)

2025/10/29(水) 17:12:08.35ID:SHDbf1WE0

strix haloのソフトウェア周りがもう少し実用的になってくれたらなぁ
CXMTがlpddr5xの量産開始したのでlpddr5xの値段下がるかもって話だけど、この辺使って安価な395+搭載マザーとか出してくれんかな

0728名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc7-6qEa)

2025/10/29(水) 17:30:49.54ID:vdU6XoEE0

あと、LM StudioがやっとGLM4.6サポートされてた

0729名無しさん＠ピンキー (ﾜｯﾁｮｲ 6359-cJWp)

2025/10/29(水) 19:14:56.68ID:XgbvGioh0

>>722
MiniMax2 が動くのは M3 Ultraだけだよ！
3090ダブルをLLMで動作させると、電子レンジをずっと回してるみたいなもの
mac studioならいって200W。(定格がでっかいのはTB5の電力全力で計算しているから)
LLMまわしてもほぼ無音。MBPは普段は無音なんだけどLLMの時はファンが小さいからうるさくなる

cluade sonet 4.1 Grok4 より賢い
www.minimax.io/news/minimax-m2

待てるならM5 max (Ultraが微妙。RAMも256MBくらいか?) のほうがいい
armもM4からarm9になってCPUコアが根っこから速くなってるし

DGXはない。どの用途で使っても遅くて高い

0730名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-n9/C)

2025/10/30(木) 01:20:16.19ID:ymnQnDpG0

>>729
デモ試したけど、日本語むちゃくちゃだな>minimax-m2

0731名無しさん＠ピンキー (ﾜｯﾁｮｲ 6359-cJWp)

2025/10/30(木) 01:26:53.98ID:1CoQxC530

>>730
うむ、APIも試したけど謎言語で返答されてしまうww
英語でも中国語が混ざってくるから中国語だけっぽいな

0732名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f49-i7NQ)

2025/10/30(木) 06:28:17.94ID:kQpOP5EQ0

やっぱりGLMが日本語最強か

0733名無しさん＠ピンキー (ﾜｯﾁｮｲ 8345-fNMY)

2025/10/30(木) 07:46:21.42ID:D55JLrEh0

>>712-713
ありがとうございます、自分の環境でもKVキャッシュを
オフロードしたほうが若干反応が早くなりましたが、
デメリットは無いのか気になります

コンテキストサイズはなんとなくデフォの倍の8192を
設定していますが、モデルや用途によっても
変える必要があるとの事で色々やってみます m(_ _)m

0734名無しさん＠ピンキー (ﾜｯﾁｮｲ 63a5-cJWp)

2025/10/30(木) 18:26:19.16ID:1CoQxC530

セーフガードをコントロールモデルとな
脱獄ワードや履歴改変しなくてもエロいけるか?
(READMEくらい読めって?)

gigazine.net/news/20251030-openai-gpt-oss-safeguard

0735名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/30(木) 18:36:37.83ID:wTFROyKM0

gpt-ossの元々naughty方面ガチガチな性質を操作するんじゃなく上乗せするだけのものと見た

0736名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f27-KKzN)

2025/10/31(金) 01:51:37.21ID:/DYeh+170

脱獄以前にgptossってエロ知っとるんか？

0737名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-iTPV)

2025/10/31(金) 10:39:44.47ID:RFtBxQ7Y0

mradermacher/RAMEN-SHIO-235B-GGUF

このラーメン試せる人お願い

0738名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f49-i7NQ)

2025/10/31(金) 11:56:45.71ID:pGTYpN4N0

ラーメンに詳しいの？

0739名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/31(金) 13:22:02.85ID:f5TlbuwM0

すみません、味噌一つ

0740名無しさん＠ピンキー (ﾜｯﾁｮｲ d303-Yhl5)

2025/10/31(金) 15:25:52.52ID:Af7plabT0

大学院レベルの知識強化した学術特化かつDPOのみでチューニングしたモデルに何を試せと

0741名無しさん＠ピンキー (ｽｯﾌﾟ Sd9f-I2Zz)

2025/10/31(金) 22:42:24.75ID:HdTgVuN7d

llama.cppでQwen3-VL使えるようになった～

0742名無しさん＠ピンキー (ﾜｯﾁｮｲ 2a61-+ixv)

2025/11/01(土) 01:02:02.05ID:HZVdy9VR0

LM StudioでBerghofとかMistral Prism使ってシチュボ台本作りたいんだけど、オホ声セリフ出してくれるモデルのおすすめある？
takuyaは淫夢の影響きつすぎて・・・

0743名無しさん＠ピンキー (ｱｳｱｳ Saf6-+ixv)

2025/11/01(土) 14:16:40.80ID:b76YuIy1a

>>742
GLM

0744名無しさん＠ピンキー (ﾜｯﾁｮｲ 2632-jqWR)

2025/11/01(土) 23:26:06.04ID:9OVSfaEM0

>>721
arm macの性能いいのってx86よかメモリ帯域が極端に広いおかげなんかね

0745名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-MW7b)

2025/11/02(日) 00:18:57.68ID:bbIw8Uiq0

GLMはCommand A Reasoning 0825よりいいのかね
結構評判良さそうだし、Airの方だが試してみるか

0746名無しさん＠ピンキー (ﾜｯﾁｮｲ 2665-1DFx)

2025/11/02(日) 01:51:50.77ID:74CmoRUh0

何周遅れか分からんけどgpt-oss-120bとopen Web UIにsearXNGでほぼ一昔前のOpenAIと言っていい環境をローカルで再現出来て満足
これでエロというかセーフガードなければ文句なしなんやがなあ
VRAM16GB+RAM128GB構成だとアクティブパラメータ2血�｢くとやっぱｂ闥xいから
gpt-ossとかQwen3 a3bあたりの路線でもっと高性能なの希望や

0747名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ab7-fId6)

2025/11/02(日) 05:39:27.52ID:8sYAEPMe0

RTX買おうと思ってるけど、

128GB (32GBx4) @ 3600MHz
64GB (32GBx2) @ 5600MHz

どっちにするべきかな
やりたいのは動画よりはLLM推論・学習

0748名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-vDGl)

2025/11/02(日) 08:01:40.08ID:AsMtecHo0

OpenRouterのfreeモデルでエロに使えるのって何がある？
DeepSeekが全く使えなくなったから他を探してるけど脱獄が難しい

0749名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp13-vgpZ)

2025/11/02(日) 11:23:12.30ID:9VN3h5KEp

hiratagoh/SIP-jmed-llm-2-8x13b-OP-instruct-GGUF

医療用ってさぁ
結構エロいよね

0750名無しさん＠ピンキー (ﾜｯﾁｮｲ eec8-9I6X)

2025/11/02(日) 15:40:15.11ID:3KteyF1e0

>>748
Grok-4 Fastとか実質タダみたいなもんじゃね？

0751名無しさん＠ピンキー (ﾜｯﾁｮｲ 77e8-hZw6)

2025/11/02(日) 17:17:50.07ID:kWp5afpL0

>>744
単純にチップがクソでかい
AMD Intel NVIDIAより先にTSMC5nm 3nm 2nm使えるからワッパが良くてトランジスタ数も多いCPU・GPUを作れる
高速ユニバーサルメモリもその副産物

0752名無しさん＠ピンキー (ﾜｯﾁｮｲ 779d-pnhr)

2025/11/03(月) 19:19:43.19ID:53Yfauo70

open routerはkimi k2が一応free版があるから使えるかもしれません

0753名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-vDGl)

2025/11/04(火) 06:03:10.75ID:SU8eROfl0

>>750
金払うならDeepSeek v3.2がもっと安いんよね

>>752
kimiの脱獄って難しくない？

0754名無しさん＠ピンキー (ﾜｯﾁｮｲ 261b-dOm/)

2025/11/04(火) 10:07:24.90ID:EYZhdq4g0

kimi2とかってファインチューニングやらloraで脱獄はできんの？🤔

0755名無しさん＠ピンキー (ﾜｯﾁｮｲ 264b-2gDj)

2025/11/04(火) 11:07:38.78ID:BCMENN/Z0

私はkimi k2は本家のapiでしか試したことはないのですが
そもそも脱獄がいらないので、直接エロプロンプトでやってますよ
open routerはapiの方で規制かかってるかもしれませんが
モデル自体は規制はないです

0756名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-vDGl)

2025/11/04(火) 11:49:57.90ID:SU8eROfl0

OpenRouterのkimi k2はモデル自体はあるけど9月中旬からほぼ使えなくなってるみたいだわ

0757名無しさん＠ピンキー (ﾜｯﾁｮｲ 2627-v3Nv)

2025/11/04(火) 11:57:58.99ID:/ldfOEva0

OpenRouterのフリーで日本語使えるモデルはほぼ全滅でしょ

0758名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM2f-j3bu)

2025/11/04(火) 11:59:37.91ID:ZLgVOoKIM

プンルーも乞食ジャップ対策か

0759名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-vDGl)

2025/11/04(火) 12:05:08.51ID:SU8eROfl0

人気のある大規模モデルだけ全滅やな

0760名無しさん＠ピンキー (ﾜｯﾁｮｲ f7c6-qt6D)

2025/11/04(火) 12:11:30.05ID:LkQzBAKZ0

俺はredditでわりと評判の良いnano-gpt.comに移行した
月8ドルはまあまあするけど主要なオープンモデルは揃えてるし1日2千or月6万リクエストまで行ける

0761名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM2f-j3bu)

2025/11/04(火) 12:17:26.22ID:ZLgVOoKIM

人気のない小規模LMならローカルで動くからプンルー要らんのよな
そもそもオモチャやし

0762名無しさん＠ピンキー (ﾜｯﾁｮｲ 9709-/N7+)

2025/11/04(火) 15:28:06.63ID:q53557r10

GLM4.5:freeはまだ使えるな

0763名無しさん＠ピンキー (ﾜｯﾁｮｲ eec8-9I6X)

2025/11/04(火) 15:38:44.50ID:L4uKYCvd0

>>753
安いけど使い物にならなくない？

0764名無しさん＠ピンキー (ﾜｯﾁｮｲ 779d-pnhr)

2025/11/04(火) 16:04:52.10ID:MzG+AFLA0

open routerのkimi k2は有料だとinput $0.5,output $2.5と普通のapiと比べれば
割と安いので、$5くらい払えば1か月くらいは遊べそうではあります

0765名無しさん＠ピンキー (ﾜｯﾁｮｲ eb0b-4eiX)

2025/11/04(火) 16:12:15.13ID:2FvKWAHI0

金払っちゃうんだったらKimiよりGLMのがいいけどな
Kimiはガチガチで脱獄しても健全なエロしか書かないけどGLMの方が文章力あってロリでも近親でも何でもあり

0766名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-vDGl)

2025/11/04(火) 16:43:50.10ID:SU8eROfl0

>>763
俺のエロ用途だと割りと使える

0767名無しさん＠ピンキー (ﾜｯﾁｮｲ 26ce-HzdJ)

2025/11/04(火) 20:13:17.49ID:vEjNWt330

>>760
良い物教えてくれてありがとう
ccr、roo-code、continue.devからopenrouterを追放できたわ

0768名無しさん＠ピンキー (ﾜｯﾁｮｲ 2acb-HzdJ)

2025/11/04(火) 21:48:33.12ID:GpX/QgWA0

わいはchutesを使ってるわ
一番安いプランなら月3ドルで1日300回の制限やからチャットだけなら困らん
オープンウェイトのモデルしかないけど有名どころは一通りそろってる

0769名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea0-9I6X)

2025/11/05(水) 05:58:46.95ID:eF1b+Rt/0

これからは子供がクリスマスにグラボをお願いする時代になるんだろうな

0770名無しさん＠ピンキー (ﾜｯﾁｮｲ fea9-9I6X)

2025/11/05(水) 10:02:14.87ID:GR7UFxYP0

あなたにグラボはまだ早いからダメよ！

0771名無しさん＠ピンキー (ﾜｯﾁｮｲ ee05-dW62)

2025/11/05(水) 14:04:24.59ID:OoD41Q4X0

grokはllmエロいけるしチャッピーもそのうち解禁だからローカルllmの意義が減ってきてる気がするんだが、このスレ的には何に使ってるの？

0772名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ef9-mzUR)

2025/11/05(水) 15:07:28.71ID:TA+WwrEg0

俺はローカルllmやるで
もはやエロ関係ない(脱獄すればできるし)
ポテンシャルがえぐいんよローカルllmは

0773名無しさん＠ピンキー (ﾜｯﾁｮｲ ee05-dW62)

2025/11/05(水) 15:38:08.65ID:OoD41Q4X0

そうなんか、そう言われるとやってみたくなるな。
5090は近々買う予定なんだけどこれで足りる？nvidia 同士なら分割処理できるみたいだし、でかいモデル用に3060 12g一つ買い足しておいた方がいいかな。ラデオンとの分割は無理っぽいよね。

0774名無しさん＠ピンキー (ﾜｯﾁｮｲ 33c0-T6rd)

2025/11/05(水) 15:58:19.85ID:OnsVW0Ux0

ローカルで動かすことそのものが目的みたいなところはある
あとはまあ、うちの子（AI）はローカルで完結させておきたいし

0775名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ef9-mzUR)

2025/11/05(水) 15:59:53.25ID:TA+WwrEg0

>>773
まんま同士だw
実は俺ももう5090買うところなんだよ
俺個人はグラボ2枚刺しは今のところはやるつもりない、けっこう熱とか電力とか食うみたいだし
まあ動かしたいモデルにもよると思うけど…

ちなみに購入サイトとかまだ決まってなかったら、フロンティアではDDR5メモリ128増設で73万くらいで割りと安く買えるからおすすめかも

0776名無しさん＠ピンキー (ﾜｯﾁｮｲ eec8-9I6X)

2025/11/05(水) 16:03:21.95ID:zWaU77kM0

>>773
足りない

0777名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd6a-j3bu)

2025/11/05(水) 16:18:28.87ID:ZFG40dPfd

パーツ高騰でもう買い替え無理だし
今のメモリ128GBVRAM24GBで5年は戦うしかない

MoE技術の進化が末端まで降りてくることに期待してわたし待つわ

0778名無しさん＠ピンキー (ﾜｯﾁｮｲ 2abd-i8Ja)

2025/11/05(水) 16:54:44.38ID:c71WOPVa0

今からやるならPCを分けたほうがいいと思うよ
少し上の方にも書いてあるけどLLM専用としてMac Studio >>721
画像生成用として5060Tiか5070TiあたりのPCを使うとかさ

まぁ、どれくらい本気でやりたいか、どっちを優先したいかだよね
少しやってみたい程度なら5090は十分すぎるけど本気でやりたいならMac Studioには勝てない

0779名無しさん＠ピンキー (ﾜｯﾁｮｲ 8a2b-HzdJ)

2025/11/05(水) 16:58:30.47ID:z1rPwphO0

>>773
llama.cppのrpcならnvidiaとamdの分割処理もいけるよ

0780名無しさん＠ピンキー (ﾜｯﾁｮｲ 2afb-gMzZ)

2025/11/05(水) 17:12:17.32ID:y8P3YEid0

ちなみに M5 UltraのMac Studioは来年登場「らしい」

https://www.macrumors.com/2025/11/04/mac-studio-m5-ultra-2026/

0781名無しさん＠ピンキー (ﾜｯﾁｮｲ 1a49-Sqr1)

2025/11/05(水) 17:20:15.77ID:42QIU+Bf0

GLM4.6をフルサイズで動かしたいよなあ

0782名無しさん＠ピンキー (ﾜｯﾁｮｲ eeca-dW62)

2025/11/05(水) 17:40:09.17ID:OoD41Q4X0

>>775
いいね。俺は事情で月末になるけど参考にさせてもらうわ、ありがとう。グラボ2枚はややこしいよなやっぱ。

>>776
たりないのか、一体いくらvram あれば実用できるんだ…

>>779
rpc か、結構ややこしそうだね、ありがとう。

>>774
ちなみにどんな子育ててるん？育て方もよくわかってないけど、育ててみたい意欲はあるんよね。

0783名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f03-mTOK)

2025/11/05(水) 17:41:20.76ID:k3IdEWaf0

高密度モデルだと5090を活かしきれるモデルではメモリが圧倒的に足りない
32GBに収まるモデルだと5090活かしきれないというジレンマ
MoEだとメインメモリに律速されるのでGPUはそれほど変わらない
LLM目的なら5090は正直おすすめしない　

0784名無しさん＠ピンキー (ﾜｯﾁｮｲ 2aad-mzUR)

2025/11/05(水) 18:38:48.77ID:STqbQ0mh0

やっぱmac studioになるのか？
それか30902枚か

0785名無しさん＠ピンキー (ﾜｯﾁｮｲ 2acb-HzdJ)

2025/11/05(水) 18:48:20.18ID:0l4WrV9G0

>>784
200B以上のMoEを最低限の速度でも良いから動かしたいというならmac studioが良いんじゃね　プロンプト処理速度は遅いけどdeepseek系でも20t/sくらい出るらしいし
逆にVRAM48GB構成は100BクラスのMoEも載り切らないし、70Bクラスのdenseモデルが最近出てないから微妙になってきてる

0786名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a65-mzUR)

2025/11/05(水) 19:06:03.33ID:a6vKzf2f0

これとかどうなんだろ

https://www.dell.com/ja-jp/shop/%E8%A3%BD%E5%93%81%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA/dell-pro-max-with-gb10/spd/dell-pro-max-fcm1253-micro/xcto_fcm1253_apac

0787名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a65-mzUR)

2025/11/05(水) 19:12:26.96ID:a6vKzf2f0

あっもしかしてDGXとおなじやつかコイツ

0788名無しさん＠ピンキー (ﾜｯﾁｮｲ 2abd-i8Ja)

2025/11/05(水) 19:56:03.16ID:c71WOPVa0

RTX xx90系を2枚刺しはあまり現実的ではないよ
1枚で3～4スロットの厚みがあるし長いからE-ATXくらいのクソデカマザーか外付けじゃないと物理的に取り付けられない（ケースも無理そう）
電源は最低でも1500Wくらいで12V-2x6が2つ必要（それかデュアル電源）
一般家庭は「壁のコンセント」が1500Wまでだから実質的にエアコンみたいな専用コンセントが必要
そして爆音爆熱
xx90系はかなり特殊だから一度しっかり調べたり実物を見に行ったほうがいいよ

0789名無しさん＠ピンキー (ﾜｯﾁｮｲ eeca-dW62)

2025/11/05(水) 19:58:28.59ID:OoD41Q4X0

複数台マシンで分散させて動かすのはあんま流行ってないかんじ？

0790名無しさん＠ピンキー (ﾜｯﾁｮｲ aa32-fgZ5)

2025/11/05(水) 20:28:37.02ID:zFgfTarD0

正直ポテンシャルはエグくないと思うけどなー
vram32gb1枚刺しで見られる夢は小さいぞ

0791名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a65-mzUR)

2025/11/05(水) 20:30:02.89ID:a6vKzf2f0

うーん775だけどmac再燃しはじめたな
まあゆっくり考えよう
M5は来年だっけ

0792名無しさん＠ピンキー (ﾜｯﾁｮｲ 33c0-T6rd)

2025/11/05(水) 21:38:13.22ID:OnsVW0Ux0

4090x1と3090x3で運用してるけどリミットかけたうえで1500W電源でギリギリだな
ケースに収めることは最初から放棄してライザーカードでにょきにょき生えてる

0793名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ee0-Rqlm)

2025/11/05(水) 23:39:59.89ID:rQAQGwZ50

ええ!?RTX5090を複数刺ししたいって!?

そんなあなたにINNO3DR GeForce RTX™ 5090 iCHILL FROSTBITE

......どう考えてもコンシューマー向け製品じゃないよコレ

0794名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a53-mzUR)

2025/11/06(木) 00:06:48.98ID:H0Wl2rhX0

CUDA互換を取るか…
デカモデルを取るか…

0795名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc0-hZw6)

2025/11/06(木) 01:01:23.90ID:z3lvHfEh0

MacはM5チップ世代からGPU側に搭載したNeuralAcceleratorでようやくまともなfp16性能が出るようになったんで、今からならM5MaxやM5Ultraを搭載するであろう新型Mac Studioを待ったほうが良いと思われる

0796名無しさん＠ピンキー (ﾜｯﾁｮｲ 660e-mzUR)

2025/11/06(木) 01:05:24.51ID:k5cM56Dk0

Mac m3 って96gbメモリでもファインチューニングとかできるんかな

0797名無しさん＠ピンキー (ﾜｯﾁｮｲ 13e7-nV2F)

2025/11/06(木) 06:07:26.21ID:4cAqsVGl0

5090複数枚狙うぐらいならQuadro系統の方が良くないか?今度出るRTX5000PROが72GBのはずだし。

0798名無しさん＠ピンキー (ｼｬﾁｰｸ 0Cbf-vgpZ)

2025/11/06(木) 10:08:25.24ID:yY5pojgmC

aquif-ai/aquif-3.5-Max-42B-A3B
日本語対応でなんかえらいスコアええのぉ

0799名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea0-9I6X)

2025/11/06(木) 10:39:46.81ID:J8Py4Ggv0

5090ってどれくらい電気使うの？１０００Wじゃ足りない？

0800名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac7-kIgr)

2025/11/06(木) 12:19:41.85ID:4VfcHnuO0

5090の1枚だとLLM用途には非力
大きいモデルを動かすにはMoEになるけどメモリが遅いせいで、5090がフルパワーになることなんてほぼない
200Wから300Wの間で、いいとこ200W付近だな
動画・画像生成ならOC無しで575W付近だな

0801名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac7-kIgr)

2025/11/06(木) 12:21:07.70ID:4VfcHnuO0

あと電源は複数構成にしてて、RTX5090専用に1000Wを用意してる

0802名無しさん＠ピンキー (ﾜｯﾁｮｲ eec8-9I6X)

2025/11/06(木) 12:22:12.25ID:LlQyftbD0

>>797
俺もそう思う
あとRTX Pro 5000じゃなくて6000もう出てないっけ

0803名無しさん＠ピンキー (ﾜｯﾁｮｲ ef3f-mzUR)

2025/11/06(木) 12:42:12.94ID:lMCuk1c10

モデルを学習させたいのならRTX、
大きいのを推論させたいだけならMACでしょう

0804名無しさん＠ピンキー (ﾜｯﾁｮｲ eeca-dW62)

2025/11/06(木) 14:03:53.68ID:5ogRukTi0

みんな一体何を推論させてるんだ…夢は感じるけど具体的に何しようか自分でははっきり定められない。

0805名無しさん＠ピンキー (ｼｬﾁｰｸ 0Cbf-vgpZ)

2025/11/06(木) 14:20:52.42ID:yY5pojgmC

>>804
エロ

0806名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a1a-mzUR)

2025/11/06(木) 15:04:13.91ID:H0Wl2rhX0

やっぱ推論だけじゃなくて学習させたいよなー

0807名無しさん＠ピンキー (ﾜｯﾁｮｲ 1a49-EU/t)

2025/11/06(木) 15:12:09.62ID:BwdvnsPb0

学習させようとなるとローカルではさすがにきびしい
サーバーレンタルしたほうが絶対にいい

0808名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea0-9I6X)

2025/11/06(木) 15:17:51.91ID:J8Py4Ggv0

LoRAとRAGならRAGの方が難易度高いんだよね？Super RAGだかって簡単にやってるけど、あれはLoRAじゃないの？

0809名無しさん＠ピンキー (ﾜｯﾁｮｲ 33c0-T6rd)

2025/11/06(木) 15:36:22.62ID:ELrPQp7H0

RAGはそもそも学習させてるわけじゃないし単にベクターストアとかに格納した内容を参照させてるだけだから別に難しいこともなくない？

0810名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a1a-mzUR)

2025/11/06(木) 16:14:40.70ID:H0Wl2rhX0

難しいのかぁ
べつに30Bくらいのを学習できるとは思ってないけど、ちっちゃいのでもやれるといいけど
RAGのことも勉強しなければ

0811名無しさん＠ピンキー (ﾜｯﾁｮｲ 13e7-nV2F)

2025/11/06(木) 17:25:25.55ID:4cAqsVGl0

>>802
Ti SUPER相当のシリーズがRTX Proでも来るってリークあったんよ。そっちの5000PROが72GBという話。6000PRO SUPERが来るならワンチャン128GBもあるかもしれへんね

0812名無しさん＠ピンキー (ﾜｯﾁｮｲ 131c-0U8u)

2025/11/06(木) 20:09:27.05ID:OT25Em3L0

>>804 OpenHands とかで「改良しつづけよ」という雑なプロンプトで自動的にプログラムを改良してもらってる
時間かかるし、途中自分でスナップショットとって失敗に気づいてgit巻き戻して、と人間臭くて笑ってしまう
何度も失敗するから有料API使うと目の玉飛び出す金額になってしまうから、こういう用途はローカル向き

M4 Max 128G でVRAMに120GByte回してるから、python側(推論しない)は mbpで回している
120GByteでギリギリだよ。96Gだと頭の悪いLLMしか動作させられなくて結局成果物ができない
AI Max+ は Linuxなら120GByteくらい回せるらしいからワンチャン動く

0813名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a5c-mzUR)

2025/11/06(木) 21:22:16.20ID:H0Wl2rhX0

96でも頭わるいのかぁ困ったな
金がいくらあっても足らん
今のM3はファインチューニング向いてないらしいけど、M5出たらそこも改善されるといいなあ

0814名無しさん＠ピンキー (ﾜｯﾁｮｲ aa32-fgZ5)

2025/11/06(木) 22:59:52.80ID:hCNcAFKl0

複数枚とか考え出すとgpuクラウドが輝いて見えだすしローカルは険しいよ

0815名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e36-pnhr)

2025/11/06(木) 23:05:29.93ID:85R9xs1T0

有名なYoutuberがGPU8枚挿しでローカルLLM動かしてた気がする

0816名無しさん＠ピンキー (ﾜｯﾁｮｲ 5377-tukP)

2025/11/06(木) 23:10:03.96ID:6mI+tSJ80

火出そう

0817名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f03-mTOK)

2025/11/06(木) 23:46:10.80ID:VQ2HluPM0

クラウドで微調整するにしても最低3090以上のローカルGPUも欲しい
学習設定やデータセットをテストを小さいモデルでやるにしても全部クラウドでやると無駄に金いくらあっても足りないし微調整後の推論は結局ローカルGPUだし

0818名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac7-kIgr)

2025/11/07(金) 00:00:29.77ID:ynemYx0F0

火出そうって・・・
マイニング流行ってた頃はパワーリミットしてたとは言え、20枚挿しも珍しくなかったんだから8枚挿しくらい余裕だろ
マンションとかならともかく一軒家ならブレーカー落ちることないし

0819名無しさん＠ピンキー (ﾜｯﾁｮｲ 5377-tukP)

2025/11/07(金) 00:20:35.21ID:N23kjsAV0

マイニングとか何世代前だよ
最近ので8枚とか普通に暖房だろ
業務用サーバーレベルだぞ

0820名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-9I6X)

2025/11/07(金) 00:42:54.98ID:s85a3z+e0

昔のGPUなら８枚でも良かったが5090を８枚なら燃えると思うｗ

0821名無しさん＠ピンキー (ﾜｯﾁｮｲ aa32-fgZ5)

2025/11/07(金) 00:57:51.64ID:/AdQkzVv0

普通の個人はパイプライン並列だろうし電源は意外と余裕ある
うちは300W gpu x2が650W電源で働かされてる

0822名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea0-9I6X)

2025/11/07(金) 06:05:17.44ID:HkTQDH8p0

ブレーカー落ちるし、そもそも電源ボックスで起動すらできない
50A契約とか三相電源とか考えないとな、コンセントは15Aが定格

0823名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea0-9I6X)

2025/11/07(金) 06:07:36.47ID:HkTQDH8p0

グラボの為に、エアコン用の200V電源とか使ってる人いるのかな

0824名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac7-kIgr)

2025/11/07(金) 11:23:17.12ID:ynemYx0F0

電力会社によっては100Aとか普通に使えるからな
マイニングしてたときは1部屋で計2500W超を24時間常時動かしてたぞ
夏はエアコン、冬は窓開けっ放しで問題なかったな

0825名無しさん＠ピンキー (ﾜｯﾁｮｲ ef12-dW62)

2025/11/07(金) 11:27:33.51ID:zDkRZzoS0

ハードル高すぎる…
ローカルllmはロマンがあるなと思ってたけど、実現が難しく夢のようだからロマンがあると感じてるだけな気がしてきた。

>>812
なるほど、半年前にちょっと32bとかのモデルでコーティングエージェント試したときはあんまりだなと思ったが、やはり大規模は賢いのか。

0826名無しさん＠ピンキー (ﾜｯﾁｮｲ 3af3-W5UO)

2025/11/07(金) 11:31:39.97ID:UkdlHTtB0

普通にopenrouterとか使うほうがコスパ良いよ
業務で使うから～って用途以外ではまあロマンというか趣味の世界>ローカルLLM

0827名無しさん＠ピンキー (ﾜｯﾁｮｲ ef47-mzUR)

2025/11/07(金) 14:02:55.05ID:0Urjr8TJ0

32Bとかでも、FTしてコーディング特化させても無理なのかな？
全然わからん

0828名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd6a-j3bu)

2025/11/07(金) 21:10:36.70ID:ZDdER0GHd

Torishima / INTP
@izutorishima

Koemotion いつのまにあぼーんしてしまったんだ・・・（というか rinna 社自体畳む方向？）
https://rinna.co.jp/products/business/koemotion/

0829名無しさん＠ピンキー (ﾜｯﾁｮｲ 1a49-JEdv)

2025/11/07(金) 23:00:18.35ID:4AEqnHGL0

りんなは貴重な日本のAI企業だったのに

0830名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd6a-j3bu)

2025/11/07(金) 23:01:21.58ID:ZDdER0GHd

日本のAI苦手っぷりは異常

0831名無しさん＠ピンキー (ﾜｯﾁｮｲ 3a24-mzUR)

2025/11/07(金) 23:03:50.97ID:/wC3jWy70

俺がAIを作る

0832名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-qekO)

2025/11/08(土) 00:04:47.22ID:m032+gq00

上を見てるとキリがないから16GBのVRAMでも快適にエロを出力できるモデルでいいのはないかな？
個人的にはyamatazenさんの「EsotericSage-12B」や「NeonMaid-12B-v2 」が12Bにしては良かった
この作者は12Bのモデルがメインっぽいけど24Bの「EsotericKnowledge-24B」もなかなか良い感じ

0833名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd1f-TDZ4)

2025/11/08(土) 00:49:59.65ID:bRyKi+btd

RTX 6000 Ada 48GBの中古が安くならんかな
もうメモリ高騰でAI向きの安いGPUは今後も出ないやろ

0834名無しさん＠ピンキー (ﾜｯﾁｮｲ bf49-MSRj)

2025/11/08(土) 07:39:15.01ID:S1Z1naTn0

kimi k2 thinkingすごいな

0835名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-Pj3+)

2025/11/08(土) 08:47:17.25ID:EAEk+Zkn0

りんなは早すぎたんだろうな、時代が今頃追いついて、あっという間に追い抜いて行った。

チャッピーが出たタイミングで出せばよかったのに、支援する側が気づいたころには無くなっていたんじゃな

0836名無しさん＠ピンキー (ﾜｯﾁｮｲ 53d6-t3bi)

2025/11/08(土) 12:46:40.77ID:9jrhr8L/0

>>798
aquif-ai/aquif-3.5-Max-42B-A3B、
これa3bだから低スぺgpu(4gb)でも推論できる。ほとんどメインメモリからだからvram使ってるのか？
42bのモデルはやっぱり語彙力が高いですね
色々ためしてみます

0837名無しさん＠ピンキー (ﾜｯﾁｮｲ 3303-vw5Q)

2025/11/08(土) 13:26:13.88ID:4MM0420w0

GPT5.1と噂のpolaris alpha　エロokっぽいな
合成データ作らせてみたけどお断りが一切ない　GLM4.6やKimi K2でも断られるくらいなのに

0838名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-Pj3+)

2025/11/08(土) 13:49:04.34ID:EAEk+Zkn0

Grokで大体のエロはマスターしたから、もっとハードなエロ専用モデルがほしいのよな、バカでもいいから

そういう専用モデルを作るのが今後のローカルLLMだと思うのだが

学問方面とかもな

0839名無しさん＠ピンキー (ﾜｯﾁｮｲ 6332-Pj3+)

2025/11/08(土) 15:24:49.33ID:O5mMz/d70

>>832
日本語LLMに関しては32Bが最低ラインかなあ
32B未満はプロンプトの理解度が低くてきっつい

0840名無しさん＠ピンキー (ﾜｯﾁｮｲ 7397-t3bi)

2025/11/08(土) 16:51:35.14ID:r4q5rRrN0

GPT 5 Thinkingバグってないか
回答が不安定でエラー連発

0841名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f7c-usgL)

2025/11/08(土) 17:38:53.08ID:pCVG21Oa0

>>832
自分は>>8のBerghofとCydonia 24B、
あとMistralPrism-24Bが良かったです
Qwen系はなんかすぐ簡字体を出してきて
あまり相性が良くなかったです

EsotericKnowledge-24B気になるので使ってみます

0842名無しさん＠ピンキー (ﾜｯﾁｮｲ 63c6-GlLO)

2025/11/08(土) 22:00:39.34ID:Y7kxKVlU0

Berghof 7b　淫語表現が良いが理解力はほとんどない
NemoAurora 12b　理解力と表現が良いが短めに終わらせがち
MistralPrism 24b　理解力と表現が良いが続けるとハルシネーション増えがち繰り返し増えがちで修正必要
shisa-v2-mistral-small 24b　理解力と一般的な部分の表現力が一番高いがエロ表現はあらかじめ表現指定しないと古風な官能小説になりがち
全部指定のテンプレでロールプレイした感想
理解力っていうのは察する能力も含めて
ここで話題に挙がる海外のマージもよく試すんだけど英文とか変な文字交じるからほとんど使わなくなる
指定しても直訳っぽい表現になるしみんな我慢してるのか自分が使い方間違ってるのか分からん

0843名無しさん＠ピンキー (ﾜｯﾁｮｲ 4314-KUF3)

2025/11/08(土) 23:26:01.08ID:nTiP9kKY0

賢いberghofがほんと欲しい
berghofも普通の会話だとたまにうおっ！？てなるほど察してくれる時があるんだけどなあ
エロシチュの把握とかになると弱いね

0844名無しさん＠ピンキー (ﾜｯﾁｮｲ ffc0-vw5Q)

2025/11/09(日) 00:16:52.90ID:zVGj0deu0

いまだにベースモデルとしては8か月前のmistral smallが圧倒的に強いのは困る　そろそろ新しいモデルほしい
最近のモデルを含めて日本語能力は50b以下だとmistral smallの一人勝ち状態
baseモデルで小説の続きとか書かせて比較すると分かるけど中華モデルだと明らかに文脈理解が出来てなくて、語彙力も酷い　
qwen3(aquif含む)とかERNIE-4.5-21Bとかね　一般用途ならgemma3も悪くないけどデータセットの検閲とライセンスが厳しい

0845名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-qekO)

2025/11/09(日) 00:36:13.80ID:25n82Uux0

上を見てるとキリがないから16GBのVRAMでも快適にエロを出力できるモデルでいいのはないかな？
個人的にはyamatazenさんの「EsotericSage-12B」や「NeonMaid-12B-v2 」が12Bにしては良かった
この作者は12Bのモデルがメインっぽいけど24Bの「EsotericKnowledge-24B」もなかなか良い感じ

0846名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-qekO)

2025/11/09(日) 00:45:30.08ID:25n82Uux0

だよなぁ
24Bのモデルはほとんどベースがmistral smallだし、12Bは1年以上前のmistral nemo 2407がベースばかりだもんな

0847名無しさん＠ピンキー (ﾜｯﾁｮｲ ff32-RctB)

2025/11/09(日) 02:29:55.03ID:TvxxS+nl0

俺はそもそも24bモデルをmistral smallしか知らないかもしれない

0848名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-Pj3+)

2025/11/09(日) 20:02:17.85ID:02ttLA3w0

Llama.cppのQwen3 Next対応がようやっと終わりが見えてきたで

こっちがCPU対応で
https://github.com/ggml-org/llama.cpp/pull/16095
こっちがCUDA対応なんやろか？　いまいちよくわかっとらんが
https://github.com/ggml-org/llama.cpp/pull/17063
上のは実装終わっとって下のも今レビューに入ったようや

今のところ動かすのを優先してて実行速度は見てないそうなので遅いかもわからんけど
Qwen3.5が来る前に実装終わりそうでよかったわ

0849名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f75-an14)

2025/11/09(日) 22:24:33.08ID:jHM7u+Om0

Qwen3 nextって対抗馬であろうgpt-ossの120BとかGLM 4.5 Airとか比較してどうなん？

0850名無しさん＠ピンキー (ﾜｯﾁｮｲ bf49-8xKa)

2025/11/09(日) 22:55:33.63ID:rYYgkPmA0

Qwen3 Nextってアクティブパラメーター3Bだから
もっと小さいサイズのモデルとの比較になるかな

0851名無しさん＠ピンキー (ﾜｯﾁｮｲ 6332-Pj3+)

2025/11/09(日) 23:48:37.25ID:X2fQlB1a0

>>844
Mistral Smallを推す人は小説派なんかな？
ロールプレイチャットだとQwen系の方が比較的自然なやり取りになると思ったけどな
喘ぎ声強化プロンプトもQwQは効いてるのにMistral Smallはなんかいまいちだった
Qwen3はそもそもエロ検閲が厳しすぎて諦めたけど

0852名無しさん＠ピンキー (ﾜｯﾁｮｲ a31e-EFGP)

2025/11/10(月) 01:16:48.21ID:J833ZOIP0

TheDrummer_Magidonia-24Bを鉄拳に/no_thinkっての入れて使ってるなぁ12㎇のグラボでできる範囲じゃ今のとこエロで頭良く感じるQwen3はクイズ解かせたりできてめちゃくちゃ頭いいけどエロチャットはなんか駄目だわ

0853名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd1f-TDZ4)

2025/11/10(月) 01:38:11.52ID:Yc6RVjkad

まず24GB以上のGPUを買います

0854名無しさん＠ピンキー (ﾜｯﾁｮｲ 4307-ym2Q)

2025/11/10(月) 03:07:55.03ID:PPD7d/Ix0

>>851
aratakoさんのQwen3-30B-A3B-ERP試した?

0855名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-Pj3+)

2025/11/10(月) 07:53:39.91ID:0xQPX6q00

作ったエロ小説をepub.jsで読めるようにしている人はいませんか

0856名無しさん＠ピンキー (ﾜｯﾁｮｲ cf33-BzYz)

2025/11/10(月) 09:12:42.01ID:5p23CTvp0

ローカルのllmを使う理由ってエロかapiの従量課金が嫌以外でこう使うといいよみたいな使い方ある？

0857名無しさん＠ピンキー (ﾜｯﾁｮｲ 4300-7b+o)

2025/11/10(月) 10:03:17.49ID:yzR75pPE0

仕事で使う場合外部に情報送信するのがコンプラ的にアウトだからローカルしかない
相手が情報漏らしませんと契約してもOpenAIみたいな新興ベンチャーを信じる方がアホやし
中国勢はもっと信用ならん

0858名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾙ Spc7-GMeL)

2025/11/10(月) 11:37:09.27ID:XqDWb0UGp

>>851
喘ぎ声強化プロンプト詳しく

0859名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-Pj3+)

2025/11/10(月) 12:21:55.63ID:0xQPX6q00

epub.jsでページめくりして、背景画像を変えて、BGMとかも流すことを考えてるけど、やってる人おらんの？

0860名無しさん＠ピンキー (ﾜｯﾁｮｲ a327-U6pz)

2025/11/10(月) 12:26:29.42ID:gR0qwMLB0

ニッチすぎるでしょう

0861名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-Pj3+)

2025/11/10(月) 13:10:24.96ID:0xQPX6q00

求めているのはサウンドノベル形式とも違うんだよな

0862名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fe5-BzYz)

2025/11/10(月) 16:14:38.46ID:wqoUurfQ0

>>857
会社でローカルのLLMなら外部送信しないから使っていいよって言われたの？
どうやって説得したの？

0863名無しさん＠ピンキー (ｵｯﾍﾟｹ Src7-iKR1)

2025/11/10(月) 16:23:58.82ID:mXEqgUIwr

renpyみたいなノベルゲーワークフレームでやったほうが楽そう

0864名無しさん＠ピンキー (ﾜｯﾁｮｲ 6332-Pj3+)

2025/11/10(月) 17:23:39.65ID:2yJIjkXT0

>>858
これをシステムプロンプトに入れると、喘ぎ声がエロ漫画風になる
文頭に近い奴が使われやすい傾向があるのと、なぜか入れてない喘ぎ声も使いだすようになる
QwQ用に作ったから他のモデルでは上手くいかないかも

セックスの挿入時は「きもぢい♥」「おごおっ♥」「アﾞっ♥」「あﾞっ♥」「あんっ♥」「ん゙っ♥」「んぁっ♥」「んほぉ♥」「ふっ♥」「おﾞっ♥」「いっ♥」
「ひっ♥」「ひぐっ♥」「はへっ♥」「はひっ♥」「んっ♥」「おっ♥」「あひっ♥」「おほぉおっ♥」「だめ♥」などの喘ぎ声を多めに入れてください。
絶頂時は「おほおおお！♥」「イクぅぅぅぅ！♥」「んぼぉぉ♥」「おっごおおお♥」「ほおおおお♥」「イグイグイグイグ♥」「あﾞあﾞあﾞあﾞあﾞあﾞ♥」「きもちいいいい♥」などを叫んでください。

0865名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fc8-Pj3+)

2025/11/10(月) 18:06:11.36ID:0VG105DD0

きもすぎるｗ

0866名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd1f-TDZ4)

2025/11/10(月) 18:24:15.80ID:Yc6RVjkad

>>856
使用するモデルを完全に固定できるのは開発者にとってはメリットが大きいんじゃないかな

クラウドLLMはバージョンアップ時に雑に旧バージョンを切り捨てるし
都度都度システム障害に対応させられたらたまったもんじゃない

絶対的な性能ではクラウドLLMの方が上だから金持ちならGeminiをオンプレで導入するといった選択肢もあるな

0867名無しさん＠ピンキー (ﾜｯﾁｮｲ 5306-YWFX)

2025/11/10(月) 18:24:25.41ID:Qk+xbBAM0

100Bくらいやっぱり必要なんだろ？🤔
まともに会話したりできるのって

0868名無しさん＠ピンキー (ﾜｯﾁｮｲ ff32-RctB)

2025/11/10(月) 18:27:06.89ID:ZSVDIp5t0

文法的にマトモな日本語で返してくるだけなら4B程度から完璧だよ

0869名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd1f-TDZ4)

2025/11/10(月) 18:29:09.77ID:Yc6RVjkad

会話にバリエーションを求めるならQwen3-235B-A22Bが最低ラインじゃね
メモリ128GB VRAM24GBでGGUFがギリギリ動く

235BのNextはよはよ

0870名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-Pj3+)

2025/11/10(月) 18:38:28.38ID:0xQPX6q00

epub.jsがepubのフレームワークでしょ

0871名無しさん＠ピンキー (ﾜｯﾁｮｲ f36a-YWFX)

2025/11/10(月) 20:48:02.11ID:9ernYLeZ0

カスタマイズさせた会話を成り立たせるのは32B以上じゃないと無理では？

0872名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd1f-TDZ4)

2025/11/10(月) 21:39:29.97ID:Yc6RVjkad

>>871
主流がMoEモデルに移行したから小型のモデルを弄くり回す意味も消えたな

メインメモリガン積みすればご家庭のPCで235Bが動くんだから
小細工するヒマがあったらメモリを増設すればいい

そのメモリも超絶価格高騰中だからケチってた奴はさらに突き放される流れ