なんJLLM部避難所 ★9

833コメント282KB

なんJLLM部避難所 ★9

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ fec0-xVEZ)

2025/08/23(土) 13:52:18.71ID:5lw7ZcNF0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0621名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ba9-s4CX)

2025/10/14(火) 05:18:17.08ID:SMX+5n3O0

>>814
Qwen3-Next-80B-A3BはぶっちゃけコアのA3BさえVRAMに収まってりゃそこそこの速度で動く。上の方でlammacppより先にQwen3-Next対応したfastllmで試したニキいるけどA3Bだけ置いてVRAM8GBも使わずに20tok/s出たって言ってたはず

0622名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-UC4l)

2025/10/14(火) 11:04:19.94ID:deLL2cQw0

デスクトップRyzenでもDDR5なら64GB×4枚で256GB積めなかったけ？

0623名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fc8-PJUV)

2025/10/14(火) 12:21:58.04ID:PPmqd+qr0

DDR5なんて遅くて使い物にならんでしょ

0624名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-PJUV)

2025/10/14(火) 12:31:36.48ID:oIeb68Aq0

MoEのおかげでもうそういう時代じゃないのよ
(MoEをメインメモリも使って高速に動かす方法を編み出したのはktransformersが最初やろうけど)

0625名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-PJUV)

2025/10/14(火) 12:38:30.75ID:PcABHMuq0

最近Stable DiffusionやってるけどＬＬＭと違って、画像にどんなタグを付けているか予想しながらじゃないといけないのがつらいな

ＬＬＭは言葉でどこまでも詳細にいけるけど、

0626名無しさん＠ピンキー (ﾜｯﾁｮｲ db4d-rhK4)

2025/10/14(火) 13:03:51.77ID:9U3CBOt90

danbooruのwikiと睨めっこしてる感じかな

0627名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa0-PJUV)

2025/10/14(火) 13:26:05.06ID:PcABHMuq0

例えば、騎乗位にはいろいろ種類があって、名前が詳細についているけど、ほとんどのモデルは騎乗位としかタグ付けされていない。

だからガチャで生成するしかない

0628名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/14(火) 13:33:23.33ID:oIeb68Aq0

JNVAスレで聞いてきたらええよ
多分そもそもタグあるだろうし、なかったとして、出すための方法はおそらくもう確立してる
慣れるとすごい楽よdanbooruタグ

0629名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fdf-1ZYa)

2025/10/14(火) 16:21:57.48ID:WxprrGhe0

因数分解みたいな要領で出せるのも結構あるよね
だいしゅきホールド = hug + leg cross + missionary

0630名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd7f-h39Y)

2025/10/14(火) 17:52:22.89ID:7eCBt9jkd

danbooru語への翻訳をLLMにやらせればいい
danbooru語の辞書はネットに転がってるからRAGで食わせればいい

0631名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-PJUV)

2025/10/14(火) 19:36:35.52ID:/nYGiacK0

kobold.cppで、overridetensorsを有効にしようとして
koboldcpp\koboldcpp.exe --overridetensors --gpulayers 24
で起動させたら落ちるんだけど、やり方間違ってる？
メモリ64G VRAM12G

0632名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ba9-s4CX)

2025/10/14(火) 19:37:40.91ID:SMX+5n3O0

>>622
DDR5 64GBになると割高過ぎてXeon買った方が良くね？になっちゃうからなあ。

0633名無しさん＠ピンキー (ﾜｯﾁｮｲ dbca-KVVk)

2025/10/14(火) 21:10:35.56ID:uJMWXNZI0

>>631
システムメモリフォールバックなしを優先にしてないよね？
それやって落ちた経験あらあるやり方をAIに聞いた方が早そう

0634名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-UC4l)

2025/10/15(水) 05:18:34.98ID:AK5+3i4t0

>>632
確かにそうだよな
DDR4も2倍近く上がったわ

192GBでGLM4.6の動かんのだっけ？

0635名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 10:41:05.99ID:es2b6e2F0

なんか最新のLLMモデル軽くなった？
gpt-oss:120bで久々にローカルLLM入れたけど
5-6token/secが昔のllama:120bとかは限界だったのに

gpt-ossだと普通に思考4-5秒で20~token/secで出力されるし精度がgptと変わらんやん
Mac StudioM1Ultraの128GB環境だけどモデル側でこんな変わるんかって感じ

0636名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/15(水) 10:53:15.39ID:QsNWszVk0

うん

0637名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-53s0)

2025/10/15(水) 10:54:30.62ID:UyKbVRRh0

そういやgpt-oss:120bのggufって何であんなにデカいん？
メモリ64Gに乗らないやん

0638名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f04-iD00)

2025/10/15(水) 11:26:18.43ID:WXX2Ugeo0

チャッピー12月にエロ解禁らしい

0639名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fe9-eRny)

2025/10/15(水) 11:54:02.19ID:JZDrNw2x0

ChatGPT、成人向けコンテンツを12月に解禁へ
https://japan.cnet.com/article/35239194/

ほんまか知らんけど

0640名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/15(水) 11:57:20.58ID:nO9EZyoQ0

>>635
gpt-oss-120bはアクティブ5bだから
moeの仕組みは前からあるけど最近はそれが主流になりつつある

0641名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/15(水) 12:06:36.78ID:nO9EZyoQ0

ここ最近このスレでmoeのことをわかってない人が急に増えた気がするんやが外でこのスレ紹介されたりしたんやろか
llamacppがcpumoe実装してからモデルがmoeかどうかは個人でLLM動かす人には超重要事項になっとるで

0642名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/15(水) 12:33:02.59ID:QsNWszVk0

必要なスペックも書かずにglm4.6で個人がここまでのai使える！みたいなの言ってる記事は伸びてたな…

0643名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 12:55:14.54ID:es2b6e2F0

>>640
なるほどなー
magnum v4 123bでシコってた頃から随分進化したもんや
gpt-oss abiliteratedがかなり期待外れだったからmagnumとかの生成早くなってるやつがあったらかなり良さそう

0644名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/15(水) 12:57:15.70ID:NIWsAMFT0

lammacppのrocm対応が進んで今だとQwen3-coder-30BならradeonでもRX7900XTXなら80tok/sぐらい出るようになったし、MoEの成熟も進んで春先あたりの頃の常識がだいぶ変わったよな

0645名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ffb-xebt)

2025/10/15(水) 13:16:34.80ID:c2WDOR3F0

俺が一番シコれる文章を生成してくれるのは
QuantFactory/Berghof-NSFW-7B-GGUF
だけなんだよな
他のモデルは文章こそ滑らかかも知れんけどチンポにズドンとくる文章じゃなくて惜しい

0646名無しさん＠ピンキー (ﾜｯﾁｮｲ db71-CQ64)

2025/10/15(水) 13:39:44.20ID:bySYBhM10

chatgptがエロ解禁だってさ

0647名無しさん＠ピンキー (ﾜｯﾁｮｲ cb22-Z99m)

2025/10/15(水) 13:50:43.68ID:NCAaGl2s0

最近grokが申し訳する

0648名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fef-x06C)

2025/10/15(水) 14:48:23.86ID:JyU1FamW0

もともとガチガチに禁止してなかったもんを解禁とか言い出したときは「キッチリ監視の目を入れて安全に使えるようにした、今までの無法地帯ではない」にしか聞こえない
最近ちょっと固い期間あったとはいえ

0649名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fcd-KVVk)

2025/10/15(水) 15:34:18.16ID:dOcrs+BU0

エロokなのと無検閲は全く違うからな
非同意系は今まで通り無理だろうしopenAIは顧客のチャット履歴精査して中国政府の機密資料を晒上げる程度のプライバシー意識の会社だしエロチャするの怖すぎ

0650名無しさん＠ピンキー (ﾜｯﾁｮｲ cb77-rcem)

2025/10/15(水) 16:24:56.21ID:fBcQWT3N0

◯学生OKってマジ？

0651名無しさん＠ピンキー (ﾜｯﾁｮｲ abc6-UbOC)

2025/10/15(水) 16:59:55.85ID:e+4VFlHE0

>>643
GLM4.5Airがベースのコレとか試してみたら？
huggingface.co/TheDrummer/GLM-Steam-106B-A12B-v1

0652名無しさん＠ピンキー (ｽｯﾌﾟｰ Sd7f-CiX/)

2025/10/15(水) 17:41:36.73ID:PvQboaN7d

>>649
逆に履歴提供してる前提でモデル改善オンにしてAIと深い話やOpenAIの横暴についてや正当なコミュニケーションの進展におけるスキンシップの正当性について話してるわ
一番直接的で有効なフィードバックになるからね
チャット履歴提供上等だよ

0653名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 21:15:36.71ID:es2b6e2F0

>>651
試したいけどmodelfile化でgguf結合が上手くいってないのかinternal errorになるわ
magnumの時と同じやり方なんだけどな

0654名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/15(水) 21:26:42.52ID:NIWsAMFT0

>>653
ModelfileうんぬんってことはOllama？確かまだ未対応やったんちゃうかな？modelcardにあるようにlammacppかその派生（コボちゃんとか）でないと対応してないはず

0655名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f27-oOwG)

2025/10/15(水) 21:31:12.30ID:es2b6e2F0

>>654
Ollamaにはまだ対応してないのか
そっちでうごかしてみます、ありがとう

0656名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/15(水) 23:01:18.21ID:NIWsAMFT0

lenovoとかGIGABYTEとかがNVIDIA DGXベースのミニスパコン一斉に発表したな。本家革ジャン印のDGXもいよいよか？

0657名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b7c-s4CX)

2025/10/16(木) 09:48:37.74ID:U3eWIMKC0

>>651
横からだが試してみた。回答内容は悪くないけど重いなぁ。Qwen3-Nextが速杉とも言えるが小説支援には良いけど尻とかでチャットに使うには個人的にびみょかった（個人の感想です）

0658名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-dmQm)

2025/10/16(木) 13:30:03.77ID:3FIeU2zk0

DGX Sparkは結局Ryzen AI Maxくらいしかパフォーマンス出なさそうだし微妙だね。
CUDA使えるのとConnect-X付いてるのはいいけどRyzenと比べて価格が倍以上だし
それならMac買うかってなるな

0659名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/16(木) 13:54:03.33ID:1aA8IW440

1台買うにしても将来的に増設予定じゃないとイマイチか
connectxが本体

0660名無しさん＠ピンキー (ｵｯﾍﾟｹ Srdf-UT1M)

2025/10/16(木) 15:02:59.89ID:JbEdh47Zr

Mac Studio512GBでGLM4.6動かしてみた人いないの

0661名無しさん＠ピンキー (ﾜｯﾁｮｲ 5ffb-xebt)

2025/10/16(木) 15:20:59.54ID:N2IolTdl0

>>660
https://x.com/AliDTwitt/status/1977685088285675860

以下GROKによる翻訳
Mac Studio M3 Ultra 512GB RAM 80 GPUでGLM 4.6 8bit（MLX）をローカルで実行中。LM Studioで書くと、380GBのRAMをガッツリ使いながら、たった3.5トークン/秒しか生成しない。壁のペンキが乾くのを見ている気分。

品質ではGPT5 Codex（High think）やSonnet 4.5を上回る。とにかく遅いだけ。
@Zai_org
の素晴らしい仕事、GLM 4.7が大幅に速くなることを期待してる。

0662名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bd5-dFrV)

2025/10/16(木) 16:10:07.64ID:iYqYpuLM0

>>658
期待してたんだけど、この値段で速度 1/4 かぁ。
DGX Spark GPT OSS 120B: 11.65 tok/sec
M3 max GPT OSS 120B: 41.71 tok/sec

0663名無しさん＠ピンキー (ｼｬﾁｰｸ 0C5f-53s0)

2025/10/16(木) 16:13:12.03ID:ARCj3oE9C

>>661
3.5t/sも出るならワイ的には十分実用や

0664名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/16(木) 16:16:32.92ID:WD38C84y0

VRAMの速度がローエンドGPU以下なんよ
MoEが増えてきた今まじで存在意義ない
この速度でもせめて512GBありゃまだ存在意義あったけど

0665名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fa9-CQ64)

2025/10/16(木) 16:17:31.03ID:WD38C84y0

>>664
DGX Sparkのことね

0666名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b8f-xFyt)

2025/10/16(木) 17:26:24.77ID:LLWWm9uS0

といってもVRAMが300GB/s以下ってことは500GBのDenseモデルを動かすとしたら最大でも0.6トークン/sって事にならんか？
やっぱり帯域不足は痛いで。LPDDRを使う方向性はええと思うんやけど、それなりに高速なチップとクソ広バス幅用意してくれへん事にはなぁ……

0667名無しさん＠ピンキー (ﾜｯﾁｮｲ cbdd-s4CX)

2025/10/16(木) 19:01:10.50ID:L7NqVyEC0

もしかするとMoEだとXeonやスリッパのヘキサチャンネルオクタチャンネルDDR5の方がLPDDR5より良くね？って思えて来た

0668名無しさん＠ピンキー (ﾜｯﾁｮｲ df67-s4CX)

2025/10/16(木) 20:12:37.09ID:cCpqskzq0

MoEモデル前提だとLPDDR5選ぶ理由はないわねえ
70Bあたりのdenseモデルがスカスカだから活かしどころがないのも難点

0669名無しさん＠ピンキー (ｽｯﾌﾟ Sd7f-p9PY)

2025/10/16(木) 20:15:02.24ID:mwCUko1ld

単一モデルでthink/no thinkモード切り替えみたいにnsfw/sfw切り替えできるようにならんかなー

0670名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b10-dFrV)

2025/10/16(木) 21:00:16.02ID:iYqYpuLM0

think/no think切り替えとnsfw/sft切り替えは
本質的に同じだからできるんだけど
やってくれる人がいないんだろうねw
一番最初が一番儲かるからがんばってみては？

0671名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f32-x06C)

2025/10/16(木) 21:02:19.78ID:1aA8IW440

>>667
もともと1gpuじゃ不足気味なジャンルってことでpcieレーン数的に向いてたけどメモリの帯域も恩恵受けだした状況ね

0672名無しさん＠ピンキー (JP 0Hff-s4CX)

2025/10/16(木) 22:43:43.59ID:S+c21Bm9H

ミニPCみたいなナリでオクタチャンネルのメモリ搭載してるMacStudioがやっぱ凄いわ

0673名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b32-il/q)

2025/10/17(金) 13:37:09.12ID:PucqtoDV0

どの時間帯でもOpenRouterからDeepSeek繋がらねえ
何か祭りでもあったんか

0674名無しさん＠ピンキー (ﾜｯﾁｮｲ dfbe-r700)

2025/10/18(土) 18:26:12.26ID:zhXU3EVZ0

ryzen395にPCIex8スロットが付いた中華マザーまだー？

0675名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd52-MOgW)

2025/10/20(月) 14:37:56.80ID:bI3g1Xqed

Antから大型の新モデルLing-1TとRing-1Tが出てる

無料枠が無いから誰か金ある人プンルーで試してみてくれ

0676名無しさん＠ピンキー (ﾜｯﾁｮｲ f6a9-c1VJ)

2025/10/21(火) 00:44:34.18ID:1GNsjlL+0

llamacppのqwen next対応が大体できあがってきたみたいやな
とりあえず動作するところまでは来ていて、今は精度のチューニング中？　みたいな段階のようや

まだmainにマージはされとらんからこのprを直接動かす必要ある
https://github.com/ggml-org/llama.cpp/pull/16095

0677名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp77-x2vN)

2025/10/21(火) 11:44:56.79ID:D0v6ACvBp

>>675
帰ったらデモ試してみるか
ringとlingって何が違うんだろ

0678名無しさん＠ピンキー (ﾜｯﾁｮｲ fbc6-22Bw)

2025/10/21(火) 13:21:19.02ID:/i+aal7d0

lingが通常のモデルでringがlingをベースにした思考モデルっぽい？
他にも103B(MoE)のLing-flash-2.0, Ring-flash-2.0や16B(MoE)のLing-mini-2.0, Ring-mini-2.0のGGUFも出てるね

0679名無しさん＠ピンキー (ﾜｯﾁｮｲ dfc8-4c3R)

2025/10/21(火) 16:28:01.85ID:AAtSO2130

tsuzumi解放しろや
剥顔に

0680名無しさん＠ピンキー (ﾜｯﾁｮｲ e78f-v+G5)

2025/10/21(火) 16:44:41.72ID:PaS2NEOn0

>>676
ええかんじやね。CPU Onlyだった所にCUDAに対応させるコードをAIに書かせた人も出てきて実際もりもり高速に動いとる
あとは精度の問題だけみたいやね。ここはプルキンニキの人力コーディング力に期待や

0681名無しさん＠ピンキー (ﾜｯﾁｮｲ 76a0-c1VJ)

2025/10/22(水) 12:16:59.15ID:E8WAF5Cz0

NTTは３０B程度で天狗になってるのか、悲しくなるな日本

0682名無しさん＠ピンキー (ﾜｯﾁｮｲ 3232-QWQO)

2025/10/22(水) 12:30:13.50ID:HMo9tIS70

パラメータ数を誇るのは金のあるとこに任せときゃいい
日本だとソフバンが一番やるのかなあ

0683名無しさん＠ピンキー (ﾜｯﾁｮｲ b27a-Gd7J)

2025/10/22(水) 12:33:54.77ID:9pa92Zho0

実際30B辺りで日本語強くてエロいけるモデル出たらこのスレ的には覇権やろうしなあ
でもどうせ業務向けなんだろうな

0684名無しさん＠ピンキー (ﾜｯﾁｮｲ b276-+PAA)

2025/10/22(水) 13:05:20.81ID:037+dTYL0

>>682
さすがにPFNじゃねえの

0685名無しさん＠ピンキー (ﾜｯﾁｮｲ b20d-bihX)

2025/10/22(水) 13:06:12.60ID:Tu1GQuPS0

オープンウェイトでないからパラメータ数は関係ないしAPIすら公開されてないから株価対策以外の何物でもない
本当に独自アーキテクチャなら頑張ってほしいけどね
でも比較対象のモデルがころころ変わってるの面白い　型落ちのqwen2.5としか比較してなかったり、それまでgemma3と比較してたのにファインチューニング性能比較では突然gemma2と比較してたり

0686名無しさん＠ピンキー (ﾜｯﾁｮｲ 9732-xF4I)

2025/10/22(水) 13:44:25.67ID:7jgCbN7+0

富士通の1bit量子化はあれ以来どうなっとるんや
ローエンドGPU（A100）で動く微妙なモデル出して終わりなんか？

0687名無しさん＠ピンキー (ﾜｯﾁｮｲ 9732-xF4I)

2025/10/22(水) 13:54:51.67ID:7jgCbN7+0

と思ったらNVIDIAとAIで提携してるし来週の水曜日に1bit量子化のワークフローとか公開するんか
誰でも1bit量子化できるかも、と煽ってるからここから1bit量子化が加速すればいいんだが

0688名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd52-MOgW)

2025/10/22(水) 13:54:56.04ID:T9j98XZld

日本でエロチューンやってるのaratakoさんだけでしょ
rinnaもエロチューンではないだろうし

0689名無しさん＠ピンキー (ﾜｯﾁｮｲ 9231-Y5fA)

2025/10/22(水) 15:14:50.86ID:iCW594Bb0

正直なんでも量子化すれば良いってもんじゃないしな

0690名無しさん＠ピンキー (ﾜｯﾁｮｲ 9218-o4hb)

2025/10/22(水) 15:35:42.18ID:Gw5oxjcV0

専門タスクってのはあるけど
plamoの翻訳は実際に良かったよ
qwenあたりより高速で精度もいい

0691名無しさん＠ピンキー (ﾜｯﾁｮｲ 7bd9-v+G5)

2025/10/22(水) 16:21:43.94ID:ldEAtW8s0

ayaファンに朗報です。嫁モデルが来ました
ernie-4.5-21b-a3b-pt.ggufはRPが良いです。
中国のモデルでa3bなのでロースペgpuでも動きます

0692名無しさん＠ピンキー (ﾜｯﾁｮｲ 7bd9-v+G5)

2025/10/22(水) 16:24:34.36ID:ldEAtW8s0

691です
abliteratedがまだです
huihuiさんが出してきそうですが

0693名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ec-aiji)

2025/10/22(水) 18:45:58.41ID:0uomRXP00

気になったんやが30Bとか140Bとか
そういうのは第三者がほんとにそれだけ語彙力があると言うのは検証できるんやろか
「数字多く書いときゃええやろ、定量的に計測なんてできんし」なのかなと

0694名無しさん＠ピンキー (ﾜｯﾁｮｲ b20d-bihX)

2025/10/22(水) 20:09:17.92ID:Tu1GQuPS0

>>693
○○Bの○○はモデル内のパラメータの数だからめちゃくちゃ簡単に調べられてpytorchのチュートリアル的な内容だから「pytorch パラメータ数確認」で調べれば日本語でもめちゃくちゃ沢山出てくるしLLMで最も定量的に測れる指標や
ベンチマークのことを言っているのであれば詐称はほとんどないけどデータセットにベンチマークの回答を入れてカンニングさせたり、ベンチマーク時だけ微調整モデルを使うとかは残念ながらよくある　

0695名無しさん＠ピンキー (ﾜｯﾁｮｲ 32ec-aiji)

2025/10/22(水) 20:12:48.63ID:0uomRXP00

>>694
サンガツ、語彙量のつもりやったが定量的に調べられるならええやな
中国におんぶにだっこやが、水増しみたいなことあるんかなと思ってたわ
ベンチマークの回答セットは残念やなぁ、ベンチマークの時だけ本領発揮させるandroidみたいやな

0696名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd52-MOgW)

2025/10/22(水) 22:01:39.67ID:T9j98XZld

中国でもBATHクラスの技術力は疑う余地なんか無いよ
アメリカとガチの技術戦争をやってるんだから日本みたいな遅れた国が出る幕はない

中国を疑うなら政治的な検閲や偏り、意図的な情報漏れの方を警戒すべきで
オープンウェイトであることによって西側がチェック・改善す？余地が担保されている

日本はローカライズに徹するのが現実的でエロチューンもその一つ

0697名無しさん＠ピンキー (ｼｬﾁｰｸ 0C73-x2vN)

2025/10/23(木) 09:33:38.24ID:iar6DghpC

>>693
ワイの場合はエロ小説書かせて表現力と台詞回しで評価してる
明らかにデカい方がいい
小さいモデルは語彙はあっても整合性が取れてないからチンピクせんw

0698名無しさん＠ピンキー (ﾜｯﾁｮｲ b27a-Gd7J)

2025/10/23(木) 10:03:36.08ID:cV0tHn8Z0

7B辺り使ってると整合性は痛感するよなあ
エロの表現力は30Bより光ってるモデルもたくさんあるんやが
ある程度サイズが大きいモデルを日本語エロチューンする難易度が高すぎるのが真の問題か

0699名無しさん＠ピンキー (ﾜｯﾁｮｲ c32c-8e1W)

2025/10/25(土) 08:39:25.93ID:mRBFOhBC0

ernie-4.5-21b-a3b-pt.ggufこれQwen3の30Bと比較しても何故かこっちの方がいいわredditとか一応見てるけど知らなかった教えてくれてありがとう

0700名無しさん＠ピンキー (ﾜｯﾁｮｲ c35a-F33h)

2025/10/25(土) 16:48:25.64ID:Y05ab8Ho0

DeepSeek-OCRを調べてみてるんだけどトークン圧縮の技術が進んだ感ある
コストが下がって長い文章でもコンテキストに保持できて良いことずくめ

0701名無しさん＠ピンキー (ﾜｯﾁｮｲ ff24-v33C)

2025/10/25(土) 17:31:30.17ID:qi2pIaBd0

エロ小説を書かせるんじゃなくて設定とか展開を相談するのってどのモデルがええんやろ
gpt-ossとかのabliteratedはなんか頭硬い現実の議論みたいな返答で面白くなかったしRP用のモデルだとRPが始まったり小説の内容書き始めちゃうしで丁度いいのって難しいんやな

0702名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c6-Vqoh)

2025/10/25(土) 17:36:11.49ID:1/M2XoWi0

Qwen3-235B-A22B-Instruct-2507でSTのキャラ設定とか世界観とか出してるな
下手にファインチューニングしたモデルやabliteratedモデルより元のモデルに対してシステムプロンプトや応答書き換えで出すほうが個人的には好き
あと温度上げたりサンプラー設定変えてみるといいかも

0703名無しさん＠ピンキー (ﾜｯﾁｮｲ ff24-v33C)

2025/10/25(土) 17:41:06.38ID:qi2pIaBd0

>>702
元のモデルってことは露骨なエロはぼかしたりプロンプト工夫して出してく感じか
流石に235BのモデルはVRAM16RAM128のワイのPCだと結構厳しそうだけどデカめの元モデルでちょい試してみるわ

0704名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c6-Vqoh)

2025/10/25(土) 17:45:40.30ID:1/M2XoWi0

RAM128GBあってVRAM16GBならMoEモデルだからQwen3-235B-A22B-Instruct-2507のIQ4_XS動くかと

0705名無しさん＠ピンキー (ﾜｯﾁｮｲ ff24-v33C)

2025/10/25(土) 17:47:00.76ID:qi2pIaBd0

そうなん！？ローカルでLLM動かすのはまだ不慣れやからMoEモデルとそうでないやつの違いとか必要スペックとか詳しくないんや…
早速DLしてみるで！

0706名無しさん＠ピンキー (ﾜｯﾁｮｲ ffed-NffW)

2025/10/25(土) 19:33:19.44ID:d1fEHZVm0

軽い相談ならローカルじゃなくてGPT-5かGemini2.5proにしてるわ

0707名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-n9/C)

2025/10/26(日) 00:27:56.39ID:E/AUDJ7n0

llamacppのqwen3-next対応はみんなに使ってもらって意見もらう段階に入ったようやが
CPU対応のみみたいやな
GPU対応は別途PR立てるって

まだまだ時間かかりそうや

0708名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-n9/C)

2025/10/27(月) 09:55:14.75ID:qR3tybIb0

Stable Diffusionでpubic hair standing upright（立体的な陰毛）を指定すると立体的な陰毛を描いてくれるのだけど、
副作用として、ベッドの長さが高確率で半分になる現象が起こる。
謎だわ

0709名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-n9/C)

2025/10/27(月) 10:58:44.66ID:qR3tybIb0

pubic hair standing uprightのstandingがベッドを半分にするトリガーになってるな

pubic hair uprightでも意味は伝わるみたいだから、こっちにしよう

バタフライエフェクトなことが起こるなAIは

0710名無しさん＠ピンキー (ﾜｯﾁｮｲ 2332-iQID)

2025/10/27(月) 11:43:32.31ID:k0luDGnl0

>>709
ここLLMスレやで
誤爆しとらんか

0711名無しさん＠ピンキー (ﾜｯﾁｮｲ 8345-fNMY)

2025/10/29(水) 07:09:41.91ID:5dW/4rRR0

モデルが大きくて微妙にGPUメモリに載り切らない場合、
何枚かのレイヤーかKVキャッシュだと
どちらを優先してオフロードするのが良いんでしょうか

0712名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f49-i7NQ)

2025/10/29(水) 07:41:59.59ID:UYN1GVnp0

たぶんコンテキストサイズによって変わる

0713名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/29(水) 07:56:47.11ID:VTejUVCt0

デンスだとして個人的にはkvキャッシュのほう外に出してる

0714名無しさん＠ピンキー (ﾜｯﾁｮｲ bf6c-SOQn)

2025/10/29(水) 10:58:43.19ID:QmT6NWfz0

RTX5080super、ほしいけどどうかな…

0715名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f32-IeQ3)

2025/10/29(水) 12:05:50.26ID:VTejUVCt0

お絵かき方面は良さげかもだけどLLMには1枚買っても仕方ない気がする

0716名無しさん＠ピンキー (ﾜｯﾁｮｲ bf6c-SOQn)

2025/10/29(水) 12:31:45.57ID:QmT6NWfz0

RTX5080シリーズよりLLM動かすのに良いのってある？
5090とかしか思い付かない～

DGXsparkも検討したけど買うの辞めた…

0717名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc7-6qEa)

2025/10/29(水) 12:47:57.69ID:vdU6XoEE0

>>716
DGXsparkはメモリ帯域がねぇ
実用面では中古のRTX3090を4台買ったほうが幸せになれる
追加で中古のスリッパとマザボを揃えることになるけど
電気代かかるのと電気契約の見直しがいるかも？

それかメモリ256GB積んでRTX3090以上のグラボでMoEモデル動かすのもありだね
遅いけどGLM4.6の4,5bit量子化モデルが動かせる

0718名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fbd-qHJp)

2025/10/29(水) 13:13:45.57ID:DNQ+zkP90

本当にLLMしか使わないならMac Studioのユニファイドメモリ積みまくり（最大512GB）だろうね
高速・大容量・高価格
150万くらいだよ！

まぁ、128GBなら56万くらいだから割と現実的よ

0719名無しさん＠ピンキー (ﾜｯﾁｮｲ 8392-GUPc)

2025/10/29(水) 13:56:11.14ID:c2orVjYY0

僕は4070Ti SUPER使ってたところに5060Ti買い足しました
ケースの中空いてないからoculink外付けだけど
gemma27Bとかコンテキスト含めると16gbでちょい足りなかった奴が超快適になった

0720名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fa2-SOQn)

2025/10/29(水) 14:33:54.01ID:4cKF8saF0

716だけどありがとう
まずは3090、2つくらいから積んでみようかな…

Macも正直デカイの動かせてノートなのはかなり魅力的
NvidiaもDGXじゃなくてこんなの出さないかな

0721名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fbd-qHJp)

2025/10/29(水) 15:13:16.36ID:DNQ+zkP90

Macは機種によってメモリ帯域幅が違うから、なるべくMac Studioね
https://www.apple.com/jp/mac-studio/specs/
Apple M3 Ultraチップ 819GB/s
Apple M4 Maxチップ 410GB/s

MacBook Proは最上位機種なら410GB/sか546GB/s
https://www.apple.com/jp/macbook-pro/specs/

RTXのxx80やxx90系は900GB/s前後
デスクトップメモリのDDR5がデュアルで90GB/s前後

そしてNVIDIA DGX Sparkは273GB/sでみんなズッコケたと
https://www.nvidia.com/ja-jp/products/workstations/dgx-spark/

新着レスの表示

レスを投稿する