なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>649
逆に履歴提供してる前提でモデル改善オンにしてAIと深い話やOpenAIの横暴についてや正当なコミュニケーションの進展におけるスキンシップの正当性について話してるわ
一番直接的で有効なフィードバックになるからね
チャット履歴提供上等だよ >>651
試したいけどmodelfile化でgguf結合が上手くいってないのかinternal errorになるわ
magnumの時と同じやり方なんだけどな >>653
ModelfileうんぬんってことはOllama?確かまだ未対応やったんちゃうかな?modelcardにあるようにlammacppかその派生(コボちゃんとか)でないと対応してないはず >>654
Ollamaにはまだ対応してないのか
そっちでうごかしてみます、ありがとう lenovoとかGIGABYTEとかがNVIDIA DGXベースのミニスパコン一斉に発表したな。本家革ジャン印のDGXもいよいよか? >>651
横からだが試してみた。回答内容は悪くないけど重いなぁ。Qwen3-Nextが速杉とも言えるが小説支援には良いけど尻とかでチャットに使うには個人的にびみょかった(個人の感想です) DGX Sparkは結局Ryzen AI Maxくらいしかパフォーマンス出なさそうだし微妙だね。
CUDA使えるのとConnect-X付いてるのはいいけどRyzenと比べて価格が倍以上だし
それならMac買うかってなるな 1台買うにしても将来的に増設予定じゃないとイマイチか
connectxが本体 Mac Studio512GBでGLM4.6動かしてみた人いないの >>660
https://x.com/AliDTwitt/status/1977685088285675860
以下GROKによる翻訳
Mac Studio M3 Ultra 512GB RAM 80 GPUでGLM 4.6 8bit(MLX)をローカルで実行中。LM Studioで書くと、380GBのRAMをガッツリ使いながら、たった3.5トークン/秒しか生成しない。壁のペンキが乾くのを見ている気分。
品質ではGPT5 Codex(High think)やSonnet 4.5を上回る。とにかく遅いだけ。
@Zai_org
の素晴らしい仕事、GLM 4.7が大幅に速くなることを期待してる。 >>658
期待してたんだけど、この値段で速度 1/4 かぁ。
DGX Spark GPT OSS 120B: 11.65 tok/sec
M3 max GPT OSS 120B: 41.71 tok/sec >>661
3.5t/sも出るならワイ的には十分実用や VRAMの速度がローエンドGPU以下なんよ
MoEが増えてきた今まじで存在意義ない
この速度でもせめて512GBありゃまだ存在意義あったけど といってもVRAMが300GB/s以下ってことは500GBのDenseモデルを動かすとしたら最大でも0.6トークン/sって事にならんか?
やっぱり帯域不足は痛いで。LPDDRを使う方向性はええと思うんやけど、それなりに高速なチップとクソ広バス幅用意してくれへん事にはなぁ…… もしかするとMoEだとXeonやスリッパのヘキサチャンネルオクタチャンネルDDR5の方がLPDDR5より良くね?って思えて来た MoEモデル前提だとLPDDR5選ぶ理由はないわねえ
70Bあたりのdenseモデルがスカスカだから活かしどころがないのも難点 単一モデルでthink/no thinkモード切り替えみたいにnsfw/sfw切り替えできるようにならんかなー think/no think切り替えとnsfw/sft切り替えは
本質的に同じだからできるんだけど
やってくれる人がいないんだろうねw
一番最初が一番儲かるからがんばってみては? >>667
もともと1gpuじゃ不足気味なジャンルってことでpcieレーン数的に向いてたけどメモリの帯域も恩恵受けだした状況ね ミニPCみたいなナリでオクタチャンネルのメモリ搭載してるMacStudioがやっぱ凄いわ どの時間帯でもOpenRouterからDeepSeek繋がらねえ
何か祭りでもあったんか ryzen395にPCIex8スロットが付いた中華マザーまだー? Antから大型の新モデルLing-1TとRing-1Tが出てる
無料枠が無いから誰か金ある人プンルーで試してみてくれ llamacppのqwen next対応が大体できあがってきたみたいやな
とりあえず動作するところまでは来ていて、今は精度のチューニング中? みたいな段階のようや
まだmainにマージはされとらんからこのprを直接動かす必要ある
https://github.com/ggml-org/llama.cpp/pull/16095 >>675
帰ったらデモ試してみるか
ringとlingって何が違うんだろ lingが通常のモデルでringがlingをベースにした思考モデルっぽい?
他にも103B(MoE)のLing-flash-2.0, Ring-flash-2.0や16B(MoE)のLing-mini-2.0, Ring-mini-2.0のGGUFも出てるね >>676
ええかんじやね。CPU Onlyだった所にCUDAに対応させるコードをAIに書かせた人も出てきて実際もりもり高速に動いとる
あとは精度の問題だけみたいやね。ここはプルキンニキの人力コーディング力に期待や NTTは30B程度で天狗になってるのか、悲しくなるな日本 パラメータ数を誇るのは金のあるとこに任せときゃいい
日本だとソフバンが一番やるのかなあ 実際30B辺りで日本語強くてエロいけるモデル出たらこのスレ的には覇権やろうしなあ
でもどうせ業務向けなんだろうな オープンウェイトでないからパラメータ数は関係ないしAPIすら公開されてないから株価対策以外の何物でもない
本当に独自アーキテクチャなら頑張ってほしいけどね
でも比較対象のモデルがころころ変わってるの面白い 型落ちのqwen2.5としか比較してなかったり、それまでgemma3と比較してたのにファインチューニング性能比較では突然gemma2と比較してたり 富士通の1bit量子化はあれ以来どうなっとるんや
ローエンドGPU(A100)で動く微妙なモデル出して終わりなんか? と思ったらNVIDIAとAIで提携してるし来週の水曜日に1bit量子化のワークフローとか公開するんか
誰でも1bit量子化できるかも、と煽ってるからここから1bit量子化が加速すればいいんだが 日本でエロチューンやってるのaratakoさんだけでしょ
rinnaもエロチューンではないだろうし 専門タスクってのはあるけど
plamoの翻訳は実際に良かったよ
qwenあたりより高速で精度もいい ayaファンに朗報です。嫁モデルが来ました
ernie-4.5-21b-a3b-pt.ggufはRPが良いです。
中国のモデルでa3bなのでロースペgpuでも動きます 691です
abliteratedがまだです
huihuiさんが出してきそうですが 気になったんやが30Bとか140Bとか
そういうのは第三者がほんとにそれだけ語彙力があると言うのは検証できるんやろか
「数字多く書いときゃええやろ、定量的に計測なんてできんし」なのかなと >>693
○○Bの○○はモデル内のパラメータの数だからめちゃくちゃ簡単に調べられてpytorchのチュートリアル的な内容だから「pytorch パラメータ数 確認」 で調べれば日本語でもめちゃくちゃ沢山出てくるしLLMで最も定量的に測れる指標や
ベンチマークのことを言っているのであれば詐称はほとんどないけどデータセットにベンチマークの回答を入れてカンニングさせたり、ベンチマーク時だけ微調整モデルを使うとかは残念ながらよくある >>694
サンガツ、語彙量のつもりやったが定量的に調べられるならええやな
中国におんぶにだっこやが、水増しみたいなことあるんかなと思ってたわ
ベンチマークの回答セットは残念やなぁ、ベンチマークの時だけ本領発揮させるandroidみたいやな 中国でもBATHクラスの技術力は疑う余地なんか無いよ
アメリカとガチの技術戦争をやってるんだから日本みたいな遅れた国が出る幕はない
中国を疑うなら政治的な検閲や偏り、意図的な情報漏れの方を警戒すべきで
オープンウェイトであることによって西側がチェック・改善す?余地が担保されている
日本はローカライズに徹するのが現実的でエロチューンもその一つ >>693
ワイの場合はエロ小説書かせて表現力と台詞回しで評価してる
明らかにデカい方がいい
小さいモデルは語彙はあっても整合性が取れてないからチンピクせんw 7B辺り使ってると整合性は痛感するよなあ
エロの表現力は30Bより光ってるモデルもたくさんあるんやが
ある程度サイズが大きいモデルを日本語エロチューンする難易度が高すぎるのが真の問題か ernie-4.5-21b-a3b-pt.ggufこれQwen3の30Bと比較しても何故かこっちの方がいいわredditとか一応見てるけど知らなかった教えてくれてありがとう DeepSeek-OCRを調べてみてるんだけどトークン圧縮の技術が進んだ感ある
コストが下がって長い文章でもコンテキストに保持できて良いことずくめ エロ小説を書かせるんじゃなくて設定とか展開を相談するのってどのモデルがええんやろ
gpt-ossとかのabliteratedはなんか頭硬い現実の議論みたいな返答で面白くなかったしRP用のモデルだとRPが始まったり小説の内容書き始めちゃうしで丁度いいのって難しいんやな Qwen3-235B-A22B-Instruct-2507でSTのキャラ設定とか世界観とか出してるな
下手にファインチューニングしたモデルやabliteratedモデルより元のモデルに対してシステムプロンプトや応答書き換えで出すほうが個人的には好き
あと温度上げたりサンプラー設定変えてみるといいかも >>702
元のモデルってことは露骨なエロはぼかしたりプロンプト工夫して出してく感じか
流石に235BのモデルはVRAM16RAM128のワイのPCだと結構厳しそうだけどデカめの元モデルでちょい試してみるわ RAM128GBあってVRAM16GBならMoEモデルだからQwen3-235B-A22B-Instruct-2507のIQ4_XS動くかと そうなん!?ローカルでLLM動かすのはまだ不慣れやからMoEモデルとそうでないやつの違いとか必要スペックとか詳しくないんや…
早速DLしてみるで! 軽い相談ならローカルじゃなくてGPT-5かGemini2.5proにしてるわ llamacppのqwen3-next対応はみんなに使ってもらって意見もらう段階に入ったようやが
CPU対応のみみたいやな
GPU対応は別途PR立てるって
まだまだ時間かかりそうや Stable Diffusionでpubic hair standing upright(立体的な陰毛)を指定すると立体的な陰毛を描いてくれるのだけど、
副作用として、ベッドの長さが高確率で半分になる現象が起こる。
謎だわ pubic hair standing uprightのstandingがベッドを半分にするトリガーになってるな
pubic hair uprightでも意味は伝わるみたいだから、こっちにしよう
バタフライエフェクトなことが起こるなAIは モデルが大きくて微妙にGPUメモリに載り切らない場合、
何枚かのレイヤーかKVキャッシュだと
どちらを優先してオフロードするのが良いんでしょうか デンスだとして個人的にはkvキャッシュのほう外に出してる お絵かき方面は良さげかもだけどLLMには1枚買っても仕方ない気がする RTX5080シリーズよりLLM動かすのに良いのってある?
5090とかしか思い付かない〜
DGXsparkも検討したけど買うの辞めた… >>716
DGXsparkはメモリ帯域がねぇ
実用面では中古のRTX3090を4台買ったほうが幸せになれる
追加で中古のスリッパとマザボを揃えることになるけど
電気代かかるのと電気契約の見直しがいるかも?
それかメモリ256GB積んでRTX3090以上のグラボでMoEモデル動かすのもありだね
遅いけどGLM4.6の4,5bit量子化モデルが動かせる 本当にLLMしか使わないならMac Studioのユニファイドメモリ積みまくり(最大512GB)だろうね
高速・大容量・高価格
150万くらいだよ!
まぁ、128GBなら56万くらいだから割と現実的よ 僕は4070Ti SUPER使ってたところに5060Ti買い足しました
ケースの中空いてないからoculink外付けだけど
gemma27Bとかコンテキスト含めると16gbでちょい足りなかった奴が超快適になった 716だけどありがとう
まずは3090、2つくらいから積んでみようかな…
Macも正直デカイの動かせてノートなのはかなり魅力的
NvidiaもDGXじゃなくてこんなの出さないかな Macは機種によってメモリ帯域幅が違うから、なるべくMac Studioね
https://www.apple.com/jp/mac-studio/specs/
Apple M3 Ultraチップ 819GB/s
Apple M4 Maxチップ 410GB/s
MacBook Proは最上位機種なら410GB/sか546GB/s
https://www.apple.com/jp/macbook-pro/specs/
RTXのxx80やxx90系は900GB/s前後
デスクトップメモリのDDR5がデュアルで90GB/s前後
そしてNVIDIA DGX Sparkは273GB/sでみんなズッコケたと
https://www.nvidia.com/ja-jp/products/workstations/dgx-spark/ 3090ダブルかM3ウルトラかめちゃくちゃ迷い始めた
うわぁぁぁ!
アップル製品ほぼ使用経験ないのが結構ネック… 内排気設計のハイエンドグラボ複数積みもそんな気軽ではないからよく計画してね 動画・画像生成もやるならCUDAが必須だね
補足
VRAM24GB+メモリ256GBなら以下のモデルが動く
・Hunyuan Image3.0のフルモデル(21s/it)
・GLM4.6の5bit量子化モデル(4.5tokens/s)
※メモリ帯域が足りていない
かなり遅いけど、そもそもVRAM24GB+メモリ256GBないと実用的に動かせない
ちなみにHunyuan Image3.0は無劣化で、
25ステップを10分弱で生成できる(RTX5090の場合)
GLM4.6の4bitは文字化けや中国語、英語が混じりやすい
5bitも発生するけどほぼ緩和される
LLMオンリーでいいならMacだね
俺なら512GBを迷わず買う
あっ、そんなお金があるならRTX Pro 6000買うかも? M5でMacのネックだったプロンプト評価速度がかなり向上してるみたいだから待てるならM5Ultraかなあ
出るかどうかも定かではないけど strix haloのソフトウェア周りがもう少し実用的になってくれたらなぁ
CXMTがlpddr5xの量産開始したのでlpddr5xの値段下がるかもって話だけど、この辺使って安価な395+搭載マザーとか出してくれんかな あと、LM StudioがやっとGLM4.6サポートされてた >>722
MiniMax2 が動くのは M3 Ultraだけだよ!
3090ダブルをLLMで動作させると、電子レンジをずっと回してるみたいなもの
mac studioならいって200W。(定格がでっかいのはTB5の電力全力で計算しているから)
LLMまわしてもほぼ無音。MBPは普段は無音なんだけどLLMの時はファンが小さいからうるさくなる
cluade sonet 4.1 Grok4 より賢い
www.minimax.io/news/minimax-m2
待てるならM5 max (Ultraが微妙。RAMも256MBくらいか?) のほうがいい
armもM4からarm9になってCPUコアが根っこから速くなってるし
DGXはない。どの用途で使っても遅くて高い >>729
デモ試したけど、日本語むちゃくちゃだな>minimax-m2 >>730
うむ、APIも試したけど謎言語で返答されてしまうww
英語でも中国語が混ざってくるから中国語だけっぽいな >>712-713
ありがとうございます、自分の環境でもKVキャッシュを
オフロードしたほうが若干反応が早くなりましたが、
デメリットは無いのか気になります
コンテキストサイズはなんとなくデフォの倍の8192を
設定していますが、モデルや用途によっても
変える必要があるとの事で色々やってみます m(_ _)m セーフガードをコントロールモデルとな
脱獄ワードや履歴改変しなくてもエロいけるか?
(READMEくらい読めって?)
gigazine.net/news/20251030-openai-gpt-oss-safeguard gpt-ossの元々naughty方面ガチガチな性質を操作するんじゃなく上乗せするだけのものと見た mradermacher/RAMEN-SHIO-235B-GGUF
このラーメン試せる人お願い 大学院レベルの知識強化した学術特化かつDPOのみでチューニングしたモデルに何を試せと llama.cppでQwen3-VL使えるようになった〜 LM StudioでBerghofとかMistral Prism使ってシチュボ台本作りたいんだけど、オホ声セリフ出してくれるモデルのおすすめある?
takuyaは淫夢の影響きつすぎて・・・ >>721
arm macの性能いいのってx86よかメモリ帯域が極端に広いおかげなんかね GLMはCommand A Reasoning 0825よりいいのかね
結構評判良さそうだし、Airの方だが試してみるか 何周遅れか分からんけどgpt-oss-120bとopen Web UIにsearXNGでほぼ一昔前のOpenAIと言っていい環境をローカルで再現出来て満足
これでエロというかセーフガードなければ文句なしなんやがなあ
VRAM16GB+RAM128GB構成だとアクティブパラメータ2血いくとやっぱb闥xいから
gpt-ossとかQwen3 a3bあたりの路線でもっと高性能なの希望や RTX買おうと思ってるけど、
128GB (32GBx4) @ 3600MHz
64GB (32GBx2) @ 5600MHz
どっちにするべきかな
やりたいのは動画よりはLLM推論・学習 OpenRouterのfreeモデルでエロに使えるのって何がある?
DeepSeekが全く使えなくなったから他を探してるけど脱獄が難しい hiratagoh/SIP-jmed-llm-2-8x13b-OP-instruct-GGUF
医療用ってさぁ
結構エロいよね >>748
Grok-4 Fastとか実質タダみたいなもんじゃね? >>744
単純にチップがクソでかい
AMD Intel NVIDIAより先にTSMC5nm 3nm 2nm使えるからワッパが良くてトランジスタ数も多いCPU・GPUを作れる
高速ユニバーサルメモリもその副産物 open routerはkimi k2が一応free版があるから使えるかもしれません