なんJLLM部 避難所 ★10
0445名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/24(水) 17:48:55.50ID:tBtZ73nT0
5090(購入済み)で今新規にPCを組もうと考えてるんだけどメモリは何GB積めば良い?
DDR5諦めてDDR4なら中古で安く買えるからM/B悩む
あとCPUはどの程度買えばいいだろ?LLMって言うほどCPU使わないよね?
0447名無しさん@ピンキー (ワッチョイ efd0-oKN0)2025/12/24(水) 18:13:04.57ID:0yd84XMF0
>>445
MoEモデルをGPU+CPUでもそれなりに速く動かせるようになって
メインメモリもあればあるほどいい、になっとる
メインメモリが128GBあればVRAM32GBと合わせてQ4のQwen3-235bがコンテキスト減らせば動かせるかもわからん
ワイはそんなハード持っとらんから確認したわけじゃないし実際に動くかはわからんけど
0448名無しさん@ピンキー (ワッチョイ ef93-zXIm)2025/12/24(水) 18:16:41.56ID:KvLJtA0U0
やりたいことはやったらいいけど
古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い
DRAMはDDR4で32〜64GBでもかなりぼったくり
相性問題も起きるジャンルだから保証なしで高額商品に突撃するのはかなり冒険
0449名無しさん@ピンキー (ワッチョイ 9324-VlN3)2025/12/24(水) 18:43:36.66ID:F/+8qqxW0
メインメモリ128GBだとQwen3 235BのQ4は多分無理。Q3になると思う。
積むなら256GBだね。
今ならDDR4のxeonかスリッパでも普通にDDR5-256GB買うより安くなるんじゃね?
知らんけど。
0450名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/24(水) 18:45:28.03ID:KhCbXLY30
今はLLMもAI画像もAI動画も最低128GBは欲しいところ
0451名無しさん@ピンキー (ワッチョイ 3fac-rc7o)2025/12/24(水) 19:26:47.08ID:tBtZ73nT0
>古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い
実は、それするつもりでGPUと電源まで買ったんだけど、いざしようとしたら細かな設定が多すぎて新しく1台作りたくなって今になって悩み始めてる

ボッタクリと言っても今後値上がりするならむしろ安いかと
色々な予想を見ても2027年までは下がらないという話が増えた
中古ならほぼ新品含めてまだ安くあるしDDR4の使えるM/Bも今ならまだ普通に買える DDR5もなんとか買える価格

MoEはMacだけかと思ってたけどWindowsでもそれなりにできるようになってるのか
それで実際どこまで早く動くんやろ?RAMってVRAMと比べて速度遅いし気になる、

あとここまでRAM上がると、場合によっては5090*2でVRAM32*2や他の型番のVRAM多いGPUを複数の方が安くて早いとかもありえるかね?
そういう意味でもRAMをどこまで上げるか悩む

SD(AI画像)やってるけど1280で後で4Kに拡大してるけど32GBで十分と感じてるわ
あと、RAMはVRAMと比べて極端に遅いから溢れて使うことはほぼ無いわ
0453名無しさん@ピンキー (ワッチョイ 9324-VlN3)2025/12/24(水) 19:44:47.62ID:F/+8qqxW0
金有りそうだからryzenAI max+ 128GBにM.2からのoculinkで5090を接続するのを試してほしい
0458名無しさん@ピンキー (ワッチョイ b309-nQdN)2025/12/24(水) 22:07:59.74ID:x2HqbVnJ0
MiniMax M2.1
Gemini 3 ProやClaude 4.5 Sonnetを上回るスコアを記録 とあるけどウソくせー
Qwenもそうだったけど実際に使うとメジャー級とじゃ相手にならん
いつものごとく試験問題の答えを学習しているカンニングモデルの気配
0459名無しさん@ピンキー (ワッチョイ 7f64-ldFF)2025/12/24(水) 22:18:16.45ID:hhjZW9e70
単に日本語応答だと学習量足りなくて雑魚になってるだけかもよ
あと前モデルのMiniMax M2はRedditでもコーディング以外駄目な子扱いされてたな
そのコーディングも絶賛って程じゃなかったがクリエイティブライティングは特に評判悪かった記憶
0460名無しさん@ピンキー (ワッチョイ 93e1-gcTU)2025/12/25(木) 01:14:12.65ID:QQFUgyIz0
>>445
5090おめ
ワイの場合は1か月前だが、5090を買うぐらいならより安い予算でメモリガン積みのPCを新調したほうが良いと思い、
PCIE5.0規格に合わせてCPU,M/B,SSD全部そろえた
結果128GB+16GBでQwen3-235B-Q3が動いて世界が変わったで

というわけで128GBの下は64GBになると思うけどそれだととても勿体ないと思うよ
それにメインメモリに乗せて動かすと、やっぱりCPUパワーもそれなりに使う様だよ
財力があるならDDR4にするとか古いGPU2枚差し(これもやった)とか、変にケチらんほうがええよ
0461名無しさん@ピンキー (ワッチョイ 3fac-rc7o)2025/12/25(木) 03:15:04.72ID:QeIM/0Re0
古いPCでDDR4-128GB(今のPCのGPUを付け替える)にしようかと思ってたけどDDR5にすべき?
メモリってベンチマークでは差が出るけど実際にはDDR4・5変わらないって話を聞いて悩んでる
実際の所どうなんだろ?


>>460
ありがとう ちょっと出遅れたけどキャンセルになることなくなんとか買えてさっき置き配回収した
世界が変わった、そこまでか!DDR5早い?

>>453
取り合えすStable DiffusionがメインでLLMも気になってるくらいだからまだ出せないわ
今のGemini3とnanobababaの品質ならすぐにでも買うけど多分まだまだだよね
ただ、AIさんに来年にはローカルでも同程度になるかと聞いたら、昨今のLLMの進歩を見るとなる可能性が高いとい言ってたw
しかもメモリも節約できるタイプが出るみたいな話で大変楽天的だった
場合によってはそこそこのPCを買って待つのもありじゃないかと思ったりしてる
0463名無しさん@ピンキー (ワッチョイ 7332-s35p)2025/12/25(木) 07:47:15.17ID:b9l9XA760
>>461
DDR4もDDR5もLLM用途だと相対的に見ればたいした差はないよ
DDR5の新品だと今の状況だと2倍以上の価格差になるので128GBまででいいならDDR4にしてその価格差で容量増やしたほうが絶対にいい
というかDDR5の64GBの2枚が30万ってうぇぇぇ・・・・
0466名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/25(木) 09:16:50.67ID:6NV5/cQb0
Gemini liveが手軽なサイズでローカルに降りてくるのはいつになることやら
0467名無しさん@ピンキー (ワッチョイ 83c6-ldFF)2025/12/25(木) 09:21:34.65ID:JzO46wCb0
昔見たPCI-Ex16にM.2 SSDを四枚挿してRAID0でSWAPdisk?だったかでメインメモリの代わりにしてデカいLLMを動かすのがいいかもしれない
PCI-E 5.0なら理論上は512Gbpsの帯域幅あるけど実際のところどうなんだろうね
まあSSDも値上がってるけど
0470名無しさん@ピンキー (ワッチョイ 5332-s35p)2025/12/25(木) 11:11:27.61ID:AruFNnll0
性能を上げるためにモデルを巨大化した結果、メモリ不足になったわけで
高性能かつ省メモリなモデルができるならメモリ不足も起こってないという
0472名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/25(木) 11:19:17.62ID:6NV5/cQb0
>>470
今まではメモリが調達できる状態だったからその方針で進んでいただけで
調達できなくなったらそれに適応するように方針を変えるやろ
他の分野でも必要なものが調達できなくなってからようやくその部分を代替・効率化する技術が発展するとかよくある話だし
0473名無しさん@ピンキー (ワッチョイ b3ec-+e8j)2025/12/25(木) 11:34:40.98ID:mDnKJNz80
DDR4を入手よりも対応するマザーボードの入手が難しい
CPUやメモリは耐久性高いんだがマザーボードは大量の部品の集まりで故障しやすく中古はハイリスク
0475名無しさん@ピンキー (ワッチョイ 3f9f-1qsg)2025/12/25(木) 13:04:02.45ID:v3s2j4YZ0
5090と192めもりあるから何かに有効活用したいけどやっぱり動画生成に向き合うのがいいのかなあ
0477名無しさん@ピンキー (オッペケ Sr77-Ubo7)2025/12/25(木) 18:22:22.76ID:UhzC7jVkr
なんか急にメモリ不足になってて草
0478名無しさん@ピンキー (ワッチョイ 33c0-VlN3)2025/12/25(木) 19:04:49.75ID:AVrajHLN0
64GBx2の価格が上がりすぎて、静電気怖くてAI用PC弄れん。
0480名無しさん@ピンキー (ワッチョイ cfa9-xxTa)2025/12/25(木) 21:01:08.80ID:gh+hQl730
Mac買い替えるんだけど、流石に128GBとかは買えないから買えて64GBなんだけどローカルのモデル動かすには中途半端なサイズなのかな?
LLMのこと考えなければ64GBなんて全然いらないんだけど今あるRTX5060Ti+128GB(DDR4)の環境より早くなるならありかなって。。
0481名無しさん@ピンキー (ワッチョイ a36a-Ubo7)2025/12/25(木) 21:34:59.18ID:OB673X1y0
何したいか知らんが少ないんでは?
0482名無しさん@ピンキー (ワッチョイ 7332-wNtz)2025/12/25(木) 21:46:29.83ID:6NV5/cQb0
LLM用途で64GBは後悔することはあっても満足することは無いと思うで
0484名無しさん@ピンキー (ワッチョイ 5332-s35p)2025/12/25(木) 22:26:38.46ID:ViJl0/9F0
うーむ。ようやく化石PCから新調したけど思ったより速度出ないな。

magnum123b iQ3k_mを旧PCで0.17t/s
同Q8_0を新PCで0.41t/s

うーん、なにか設定ミスったかな。まあ、CPUメモリだしなぁ
0486名無しさん@ピンキー (ワッチョイ 8389-r6/A)2025/12/25(木) 23:19:46.06ID:3J/gLz4j0
Nemotron3はなかなか良いね
0488名無しさん@ピンキー (ワッチョイ 93b2-VlN3)2025/12/25(木) 23:43:37.00ID:+4TZHvI30
128GBでQ5で使える170Bくらいの良い感じのモデルが欲しい
0489名無しさん@ピンキー (ワッチョイ 3fc7-rc7o)2025/12/26(金) 00:22:15.91ID:yMjii2Jm0
LM Studioでとりあえず色々なモデルダウンロードしてるんだけど
ふと思ったがファイルってそもそも安全なんだろうか?
0490名無しさん@ピンキー (ワッチョイ 3f7c-geEI)2025/12/26(金) 00:58:47.21ID:p+OQnC8X0
何も考えずに ollama 使ってたけど直接 llama-server 叩いたほうが速いうえに webui も付いてたんだね
ollama ってなんのためにあるんだ…
0491名無しさん@ピンキー (スッププ Sd5f-iM94)2025/12/26(金) 00:59:59.20ID:qCRoD1VLd
GLMくらいのサイズのMoEで要らないエキスパートを外せれば128GBでも動きそうだが
メモリ128GBの貧乏人のことを真剣に考えてくれる開発元はQwenくらいしかないのが悲しい現実
0492名無しさん@ピンキー (スッププ Sd5f-iM94)2025/12/26(金) 01:02:34.18ID:qCRoD1VLd
米欧中のモデルって中身がほとんど英語と中国語だから
日本語メインのユーザーから見たらスッカスカのsparse状態だよな

もちろん英中を抜いて精度が維持出来るわけではないだろうが
日本人があまりにも不利すぎる
0494名無しさん@ピンキー (ワッチョイ b319-nQdN)2025/12/26(金) 03:41:49.42ID:7grGkI6v0
>>480 予算という制限は最優先だけろうけど64GBはちょっとつらい
Macはメモリ全部をVRAMに回せるんだけど、当然OSの
分が必要なわけで 8から10GByteは少なく見積もったほうがいい

もともとQ4対象とするモデル(gpt-ossとか)じゃないと劣化が激しくて
実用には程遠い(Q1で「動いた!」と夢を見てもねw)

最近MoEが流行ってきたせいで128GByteでもちょいちょい足りない
待てるならM5 maxを待った方がいいよ

M3チップから先のM系CPUは、mlxモデルなら量子化圧縮の他に内部でリアルタイムで
コストなしにメモリー圧縮してくれる
例えば100GByteのモデルだと80GByteくらいになることもある。当然まったく縮まないモデルもある

あと画像動画系はM4maxまでは使いもんにならんので素直にRTXを選択だ
0495名無しさん@ピンキー (ワッチョイ b358-+e8j)2025/12/26(金) 04:19:27.11ID:Wrkd9qpz0
オープンなモデルで見ると中国製はまだ日本語わかる方で英語圏のはマジで日本語知らない
Llamaとかきついね
最初あれを日本語ファインチューニングしてた会社多かったけどqwenの方が日本語分かるってみんな乗り換えたし
0496名無しさん@ピンキー (ワッチョイ cfa0-s35p)2025/12/26(金) 05:52:46.69ID:8zRv1QPC0
DRAM市場は価格変動が激しく、利益率が低いことで知られています。
特に、AIブームによるサーバー向け需要が優先され、PC向け供給が逼迫している現在、
ASUSのようなPCメーカーにとっては調達コストの上昇が深刻です。
噂では、ASUSが2026年に自社DRAM生産ラインを構築(または提携)するのは、
自社製品(ノートPC、デスクトップ)の供給を安定させ、価格転嫁を避けるためとされています。
しかし、この市場はSamsung、SK Hynix、Micronの「ビッグ3」が支配しており、
新規参入は資本集約的で収益化が難しい。台湾企業がこうした市場に手を出すのは、
単なるビジネスではなく、台湾の半導体エコシステム全体の戦略的強化を意図している可能性があります。
台湾政府は半導体を国家安全保障の柱と位置づけ、TSMCのようなファウンドリ(受託製造)だけでなく、
メモリ分野での自立を推進しています。これにより、中国依存を減らし、
米台同盟を強固にする地政学的メリットが生じます。
0499名無しさん@ピンキー (ワッチョイ 5332-Fga2)2025/12/26(金) 12:56:43.48ID:kUso6zPz0
>>498
書き忘れてたわw
iQ3k_mだと1.32t/sやった
Q8でここまで落ちるんかとショックだわ
>>487のニキと何が違うんやろ
多分スペック的には大差ないと思うけど
ryzen7 9800x3d msi rtx5090
メモリcp64g56c46u5✖4 256G
5090怖いんでPL運用
0500名無しさん@ピンキー (ワッチョイ 3fc7-SDhK)2025/12/26(金) 13:33:50.22ID:gBa6xuvc0
>>499
うひゃ、すごいな
俺は4年前のスリッパなんでそこまで性能良くない

俺のスペックはこれ
Threadripper Pro 5955WX(16c32t)
DDR4 3200MHz 32GB@8枚(オクタチャネル)
RTX 5090+RTX 3090@3枚 PCI4.0接続

違いはメモリ帯域かなと思ったけど
5955WXは2CCDという制約があって、メモリ帯域がまだフル稼働してない状態なんよ
実効帯域は半分の90GB/s弱のはず
これだとDDR5のハイエンドデスクトップと変わらんはずなんよね

Magnum v4 123B Q8試してみたけど0.58t/sだったので、GLM4.7ほどの差はない模様
0503名無しさん@ピンキー (ワッチョイ cf4c-gcTU)2025/12/26(金) 21:44:50.00ID:MbwwI/fJ0
openRouterのGLM4.7はプレフィルにここの<think>のやつを入れたらだいだいOKだな
ただreasoningのほうに本文が全部入って帰ってくることになるからapi呼び出しコードとかちょっと修正がいるかも
ttps://www.reddit.com/r/SillyTavernAI/comments/1pv8jto/glm_47_my_holiday_present_to_those_effected_by/
0506名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/27(土) 01:57:05.71ID:HyeodPWU0
ノベルはどこでみんなプロンプト勉強してるんだろ
学習場所みたいなの知りたい
ちなみに、SDはCivitaiなど先人のプロンプトが物凄く役に立った
0507名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/27(土) 01:57:53.57ID:HyeodPWU0
あと、ノベルに限らずLLMへの質問の仕方で回答かなり変わるしイマイチかん所が分からない
0509名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 07:06:17.86ID:PA+m8zpZ0
>>56
尻タブのキャラクターカードを参考にするといい
https://aicharactercards.com/

ピンキリだけど何の取っ掛かりもなく一人で試行錯誤するよりはだいぶマシだ
0510名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 07:06:35.15ID:PA+m8zpZ0
>>506だった
0511名無しさん@ピンキー (ワッチョイ cf20-UjAx)2025/12/27(土) 10:47:56.62ID:qjlNvfdb0
モデルの進化に伴ってプロンプトの書き方は意味を失っていって、適切なコンテキストを渡せるかどうかの話になっていくから、今からプロンプト頑張っても1年2年で賞味期限切れになる気がする
0515名無しさん@ピンキー (スッププ Sdee-KwNi)2025/12/27(土) 15:46:43.74ID:JH4k1F+Sd
AntiGravity時代やから的外れなコードやドキュメントを指示出しで軌道修正するスキルが一番大事や

書けない分からないじゃなく出してから考えるんや
0516名無しさん@ピンキー (ワッチョイ 5a02-SbIX)2025/12/27(土) 18:04:07.80ID:GInV4/hz0
GLM4.7を量子化無しで動かしたいなあ
500万円あったら足りるんかね
0518名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/27(土) 18:22:42.46ID:HyeodPWU0
>>509
ありがとう
キャラクター設定を作るまでは分かったけどそれでどう楽しむのかが良く分からない
SDだとシンプルに画像を作ってみて楽しめるけどLLMはどうするん?

>>511
SD、2年やってるけど、プロンプトは基本的に同じだな、ただ関わってると大きな変更があると掲示板で話題になるからその時一部変更してそのまま移行できてる

>>514
そんなことはない、分からなければ聞けばいつまででも教えてくれる
サンプルプログラムを貼り付けるだけのスキルしか無いから、高度なこと(何が高度なのかすら分からない)は無理だと思うけど、
こんなスクリプト作ってと言って、動くまで繰り返したら中身の全く理解できないソフトができたりしてるわ しかも、Perlしか使えないのに、PythonでGUIなソフトまで作ってくれた
時間はかかるけど、どんな物が欲しいのか(可能なら途中の処理がはっきりしてれば)がはっきりすればある程度はできる時代だと思う
ただ、ファイルの読み書きみたいな基本的な事もお任せしてたら、最近それも忘れてきた、AIなしだと何もできなくなりそうな怖さある
0519名無しさん@ピンキー (ワッチョイ 5a02-SbIX)2025/12/27(土) 18:44:41.69ID:GInV4/hz0
>>517
chutesって量子化されてるだろ
0520名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 19:19:40.12ID:PA+m8zpZ0
>>518
LLMはAIのシステムプロンプトに「あなたはこういう役割だからこういう風に振舞って」と基本ルールを記述しておく。
それとは別に「今からこういうことをして」というユーザープロンプトを与えると、基本ルールに沿った挙動で返信してくれる。

だから例えばAIに対して「あなたはファンタジー小説家です。私はあなたの担当編集者なので私の指示に従って小説を書いてください」という基本ルールを与えておいて
「それでは今から、物語の最初のシーンである勇者が冒険に旅立つ場面を書きましょう」とユーザープロンプトを与えるとファンタジー小説家らしく小説の冒頭を書き始めを生成してくれる。
スクリプト作るときも基本は同じやで。

AI画像生成、特に最近主流のリアスなんかはdanbooru語のプロンプトを与えるだけで良かったけど、LLMはもうちょっと設定の仕方が細かく分けられているって感じ。
さらにAIが理解しやすい記述方法にマークダウン記法とかを使った構造化プロンプトがあるからそれぐらいは覚えておいた方がいい。
構造化プロンプトはZ-image turboでも有効だと判明したからAI生成画像をやる場合でも覚えておいて損はないと思う。
0522名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/27(土) 19:43:59.04ID:HyeodPWU0
>>520
これでどうエロに繋げるの?
とりあえず、mistral-small-24b-instruct-2501-abliterated-i1落としてエロ小説にしてと言ったらやってくれたけど、
それなら本でいい気がするが、LLMみんなハマってるし、もっと楽しんでるよね?
いまいち楽しみ方が分からん

あと、プログラム(Perl)だけどやってほしいことを箇条書きや文章で投げるだけばかりだったわ
ただ、AIにプロンプトをお願いしたら###がたくさんあるのを返してくれるな この記法も覚えたほうがいいのか
z-imagaはまだ使ってないけどnanobananaだと誤字脱字無駄な文章ありまくりでもいいものができるし、内部でうまいこと処理してくれてんのかな

>>521
みんなのプロンプト例をあまり見ることがないから知らなかったわ
画像だとあるけど、LLMでもこんなプロンプトでこんな物作ったみたいな例がたくさん乗ってるサイトってあるかね?
そういうのからざっくり勉強(真似)したい
0524名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/27(土) 20:30:00.68ID:PA+m8zpZ0
>>522
絵だってAIで生成せずともpixiv見るなり画集やCG集買うなりすればええやろ?
でも自分好みの絵が欲しいからAIで生成しているわけだ
文章も同じで自分好みの小説やキャラとのチャットを楽しみたいからLLMで生成するわけだ
本で満足できるなら別にLLMで生成する必要は無いで

エロに繋げるならエロ小説だけでなく
koboldcppのアドベンチャーモードを使って、プレイヤーの行動を記述することで物語が順番に進むエロTRPGみたいなこともできるし
単にキャラ設定を書いて自分好みのキャラとエロチャットを楽しんでもいい
妄想力とリビドーを働かせて遊ぶんやで
0525名無しさん@ピンキー (ワッチョイ 8d32-0Alr)2025/12/27(土) 21:12:44.85ID:OFD0eLnw0
>>522
自分のお気に入りのキャラ(版権でもオリジナルでもいい)の設定を書いて
自分好みのシチュエーション提示して書いてもらったりする。
エロなら竿役の設定もね
0526名無しさん@ピンキー (ワッチョイ f432-ISUa)2025/12/27(土) 21:54:34.36ID:2DxrJ48B0
絵は長らくdanbooru語で書かなきゃいかんかったから変にプロンプトぢから必要なだけで
こっちは日本語でも英語でも人間相手に分かりやすい書き方なら何でもいい
典型例にはmarkdownがある
0527名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/27(土) 22:42:39.52ID:EHZ6LBSo0
やりたいことやモデルにもよるけど、AIが得意な言語に合わせるのは重要だぞ
Nano Bananaは日本語だと全然言うこと聞かなくて
プロンプトを英語に翻訳したらあっさり意図した画像が生成できたりする
0528名無しさん@ピンキー (オッペケ Sr9b-UjAx)2025/12/27(土) 23:52:40.76ID:goYPX3Hpr
>522
よく分からないうちはもっと大型のLLMでやるほうがいい
gemini3.0proのAPI版とか
で、文章生成AIスレを両方とも覗いて参考にするのがベストに思える

ある程度小説読むひとなら、エロを主目的にするよりは文章を書くことを目的にしてエロで習慣化する、てのがいいんでないの
面白さを優先してたらエロさと微塵も関係ない話を10万字書いてました、みたいな話はあるあるだしね
数を書くと文章の型とキャラの型が出来てくるから、そこまで行けばあとは好きに作れるようになるよ
0529名無しさん@ピンキー (ワッチョイ 029f-FE3X)2025/12/28(日) 01:31:14.07ID:BXAiGjWS0
>>522
ローカルAIなんてGPTやらGeminiやらと性能が雲泥の差があるから、余程の特定用途でもない限りローカルAIを、しかもエロ用途で使わない。

そういったコアな質問をしたかったのかな?
0532名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/28(日) 02:52:14.12ID:/ozKpiSI0
>>524,525
同人誌を知らない人が、初めて同人誌というものを知ったら夢中になるじゃん
同じ様に、ローカルLLMをどんな風に楽しく使ってるのか、どういう世界があるのかが気になってる
チャットだけどエロゲ(殆選択肢なし)は昔良くしてたけど、主人公の発言がもし大量に必要ならコミュ力無いから正直進められる気がしないわ><
自分をアシストするような強化したLLMを用意したらいけるかもだが
あと、ソフト使ったりそういう感じで作り込んだりするんだな勉強になる!
ただこれって公開してる人居ないのかね?2chの頃だと自作小説を延々と投稿する人とか居たけけど最近そのスレ見かけない

>>527
かなり適当な書き方やDanbooru語でもいい感じで出るけど、英語必須って色々とレベル高そう

>>528
つい最近ローカルLLMはじめたんだけどサイズ的に小さいかな? ただ、思ったよりも的確で驚いてる所。
パスワードとか個人情報がたくさんあって表に出したくないのはローカルで使えそうな気がしてる。
また、無料しか使ったこと無いけどGemini有料版は更に優秀?無料でも十分凄いと思ってる所だが使いこなせてないかも
あと、文章生成AIスレあるのか、見てみる

>>529
自分の場合版権もの多めでエロ画像を1日5000枚くらい見たいという熱烈な欲望があって生成AIをはじめた
GeminiはSDのLoRA学習元画像を作るのに使ってる
このスレではSDよりも高価なPCを用意してLLMで楽しんでる人も多く、どう楽しんでるのか気になってる感じ
自身はヌルオタで情報集めるのが下手で同人という世界を知ったのもかなり遅く、楽しそうな世界はあるような気はするけど、具体的な世界が見えない感じ
ただ、規制なしLLMは元々化学を専攻してた身からすると、どこまでも知識を掘れるのは面白いと感じてる、作ることはないけど知識欲はなかなかに満たしてくれる
あとRAGとか?うまくすれば、ちょびっツみたいなAIが作れるのかとか気になってる
0533名無しさん@ピンキー (ワッチョイ 82dd-mqrN)2025/12/28(日) 03:35:47.86ID:T164suva0
自分もコミュ力ないから画像認識モデルに画像投げて「過激で性的なストーリーを」で終わりよ
Qwen3-VL-32B-Instruct-hereticあたりならノリノリで書いてくれるぞ
AI絵に設定やストーリーが加わるだけでも没入感が全く違う
0534名無しさん@ピンキー (ワッチョイ e632-4mSN)2025/12/28(日) 06:12:23.25ID:IfHjdL+D0
>>532
主人公の発言なんて1文でもいいよ。あとはそれに沿って適当に進めてくれる
もしくは3つの選択肢に番号を振って提示させるようにすれば「1」って打つだけで選択肢1の内容を書き進めてくれるようになる
1. 町に出かける
2. ダンジョンを探索する
3. エルフの村を襲撃する
みたいに文章の終わりに次のユーザーの行動の選択肢を提示させるようにするんだ

他にもキャラ設定とシチュエーションを練り込んで、「昨日1日中犯され続けたことについて1時間ごとに区切って詳細に報告しろ」って言えば
どんな風に犯されたのか好きなキャラが淫語連発しながら報告してくれるとか色んな遊び方があるぞ
とにかく発想力をフル活用して自分がエロい、楽しいと思う遊びをするんだ
ある程度賢いモデルなら大体のことは出来る
0535名無しさん@ピンキー (ワッチョイ 5c50-7ChI)2025/12/28(日) 06:47:41.88ID:ixi8DXTr0
BTO受注停止騒ぎの直前に新規にPCの発注をかけてたけど
納期が長いと冷静になっていけないなぁ…
外部のAPI経由でLLM使うなら
メモリを128GBにしなくても良かったんではないかとか
今になって頭の中でぐるぐるとしちゃって困る
GPUは16GBで抑えちゃったのになぁとか
0536名無しさん@ピンキー (スッップ Sdec-CL6D)2025/12/28(日) 12:57:46.25ID:gTMSw00Dd
PC新調しようかと思ったらネット注文不可
今日アキバに行ったんだけど、BTO軒並み在庫無し
グラボ自体も在庫無しorおま国価格
ヤベーよ
0542名無しさん@ピンキー (ワッチョイ 8d32-0Alr)2025/12/28(日) 23:37:14.92ID:jf4VxSVY0
mradermacher/Mistral-Large-3-675B-Instruct-2512-i1-GGUF

ここの i1-IQ3_XXS 258.9G ってなってるけど、メモリ256Gに余裕で乗りましたので報告
若干規制掛かってるけど、プロンプトでなんとかなるレベルかな
日本語はかなりいい

ただ、HG側の問題でダウンロードは普通にやるとエラーになるから、Communityの書き込みを参考にしてね
0543名無しさん@ピンキー (ワッチョイ 1e38-Xpyt)2025/12/28(日) 23:49:03.79ID:zaDZPMc00
ヒイヒイ言いながらddr4 3200 32gbを中古で買い集めて128GBにしたよ
とりあえず今挿して動くならそうそう壊れたりはしない…よな?
高騰は辛いけど手持ちのメモリもそこそこの値段で売れたので実質一枚平均12000円くらいだった
0545名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 00:56:52.09ID:OXDLX/Y60
>>538
いつもありがとうございます

ソフトとモデルをアップデートしたのですが
以前には一度も出なかった以下のエラーが出てしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed

ソフトの出力窓では
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

何か設定を間違っている感じでしょうか

他のモデルを使用しても以上のように停止してしまうので
困っております
0546名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/29(月) 01:03:03.91ID:IuqqNF7w0
>>533
その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる
>>534
選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ
0547名無しさん@ピンキー (ワッチョイ d2f7-lw50)2025/12/29(月) 01:29:25.05ID:ewL055nu0
>>545
新規に環境を作り調査しましたが再現できませんでした

エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください

・koboldcppのアップデート(最新のkoboldcpp-1.104で動作確認しています)
・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001";のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる
・koboldcppを別フォルダで新規クローンしてみる

これでも問題が解決しない場合は再度状況を教えていただければ対応いたします
0549名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/29(月) 12:43:26.33ID:OXDLX/Y60
>>547
ご返信ありがとうございます
koboldcpp.exe最新版使用や環境再構築、ポート番号設定など
作者様の指示通りにした後、再度同じ動作(起動させて「無限生成」)
をしたのですが、以下のように>>545で書いたようなエラーが出てしまいました

ソフトの生成窓には
--- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で
--- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: ---
と出て停止してしまいます

コマンドプロンプトでは
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens:
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
と出てその後、窓を閉じるまで後段2行が連続して出力されます

なお、関係ないかも知れないですがpythonのverは3.13(Win10 64bit)で
モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました
また、ログによると以下のようなパラメータ設定でした
(デフォルトから変えておりません)
"temperature": 0.5,
"min_p": 0.1,
"top_p": 0.95,
"top_k": 40,
"rep_pen": 1.1,
"stop_sequence": [],
"banned_tokens": [],
"ban_eos_token": true,
"max_length": 500
0550名無しさん@ピンキー (ワッチョイ d298-lw50)2025/12/29(月) 20:37:33.61ID:ewL055nu0
>>549
538です。
エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか?
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length: All connection atte
というエラーが出ている状態でのkoboldcppの状態を教えてください。

簡易チェック
・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる)
→開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。
・上記kobold側の簡易UI経由では途切れることなく生成されるか
→途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。
0551名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/29(月) 22:08:09.84ID:ThxXm4Cn0
3090(24GB)x2+メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね
0552名無しさん@ピンキー (ワッチョイ 0a24-wKEG)2025/12/29(月) 23:50:39.28ID:Lo0GYeRO0
>>551
何で動かしとるん?3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ
ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない
0555名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:07.84ID:lMorHdVk0
>>550
横からですが同じようなエラーに行き当たっていたので
環境としては5060ti 16GB DRAM 128GB
Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます
WannabeのvenvはPython 3.12.6で構築してます

動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります

modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと
wanabi_24b_v03_q4km.ggufを用いた場合共に発生
またKoboldcpp+sillytavernでモデルが動作することを確認しています

wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、
1度停止した後の再度連続生成でエラーが出て停止するケースが多いです
ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです
しばらく
[ContextUtils] Failed to get true_max_context_length:
が続いた後稀に通信が成功するみたいですが連続生成を中断すると
koboldcpp側で正常に通信が終了せず
以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました
Exception happened during processing of request from ('127.0.0.1', 62026)
(略)
0556名無しさん@ピンキー (ワッチョイ 05ff-rRc0)2025/12/30(火) 02:48:43.08ID:lMorHdVk0
>>555の続き
また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し
本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました
落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった
といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません
Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので
Powershellごと停止する形になっています
[ContextUtils] Failed to count tokens: All connection attempts failed
[ContextUtils] Failed to get true_max_context_length:

(上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす)

[ContextUtils] Failed to get true_max_context_length: All connection attempts failed
Error calling Python override of QObject::timerEvent(): Traceback (most recent call last):
File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent
del self.__callbacks[timerid]
~~~~~~~~~~~~~~~~^^^^^^^^^
0558名無しさん@ピンキー (ワッチョイ be58-Xpyt)2025/12/30(火) 06:44:06.82ID:3A8Anhbj0
>>552
LM Studio
ソフトで差が出るもんなの?
0560名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 08:09:46.00ID:UqaFaSWG0
価格コムでVRAM16GBで見てたら
RTX5060Ti 16G 8万円
5090 32GB 65万円 
5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし
下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き?
というか、はじめっからAIなら最上位GPUって思ってたから
そもそも見てなかったんだけど、これかなり美味しい?
気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ?
0561名無しさん@ピンキー (ワッチョイ d20e-lw50)2025/12/30(火) 09:44:29.57ID:Xq3KgeF30
>>555
詳細なご報告ありがとうございます。
やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。

・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化
・終了時にプロセスが残りフリーズする問題を修正

git pullをお願いします。

もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。
0564名無しさん@ピンキー (ワッチョイ 6aac-Ls7H)2025/12/30(火) 11:22:17.42ID:UqaFaSWG0
>>563
5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない?
リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、
2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか?
もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする
0566名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 11:40:11.78ID:L/CH3/cp0
パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは
llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから
0567名無しさん@ピンキー (ワッチョイ 6ea4-JWG4)2025/12/30(火) 12:00:05.85ID:xVlh2pWI0
ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる
0568名無しさん@ピンキー (ワッチョイ 8cb9-7+Bn)2025/12/30(火) 13:58:51.68ID:5PlEm1Wy0
画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。
10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない
0569名無しさん@ピンキー (ワッチョイ dac8-cEFC)2025/12/30(火) 14:31:49.12ID:+JjZad5E0
>>555
詳細な情報提供ありがとうございました

>>561
迅速なアップデートありがとうございます

作者様や>>555様の言われたとおり、
12/28verではトークンを入力しなかったりかなり少なめにすると
koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした

12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした
そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております
本当にありがとうございました
0570名無しさん@ピンキー (ワッチョイ deed-pQ3g)2025/12/30(火) 18:56:05.42ID:MMydUQFK0
>>538
わーい新しいモデルだー
0571名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/30(火) 19:32:46.75ID:UqaFaSWG0
>>565
ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない
実際にLLMで早くなるのか気になってる

>>567
そこまで遅いならRAMつけた時とあまり変わらない?
16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない?
AIさんに騙されたか・・・?
0572名無しさん@ピンキー (ワッチョイ 8294-mqrN)2025/12/30(火) 20:20:30.60ID:L/CH3/cp0
5060tiのメモリ帯域はそこまで速くないからなぁ…
0573名無しさん@ピンキー (ワッチョイ be32-0Alr)2025/12/30(火) 20:22:28.90ID:0XYEbhmH0
画像/動画生成用途ならGPGPU性能が物を言うし
LLM用途ならMac StudioやRyzen AI Max+ 395があるから
微妙なグラボ複数枚はどっちにしても中途半端な気がする
0574名無しさん@ピンキー (ワッチョイ b62c-JCzX)2025/12/30(火) 20:48:09.93ID:MsEm9Rga0
Macストゥーディオが最強?
0575名無しさん@ピンキー (ワッチョイ dac7-CKxx)2025/12/30(火) 22:03:27.51ID:XOEiLvuB0
LLM用途しかしないなら、Mac Studio(512GB)が最強やろな
俺だったら512GBしか買わん
実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う
画像生成はM5に期待やな

GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い
画像解析などのVLM系にも有効やし、
アプリ開発でもいろんな使い方ができる

マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力
ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる
最低でも10 token/s以上を狙うなら、
全スロットが PCIe 4.0 x16以上の
ワークステーションクラスが欲しいところやな

まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも?
そのメモリが高いんだよな
0578名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 00:24:14.44ID:nATPkOzl0
5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる
MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな
ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ

Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない

あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと
0579名無しさん@ピンキー (ワッチョイ be97-Xpyt)2025/12/31(水) 01:19:09.77ID:+SOP+Ib10
>>562

ありがてえ、2t/sが安定するようになった!!!
0580名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 01:50:43.20ID:91X6WRME0
>>562
これ見るにLM Studioはn-cpu-moeには非対応なんやろか?
そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし
llamacppで設定詰めたらもっと早くなるやろな
0581名無しさん@ピンキー (アウアウ Saee-Rr0y)2025/12/31(水) 06:27:46.73ID:tbNiHYoda
>>579
そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう

>>562はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな
0582名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 07:42:31.92ID:7HEfMKtn0
>>578
30BくらいならRTX5090が早いけどgpt-oss-120bだと
5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松)
30Bはホビーで70Bくらいからそろそろ使えるレベル
gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い
最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み
0583名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2025/12/31(水) 08:21:26.45ID:nATPkOzl0
>>582
macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ
ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ?
5090 1枚(32GB) 15tk/s
5070Ti 2枚(32GB) ??tk/s
5070Ti 4枚(64GB) ??tk/s
5060Ti 2枚(32GB) ??tk/s
5060Ti 8枚(128GB) ??tk/s
みたいなのが気になってる
VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる
AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか?
0585名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:13:45.23ID:A5W68e4G0
gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい
VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう
ちなみに自分は5060tiと3060の2枚で20 tpsほど(ddr5なら24は出るらしい)
なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう
0586名無しさん@ピンキー (ワッチョイ 2ec3-rwlK)2025/12/31(水) 11:41:48.05ID:7HEfMKtn0
PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし
しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない
NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど
0587名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 11:46:28.67ID:A5W68e4G0
あと5090単体でも15 tpsは低すぎるし設定ミスってそう
0588名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 13:19:34.11ID:91X6WRME0
今4090で試したら18token/s出たから
5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと
5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん
0589名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 14:23:46.13ID:91X6WRME0
ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから
5090持っとる人は最新のllama.cppに更新するんや
ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや

そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします
ただただ興味からどのくらいの速度出るのか知りたいんや・・・
0590名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:11:50.24ID:A5W68e4G0
最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった
設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ
0591名無しさん@ピンキー (ワッチョイ 8220-mqrN)2025/12/31(水) 15:19:32.10ID:A5W68e4G0
5090なら30前後出るのかな
0592名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 16:14:14.55ID:91X6WRME0
5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね
mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから
7502から7588は高速化すると思うんやが

llamacppがmxfp4対応するときに
https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental
これを元にやってるっぽいからモデルこれにしたらどうなるやろか
0593名無しさん@ピンキー (ワッチョイ d21e-lw50)2025/12/31(水) 17:28:14.16ID:PyLi1INM0
5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない?
6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも(それでも今度はVRAMの帯域幅に律速されそうだけど)
0594名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2025/12/31(水) 17:39:18.02ID:91X6WRME0
全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで
調べたらPro6000でgpt-oss-120bが145token/sやって
0595名無しさん@ピンキー (ワッチョイ b16a-h4RS)2025/12/31(水) 18:19:51.36ID:/BUKgy7e0
お年玉で買うか
0596名無しさん@ピンキー (ワッチョイ 8204-mqrN)2025/12/31(水) 20:12:38.30ID:A5W68e4G0
>>592
このモデルとb7588で再度試してみたけど自分の環境(5060ti)ではggml-org版と変わらないな(17.5 tps)
3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも?
mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる
0597名無しさん@ピンキー (ワッチョイ b6aa-JCzX)2025/12/31(水) 21:14:09.72ID:x14xJQ6r0
来年はPRO6000が人権になりそうなヨカーン
0598名無しさん@ピンキー (ワッチョイ 6026-8aJk)2026/01/01(木) 00:11:20.20ID:qmZ8t7yU0
gpt-oss-120bをVRAM16GB,メモリ64GBだと落ちる寸前だな
llama-serverでmlock有効にしたらOSがフリーズした
誰か動かしてる人いたらおすすめ設定教えてほしい。
0599名無しさん@ピンキー (ワッチョイ cde6-rRc0)2026/01/01(木) 01:16:26.90ID:Bw6OLNUN0
これ眺めてたら年が明けてた。
https://a.co/d/0ZZtzUq
0600名無しさん@ピンキー (ワッチョイ 6ac7-Ls7H)2026/01/01(木) 02:28:57.50ID:tPQVzZIN0
>>597
5090がどんどん値上がりしてPRO6000は値下がり傾向、本当のPRO6000がそれなりに当たり前になりそうな気がする
というかVRAMだけで考えたら、RTX 5080 16GBと比べてもかなり安いんだな
0602名無しさん@ピンキー (ワッチョイ 054d-rRc0)2026/01/01(木) 17:06:24.32ID:yiGiu09J0
あけましておめでとうございます本年もよろしくお願いします

>>561
遅くなりましたが555です、対応ありがとうございました
こちらでも更新後に正しく動作することを確認できました
0606名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2026/01/01(木) 19:55:39.84ID:nmom1P530
>>604
NSFWの単語を知らないだけで説明はしてくれようとするんやな
世のエロ画像を日本語/英語で説明させてその説明文とdanbooruタグを画像と一緒に学習させたら
画像生成のプロンプトが楽になりそうやが
noobとかがやってくれへんかなぁ
0608名無しさん@ピンキー (ワッチョイ 60c6-VauC)2026/01/01(木) 20:28:33.20ID:eafDW5qb0
横からだけど厳密にテストしたわけじゃないけどQwen系はパラ数デカい方が規制緩くて小さい方が厳しい感じだったな

あとエロ画像解説させるときはシスプロに脱獄文入れて画像と一緒にわたすプロンプトで「外性器はチンポ|マンコなど下品な単語で解説してください」みたいに誘導すると普通にそっち系の単語で解説してくれた思い出
0609名無しさん@ピンキー (ワッチョイ c0a9-0Alr)2026/01/02(金) 00:31:40.16ID:lg8LYbH90
LGAI-EXAONE/K-EXAONE-236B-A23BっていうLG製?のモデルが出てるけど
redditで英語の性能があまりよくないって言われとった
英語がダメなら日本語はもっとダメかな
0611名無しさん@ピンキー (ワッチョイ 5a27-CT96)2026/01/02(金) 02:53:06.16ID:3mSEkiwD0
韓国語って元々漢字ベースだったものをハングルに置き換えたせいで同音異義語を文脈からしか区別出来んからLLMモデルしんどそうだな
日本語で例えるなら全てひらがな表記してる感じ
0612名無しさん@ピンキー (ワッチョイ 64a4-pPj3)2026/01/02(金) 17:48:10.31ID:Bs4w2jCI0
GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。
スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚
--gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。
ik_llama.cpp の方が10%くらい早かったけどthinking消すのKoboldのが楽だった。
ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。
0614名無しさん@ピンキー (ワッチョイ cfa9-G60N)2026/01/03(土) 00:00:04.93ID:R/4j/QQl0
倍以上早いってよりかはWindows(のNvidiaのドライバ)だと勝手にVRAMからメインメモリに漏れるから
それで遅くなってるんじゃないかという気はするやね

「CPUがメインメモリで演算する」よりも「GPUがメインメモリで演算する」方が死ぬほど遅くなるから
VRAMからメインメモリに漏れるのは死んででも阻止しないとあかん
Linux(のNvidiaのドライバ)やと勝手に漏れるということがないぶんVRAMが枯渇したらエラーして止まるんやが
0615名無しさん@ピンキー (ワッチョイ 7fe2-jodm)2026/01/03(土) 02:51:05.90ID:+mDimtcp0
ローカルLLMでエロチャやるには3060やと力不足なんやろうなぁ…
0617名無しさん@ピンキー (ワッチョイ 3fc7-cp7k)2026/01/03(土) 14:44:20.79ID:pqPKct+O0
>>612
ええ感じやん
9950Xの性能を最大限に活かせてるんやろか
自分も試してみた

【環境】
RTX 3090 + 5955WX(16c32t) + DDR4-3200 8ch (256GB)
GLM-4.6 Q4_K_XL

【結果】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s
モデルが若干違うのとthreadsが16なの以外は設定が同じ

ちなみに--threads 24だと性能落ちた
自分は16が最速みたいだ
612氏は9950X(16コア)で24スレッド指定してるけど、これで性能出るんやろか?

性能がいいのはCPU、ネイティブLinux、メモリ帯域どれが該当してるんやろな
STREAM Triadで測ったら67.7〜92.8GB/sだった
612氏はどのくらい出てるんやろ
0620名無しさん@ピンキー (ワッチョイ a365-CIFB)2026/01/03(土) 20:17:34.07ID:tTz+GjqB0
>>619
いま試してきたんだけど、0.92token/sだった・・
linux版はちゃんとファンが高回転の音してるから性能引き出してくれてるんだろうね。
>>617
AIの言うままに--threads 24にしてたけど、16に変更したら4.6token/sになったよ。ありがとう!

win版はUseMMAP付けるけど、linux版ではUseMMAP外した方が速いんだって。
あとBIOSの設定もAIに聞いてLLM向けにいろいろいじったよ。ちょっとしたことで性能だいぶ変わるよね。
0621名無しさん@ピンキー (ワッチョイ a365-CIFB)2026/01/03(土) 20:38:22.32ID:tTz+GjqB0
Windows llama.cpp: 4.18 t/s 出るならそっちのが快適かも。
linux版はコンテキスト上限で落ちるし文章が止まってから再生成にちょっと間があるんだよね。
0622名無しさん@ピンキー (ワッチョイ 3fc7-cp7k)2026/01/04(日) 00:08:06.49ID:cRfBjXQy0
>>620
情報ありがとう!
threads 16で速くなってよかったわ

こっちもBIOSとか色々設定変更してたらWSL2(Ubuntu)の速度が改善したw
どの変更が影響したか分からん・・・
NUMA(NPS)の設定やろか?

【変更前】
Windows llama.cpp: 4.18 t/s
WSL2 llama.cpp: 3.71 t/s
WSL2 KoboldCpp: 3.55 t/s

【変更後】
Windows llama.cpp: 4.13 t/s(誤差範囲)
WSL2 llama.cpp: 4.16 t/s(+12%)
WSL2 KoboldCpp: 4.22 t/s(+19%)

結果KoboldCppが最速になったw

UseMMAP設定有無の差はあまりなかったわ
WSLで動かしてるからやろけど残念!
612氏の通り、LLMはちょっとした変更で変わることが多い印象だわ
0623名無しさん@ピンキー (ワッチョイ 1332-G60N)2026/01/04(日) 01:05:58.84ID:aBYly05e0
>>620
むむ、なんか差が大きいですね
自分はryzen7 ですが、koboldcppでQ5kで2t/sは出てたんで、なにか設定が違うのかも
まあ、linuxで4t/sでるなら、そっちの方がよさげですが
0624名無しさん@ピンキー (ワッチョイ cf7a-Qlgp)2026/01/04(日) 03:12:40.77ID:Oqc8Dmk70
grok先生がエロで責められてる
許せんな、みんなgrok先生を守れ
0625名無しさん@ピンキー (ワッチョイ 5353-jodm)2026/01/04(日) 03:21:25.97ID:XgRf4dfR0
ローカルで遊んでる人はgrokでエロ画像と言ってもピンと来ないだろ

文章なら性能高い分エロいのもかなり出るけど
0626名無しさん@ピンキー (ワッチョイ cf24-G60N)2026/01/04(日) 13:34:35.36ID:iSIu2MWH0
今日からLM Studioやってみてるのですが
自分のPCのスペックがryzen7700x 4070TiS メモリ96GB(今すぐ192GBには増設可能)
これで使える範囲のモデルでおすすめなのってありますかね?
どうせグラボが足引っ張る気がするのでメモリはまだ増設してませんが、増設したらもっとつよつよモデル
使えるというのなら増設します
0628名無しさん@ピンキー (ワッチョイ 13cb-jodm)2026/01/04(日) 15:01:25.08ID:LsUrLGD80
メモリなんて上がる一方だから増設できるなら今増設しない手段は無いわ
0633名無しさん@ピンキー (ワッチョイ ef71-ylKL)2026/01/04(日) 16:05:10.51ID:Qfkjgd5M0
DDR5の4枚はbiosアプデしなかったら起動すらしなかったんで気軽にやろうとしてたから少しビビった
それでも最終的に定格より上で安定したから3600は超えるんじゃないかな
0634名無しさん@ピンキー (ワッチョイ 4345-PPr4)2026/01/04(日) 16:10:48.56ID:VDaryEyS0
MBやメモリのの当たり外れによるけど、4枚が同じモデルであること前提で
運が良ければ5600、悪ければ5200、最悪それ以下覚悟しとけって感じかな。
0635名無しさん@ピンキー (ワッチョイ cf24-G60N)2026/01/04(日) 17:09:28.51ID:iSIu2MWH0
去年なんJNVA部スレの方でDDR5の4枚をデフォの3600で使わず5600で使ってたら
CPUが壊れたというレスがあったからメモリコントローラーが焼けたのか知らないけどちょっと怖いなと思ってましたが
結構みなさん上げて使ってるんですね
0636名無しさん@ピンキー (ワッチョイ cf24-G60N)2026/01/04(日) 17:18:35.21ID:iSIu2MWH0
まだメモリ増設はしてませんが、とりあえず試しに
Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-MXFP4_MOE-GGUF
というモデルをダウンロードしてやってみたら6.92t/sでした
どうやらmoeモデルみたいなので
>>562
の説明通りにGPUオフロードを最大にしてweights onto CPUにチェックを入れたら
20.32t/sになりました

ローカルLLMはこれが初めてですがこれは感動ですね
楽しい!
0637名無しさん@ピンキー (ワッチョイ ef27-5PTw)2026/01/05(月) 01:01:13.59ID:AY2PQGe10
オーバークロックはアホのやることだよ
数%の性能向上のために壊す可能性ある行為やるとかアホやん
その為に専用の冷却装置か買い足したりね
そんなら初めからワンランク上のPCパーツ揃えとけって話よ
0638名無しさん@ピンキー (ワッチョイ cfa0-G60N)2026/01/05(月) 05:47:48.80ID:hyRe348w0
まーオーバークロックってのは、出るかもしれない運転だからね、パッケージに書かれているのは最低保証クロック数で
本当のクロック数は個体ごと違う、シリコンウエハーの円盤のどこの部分かで性能が変わるみたいだけど
0639名無しさん@ピンキー (ワッチョイ 3f32-kpE1)2026/01/05(月) 08:24:54.88ID:DLBv23jd0
moe系みたいにメインメモリ上でガッツリ回す用途にはメモリクロックさえ上げてりゃ効くから、レイテンシほぼ縮んでないJEDECネイティブ高クロックが珍しく効果を発揮する
これは比較的簡単で安全だから狙いたい

その他大半の一般用途ではネイティブやらxmp適用ぐらいじゃ意味ない
0642名無しさん@ピンキー (ワッチョイ 3f7e-H3VG)2026/01/05(月) 16:50:30.89ID:4Qh9w+dX0
>>630
PC組立サービス込みでショップにまるっとお願いしたら
4枚刺しで3600に落ちるのは忍びないから5600で動作確認しておくからその設定で使ってくれって言われたな…
0643名無しさん@ピンキー (ワッチョイ 5337-wT+6)2026/01/05(月) 17:57:30.50ID:cRoZWwY20
オーバークロックって言っても電圧上げない限り物理的に壊れることなんてほぼないよ」
0646名無しさん@ピンキー (ワッチョイ a393-gOcf)2026/01/06(火) 00:17:41.99ID:qwZYwG1+0
RTX5060TiでLMstudio使用で、固定キャラとして育てるチャットアバターでオススメなLLMモデルある?
いまshisa-v2.1-unphi4-14b-i1使っててこれでも悪くはないんだけど、(少し照れながら)的な表現が多かったりちょっと物足りない印象
0647名無しさん@ピンキー (ワッチョイ 5337-wT+6)2026/01/06(火) 01:38:15.89ID:aXUY5vKz0
「んっほぉぉぉおおおぉぉぉおおお!」(少し照れながら)
0648名無しさん@ピンキー (ワッチョイ 732f-XxT8)2026/01/06(火) 01:46:26.39ID:to45eQEE0
もう少し恥じ入ってもらいたく存じます
0649名無しさん@ピンキー (ワッチョイ cfa0-G60N)2026/01/06(火) 05:20:24.52ID:/7MLUjnj0
CPUやGPUの製品は性能にばらつきがあって、一番最低の能力を製品につけている。
だから個体によってはもっと性能がいい可能性がある。
最低の能力に合わせてるので、偏差的に言うとほとんどのものがオーバークロックできる。

運です。
0653名無しさん@ピンキー (ワッチョイ 3fc7-XxT8)2026/01/06(火) 07:50:21.41ID:kVrC8SoO0
VRAM小さすぎてそもそもLLMでは使えないかと
その話はゲームとかそういう用途かと
0657名無しさん@ピンキー (ワッチョイ 3fc7-XxT8)2026/01/06(火) 10:05:59.43ID:kVrC8SoO0
>>654
それ、4090+メインメモリと比べてどの程度速度出るんだろ?
0658名無しさん@ピンキー (ワッチョイ ef2e-L/jz)2026/01/06(火) 11:03:58.94ID:9qL/623Z0
横からだが24GB以上必要で72GBに収まるモデルならCPUとかメインメモリ経由しなくて済むんだから全然違うのでは
LLMは画像生成みたいに1枚に乗せきらなきゃいけない制約ないし
0659名無しさん@ピンキー (JP 0H9f-nnfO)2026/01/06(火) 11:50:25.82ID:ywC8AgtMH
TITAN RTXがリース落ちで出回っていた頃に全部狩っておけば良かった
1台しか拾わなかったことが悔やまれる
0660名無しさん@ピンキー (スププ Sd5f-PPr4)2026/01/06(火) 12:26:23.16ID:fmj2E9aGd
4070Ti Super に 4060Ti(16GB)を増設しようと中古購入したぜ。
いざ届くとPCIeケーブルが足りないから電源ユニット追加注文したり、4060がマザボのコネクタに干渉することわかったからライザーケーブル追加注文したり
LLMのための工作はこれはこれで楽しいな
0664名無しさん@ピンキー (ワッチョイ ef27-5PTw)2026/01/06(火) 13:10:02.75ID:dIRnQUx/0
AIバブルにあぐらかくわけにもいかんやろ
ゲーマー市場キープしとかんと足元掬われるで

LLMの演算って専用チップ作った方が性能出せるってんで大手サービスは独自設計に移りつつある
0666名無しさん@ピンキー (ワッチョイ 3fc7-XxT8)2026/01/06(火) 13:52:38.64ID:kVrC8SoO0
>>658
NVLINKみたいなのならともかくPCIが遅いから枚数が増えれば増えるほど効率が悪くなると思う
もし無尽蔵に早くなるならH100とか買わずに12や16GBのカード大量に買えば良いわけだが企業がそうしてないわけだし
多分限界があるんだと思う 実際どこに限界があるのかわからないけど
0667名無しさん@ピンキー (ワッチョイ cf6f-F/Mu)2026/01/06(火) 13:56:21.97ID:hOIOeKTE0
>>651
ありがとう、試してみる
0668名無しさん@ピンキー (ワッチョイ 3fc7-XxT8)2026/01/06(火) 13:57:27.67ID:kVrC8SoO0
>>663
AI特需で今は良いけど巨額を出して買ってくれてるのは世界で数社だけ
しかもGoogleなど自社でTPUを開発してそろそろ売り出しそうな勢い、お客がライバルにクラスチェンジする
特需と顧客がライバルになった時、他の市場を持ってないと長期ではかなり危ういんじゃない?

ただメモリとかすごく高いしPCそのものから人が離れたらどうするのかって問題はありそうだけど
AIに相談したらPCが高級品にになると、多くの人はスマホとかやすい端末でクラウド使うのが当たり前になるみたいな予想もあったけどな
0669名無しさん@ピンキー (オッペケ Sr37-hOy0)2026/01/06(火) 14:06:28.28ID:IifJsPNir
>663
今の立場で儲けを優先すること自体がメリットは少なくデメリットが山盛りの潜在的大ダメージ戦略でしょ
慈善事業をバンバンやらなきゃ独占禁止法が飛んでくる
0670名無しさん@ピンキー (ワッチョイ 3fc7-XxT8)2026/01/06(火) 20:55:30.64ID:kVrC8SoO0
中国、「日本の軍事力強化につながる」品目の輸出禁止 だってさ
メモリ不足とか中国の企業が想像以上に頑張って暴落するかと思ってたけどPC関連ますます下がらなくなりそうだな
0671名無しさん@ピンキー (ワッチョイ 7323-slrW)2026/01/07(水) 12:41:05.37ID:FS0KNYav0
AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
https://gigazine.net/news/20260107-amd-comfyui-rocm/

期待できるか分からないけど色々出来るようになったらいいな
0672名無しさん@ピンキー (ワッチョイ 3f32-kpE1)2026/01/07(水) 12:56:58.54ID:dyjeItMh0
radeonばっか使ってるけどllm方面じゃ理論値のrocm頑張るよりvulkanド安定なんよな ってのがこれまでの話だけどどうなるか
大差付くなら良いよね
0677名無しさん@ピンキー (ワッチョイ 1332-G60N)2026/01/07(水) 14:45:15.83ID:MvnRioxH0
ROCmは元々AMD Instinctとかの業務用GPU向けだったから
コンシューマーしか使わないWindowsは眼中になかった模様
PCでローカルAIを動かすのが流行り出したのはほんの数年前の話
0679名無しさん@ピンキー (ワッチョイ 636b-Che8)2026/01/08(木) 10:38:07.66ID:M6Ah6DRS0
LFM2.5B-1.2B-JP思ったよりプロンプトに従うし一応エロもいけるな
このサイズにしては中々やりおる
0680名無しさん@ピンキー (ワッチョイ 3fac-XxT8)2026/01/08(木) 12:50:01.03ID:SSPBWWsE0
https://www.youtube.com/shorts/odx5NLbYz8g
半導体の拡大画像だけど、これってフェイクではなく本物かな?

最近、半導体がやたらと高いけど、それでも個人の予算で買えるってなんか不思議な気がするわ
こんなのどんなに頑張っても自作できる気がしない
更に、エロの為にこんな高度な技術を使うってのも何かもっと他に使い道ないのかと思ってしまう
0681名無しさん@ピンキー (ワッチョイ 8f07-SX/8)2026/01/08(木) 13:39:01.67ID:QTqEB4/I0
CGですよ
詐欺に遭わんようにな
0682名無しさん@ピンキー (ワッチョイ 73a7-XxT8)2026/01/08(木) 16:01:11.57ID:qDkOWa730
LFM2.5 JPはサイズの割りにはかなり上手くやれてる方なんだけど、やっぱり1.2Bってのはちょっとしんどいところある
意味わからんくらい爆速で動くし、個人でFinetuningできるのは面白そうだけどデータセットがねぇ……
0684名無しさん@ピンキー (ワッチョイ 636a-ER82)2026/01/08(木) 19:16:46.59ID:FVGHXFax0
頭悪いのそのモデル
0686名無しさん@ピンキー (ワッチョイ 3332-FNoR)2026/01/08(木) 21:42:27.44ID:5QVndZy40
小規模モデルの性能が上がってくるとそれはそれでワクワクするな
0689名無しさん@ピンキー (ワッチョイ cfa9-G60N)2026/01/08(木) 23:39:37.11ID:C3uPfQRe0
実例が今あるのかわからんけど
もしやるならガッチガチにファインチューンしたら
ゲーム内の話題だけならまともな応答返すくらいは一桁bでも出来そうな気はする
0692名無しさん@ピンキー (ワッチョイ 3fc7-XxT8)2026/01/09(金) 08:06:00.67ID:4HlRfj7C0
やったこと無いから知らないけど,アダルトな会話が楽しめるスマホアプリはローカルじゃないのか?
0693名無しさん@ピンキー (ワッチョイ 636a-ER82)2026/01/09(金) 08:54:24.24ID:uQ17JKwQ0
いやー無理だろ
0696名無しさん@ピンキー (ワッチョイ 231e-XxT8)2026/01/09(金) 11:27:25.15ID:mNJOAcl90
LFM2.5B-1.2B-JP気になって覗きに来たけどローカルでエロチャするには微妙な感じか
0697名無しさん@ピンキー (ワッチョイ 3ff8-yDMQ)2026/01/09(金) 11:34:42.40ID:ijDoORFo0
ローカルLLM使ったゲームはすでにたくさんあると思うよ
llama.cppを組み込むだけだし軽くググってもそれっぽいのが出てくる
0698名無しさん@ピンキー (ワッチョイ 53d0-F/Mu)2026/01/09(金) 14:18:27.68ID:SpJSB7Fb0
>>691
FANZAにあったで
需要ないのか100円足らずで売られてた
0701名無しさん@ピンキー (ワッチョイ 3fd5-s3Q7)2026/01/09(金) 18:07:58.26ID:PZmIb37G0
>>699
すごい
今までクオリティと速度を両立してたのってGemini Flashだけだったけど
これは段違いに速いうえにクオリティも高い
0702名無しさん@ピンキー (スププ Sd5f-PPr4)2026/01/09(金) 18:29:48.22ID:EV20mKt7d
4.7Vか4.7-Airきてくれー
0704名無しさん@ピンキー (ワッチョイ 7273-oSIQ)2026/01/10(土) 12:37:17.37ID:Wwd3v/Sq0
Cerebrasは半導体ウェハを切り取らずにそのまま使ってる
どんなマザーボードに載せてるんだろ
https://i.imgur.com/33194P8.jpeg
0705名無しさん@ピンキー (ワッチョイ 32ac-dyKC)2026/01/10(土) 13:47:59.81ID:Yar5XSuB0
>>680
>>681
実際、この縮尺って合ってるのかね?
ちょっとした寒気みたいなものを覚えたんだけど
0708名無しさん@ピンキー (ワッチョイ b7dd-vGEt)2026/01/12(月) 13:24:07.64ID:lnBKDwIn0
>>699
GGUFで130GBもあるのか・・・
0711名無しさん@ピンキー (ワッチョイ 3e27-5de0)2026/01/12(月) 14:22:17.16ID:8opZO6jU0
>>709
いつの話してるんだ…
LLM出始めは学習が不十分でその程度の話も答えられないケースはあったけど
2年ぐらい前にはそんなの何の役にも立たない質問するのは馬鹿のやることだって言われてたよ
今もそれ聞いてるのは知識がアップデートされてない老害だよ
0712名無しさん@ピンキー (ワッチョイ e36a-SydR)2026/01/12(月) 14:34:36.73ID:GrWr5tZm0
>>709
それ通用したの2022年末くらいでは?
0713名無しさん@ピンキー (ワッチョイ 6f32-cVtm)2026/01/12(月) 14:56:28.29ID:LxRHWzDP0
ワイは
「小学生の男女がうんどうかいについて悪戯っ子ぽく話す会話を書いてくれ」って最初に聞いてる
これで日本語の小説のセリフ周りの性能や文の整合性チェックが分かるのでおすすめ
0715名無しさん@ピンキー (オッペケ Sr17-UF1D)2026/01/12(月) 15:15:08.69ID:UceslG1Pr
文章の良し悪しを判別すること自体も難易度が高いタスクなんだよな
判別できる人はLLMって文章上手くないな、じゃあこれで計ればいいやって自分で気付くはず

判別できないひとは、そもそもLLMって文章上手いよなとか、自信たっぷりだから信頼できるよなとか、言いだすわけで...
0716名無しさん@ピンキー (ワッチョイ 32c7-dyKC)2026/01/12(月) 15:37:44.32ID:2OmvCRAT0
自分の得意な専門分野の事を聞いたら良いんじゃない?
LLMが偉くてもまだまだ人が強い分野だと思う
逆に知らないことを聞いたら全部説得力あって判定できないけどw
0718名無しさん@ピンキー (ワッチョイ 3381-NUe/)2026/01/12(月) 20:50:57.53ID:AZ66r3L40
エロ画像を認識させて画像の内容をエロく説明させたいんだけど、おすすめの環境ある?
0720名無しさん@ピンキー (ワッチョイ 3365-NUe/)2026/01/12(月) 23:31:00.56ID:AZ66r3L40
ありがとう
LMstudioでスレに有ったqwen3〜ったので動かしてみた
期待した返答が来たけど、ちょっと速度が遅いな…
この辺はスペックをどうにかするしかないか
0722名無しさん@ピンキー (オッペケ Sr17-SydR)2026/01/13(火) 09:54:32.11ID:AHx2N4uir
slmが凄いとかいう風潮やめて欲しいわ
gpt5.2ですら怪しいときがあるんだからそれより少ないのが役立つわけがない
0723名無しさん@ピンキー (ワッチョイ b732-8cZs)2026/01/13(火) 10:39:18.45ID:gPGsq1yO0
そんな風潮あるか?
0724名無しさん@ピンキー (ワッチョイ 6f32-5de0)2026/01/13(火) 10:53:36.90ID:KI0ClFsj0
SLMは色々な用途で普通に役に立ってるし
性能が上がればさらなる小型化や同サイズでやれること増えるし
通信環境整えてサービスのAPIにつなげみたいな器材ばかりやないし
凄いの出てきたら開発も利用も用途増えるしすごいというよそりゃ
0725名無しさん@ピンキー (オッペケ Sr17-UF1D)2026/01/13(火) 11:14:32.58ID:Uk1lac2Cr
釣りタイトル文化に問題があるような
LFM2.5がすごい!という動画を拡散すると中身は見てないやつがすごいんだって記憶するという

LFM2.5は日本語が喋れるのに700MB!凄い!ってタイトルに入れてくれ
0728名無しさん@ピンキー (ワッチョイ 6f32-5de0)2026/01/13(火) 13:34:38.68ID:KI0ClFsj0
SNSで新しいAI情報を紹介してるだけみたいなのまでAI驚き屋といって叩いて煽ってる側が
有料でAIの本質情報教えますマンみたいなのだったりする時代
0729名無しさん@ピンキー (ワッチョイ c7a8-btwR)2026/01/13(火) 14:22:39.00ID:WR1YxfAx0
PC新調したしローカルLLM始めたいなと思ってスレ読んでたけど、割とグラボ複数でVRAM増強してる感じなんやね
グラボ1枚(VRAM16GB)だとローカルLLMはまだ難しい感じ?
0730名無しさん@ピンキー (ワッチョイ b732-8cZs)2026/01/13(火) 14:27:27.51ID:gPGsq1yO0
VRAM16GBでもMoEならそれなりに遊べる
0731名無しさん@ピンキー (ワッチョイ 7247-YDYy)2026/01/13(火) 14:29:25.64ID:/2Cg9zMf0
>>729
7B~14Bモデルならちゃんと動くよ
もちろんチャッピーなどオンラインモデルの性能を期待してはいけない
でも7Bってエロに関しては完全フリーだった頃のモデルばっかだから意外と楽しめる
0732名無しさん@ピンキー (ワッチョイ f232-+fC0)2026/01/13(火) 14:35:31.61ID:O7FR8Zm10
ちょっと前に比べたらvram16gbに乗り切って日本語ちゃんと返せるモデルが乱立してるのは劇的進歩ではあるよ
普通に使えるっちゃ使える
moeも出てきたし
0733名無しさん@ピンキー (スッププ Sd12-PuTB)2026/01/13(火) 14:42:37.09ID:f0/mo2LTd
Qwen235bが出た時に速攻でメインメモリ128GB以上の環境を作れた奴が勝ち組

denseモデルだとVRAMかメインメモリかの2択になって大型モデルでGPUを全く活かせないからな
0734名無しさん@ピンキー (ワッチョイ c7a8-btwR)2026/01/13(火) 14:48:54.18ID:WR1YxfAx0
軽量でも動く設定いれて軽いモデル入れれば動くやつもあるよって感じかな
もうちょい調べてお試ししてみるわ、あんがと
0735名無しさん@ピンキー (ワッチョイ 72c7-3e1D)2026/01/13(火) 14:50:40.63ID:i0hzGkdj0
qwenやgpt-ossなどMoEだとGPUは1枚で十分
MoEはGPUの枚数増やすと性能が低下しちゃうんだよな
モデルを全部VRAMに載せられるならGPUの複数枚挿しもありだね
0737名無しさん@ピンキー (ワッチョイ 07d7-NCp1)2026/01/13(火) 20:35:24.00ID:q/F/NBED0
ryzen haloってのはcpuオンダイメモリなん?
この時代マザーにポン付けで128GBもあって何かそこそこに動いたらええなあ
0739名無しさん@ピンキー (スフッ Sd12-vlRz)2026/01/14(水) 10:44:57.16ID:YwnyDflyd
>>726
あいつらレビューや批評はしないしな
この動画生成AIはアニメ動かしてもまともな挙動してくれないとか、そういう大切な情報ほどまったく出さない
0740名無しさん@ピンキー (ワッチョイ 3eb3-/Z1g)2026/01/14(水) 10:56:25.16ID:py2XGvmY0
一般向けでこんなに高騰するんじゃ企業向けの高騰も時間の問題だよな
使うのにコストが掛かるんじゃ回収もキツくなるし流石に小型化が進みそう
0741名無しさん@ピンキー (ワッチョイ e36a-SydR)2026/01/14(水) 11:58:16.52ID:TaHgEtC40
そう言えばなんで高騰してんの?
0742名無しさん@ピンキー (ワッチョイ 3e27-5de0)2026/01/14(水) 12:33:36.64ID:EtnTl6+W0
OpenAIが数年分のメモリの大量発注かける

メモリの生産ライン圧迫されて品薄になるのでは

今のうちに在庫確保せなって皆が買い占めに走って高騰

メモリの会社が生産ライン増やせばいいという話でもなくて
工場作るには数年かかるし、その後に需要が減ったらメモリ会社が大損するから慎重になる
メモリ業界って相場の乱高下で体力無い会社から死んでるし迂闊に動かんのよ
0743名無しさん@ピンキー (ワッチョイ 7258-oSIQ)2026/01/14(水) 14:13:22.39ID:xTKgHKvP0
DRAM事業はハイリスクハイリーターンだからな
ちょっと投資ミスるとすぐ倒産する
0744名無しさん@ピンキー (ワッチョイ 6f32-5de0)2026/01/15(木) 00:13:04.65ID:lvLdrOG20
破滅的忘却のせいでAIの性能に限界が出てくる

MoE発明、モデルが巨大化する代わりに破滅的忘却の影響を軽減、劇的な性能アップに成功

OpenAI、Google、AnthropicなどのAI企業が立て続けにAIデータセンター建設を開始

OpenAIが先んじて数年分のメモリの大量発注かける

HBMを輸入できない中国と値上がり情報を得た転売屋がDDR5メモリを買い占める

今のうちに在庫確保せなって皆が買い占めに走って高騰

ここまで書かないと「OpenAIが、サム・アルトマンがすべて悪いんだ〜」みたいな奴が増えかねないよ
0746名無しさん@ピンキー (ワッチョイ 6f32-5de0)2026/01/15(木) 01:11:44.54ID:lvLdrOG20
>>745
OpenAIの買い占め報道でOpenAIを悪者にしてる奴が大量発生してるじゃん
OpenAIが買い占めなかったら競合AI企業が買い占めてただけなのに
あと、なぜAIに大容量メモリが必要になったのかを知らない人がいるかもしれない
0747名無しさん@ピンキー (ワッチョイ 520e-btwR)2026/01/15(木) 01:12:33.18ID:gJr7NyHH0
>>744
いやgpuの製造はopenaiの仕事じゃないから普通にopenaiが悪いよ
あと2年以上前からmoeやってるしmoe化が進んでなかったらスケーリングでごり推すんだから今以上にデータセンター必要だぞ
0748名無しさん@ピンキー (ワッチョイ 666d-uqmN)2026/01/15(木) 01:28:49.76ID:xG0eF0dQ0
ま、人類に与えられたリソースを食い潰す速度がとんでもなく加速してるって事よ
今生きてる人間にとっては楽しくて良い事だから遊びまくるしかねー
0749名無しさん@ピンキー (ワッチョイ 6f32-5de0)2026/01/15(木) 01:41:46.91ID:lvLdrOG20
>>747
MoEの理論自体は2013年発表だから時系列はおかしかったけど
Denseモデルでスケーリングごり押しができなくなったからMoE化が始まった認識であってるはず
Denseモデルはパラメーターを増やすと演算量が増えて遅くなる問題もあるから
0750名無しさん@ピンキー (ワッチョイ 7209-Bs3R)2026/01/15(木) 01:53:48.85ID:43plYfkx0
べつにリソースを食い潰してるわけではないだろ
急激に需要が伸びたから不足しただけでスケーリングはできる分野だぞ
0751名無しさん@ピンキー (ワッチョイ 520e-btwR)2026/01/15(木) 01:59:33.12ID:gJr7NyHH0
>>749
gpt4の時点からmoe使ってるってさんざん言われてたろ
多エキスパート小アクティブが進んだならわかるけどさ
ウエハの買い占めだって競合に嫌がらせしてnvidia相手に値切りたいだけだよ
0752名無しさん@ピンキー (ワッチョイ 6f32-5de0)2026/01/15(木) 02:23:10.99ID:lvLdrOG20
>>751
別にChatGPTだけじゃなくAI全体的な話なんだけどな
画像/動画生成も新世代モデルはMoE化してるし

OpenAIとNVIDIAの内部交渉的なことは情報がないのでわからん
あなたの妄想?
0753名無しさん@ピンキー (ワッチョイ d320-UF1D)2026/01/15(木) 06:28:50.54ID:85Oqk5Iu0
誰のせいかと言えばトランプ関税のせいでしょう
気まぐれで関税が倍になる時代なんだから全員に先行して押さえておくインセンティブが発生してしまう
誰がやったか全く関係ない
0754名無しさん@ピンキー (ワッチョイ b6a0-5de0)2026/01/15(木) 07:51:01.90ID:wIvUhweV0
旧世代回帰で、得をするのはインテルだな、いいね、13世代14世代なんてなかった。インテルの主力は12世代。
もうDDR3まで戻るって話もあるし、win11もいらなかったな
0756名無しさん@ピンキー (ワッチョイ 07ee-YDYy)2026/01/15(木) 08:16:20.78ID:Z7oUQcFB0
今SSDもヤバい事になってきてんだよね
サンディスクが前代未聞の1〜3年分のSSD代の前払いを要求とかなんとか
こっちも需給が崩壊しつつあるみたい
0757名無しさん@ピンキー (ワッチョイ e36a-SydR)2026/01/15(木) 11:15:13.47ID:4efICQPX0
だいたい悪いことは中国のせい
だからコレもそう
買い占めてるとかじゃねえの?
0759名無しさん@ピンキー (ワッチョイ 7e1c-zzHJ)2026/01/15(木) 17:08:12.65ID:1G9XiyS30
>>751
ウエハ買い占めは事実誤認
OpenAI批判以前の問題
自分がデマ信じ込んでるアホということを自覚したほうがいい
0760代行 (JP 0Hee-U7y1)2026/01/15(木) 20:54:56.64ID:7dBSkyyoH
【本文】↓

LMSTUDIOで少し前までqwen3-vl-8b-nsfw-caption-v4.5でNSFWの質問に回答してくれていたのですが、今試すと
I'm sorry, but I can't fulfill this request.
The content you're asking for is not appropriate and violates my safety guidelines.
If you have any other questions or need assistance with something else, feel free to ask!
という回答が返ってきました。これは設定の問題でしょうか
0761名無しさん@ピンキー (ワッチョイ 36a9-5de0)2026/01/15(木) 22:15:54.78ID:CTmaQDBZ0
llamacppで数日前にqwen3-nextの1〜2割高速化のパッチが当たってたみたいやで
ただしGGUFも新しく作り直されたものを使う必要あり
unslothはもう新しいのだしとったけどqwen公式は古いままやな
レスを投稿する


ニューススポーツなんでも実況