なんJLLM部避難所 ★9

991コメント338KB

なんJLLM部避難所 ★9

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ fec0-xVEZ)

2025/08/23(土) 13:52:18.71ID:5lw7ZcNF0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0047名無しさん＠ピンキー (ﾜｯﾁｮｲ f38e-FUtm)

2025/08/25(月) 19:09:19.77ID:6/dlAeV90

>>45
あれそうなんだ、設定弄ってみます
無印も試そうかな

0048名無しさん＠ピンキー (ﾜｯﾁｮｲ fbfb-GMkG)

2025/08/25(月) 19:54:16.15ID:Rgpm/ZNh0

ベンチマークと体感の性能が合わなすぎてな　
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ　典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん

0049名無しさん＠ピンキー (ﾜｯﾁｮｲ 2f32-c+Mf)

2025/08/25(月) 19:55:10.05ID:cFB7ykMv0

>>40
オープンされるん？

0050名無しさん＠ピンキー (ﾜｯﾁｮｲ e67d-Nkl/)

2025/08/25(月) 19:57:18.80ID:eX9rrhFH0

ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね

0051名無しさん＠ピンキー (ﾜｯﾁｮｲ fb7e-GMkG)

2025/08/25(月) 20:01:52.93ID:PsOmsKjJ0

AMD RDNA 5がVRAM 512GB載せられるかも、みたいな怪情報が出てたけどどうなんだろう
70Bクラスのモデルをfp16で動かせるのはすごそう

0052名無しさん＠ピンキー (ｵｯﾍﾟｹ Srd7-pOSt)

2025/08/25(月) 22:09:04.17ID:9jAW386or

strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ…

0053名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c8-2tZm)

2025/08/26(火) 14:45:51.13ID:A5cB8PUx0

LPDDRでメモリクロック低めバス幅広めみたいね

0054名無しさん＠ピンキー (ﾜｯﾁｮｲ f247-JKMc)

2025/08/26(火) 15:12:07.06ID:s4igKReV0

384bitの「広大な」メモリバスだと？

0055名無しさん＠ピンキー (ﾜｯﾁｮｲ 2f32-slH+)

2025/08/26(火) 17:07:01.44ID:AhRj7Eo60

command-a-reasoning-08-2025

これ3月版より進化してないか？
むちゃくちゃエロくなってる

0056名無しさん＠ピンキー (ﾜｯﾁｮｲ f6c5-Utcz)

2025/08/26(火) 19:10:32.78ID:IMpTXkqb0

Denseで100B越えはきついなぁ

0057名無しさん＠ピンキー (ﾜｯﾁｮｲ f247-JKMc)

2025/08/26(火) 19:18:48.48ID:s4igKReV0

thinkがデフォルトだから妄想が捗ってるんでは

0058名無しさん＠ピンキー (ﾜｯﾁｮｲ 2f32-slH+)

2025/08/26(火) 22:26:00.90ID:AhRj7Eo60

>>57
koboldだとthinkしてくれない
逆にどうやったらthinkさせられるかな？
thinkさせたら更にエロくなるかもｗ

0059名無しさん＠ピンキー (ﾜｯﾁｮｲ bf52-eKAO)

2025/08/27(水) 09:10:35.50ID:w5Y0R7kr0

>>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。

0060名無しさん＠ピンキー (ﾍﾞｰｲﾓ MM0e-zVP4)

2025/08/27(水) 12:50:15.55ID:MatvxI7ZM

どのくらいのスペックいるんや？

0061名無しさん＠ピンキー (ｼｬﾁｰｸ 0C53-c+Mf)

2025/08/27(水) 12:57:24.96ID:briXnebQC

最低メモリ64Gあれば動く
遅いけど

0062名無しさん＠ピンキー (ﾜｯﾁｮｲ fb42-TcND)

2025/08/28(木) 09:17:13.80ID:PtV/rBm30

RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる？
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん

0063名無しさん＠ピンキー (ﾜｯﾁｮｲ 5bc6-Emuj)

2025/08/28(木) 10:46:20.62ID:zC+NRNLm0

4.5無印のUD-IQ2_XXSをDDR4-2666/128GB、VRAM/16GB&12GBで"--cpu-moe"オプション、"gpu-layers"をMAXで読み込んで入力するContextのサイズにもよるけど1.7~3.0トークン/s前後って感じ

0064名無しさん＠ピンキー (ﾜｯﾁｮｲ fb42-TcND)

2025/08/28(木) 12:43:02.81ID:PtV/rBm30

やっぱりアクティブパラメータ漏れて遅くなるんやねぇサンガツ
Airの高量子化とかにメモリ増設の価値はあるんやろか……

0065名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd92-rbF3)

2025/08/28(木) 12:46:39.75ID:7uXnzDa8d

GLMの検索機能ってローカルでは動かないの？

0066名無しさん＠ピンキー (ﾜｯﾁｮｲ bf35-8L5d)

2025/08/28(木) 13:39:25.56ID:7DDmQCxX0

検索機能がついてるLLMなんて無い
検索は外部のツールで情報持ってきてLLMにデータを渡しているだけ

0067名無しさん＠ピンキー (ﾜｯﾁｮｲ 5bc6-Emuj)

2025/08/28(木) 13:49:04.05ID:zC+NRNLm0

>>64
63だけどAirのQ4_K_Mなら5トークン/s前後だったよ
ローカルで動画生成とかもするならメモリ増設の価値はあるかも

0068名無しさん＠ピンキー (ﾜｯﾁｮｲ c22a-TnY8)

2025/08/28(木) 13:59:28.17ID:MOCeri5p0

>>55
これ動かすのってQ8 ggufの複数あるのを全部落として、koboldcppで読み込めばいいの？
96gbメモリーで動くかな？

0069名無しさん＠ピンキー (ｼｬﾁｰｸ 0C53-c+Mf)

2025/08/28(木) 14:21:41.78ID:+W0jXESuC

>>68
96GならQ5_k_mかな
Q6_kはギリギリいけるかどうか
2ファイル落としてcmdで結合させて読み込む

0070名無しさん＠ピンキー (ﾜｯﾁｮｲ c22a-TnY8)

2025/08/28(木) 14:27:10.74ID:MOCeri5p0

>>69
Q5_k_m.ggufが00001～00006まであるんだけど、１と２だけを結合すればいいの？

0071名無しさん＠ピンキー (ｼｬﾁｰｸ 0C53-c+Mf)

2025/08/28(木) 14:55:14.97ID:+W0jXESuC

>>70
あ　ごめん　複数って書こうとして間違えた
連番全部ね

0072名無しさん＠ピンキー (ｼｬﾁｰｸ 0C53-c+Mf)

2025/08/28(木) 14:57:02.55ID:+W0jXESuC

>>70
あれ？
見てるとこ違うかな
mradermacher/command-a-reasoning-08-2025-GGUF
こっちなら2ファイルですむで

0073名無しさん＠ピンキー (ﾜｯﾁｮｲ bf35-GMkG)

2025/08/28(木) 16:47:31.62ID:xl5DRWuq0

command aってAPI経由なら月1000回まで無料で使えるから試すだけならそっちで良いんじゃないの？最悪BANされても痛くないし
流石にメモリオフロードすると1t/sすら切るからまともに使えんよ
3090 x 3とq4_k_mで10t/sぐらいそれでも遅いくらいなのに

0074名無しさん＠ピンキー (ﾜｯﾁｮｲ f665-JKMc)

2025/08/28(木) 19:08:47.96ID:35cB4ZDG0

>>65
正確に検索するならElasticSearch
ベクトルでなんとなく近い文書検索ならFAISSとかChromaを呼び出して
最終的にLLMで文書化する感じ

0075名無しさん＠ピンキー (ﾜｯﾁｮｲ f25e-TnY8)

2025/08/28(木) 22:37:55.88ID:vd6bbEay0

>>72
ダウンロードしてたけど>>73の案で行ってみる！
ニキ2人ともサンガツです

0076名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd92-rbF3)

2025/08/29(金) 00:04:54.39ID:F+uohBhud

>>74
ESは入れたことあるから知っとるで
クローラーでゴリゴリWebからデータを引っ張りたいんや
LLMサーバの負荷を考えると別サーバで立てられる奴がええな

0077名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MMa2-1Laf)

2025/08/29(金) 15:50:24.61ID:QgHAaCUyM

書いた小説をテキストビューアで見てるけど、やはり画像もあった方が捗る。
挿絵機能欲しい

0078名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM5f-N4bW)

2025/08/30(土) 01:23:00.97ID:+aOWuCZhM

silly tavern使っててしばらくチャット進めてると
キャラのセリフがずっと「アハ、アハ」言って笑ってて不気味になる。
コンテキストがいっぱいなんかな

0079名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f8f-QNGN)

2025/08/30(土) 14:05:46.43ID:CfLeb00u0

あはっ、あはっ、なんにもおぼえられなくなっちゃった、あはっ……

0080名無しさん＠ピンキー (ﾜｯﾁｮｲ efc9-4tCA)

2025/08/30(土) 14:12:22.62ID:3hx39vZG0

茂木さんが乗り移ったとか？

0081名無しさん＠ピンキー (ﾜｯﾁｮｲ bf32-iuFk)

2025/08/30(土) 15:15:39.18ID:ycCFEzdM0

EPYC 4545Pとか言う安いのがあると思ったらam5用だった
名前はいいけどレーンもっと出してくれなきゃ嫌よ

0082名無しさん＠ピンキー (ﾜｯﾁｮｲ ef6a-4tCA)

2025/08/30(土) 16:47:32.49ID:M5/IkpAF0

command a API経由でSilly Tavernで使ったけど所々変な英語が混じるね

0083名無しさん＠ピンキー (ﾜｯﾁｮｲ 93df-4tCA)

2025/08/30(土) 20:43:01.58ID:M+HiyT//0

gemini apiエロ防壁作動してない？

0084名無しさん＠ピンキー (ﾜｯﾁｮｲ ef27-5CC8)

2025/08/31(日) 01:37:17.86ID:QSNVGU1f0

緩めとはいえAPIも以前からエロチェックしてるよ
システムプロンプトと最後に入力したメッセージは厳しくチェックされる
道中の会話は割とスルーされる
だからある程度回避はできる

出力結果もチェックされるけどこれはな…
露骨なエロワード避けるようなプロンプト組めば回避出てきそうだが、それって結果の質が下がる訳で

0085名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-4sJE)

2025/08/31(日) 09:40:52.22ID:5wmO9Mw4M

ollama見つけて熱に浮かされたようにあれこれ入れてみたけど、落ち着いてきたら使用する機会がない。
スマホで動かせないし、話し相手にも使わないからかな。
日常利用にはChatGPTとGrokでほぼ足りる。

0086名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-4sJE)

2025/08/31(日) 09:43:39.03ID:5wmO9Mw4M

ところでこのスレ何でこんな妙なタイトルなのでしょうか？
ローカルLLM総合みたいなスレも他に見当たらないし。

0087名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-9zWR)

2025/08/31(日) 09:46:06.44ID:/Moe9oy+0

もともとなんJにあったスレだから、
なんJがスクリプト荒らしが発生してこっちに避難した

0088名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-4sJE)

2025/08/31(日) 10:08:35.15ID:5wmO9Mw4M

そうなんだ。
ご丁寧にどうもありがとう。

0089名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM5f-N4bW)

2025/08/31(日) 12:08:38.98ID:DQLe/olAM

やっぱローカルでやってる人は少ないのかな
情報もあんまりないし

0090名無しさん＠ピンキー (ｼｬﾁｰｸ 0C77-1eHW)

2025/08/31(日) 12:52:38.13ID:CJ5ondywC

新しいモデルがあまり出ないからねー
今の旬はcommand-a-reasoning-08-2025 やね

0091名無しさん＠ピンキー (ﾜｯﾁｮｲ 4366-TchX)

2025/08/31(日) 13:04:55.92ID:HY3TnHzC0

俺はローカルでやってるが出せるような情報を持って無いのでず～っとROM専
RTX3060 12GB + メインメモリ32GB では出来ることも限られてる

0092名無しさん＠ピンキー (ｼｬﾁｰｸ 0C77-1eHW)

2025/08/31(日) 13:33:10.71ID:CJ5ondywC

ではcommand-aの感想をば
3月版に比べて明らかに進化して規制も緩くなってて申し訳も少ないけど
ストーリーを健全な方向に持って行こうとする傾向があるのでunconsented版が出たら大化けするかも

0093名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/08/31(日) 14:17:11.02ID:n3mn8kMFd

先週ノートPCのメモリを128GBに増やしたら
Qwen3-235B-A22B-Instruct-2507-Q4_K_M
が動くようになった
eGPUでTITAN RTXを繋いで合計152GB

0094名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM5f-N4bW)

2025/08/31(日) 15:22:36.97ID:DQLe/olAM

うちのPCは8Bモデル程度が限界だわ
もっと低VRAMで動くようになればなあ

0095名無しさん＠ピンキー (ﾜｯﾁｮｲ ff66-C4T7)

2025/08/31(日) 16:58:23.64ID:jV+qo11F0

>>79
おぼえられなくなっちゃったからにはもう・・・ネ・・・

0096名無しさん＠ピンキー (ﾜｯﾁｮｲ 9382-M1Je)

2025/08/31(日) 17:00:42.04ID:EDviwWZF0

最近だと前スレで出てたCydonia v4がよかったくらいだな
もちろん理解力とか知識は24B相当ではあるけど同サイズ帯だったら個人的には一番

0097名無しさん＠ピンキー (ﾜｯﾁｮｲ 937f-vYwD)

2025/08/31(日) 17:19:50.98ID:tJyUmQEb0

512GB、帯域幅819.2GB/sのユニファイドメモリのM3 Ultra Mac Studioが150万か…

0098名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fcd-QNGN)

2025/08/31(日) 18:35:32.55ID:aw8WlFbQ0

ベースモデルの性能だと今もmistral small 3.1 baseがずば抜けている印象
新モデルだとseed ossとかZLMもqwenもgemmaと同様に知性自体は悪くないけど日本語工口知識はなさそう
mistralもマイナーチェンジしか出さないしもう一社くらい良い性能のモデルだしてほしい

0099名無しさん＠ピンキー (ﾜｯﾁｮｲ ff47-QNGN)

2025/08/31(日) 20:15:02.55ID:oUrfHM340

MS3.2-PaintedFantasy-v2-24Bが自分の中じゃ一番かなぁ繰り返しや変な点が沢山ついたりするのが無くなった

0100名無しさん＠ピンキー (ﾜｯﾁｮｲ ef45-Mlxs)

2025/08/31(日) 21:28:02.99ID:ZIzBmPWb0

>>97 VRAMを500GB以上にできるから実は激安なんだよ！

0101名無しさん＠ピンキー (ﾜｯﾁｮｲ cfd9-Sz+9)

2025/08/31(日) 22:21:06.77ID:uBoO6iIK0

正直その辺のファインチューニング版は日本語だと普通に誤差レベルだと思う
学習データ全部英語だろうし
たまたまその人にとっていい感じになったとかはあり得るけど個人差の域を出ないと思う

0102名無しさん＠ピンキー (ﾜｯﾁｮｲ 6375-dfzl)

2025/09/01(月) 03:06:55.30ID:GHk97tzm0

mistral-smallに日本語を継続学習させたのをCydoniaあたりとChatVectorしたらいい感じになったりしないかな

0103名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-9zWR)

2025/09/02(火) 08:05:30.81ID:t75Akvey0

windows updateしてからタスクマネージャーでGPUの状況が表示されなくなったんだが

0104名無しさん＠ピンキー (ﾜｯﾁｮｲ bf32-iuFk)

2025/09/02(火) 09:19:11.40ID:ML4JfrKZ0

大体winアプデに含まれたドライバ自動で当てられておかしくなってるから入れ直し

0105名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-9zWR)

2025/09/02(火) 09:25:51.03ID:t75Akvey0

MS＜(∩ﾟдﾟ)ｱｰｱｰｷｺｴﾅｰｲ

0106名無しさん＠ピンキー (ﾜｯﾁｮｲ 63a4-vYwD)

2025/09/02(火) 11:42:03.93ID:mRzJl1JX0

スレ違いかも知れんが特に話題無いようだしここで聞かせてくれ
やっぱ文章生成だけじゃなくて喋らせたいんやがみんなTTSは何使うてるんや？

0107名無しさん＠ピンキー (ﾜｯﾁｮｲ efbd-F6ss)

2025/09/02(火) 11:48:49.87ID:OSnhYV1G0

AivisSpeech、voicevox、elevenlabsあたりか？

0108名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sddf-vYwD)

2025/09/02(火) 12:05:25.44ID:gBXooA4Ld

elevenlabsは初めて聞いたな
しかしローカルで動かんからこれアカンな…
無難にvoicevoxとaivisspeechを試すわ感謝

0109名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-pwDE)

2025/09/02(火) 16:36:36.83ID:KtSxONQh0

SBV2も試してみるがよし

0110名無しさん＠ピンキー (ﾜｯﾁｮｲ bf9f-D63A)

2025/09/02(火) 23:44:31.99ID:LqsAXTo20

いやらしい感じの文章をえんえんリピートする症状って結局根本的な回避法ってないのん？
症状が出ないように温度となんとかペナルティを祈りながら動かすだけ？

0111名無しさん＠ピンキー (ﾜｯﾁｮｲ ef32-ZghJ)

2025/09/03(水) 07:43:34.16ID:4rMkALTk0

ワイのパソコンDDR3 32GB RAM + 4060Ti 16GB VRAMとローカルLLM的にお寒い性能なのでそろそろ更新せなって思っとるんやが、
Ryzen 9 7XXX系にRAMガン積みするのと、AI Max+ 395みたいなユニファイドメモリみたいなタイプ、どっちが将来性あるとみんなは考えとるんや？
今のグラボも使いまわしたいし、LLMだけでなくSBV2とかUnityでVR開発と醸しとるんで、今んとこRyzen 9 + RAMガン積みに気持ちは傾いとるんやが、みんなの忌憚のない意見やワイの見落としてる点とか聞かせてもらえたら嬉しいんやで

0112名無しさん＠ピンキー (ﾜｯﾁｮｲ bf32-iuFk)

2025/09/03(水) 10:11:32.07ID:Tb5aNmqP0

今判断するの難しいけどやっぱまだメモリ増設できる普通構成で良いんじゃないかな

ローカルモデルが巨大化していって、転送帯域ゴリ押しみたいなやり方も続くなら、一般人がLLM使うときの正解はメインメモリ直付け高速化したPCになっていくけど

0113名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ffa-Mlxs)

2025/09/03(水) 10:21:45.43ID:owNF+gEB0

Ryzen9 9950x,96GRAM,4080s だけどLLMを実用に使うのは自分では無理
プロンプト投入、応答に10分待つとかできるならOK
待てる待てないは人にもよるからね
いくらRAMを積もうがPCIeを5から7まで上げようが現状のMoEモデルでもほとんど効果がない
x86系は全部VRAMで動作する画像生成なら速いんだけどね
AI Maxはいまのはやはり「積んでみました」程度
次期バージョンであっても結局バス幅が128bitとかだから帯域がまるで足りない
DDR8くらいならなんとかなるかも?

0114名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7b-QNGN)

2025/09/03(水) 11:05:45.93ID:Q6HNBhdw0

>>110
繰り返しは仕組み上避けられんしな
根本的な方法というならDPOとかでチューニングすればある程度緩和できるはずだけどデータセットを作るのが面倒くさそう

0115名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa0-9zWR)

2025/09/03(水) 12:19:14.54ID:0sZIau2W0

繰り返すのはプロンプトが悪いのもあるんじゃね、頭悪いＬＬＭは繰り返しとか続けてとか、プロンプトに入れるとループする

0116名無しさん＠ピンキー (ﾜｯﾁｮｲ efa3-TchX)

2025/09/03(水) 15:46:21.58ID:raCyPxWa0

RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。

0117名無しさん＠ピンキー (ﾜｯﾁｮｲ bfb7-ZghJ)

2025/09/03(水) 17:24:55.24ID:a88ca2F/0

>>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか？
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな

0118名無しさん＠ピンキー (ﾜｯﾁｮｲ 8ffc-gtXd)

2025/09/03(水) 17:47:03.47ID:YG6G4kHk0

小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな

0119名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 19:50:22.13ID:HS0dl7tD0

Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ…　もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな…

0120名無しさん＠ピンキー (ﾜｯﾁｮｲ 4311-M1Je)

2025/09/03(水) 20:09:23.26ID:ihRdpRFz0

Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る

0121名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 20:17:56.24ID:HS0dl7tD0

>>120
え、そうなんだ。。。
てか脱獄して　以降の意味がちんぷんかんぷんだから調べてやってみる

0122名無しさん＠ピンキー (ﾜｯﾁｮｲ 53dc-M1Je)

2025/09/03(水) 20:33:56.58ID:LsXo9UqX0

>>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事

0123名無しさん＠ピンキー (ﾜｯﾁｮｲ 4302-Mlxs)

2025/09/03(水) 21:38:00.94ID:+f82752F0

>>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)

真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ

0124名無しさん＠ピンキー (ﾜｯﾁｮｲ bfe8-IahM)

2025/09/03(水) 22:02:33.05ID:qoCbGdaM0

>>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する

0125名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 22:05:23.42ID:HS0dl7tD0

>>122
Wikiみて脱獄したらイケた！ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね

あともう一つ、勝手に「っっっっっ」とか「！！！！！」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの？

0126名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 22:25:49.22ID:HS0dl7tD0

>>122
調べて自己解決した！
Repetition PenaltyがGemini APIには無いから（設定欄がない）温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった！
サンガツ！

0127名無しさん＠ピンキー (ﾜｯﾁｮｲ efa3-TchX)

2025/09/03(水) 23:55:03.36ID:raCyPxWa0

>>113
9950xでCPU使用率はどれくらい？
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。

0128名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f8f-QNGN)

2025/09/04(木) 14:12:23.59ID:KGTrzcu30

いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな

0129名無しさん＠ピンキー (ﾜｯﾁｮｲ 9332-Soy0)

2025/09/04(木) 17:10:02.38ID:M4YL4AtO0

>>127
横からだけど9900x 128GB VRAM 12GB
GLM4.5AirQ4でcpu-moeをmax、コンテキスト長32kでVRAM使いきり
これで使用率gpu50%cpu100%、4t/s
9950xでもレイヤー数とVRAM次第だろうけど100%になると思うよ

0130名無しさん＠ピンキー (ﾜｯﾁｮｲ bf77-M1Je)

2025/09/04(木) 17:47:23.96ID:7SQ8082X0

mambaは期待の新技術ではあるんだけど7Bとか9BとかのSLMしか出てこないのはスケーリングに問題あるんかね

0131名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-EsdB)

2025/09/04(木) 18:16:23.86ID:QzkBFfjr0

mambaって知らんかったから調べてみたけど去年の技術なんやね
今それを採用したモデルが全然出てないの見ると厳しいのかね

0132名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fde-qKMj)

2025/09/04(木) 19:06:20.31ID:O125gjBs0

多分差が出ない、てかむしろ負けるから出せないんだと思う

0133名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/04(木) 20:01:07.66ID:gvxobVnD0

>>127
遅くなってすまん
せっかく >>129 が例を出してくれたから条件揃えようと思ったらダウンロードに時間かかった(笑
条件は合わせたつもり
Yahooニュースから適当に拾った事件1000文字に対して、文章要約とその対策案を聞いた

- Q4K_M 9950X,HT off(16core)
　プロセッシングに8秒、CPU,GPUともに100%付近
　結果は5,2tk/s

　96Gメモリだと残り7GくらいになってOSに回せるギリギリだw
　HT切ってるのは開発用マシンなので仮想PCに正しいCPU数を割り当てたいから
　もちろん仮想系は全部切ってテストした

- Q6 mac studio m4max,プロセッシングに 0.4秒、結果は 34tk/s

0134名無しさん＠ピンキー (ﾜｯﾁｮｲ 7372-TchX)

2025/09/04(木) 20:20:20.79ID:pxnBUR0q0

>>129>>133
CPUを安く済ませられるかと思ったけど、そうもいかないのか。
アリガト

0135名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/04(木) 23:05:44.13ID:gvxobVnD0

それでもx86に対応する技術者はすげぇ頑張ってるのよ
ほんの数ヶ月前ならCPUを全く活かせずもっと酷かった
こんなにうまくCPUを使える様になってるとは知らんかった

0136名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-9zWR)

2025/09/04(木) 23:24:18.52ID:QzkBFfjr0

cohere moe出してくれんかな

0137名無しさん＠ピンキー (ﾜｯﾁｮｲ 5323-z+45)

2025/09/04(木) 23:44:34.43ID:oWnbbGlJ0

Mac Studioええなあ
128GBくらいあればLLM困らないんやろか

0138名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 01:57:26.15ID:wClS/Ku1d

Q6って使い物になるの？

0139名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f0a-c25x)

2025/09/05(金) 02:18:25.80ID:07IlwcOs0

自分のしょぼ環境で動く範囲だと
Gemma3が一番エッチな文章書いてくれるわ
Mistral-Smallと違ってひよこ系で激怒するから回答編集してイエスマンにする必要あるけども…
123Bのモデル触ったら世界変わるんだろか

0140名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/05(金) 02:37:29.66ID:XUkLc0/u0

汎用で量子化するならQ6は最低限な感じ
mlxだとFP16からの量子化でmixed_2_6とか4_6にできるけどベストポジション探すのめんどい
mac 128Gだと100B前後が限界。300BをQ2とかで動かしてもね
そのサイズだとGPUパワー足りなくて待ちきれん
M4maxだと128Gは絶妙なサイズなのかも
M3Ultraはどうにも予算がw
VRAMに乗ればnVidiaは圧倒的
MoEはそろそろピークで次はJet-Nemotronだな
来年のLLM界隈も楽しみだ

0141名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 02:43:24.80ID:wClS/Ku1d

>>140
俺自身は貧乏だからMacに全く縁は無いが
mac 128Gに適当なeGPUをつけてメモリを更に盛ったりは出来ないの？

0142名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/05(金) 04:15:37.94ID:XUkLc0/u0

電気的にはTB5だからeGPUはできる筈なんだけど、Appleはサポートしない、と明言してる
自作すればできるかもしんない
メモリはDRAMという意味ではメモリは盛れない
TB的にはDMAサポートくらい
インフィニバンドみたいなメモリマッピングはない
SSDなら外付けの4T SSDから起動できる(してる)
スレチになってしまった、すまん

0143名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 04:24:18.08ID:wClS/Ku1d

>>142
Macも一長一短なんだな
DGX Sparkもモノが出てこないし過渡期だわ

0144名無しさん＠ピンキー (ﾜｯﾁｮｲ 43b9-F6ss)

2025/09/05(金) 05:25:32.51ID:9SDQdp0B0

https://x.com/liquidai_/status/1963681029333618960
350Mパラメータで4oクラスの日英翻訳できるってことはローカライズなしでローカルLLM動かして遊ぶ選択肢出来そうやけどどうやろ

0145名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 06:49:50.35ID:wClS/Ku1d

また新しいの来てる
mradermacher/InternVL3_5-241B-A28B-GGUF

https://huggingface.co/mradermacher/InternVL3_5-241B-A28B-GGUF

Q4_K_M 142.3GB
Q4_K_S 133.8GB
Q3_K_M 112.5GB

0146名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-EsdB)

2025/09/05(金) 18:14:34.16ID:keZ7Ey2Y0

DGX Sparkのサードパーティー製、実売価格って書かれてるから市販されそうだね
10月上旬だってさ
https://pc.watch.impress.co.jp/docs/news/2045021.html

新着レスの表示

レスを投稿する