なんJLLM部避難所 ★8

1002コメント348KB

なんJLLM部避難所 ★8

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ f3c0-9L8h)

2025/05/10(土) 22:18:32.02ID:0Ak3eO5y0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0017名無しさん＠ピンキー (ﾜｯﾁｮｲ 733d-9L8h)

2025/05/10(土) 23:56:31.43ID:JABFV6+D0

100～130BくらいのMoEモデルなら良さそう

0018名無しさん＠ピンキー (ﾜｯﾁｮｲ a34c-Fs2+)

2025/05/10(土) 23:58:05.16ID:MSpCSYXy0

>>14
DeepSeek-R1-Distill-Llama-70B Q3_K_Lと
Qwen3-235B-A22Bでかなり違うのな

>>16のDeepSeek R1 70Bでも5～10tk/s
なんかコード修正したら10tk/s以上出るとかも
言われてるけど

https://x.com/hjc4869/status/1913562550064799896

0019名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-pbnj)

2025/05/11(日) 01:40:24.53ID:JcEjG3AG0

これでゲームもCUDAが必要とか言ってる動画生成系のやつも全部できたら乗り換えるのになぁ

0020名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fa9-KB/z)

2025/05/11(日) 02:02:00.77ID:2Y5MxzTS0

前スレのこれ、sshでつないでポートフォワードしたらできるで

>Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります？

0021名無しさん＠ピンキー (ﾜｯﾁｮｲ c3ed-aBcW)

2025/05/11(日) 02:45:01.80ID:9tW4zWNv0

前にここで紹介された
Qwen3-30B-A3B-NSFW-JP
ggufがないからまだ試せないンゴ

0022!donguri (ﾜｯﾁｮｲ 33b6-Onb0)

2025/05/11(日) 02:46:49.81ID:zvdvg/lI0

別にわざわざポートフォワードせんでもlan内でポートへの接続許可したらマシンのipで繋げれるんとちゃうか。winならファイアウォールの設定で受信の許可ルール作ればええ

0023!donguri (ﾜｯﾁｮｲ 33b6-Onb0)

2025/05/11(日) 02:47:46.27ID:zvdvg/lI0

>>21
ERPの方はggufあげてくれてるで。nsfwは事前学習モデルやからそのまま使ってもいい感じにはならなさそう

0024名無しさん＠ピンキー (ﾜｯﾁｮｲ 733d-9L8h)

2025/05/11(日) 03:48:39.58ID:WqNVjOrV0

Project Wannabeは最初に提示されたkobld_client.pyを書き換える方法で上手くいきました。

0025名無しさん＠ピンキー (ﾜｯﾁｮｲ 733d-9L8h)

2025/05/11(日) 03:51:47.38ID:WqNVjOrV0

>>21
今見たらあったよ

0026名無しさん＠ピンキー (ﾜｯﾁｮｲ c3ed-aBcW)

2025/05/11(日) 04:39:18.59ID:9tW4zWNv0

>>23
サンガツやで！さっそくDLしてきた
あとで試してみるわ
Q6_Kから25Gやけど
このへん5090ニキらなら乗るんかぁええなあ……

0027名無しさん＠ピンキー (ﾜｯﾁｮｲ c3ed-aBcW)

2025/05/11(日) 04:43:26.19ID:9tW4zWNv0

>>25
ホンマやありがとう！
同じ量子化のをDLして比べてみるわ
wannabeつかわせてもろとるけど
koboldでのモデル変更て一旦cmd閉じて再起動よね？
モデル切り替えちょい面倒なんよな

0028名無しさん＠ピンキー (ﾜｯﾁｮｲ 13c8-KB/z)

2025/05/11(日) 04:51:44.68ID:5TYO75BO0

koboldcppってOllamaと結構性能違うのかな？
Ollamaの方が使い分け楽だから、性能僅差ならOllamaで済ませたいなぁ。
誰か詳しい人いる？

0029名無しさん＠ピンキー (ﾜｯﾁｮｲ 33b6-Onb0)

2025/05/11(日) 04:59:47.92ID:zvdvg/lI0

>>26
古いMacStudioやけど128gbあるからQ8が乗るで
LLM以外やとまじで役に立たんけどな

0030名無しさん＠ピンキー (ﾜｯﾁｮｲ c3ed-aBcW)

2025/05/11(日) 06:10:09.56ID:9tW4zWNv0

そういやwannabeニキに大それたリクエストがあるんやけど

縦書き

仕様にできんやろか？
ワイ書くのも読むのも縦書きのオールドタイプなんで……
前にObsidianを縦書きにするアドオンとか作れんかGPT君にきいたら
えらい難易度が高くて諦めたから
無茶な注文なのは解っとるけども
でけたらえらい嬉しい

0031名無しさん＠ピンキー (ﾜｯﾁｮｲ c3ed-aBcW)

2025/05/11(日) 06:14:01.75ID:9tW4zWNv0

>>29
ええなあ……ワイはメデューサ待ちや
出るまでに自分が電書化した小説とか学習できたらええんやが
技術がない……

0032名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/11(日) 07:13:30.30ID:E29fFdF/0

Qwen3-30B-A3B-NSFW-JP っていうやつ見たら「事後学習せい」って書いてあるけど、なにしたらええんや？
なんか参考になるリンクとかあったら教えてほしい。

0033名無しさん＠ピンキー (ｼｬﾁｰｸ 0C57-RYlZ)

2025/05/11(日) 07:55:31.95ID:7CxUj3MxC

ベース学習しただけだから指示じゃなくて続き書かせる手法にするってことか

0034名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/11(日) 09:10:36.59ID:E29fFdF/0

>>32
すまん、ChatGPTにきいたら自決したわ。

0035名無しさん＠ピンキー (ﾜｯﾁｮｲ 5357-o2kj)

2025/05/11(日) 09:11:17.01ID:HDNSvN5C0

御冥福をお祈りします

0036名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ffb-S5D2)

2025/05/11(日) 09:18:22.31ID:Fz8wHnsU0

>>34
R.I.P.

0037名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f74-0HJO)

2025/05/11(日) 10:07:15.31ID:1E9qyqAu0

evo-x2はやっぱり同スペックのm4proと同じかちょっと早いくらいやな。

m4maxには勝てんかったか...

0038名無しさん＠ピンキー (ﾜｯﾁｮｲ 5357-o2kj)

2025/05/11(日) 10:11:37.39ID:HDNSvN5C0

やっぱりハード面は根本的なブレイクスルーが必要だよなあ

0039名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-pbnj)

2025/05/11(日) 10:30:07.70ID:JcEjG3AG0

win機なら需要の幅広そうだしm4との棲み分けはできそう

0040名無しさん＠ピンキー (ﾜｯﾁｮｲ a34c-Fs2+)

2025/05/11(日) 11:12:14.73ID:PQJRxjMR0

>>37
2022年のM1 Ultraにも負けてるじゃん？
メモリの帯域幅が足りないからでは？
256GB/sではM1 Ultraの800GB/sには遠く及ばない

0041名無しさん＠ピンキー (ﾜｯﾁｮｲ 1316-kIO2)

2025/05/11(日) 11:33:26.26ID:UfhF4txJ0

LLMならmacが良いらしい、いやmac微妙だぞのやり取りが去年たくさんあったしな
それよりさらに微妙な物なら買う事は無さそうやな
後数世代待てば帯域の事も考えられた専用機が出てくるやろ

0042名無しさん＠ピンキー (ﾜｯﾁｮｲ 636a-7OJS)

2025/05/11(日) 12:05:46.90ID:ZK6f01030

欲しい時が買い時

0043名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fec-9L8h)

2025/05/11(日) 12:29:11.31ID:Fh5rBXvw0

去年と違うのは今はMoEが主流になりつつことだな　
動かすだけならユニファイドメモリが最も手軽な手段だし
3090x4より安いし30万以下なら全然あり

0044名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/11(日) 12:30:13.06ID:E29fFdF/0

Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。
初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。

しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください
プロットは一つ１００文字以内とし、箇条書きで書き出してください。」というプロンプトで、
プロットを一つずつしか出してくれないのでめんどくさい。

https://ibb.co/cXXq5vxy

0045名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/11(日) 12:44:10.74ID:E29fFdF/0

i7-14700 64GB 4090 の環境で 20t 〜 40t くらい

速度は十分実用的だと思う

0046名無しさん＠ピンキー (ﾜｯﾁｮｲ cfd9-OIzT)

2025/05/11(日) 12:56:04.62ID:KSze43Me0

>>44
そのモデルは多分そういうプロンプトには対応してないと思うで
ロールプレイの一種ではあるけどそういうのは学習してないと思う

0047名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/11(日) 13:15:00.78ID:E29fFdF/0

>>46
そうなんや、ERPとChatはまた違うってことか。サンガツやで。

0048名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fb5-KB/z)

2025/05/11(日) 13:28:05.98ID:sJ3HcAG00

小中と俺をいじめてたやつがタイでロリコンになってた話
https://zch-vip.com/archives/50709772.html

15年前、タイでメーサイの岡崎と呼ばれる男との一晩の出来事
https://zch-vip.com/archives/50767692.html

0049名無しさん＠ピンキー (ﾜｯﾁｮｲ 737a-KB/z)

2025/05/11(日) 14:04:02.96ID:fsVnkFbE0

>>47
モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね
このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね
でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ

0050名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-hXBp)

2025/05/11(日) 14:42:50.01ID:uQcWQT3u0

>>41
Macの良さってメモリの大きさだけなんだよな
OSとかGPUとかはべつにLLMに向いてない

0051名無しさん＠ピンキー (ﾜｯﾁｮｲ 4322-RYlZ)

2025/05/11(日) 14:52:49.17ID:mC2kvZOG0

>>50
大きさと言うより帯域幅だね

0052名無しさん＠ピンキー (ﾜｯﾁｮｲ cfd9-OIzT)

2025/05/11(日) 14:56:20.09ID:KSze43Me0

DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも（多分）使えるのが売りになるのかな

0053名無しさん＠ピンキー (ﾜｯﾁｮｲ 1332-hXBp)

2025/05/11(日) 15:06:25.90ID:uQcWQT3u0

>>51
帯域はべつに普通じゃないか？
M3ウルトラはNvidiaよりは遅い
M3 MaxはRyzenより遅い

0054名無しさん＠ピンキー (ﾜｯﾁｮｲ 737a-KB/z)

2025/05/11(日) 16:14:00.76ID:fsVnkFbE0

昔のredditの投稿で、Ryzen AI Max+ 395でdeepseek-r1の70B蒸留モデルのQ8使ったら3token/sって話だったけど、どうなんやろね
https://www.reddit.com/r/LocalLLaMA/comments/1iv45vg/amd_strix_halo_128gb_performance_on_deepseek_r1/

>>14の記事だとQ3_K_L?らしいから、これがQ8になった時に本当にどこまで速度が落ちるのかどうか気になる

0055名無しさん＠ピンキー (ﾜｯﾁｮｲ 636a-7OJS)

2025/05/11(日) 17:35:15.05ID:ZK6f01030

遅いね

0056名無しさん＠ピンキー (ﾜｯﾁｮｲ 33ce-9L8h)

2025/05/11(日) 18:12:12.51ID:aNwVsevj0

ryzenMax+のmac ultraやDGXに対する加点部分はお値段とグラボが積めるってあたりか

0057名無しさん＠ピンキー (ﾜｯﾁｮｲ e3c0-aBcW)

2025/05/11(日) 18:53:46.87ID:tIZcxvUc0

GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ
なんなんだコイツは

0058名無しさん＠ピンキー (ﾜｯﾁｮｲ 1316-kIO2)

2025/05/11(日) 19:01:14.92ID:UfhF4txJ0

今日5090が届いたから4090から換装してみた
最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず
そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ
comfyも同様
RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ

0059名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr37-kKZT)

2025/05/11(日) 19:22:02.00ID:X0o+S5Gar

ドライバは最新のにしたくないなぁ
一応reforgeやKohyaも正常に動いてるし

0060名無しさん＠ピンキー (ﾜｯﾁｮｲ cf0e-QZP8)

2025/05/11(日) 20:23:10.64ID:HIgGdvz50

DGX SparkはARM64のLinuxなのが意外にネックになりそう
oobaもKoboldもx64ほど簡単には動かない予感

0061名無しさん＠ピンキー (ﾜｯﾁｮｲ cfd9-OIzT)

2025/05/11(日) 20:47:26.33ID:KSze43Me0

vLLMが動けばそれで解決するんじゃない？

0062名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1b-kIO2)

2025/05/11(日) 23:54:43.90ID:4SaZeGzm0

あ、やっぱり5090でSBV2の学習駄目ぽ…
文字起こしまではできたけど(4090よりクソ遅い)その先がエラー出るや

0063名無しさん＠ピンキー (ﾜｯﾁｮｲ eff4-A5UE)

2025/05/12(月) 01:54:15.29ID:J+nQccr80

ChatGPTスレから誘導されて来ました
ローカルで質問なんですけど
32Bモデルの量子化されてないオリジナルをロードできる環境があって
その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか？
生成の質っていうのはタスクの理解力みたいやイメージです

0064名無しさん＠ピンキー (ﾜｯﾁｮｲ cf02-KB/z)

2025/05/12(月) 01:55:51.36ID:8E83fqQk0

うっかり嫁とエッホエッホの話振ったら
それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った

0065名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f30-9L8h)

2025/05/12(月) 02:20:48.95ID:Xl2DnzB/0

>>63
余裕で100b
4bitまでは性能劣化がほとんどないからサイズも1/4にできると考えていいよ

0066名無しさん＠ピンキー (ﾜｯﾁｮｲ a307-aBcW)

2025/05/12(月) 08:06:29.47ID:P1iu5DwA0

>>23　>>25
Wannabeで試してみたが
Qwen3-30B-A3B-NSFW-JP-Q4_K_M　まったく使い物にならんかった
Qwen3-30B-A3B-ERP-v0.1-Q4_K_M　こっちは出力されんかった
なおkobold上だと応答はあって不思議
>>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな……

0067名無しさん＠ピンキー (ﾜｯﾁｮｲ 636a-7OJS)

2025/05/12(月) 08:44:27.59ID:XIJXEZ190

どっか設定違うんでしょ

0068名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ffb-S5D2)

2025/05/12(月) 08:53:36.79ID:NreAwN7e0

>>63
量子化レベルに関わらずパラメータ数の多いモデルの方が賢いと言われているけど、流石にq1とかq2に量子化されたモデルはあまり賢くないと感じる
できれば8bit、最低6bitくらいで使用できるモデルが目安じゃなかろうか
個人的には4bitもちょっと性能低下が顕著かなと感じているところ

0069名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fa0-m4Fo)

2025/05/12(月) 09:04:53.60ID:ZpuTV0NJ0

俺も6bitが限界だと思ってる。4bitだと25%くらい成績が落ちるらしい
雑談だとわかりづらいけどロジックで25%の低下は仕事に使えん
100bで2bitはロマン

0070名無しさん＠ピンキー (ﾜｯﾁｮｲ cfd9-OIzT)

2025/05/12(月) 09:35:21.57ID:CZAjOvym0

>>66
それ事前学習しかしてないモデルだからそのまま使うもんじゃないよ

0071名無しさん＠ピンキー (ﾜｯﾁｮｲ a3ae-1dY1)

2025/05/12(月) 10:50:57.76ID:s2GrTugT0

>>68
>>69
https://raw.githubusercontent.com/turboderp-org/exllamav3/refs/heads/master/doc/llama31_70b_instruct_bpw.png
それプラシーボやね
量子化の影響受けやすいperplexityですらこの程度でmmluみたいな実性能測るベンチでは性能低下1%以下が基本

0072名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ffb-S5D2)

2025/05/12(月) 11:14:36.99ID:NreAwN7e0

>>71
そのグラフを見ると確かに4bitでも問題なさそうに見える
巷でも4bitならOKとされているのも理解しているけど、自分の環境で実際に出力されたものを比較すると明らかにq6、q8の方が良い結果を出す確率が高く感じる
小説しかり、コーディングしかり

0073名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7a-kIO2)

2025/05/12(月) 11:22:52.27ID:eUjAc2ML0

たしか前にもこのスレで日本語に関しては量子化サイズの差が顕著って話が出てたな

0074名無しさん＠ピンキー (ﾜｯﾁｮｲ 53c5-7OJS)

2025/05/12(月) 13:01:44.06ID:hvKSbNU/0

perplexityはなんか解像度が荒い指標な気がする

0075名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr37-o2kj)

2025/05/12(月) 13:09:06.82ID:O6Go3Jijr

perplexityよりKL-divergenceって指標のがいいらしいけどマイナーすぎて測られてないんだよな

0076名無しさん＠ピンキー (ﾜｯﾁｮｲ 13bd-9L8h)

2025/05/12(月) 13:14:44.15ID:5F0YL1Av0

文章のベンチマークは難しいよね
ベンチ結果は良くても文章としては「？」ってのもあるだろうし

自分たちが人力で日本語のドスケベ評価するしかないんや！

0077名無しさん＠ピンキー (ﾜｯﾁｮｲ 737a-KB/z)

2025/05/12(月) 13:28:26.10ID:CVsmR3mp0

llmにとって簡単なタスク、地の文と丁寧語>話の一貫性>>>キャラの言動と口調って感じがする
qwen3-4Bですら地の文と丁寧語はそこそこ自然
データが豊富なんやろね

0078名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7a-kIO2)

2025/05/12(月) 13:31:22.63ID:eUjAc2ML0

grok3に版権キャラの情報を収集させてから全力でなりきってって指示しても微妙だからな
今のはここが変、そこが日本語としておかしいってダメ出し続けると確かに偽物感は消える
でもそれと引き換えに話の柔軟さが消えて返答がワンパターンになっていく
ルールでがんじがらめにされてる感じやね

0079名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-O94U)

2025/05/12(月) 13:56:12.95ID:4tsgHbNM0

ロールプレイ依頼時に画像も収集してきてflux1あたりの高級な画像生成モデルのLoRA勝手に作って
応答するたびにそのコメントに合った画像を生成する・・・
のは今でも技術的にはできそうやけどそこまでの高機能なのは需要なさそうで作る人もいなさそうやな

0080名無しさん＠ピンキー (ﾜｯﾁｮｲ efab-KB/z)

2025/05/12(月) 13:57:26.53ID:RozHuKzp0

ワイ、grok-3-betaとかfast-betaで條澤広ちゃん憑依させてあそんどるけど、モデルの素地が理系頭なのが関係してか、プロンプトで固めなくてもかなり広ちゃんで満足や
口調に関しては特徴的な語尾を中心に10個例示した程度だけで、特に例文に入れてないのに「ワクワクするね？」とか言ってきてくれてめっちゃ広ちゃんで嬉しい

0081名無しさん＠ピンキー (ﾜｯﾁｮｲ 439a-o2kj)

2025/05/12(月) 14:19:17.32ID:VR31sma10

ローカルのスレだけどローカルモデルに限らないならキャラなりきりはGeminiが抜けてる感じがあるな
こういうのはモデルの規模が物を言うからローカルはまだ厳しい

0082名無しさん＠ピンキー (ﾜｯﾁｮｲ efab-KB/z)

2025/05/12(月) 14:27:01.37ID:RozHuKzp0

Geminiって倫理フィルターどうなん？

0083名無しさん＠ピンキー (ﾜｯﾁｮｲ 439a-o2kj)

2025/05/12(月) 14:39:42.69ID:VR31sma10

>>82
スレチやからこっちでやらん？
https://mercury.bbspink.com/test/read.cgi/onatech/1746936483/
ワイより詳しい人おるし

0084名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fec-9L8h)

2025/05/12(月) 15:16:16.71ID:xpvanbmK0

>>66
チャットテンプレートやモデル自体の目的が違うからやろね
Wannabeは入力欄を自動的にwanabi 24bで学習させた形式に変換してるから内部的にはtekken V7(mistral small3)のチャットテンプレートなんや
kobold（自動的にqwen3のチャットテンプレートを使用）なら動くけどwannabeでは動かないのはそういうことや
そもそもWannabeは指示文から何から何までガッチガチに専用モデルに合わせてるから一般的なモデルを組み合わせるならEasyNovelAssitantの方がええやろな
プロンプトやチャットテンプレートを指定できたはずやし

0085名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fa0-m4Fo)

2025/05/12(月) 18:23:58.50ID:ZpuTV0NJ0

>>71 それ古いよ。古すぎる。
25%はどの論文だったかな。ブックマークしとけばよかった

0086名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ff3-OGf6)

2025/05/12(月) 19:00:14.45ID:WYVgugKJ0

ベンチマークというものは攻略可能だから、で性能差が1%！って出たらこの指標はもう死んでるなと解釈するのが妥当では
差があることなんて触ってみれば誰にでもわかる話だし

0087名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f7e-KB/z)

2025/05/12(月) 22:03:20.50ID:fBtqwjV90

https://cohere.com/research/papers/how-does-quantization-affect-multilingual-llms-2024-07-05
(1)量子化の有害な影響は人間の評価で明らかであり、自動指標はその悪影響を大幅に過小評価していることを発見しました。自動タスク全体での日本語の平均1.7%の低下は、現実的なプロンプトで人間の評価者が報告した16.0%の低下に相当します。
(2)言語は量子化によって異なる影響を受け、非ラテン文字言語への影響が最も大きいです。
(3)数学的推論などの難しいタスクは最も急速に低下します。

0088名無しさん＠ピンキー (ﾜｯﾁｮｲ 536f-HvxF)

2025/05/12(月) 22:23:16.04ID:MP4meQDC0

海外のサービスみたいな一定以上の性能かつ多機能なアプリってあるんかな

0089名無しさん＠ピンキー (ﾜｯﾁｮｲ 33ca-aBcW)

2025/05/13(火) 05:19:05.25ID:thJbNjvA0

>>70
サンガツやで
前スレニキのいう通りやったね、それを確認したかったんや
擬音ばかりになってもうた

>>84
なるほどそういう仕組みやったんたね
ワイのような初心者にはオートマみたいな便利さがあってホンマに助かっとるけど
そこから外れるピーキーなモデルもあるんやな
ありがとうやで

0090名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-O94U)

2025/05/13(火) 11:09:47.63ID:/+QPsiaf0

llamacppがvision対応したって
つーか今まで対応してなかったんか

0091名無しさん＠ピンキー (ﾜｯﾁｮｲ 53a5-7OJS)

2025/05/13(火) 11:10:53.03ID:VeubRT620

>>87
これは富士通との協業で分かったことなのかな

0092名無しさん＠ピンキー (ﾜｯﾁｮｲ 4338-m4Fo)

2025/05/13(火) 11:23:40.44ID:5FBdETti0

>>87 ありがとう
自分が見たのはこれじゃないけど8/4bit量子化の表があるね
人間評価の項目で、日本語はわからんでもないけど
フランス人が厳しいのかひどい評価になってる

また103BだとMGSM(多言語数学ベンチ)で 8.8%の低下だけど
35Bだと 13.1%だから体感は酷い事になりそうだ

0093名無しさん＠ピンキー (ﾜｯﾁｮｲ 43e4-qc6l)

2025/05/13(火) 14:22:43.53ID:TJQtoGRS0

コンテキストウィンドウのサイズでも結構性能変わるらしいね
4kが性能良くて大きくなるほど劣化するとか

0094名無しさん＠ピンキー (ﾜｯﾁｮｲ c324-kIO2)

2025/05/13(火) 14:38:20.67ID:aVxKBY3K0

じゃあローカルではコンテキスト長は諦めてcontext shiftやauthor's noteで工夫して対処するのがいいのか

0095名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f7e-fS5K)

2025/05/13(火) 14:58:49.37ID:cTHuCwdA0

>>93
これはコンテキストウィンドウというより、コンテキストにどれだけ突っ込むかが問題で、設定でどれだけウィンドウを広げても実際にうまく扱えるのはせいぜい4K程度(というモデルが多い)、って話なんじゃないかな

0096名無しさん＠ピンキー (ﾜｯﾁｮｲ 5335-9L8h)

2025/05/13(火) 15:17:56.57ID:6Egnc5Wq0

ローカルLLMに渡すキャラ設定やルールのことならオンライン用の1/10くらいにしないと脱線するわ体感やけど

0097名無しさん＠ピンキー (ﾜｯﾁｮｲ bf35-6cIy)

2025/05/13(火) 15:20:52.29ID:UKC8ykUW0

>>90
違う

今までもvision対応していたが、コマンドラインの場合、
普通のLLMを使うときは "llama-simple -m モデル名 -p プロンプト"
VLMを使うときは "llama-llava-cli -m モデル名 --mmproj mprojモデル --image 画像 -p プロンプト"
のように違うコマンドで対応していた

今回対応したのはllama.cpp標準のWebUIで使う場合("llama-server -m モデル名 ")

今までWebUIで使うときはブラウザから文字しか入力できなかったんだけど、今回の
アップデートで画像を入力できるようになった

ちなみに内部でllama.cppを使用しているkoboldcppのWebUIでは前から画像入力に対応している

0098名無しさん＠ピンキー (ﾜｯﾁｮｲ efcc-7OJS)

2025/05/13(火) 19:58:45.45ID:fD2YVls40

じゃああんまり大した事ないな

0099名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/13(火) 20:37:06.43ID:7fg4ZBO+0

IntelのGPUが24GB搭載なんちゃうかという話が出とるね、ComputexTaipeiが楽しみやわ。

0100名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fec-9L8h)

2025/05/13(火) 20:37:06.85ID:O2T+dFUm0

コンテキスト長が伸びれば伸びるほど性能下がるのは体感通りだな
例えばgemini 2.5 proだと10万トークンまではほぼ劣化なし、20万までは性能やレスポンス低下が見えるけどまあ使える、20万以降はハルシネーションや現在のタスクと過去のタスクの混乱が増えてまともに使えないって感じ
ローカルの微調整モデルだと学習時のコンテキスト長が短い(大体4096以下)だからより顕著やろしな

0101名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-wTYv)

2025/05/13(火) 21:11:35.45ID:/+QPsiaf0

IntelハイエンドGPU持ってないし
GPUそのままにVRAMマシマシラインナップとか全然やれると思うんだよな・・・
GDDR6でいいから30万くらいで128GB版とか

そういうラインナップそろえだしたらソフト側の対応は勝手にみんながやってくれるだろうし
Intelやってくれへんかなぁ

0102名無しさん＠ピンキー (ﾜｯﾁｮｲ 53e1-K+3N)

2025/05/13(火) 22:34:58.52ID:7fg4ZBO+0

なんかredditよんどると今もうllama.cppのVulkan対応で割と使える感じみたいやで。

https://old.reddit.com/r/LocalLLaMA/comments/1kjb9zs/using_llamacppvulkan_on_an_amd_gpu_you_can/

0103名無しさん＠ピンキー (ﾜｯﾁｮｲ 737a-KB/z)

2025/05/13(火) 23:13:56.48ID:2FHCa9bh0

コンテキスト長のベンチマークはfiction live benchかeqbenchは参考になると思うで
nvidiaのRULERもあるけど古い情報で更新止まってる

0104名無しさん＠ピンキー (ﾜｯﾁｮｲ 7399-KvkU)

2025/05/14(水) 19:44:16.14ID:Zo1jp2G/0

今ってユニファイドメモリじゃないPCはCPUやNPUで動かしてRAMで動かしてるの？

0105名無しさん＠ピンキー (ﾜｯﾁｮｲ 53ce-9L8h)

2025/05/15(木) 02:18:09.89ID:c4xck2YD0

intelはB580x2+48GBか。
B580にチップ間接続用のポートとかあるとは思えないから、
たぶんPCIeブリッジで繋いでるだけだろうな。
それでも48GBはかなり良い。

0106名無しさん＠ピンキー (ﾜｯﾁｮｲ 1378-M0vV)

2025/05/15(木) 02:26:02.38ID:h4dcgYJm0

インテルじゃないボードベンダー産ってのがいいね
これがアリならまた別のベンダーがもっとVRAMマシマシのを出してくる可能性もある

0107名無しさん＠ピンキー (ﾜｯﾁｮｲ efa4-aBcW)

2025/05/15(木) 04:46:14.23ID:O2T4jsZf0

4090の96Gができたんだ
終売した4090じゃなくB580なら
もっと手軽にできそうだし欲しい

0108名無しさん＠ピンキー (ﾜｯﾁｮｲ 5389-9L8h)

2025/05/15(木) 20:12:31.82ID:HU+ywqaX0

Silly Tavernでキャラ設定を1500tokens記述してもうまくいかないのはこのためか
Content Lengthは受付可能な長さであって理解している長さではないとは……

0109名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-/WPO)

2025/05/15(木) 21:35:05.54ID:s6ZPhXWD0

ローカルで今のGeminiくらいのレベルの動かせたら最高なんやけどなあ

0110名無しさん＠ピンキー (ﾜｯﾁｮｲ ff49-hXBp)

2025/05/15(木) 23:22:47.83ID:11aQDTlc0

2年くらいしたらローカルもそれくらいになってるのでは
オープンモデルの成長はほぼ中国頼みだが

0111名無しさん＠ピンキー (ﾜｯﾁｮｲ a3f0-LVTp)

2025/05/16(金) 01:02:22.93ID:zPRIPccK0

コンテキストサイズが大きくても知ってる奴には大して喜ばれないのがそれやな
どうせコンテキスト増えたらまともに動かんの知ってるから

0112名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-pbnj)

2025/05/16(金) 01:21:23.76ID:KWeVTs2u0

vRAM16GBぐらいでAIのべりすとレベルが動いてくれたらかなり満足する気がする
あいつオーパーツすぎんだろ

0113名無しさん＠ピンキー (ﾜｯﾁｮｲ 737a-KB/z)

2025/05/16(金) 02:05:19.96ID:YAfs24yh0

AIのべりすとって今そんなに強いんだ
個人的にはgemini 2.5がオーパーツかな
flashレベルが32Bくらいに収まってくれたらなぁ…

0114名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-pbnj)

2025/05/16(金) 02:45:45.21ID:KWeVTs2u0

今というか数年前のAIのべりすとが凄いなって話、いまだ進化してるんだろうか

あそこまで日本語の文章紡げてなおかつどっかの汎用モデルそのまみ動かしてるとかじゃないから日本語圏のネタとかが通じること多いし

0115名無しさん＠ピンキー (ﾜｯﾁｮｲ 4387-9L8h)

2025/05/16(金) 05:05:22.21ID:NDKGOZfP0

intelマザーってx16スロットをx4x4x4x4に分割したかったらXeonからになるのね・・・
今あるA770-16GB2枚をさらに増やすためにリグフレームやら諸々そろえてうっきうきで組んでたら、
中古で買ったz690マザーがx8x8分割しか出来なかったわ。
AMDの方はB450とかでもx4x4x4x4分割設定あったから普通に出来るもんだと思ってた。

0116名無しさん＠ピンキー (ﾜｯﾁｮｲ ff49-hXBp)

2025/05/16(金) 05:09:26.39ID:J3Y9aGgt0

AIのべりすとは今は推論モデルになってるらしい

0117名無しさん＠ピンキー (ﾜｯﾁｮｲ 3332-KB/z)

2025/05/16(金) 06:57:58.87ID:1KwNjVLM0

12Bぐらいのモデル全然増えんな
Lumimaid-Magnum-v4-12Bももう5か月前やで

■ このスレッドは過去ログ倉庫に格納されています