なんJLLM部 避難所 ★6
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/02/13(木) 21:16:02.49ID:KkRdf1Mm
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/
0668名無しさん@ピンキー2025/03/11(火) 19:38:30.90ID:???
aya expanseは楽しい
メモリぎりぎりの大きさの無修正のやつを1秒1トークンくらいで回してる
かつての有人エロチャットの返事を待つ感覚
0669名無しさん@ピンキー2025/03/11(火) 20:19:56.60ID://xePfGK
>>666
ありがとうございます
一応4090ちゃん装備してるんで14Bとかも行けると思います
ayaちゃん使ってみます

>>667
そちらも調べてみます、ありがとうございます
0671名無しさん@ピンキー2025/03/12(水) 03:45:48.42ID:pnD2KtSV
QwQ_32B_Q4って実用性ある?
0672名無しさん@ピンキー2025/03/12(水) 05:27:58.90ID:???
何をもってしてゴールなのか書いてもらわんと建設的な質問にはならんと思うで……
0673名無しさん@ピンキー2025/03/12(水) 11:01:37.22ID:gQCXoTVi
Grok2が雑談性能高いって聞いたから試してみたけどTwitter食った?わりには微妙
ふつうにClaude Gemini DeepSeekあたりのほうがいいような
こいつら3つになんJ民のペルソナを与えてレスバを仕掛けるとスリ切れたボロ布みたいな罵詈雑言あびせてきてホンマ口悪い
0674名無しさん@ピンキー2025/03/12(水) 11:16:35.76ID:???
人によって雑談の質が違うからね違いが出るのはしょうがないね
0675名無しさん@ピンキー2025/03/12(水) 11:22:15.38ID:???
画像生成でもそうなんやけど
モデルの性能とプロンプトの良し悪しで
何をもって評価できてるのか解らんもんなあ

ワイの場合はまず「丁寧語にしない」が目標で
7Bあたりだと無理だったけど
今は違うかもしれん
QwQ-32Bだとたまにこっちを息子だと認識してくるのはまだ足りてない
どっちが悪いのかはこれからの調査次第やな
0676名無しさん@ピンキー2025/03/12(水) 11:55:58.85ID:???
シチュエーションと用途が分からんからなんとも言えんが
チャット形式で丁寧語にしないだけならほとんどの7Bモデルで普通に出来るはず
0678名無しさん@ピンキー2025/03/12(水) 12:18:35.05ID:???
専門的な評価法知らんので
剣心の世界観を説明させたあとにキャラで雑談させて性能見てる
0679名無しさん@ピンキー2025/03/12(水) 12:32:32.82ID:???
>>676
ChatGPT3.5あたりでも会話長くなるとちょくちょく漏れてたんや
今のverになってからはほぼ完璧になってつい課金してもうた

QwQ-32Bはセリフ長くなると後半設定忘れたりするし
そのへん破綻しない分量に抑えられればうまく行くかもしれんね
そのあたりがワイのプロンプトぢからの無さやろな……

>>678
ええね
生徒会問題みたいにスレ共通のテストテンプレほしいわ
0680名無しさん@ピンキー2025/03/12(水) 12:44:50.80ID:gQCXoTVi
そういえば確かにEvalがどうのこうのってLLMの評価を雰囲気で見てはいるけど
実際にどう評価してんのか全然知らんわ
一時期自分でも評価してみたいと調べてみたけどなんもわからんくて投げた記憶がある
0681名無しさん@ピンキー2025/03/12(水) 12:53:32.51ID:???
モデルによって得意なことが違ったり適切な設定が違ったりするから
一概にどれが高性能とは言えんのよな
ベンチマークもLLMの進化に対して評価方法の進化が追い付いてないらしいしベンチマークだけ良い肩透かしモデルもあるみたいだし
0682名無しさん@ピンキー2025/03/12(水) 13:08:18.34ID:???
>>662ニキが試してくれとるように
青空文庫の短編小説を食わせて
まとめさせる、
→「120文字以内でまとめて」
感想を聞く
演じさせる
→「主人公のモノマネしてみて」

ていうのはどうやろうか?
他に何か判断できる質問や喰わせるにええ小説とかないかな
0683名無しさん@ピンキー2025/03/12(水) 14:47:37.37ID:???
やらせたいジャンルのクイズを出題させると性能や向き不向きが分かるで
だいたいボロボロの出力になるからベンチマークにぴったり
0687名無しさん@ピンキー2025/03/12(水) 16:43:29.76ID:???
QwQ-32Bの後だとプレッシャーが凄そう
QwQは今まで試したローカルモデルでは一番賢い気がする
0689名無しさん@ピンキー2025/03/12(水) 17:41:32.16ID:???
zuntanさんのEasyReforgeを使わせてもらってます
起動後ドメインcloudfontサーバーに接続されてるみたいなんですが
オフラインで実行したいので接続させないようにしたいです
python.exeが接続しているようなのでファイアウォールでこちらを遮断すべきか
もしくはReforgeのUI内の設定で接続を切る方法があるのでしょうか(恐らく拡張機能か何かが接続しているのかと思ってます)
0692名無しさん@ピンキー2025/03/12(水) 18:40:43.43ID:???
llama.cpp最新でビルドし直してgemma3とりあえず動いたわ
まだ画像認識は対応してないけど、雑談用途で動かした感じはかなり好感触
0694名無しさん@ピンキー2025/03/12(水) 19:07:51.55ID:???
>>693
せやで
なんか昨日ぐらいまでは4GBくらいで分割されとってダウンロードめんどくさかったけど
いつの間にか結合されとるな
0695名無しさん@ピンキー2025/03/12(水) 19:09:21.46ID:???
小さいパラメータ数でもかなり使えるレベルまで賢くなってきたな
小さいと言ってもまだ30Bくらいあるが
0699名無しさん@ピンキー2025/03/12(水) 20:51:33.71ID:???
UnslothのはDeepseekR1の時みたいな特別なことやっとるんやろか?
というかDeepseekR1のGGUFで名前を初めて聞いたけど
もともといろんなモデルのGGUFをリリースしてるとこなんやな
0700名無しさん@ピンキー2025/03/12(水) 21:53:41.12ID:hdZr+BS5
AIがほとんど同じような返答を繰り返すのは何とかならんのか?
0701名無しさん@ピンキー2025/03/12(水) 22:15:22.95ID:???
mcp経由でLLMにウェブ検索機能を付けるやつ、
1. Firecrawlをdockerでローカル実行
2. Firecrawl MCP Serverをインストールして実行
が強いな
ドキュメントがちゃんと用意されてるからclaude君に食わせれば細かい書き方は全部やってくれる
ある程度賢いモデルならLibraChat利用してローカルLLMに使わせることもできるはず
0702名無しさん@ピンキー2025/03/12(水) 22:21:26.09ID:???
>>700
同じ返答を繰り返す原因はいくつかあるんだけど
どのモデルでどれぐらい会話をしたときにどういう返答を繰り返してるんだ?
0704名無しさん@ピンキー2025/03/13(木) 02:08:45.96ID:???
M4 Max 128Gが使えるようになったので llama-3.3-swallow-70b-instruct の8bit版を試した
速度は4bitの12tk/secから6.6tk/sに落ちたがハルシネーションが激減した
llama3.3なら6bit以下だとダメなのかもしんない。部分的な量子化が進んでほしい
0705名無しさん@ピンキー2025/03/13(木) 03:34:53.71ID:???
すごい赤ちゃん質問かもしれんけど
gemma-3-27b-it
gemma-3-27b-pt
て何が違うんや?

ワイはスキルないからGGUFじゃなくてファイル分割されとるとお手上げやから
なんも試せんけども……
0706名無しさん@ピンキー2025/03/13(木) 03:44:59.86ID:???
>>701
なにそれめちゃくちゃ楽しそう
デスクトップ秘書に質問したらええ感じで検索してくれる……てこともできそう
しかしワイdockerすらいじれない低スペやった
0707名無しさん@ピンキー2025/03/13(木) 05:04:12.29ID:???
ちょっと前まで巨大モデル動かすのが目標だったけど最近の新しいモデルを見ると32Bさえ動かせれば十分かもしれんな
60GBあれば足りるか
0708名無しさん@ピンキー2025/03/13(木) 05:12:28.37ID:???
MoEも各専門家がだいたい30B前後だもんね
手動で専門家選ぶか..
0709名無しさん@ピンキー2025/03/13(木) 05:17:09.99ID:???
>>705
it = Instruction Tuned チャット用
pt = Pre-trained 自分で追加学習したい用

itのほうをおすすめ

LM Studioとか使えばファイル分割されてても勝手にやってくれるよ
細かいモデルの違いに対応してなかったりするけど、そこは諦める
0710名無しさん@ピンキー2025/03/13(木) 06:06:49.07ID:???
Vram使わん場合
使っとらんPCが32GあるけどDDR3やからサッパリやろなあ……
メインPCはDDR4やけど
n100でDDR5使うminiPCのほうが速いかもしれんなあ

>>709
ありがとうやで!普段遣いはitでええのね
いつかトレーニングできるとええなあ
LM Studioやったことないけどメモっとくで!
0711名無しさん@ピンキー2025/03/13(木) 07:33:14.47ID:gZr5CeZa
>>709
横からやけど、jpとかkrとかのノリでイタリア語FT版とポルトガル語FT版とかかな?と勘違いしてたで!
サンガツや〜
0712名無しさん@ピンキー2025/03/13(木) 10:45:06.67ID:???
koboldだと分割再生できるけどメモリ余計に食うから結合させて使ってる
0713名無しさん@ピンキー2025/03/13(木) 10:57:37.28ID:???
いまさっき動画生成試したらメモリ68G消費したわ
ちょうど128Gに増設したとこやったんでギリギリセーフ
ちゅうてもDDR4やから当面はQwQ-32Bでキャラ設定を詰めていきたい

webで量子化による違いが書かれとったんやけど、他のモデルもこんな感じなんやろか?
ちょうどQwQ-32Bもええ感じと言われとるんがQ4_K_Mよね
obsidianにコピペしといたもので、元記事のリンクまでない、ここのニキが書いたものならスマンやで

llama.cppモデルのバリエーション一覧(7Bの例)
Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨>
Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下
Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下
Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下
Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下
Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】
Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】
Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】
Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下
Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー>
Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー>
Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー>
Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー>
Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨>
F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨>
F32 : 26.00G : - - クソデカ、質低下なし<非推奨>

Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。
Kのない4bit/5bit量子化(q4_0, q4_1, q5_0, q5_1)は旧方式のレガシーなので基本的に選ばない。
Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。
Perplexity Lossの値が大きいほど、量子化による劣化も大きい。
例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」
一方で、Q4_K_M〜Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。
0715名無しさん@ピンキー2025/03/13(木) 11:29:25.58ID:???
q2とかq3て使わなくていいじゃんとか思っちゃう😅
サイズ下げてq5以上使うほうが良いような気がして
0716名無しさん@ピンキー2025/03/13(木) 11:35:56.63ID:???
もしハードがあっても日本語QAデータセットが貧弱なのがネックだなと思う
画像にdanbooru、音声にギャルゲがあったように何か日本語QAデータの金脈を見つければ少しは良くなりそう
0717名無しさん@ピンキー2025/03/13(木) 11:39:02.08ID:???
>>713
基本的に大きいモデルになるほど量子化耐性が強くなるから3bitでも対して劣化しないモデルもある
どちらにせよ4bit以下はimatrix量子化はマスト
0718名無しさん@ピンキー2025/03/13(木) 11:46:13.40ID:???
>>650
この間はアドバイスありがとう。
色々試して結局ちょっとしか弄らなかったんだけど、おかげでコマンドの意味について調べるきっかけができたから良かった。

レイヤー数48からVRAMから漏れてるのか急激に遅くなるけど、47までは動くし数字大きい方が早く動くから、早くて安定するレイヤー数45でやっていくことにした。
(モデルはqwq-32b-q4_k_m・コンテキストサイズは4096固定で レイヤー数30で3.0t/s、レイヤー数40で4.0t/s レイヤー数45で4.4t/s程度)


もらったアドバイスでもChatGPTに聞いたところでもVRAM的にレイヤー数下げた方が良いって言われてたけど、ほとんどVRAMに乗るからそこだけ謎(レイヤー数30だと専有VRAM10.6GB共有VRAM0.1GB、レイヤー数40で専有13.3共有0.2、レイヤー数45で専有14.0共有0.5)

レイヤー数45の時でも専有GPUメモリ2GBほど余裕あるのに共有GPUメモリが使われてるのも不思議に思った。激重になるレイヤー数48でも専有GPUメモリ15.5GB、共有GPUメモリ0.5GBとかだったからVRAM16GBあっても16.0GBまるまる使えるわけじゃないのかな。
0719名無しさん@ピンキー2025/03/13(木) 11:47:59.03ID:???
ChatGPTに聞いて用語についてある程度理解したからメモ。他の赤ちゃんに役立ったら良いけど間違ってたらすまんこ。

コンテキストサイズ:モデルが一度に処理できるトークン数(≒文章の長さ) VRAMに影響:4070tisの場合4096~8192が推奨 (長期的に話したときの記憶力にも影響?)
レイヤー数:推論の精度や速度に影響。LLMモデルは複数レイヤーで構成されているが、そののうち何層目までをVRAMに乗せるかを決める。指定した数の層までがVRAMに乗せられ、それ以外はCPUやRAMに乗せられる。
コンテキストサイズを上げるとVRAMに乗せられるレイヤー数は減る。(同環境だと コンテキスト4096なら25~30層、 8192なら15~20層推奨)
0721名無しさん@ピンキー2025/03/13(木) 12:06:25.43ID:???
DeepSeekのQ4_K_Sが5.6~5.7t/sで動いて快適だからQwQにも同じのが出たら良いなぁ。
0722名無しさん@ピンキー2025/03/13(木) 12:30:35.53ID:???
>>719
コンテキストのメモリ使用量はembedding size×トークン長×2(fp16の場合)で求められる
あとllama.cppの場合vramに乗せるのはモデルが優先だからトークン長を増やしてもあふれるのはコンテキストだけのはず
0725名無しさん@ピンキー2025/03/13(木) 18:13:15.46ID:???
LLM関連の話はLLMくんが猛烈に詳しいから素直に聞いたほうがはやい
0727名無しさん@ピンキー2025/03/13(木) 20:01:02.99ID:???
qwqとかgemma3とかのおかげで結局project digitsでええかって心境になってきた
project digitsとm3 ultraが出るまでまだ状況変わるやろうからどうなるかわからんけど
llama4も上半期って話があったはずやからそろそろやろうしなぁ・・・

いやぁなんか1月以降目まぐるしく状況変わって大変や
いろいろ考えてるだけでまだ何も買ってへんから全然ええんやけど
どうしようかいろいろ考えてる時が一番楽しい
0728名無しさん@ピンキー2025/03/13(木) 22:13:13.31ID:???
cohereの新型フラグシップモデルが出た
汎用的な推論タスクはdeepseekR1と同等以上とLLMは言ってるが如何に
0731名無しさん@ピンキー2025/03/13(木) 22:43:34.72ID:???
koboldはまだgemma3に対応してないから素のllama.cpp使うしかない
0732名無しさん@ピンキー2025/03/13(木) 22:45:27.82ID:Sd+JJpYw
cohereちゃん生きとったんか。めちゃくちゃ気になるけど111Bはデカいンゴねぇ……
0734名無しさん@ピンキー2025/03/13(木) 22:58:56.73ID:???
cohereのCR+からまだ1年しかたってないのか
あんなに衝撃的だったCR+(105B)も今や14Bのモデル(Phi-4)と同等性能とか
0735名無しさん@ピンキー2025/03/13(木) 23:00:15.78ID:???
>>732
デモ試したが、いい感じだな。

ところで、qwq化け猫のQ8_0がkoboldで動かない(thinkしか出ない)のはワイだけ?
0741名無しさん@ピンキー2025/03/14(金) 07:57:36.60ID:???
>>740
24GBで動かせる上限に近いから4090持っとる様な個人のマニアがボリュームゾーンなんやろな
0742名無しさん@ピンキー2025/03/14(金) 08:53:01.39ID:???
5090に買い替えたら32BのQ6辺りにTTS組み合わせてもVRAM内で収まるようになると考えるとめちゃ嬉しい
0745名無しさん@ピンキー2025/03/14(金) 10:48:35.16ID:fNaSb3be
Cohere生きっとんたかワレ!
でもGPT-4o and DeepSeek-V3相当で
Command A|$2.50 / 1M|$10.00 / 1M
はちょっと高すぎやな
0746名無しさん@ピンキー2025/03/14(金) 10:55:06.64ID:???
cohereは富士通と協業しとるみたいやから日本語得意なんか?
cr+も日本語得意なイメージはあったけども
0747名無しさん@ピンキー2025/03/14(金) 11:02:52.78ID:fNaSb3be
>>746
というより多言語を前から意識してる感
ブログにも120↑言語を学習してアラビア語もイケるで みたいなこと書いとるし
LlamaとかMistralあたりの「ジャップ語?すまんワイら英語話者なんでw」なとこと比べてようやっとる印象
0749名無しさん@ピンキー2025/03/14(金) 11:47:57.10ID:???
MoEモデルならMacでも速度出るって言われてたな
MoEだとそんなにGPUパワーを要求しないのかな
0753名無しさん@ピンキー2025/03/14(金) 13:21:09.30ID:???
commnad-A webでは申し訳食らうプロンプトもローカルでは通るな

ところで、qwq-bakeneko koboldで動いてる人いる?
0755名無しさん@ピンキー2025/03/14(金) 14:55:48.66ID:???
cohereの無料APIなんか特殊だったな。
1000回/月だけど、使い切ってから一ヶ月経たないと補充されないから2垢必須だった。
Command R+の頃の知識だから今は変わってるかもしれんが。
0757名無しさん@ピンキー2025/03/14(金) 15:18:25.45ID:???
command-A
メモリ64Gでの量子化はiQ4_xsまでいけるな。
R+よりエロい
0758名無しさん@ピンキー2025/03/14(金) 15:20:40.75ID:???
>>756
複垢防止が厳密じゃないということか でも他所もそんなもんじゃないの?
トライアルキーてこれか……新規キー作ればまたそっちで1000回呼び出せるんか?そんな甘くはない?
https://docs.cohere.com/docs/rate-limits
"In addition, all endpoints are limited to 1,000 calls per month with a trial key."
このサイズをローカルで動かせる環境ないのでAPIで試してみるか

あとsarashina2.2-3bも軽い割にはいい感じなんだけど10B程度でもう少し頭いいのが欲しい
0759名無しさん@ピンキー2025/03/14(金) 16:50:35.92ID:???
今ダウンロードしてるんだけどsarashina2.2ってエロチャも行けるのかな?
極小モデルは大体厳しめの検閲入ってるのしかないイメージがあるけど
spaceで試した感じでは3bの割に賢かった
0762名無しさん@ピンキー2025/03/14(金) 22:02:01.56ID:???
やっべ
nagnum 123B超えたわ>command-A
日本語のエロ表現良すぎるw
0763名無しさん@ピンキー2025/03/14(金) 22:37:17.95ID:???
command-aは公式がエージェント推しやったから表現力にはあんま期待しとらんかったけどそんなええんか…
0764名無しさん@ピンキー2025/03/14(金) 22:50:38.40ID:???
わかってる人にはくだらない質問で申し訳ないんだが
QwQをSillyTavernからちゃんと使えてる人いたら設定を教えてもらえないだろうか

モデルは例えばmradermacher/QwQ-32B-abliterated-i1-GGUFのQ4_K_Mで
llama.cppから次の引数で立ち上げてる
llama-server --model QwQ-32B-abliterated.i1-Q4_K_M.gguf \
--threads 16 \
--ctx-size 32768 \
--n-gpu-layers 99 \
--prio 2 \
--temp 0.6 \
--repeat-penalty 1.1 \
--dry-multiplier 0.5 \
--min-p 0.01 \
--top-k 40 \
--top-p 0.95 \
--samplers "top_k;top_p;min_p;temperature;dry;typ_p;xtc" \
--host 0.0.0.0 \
--port XXXX

STの設定は次の通り
https://litter.catbox.moe/03x39v.png
https://litter.catbox.moe/umiwyw.png

会話例を貼るけど、正直ウチの環境だとあまり賢いようには見えなくて改善したい
(キャラカードは日本語wikiからの借り物でほかのモデルでは問題ない)
https://litter.catbox.moe/qt74jx.png
0765名無しさん@ピンキー2025/03/14(金) 23:55:32.62ID:???
>>764
qwen系はロールプレイはあんまり得意じゃないからそれだと思われ
あとabliteratedは少なからず性能が落ちるんでそれも一因かも
0766名無しさん@ピンキー2025/03/15(土) 02:37:02.97ID:IJFRzI2Z
llama.cppでgemma-3 12B Q5_K_L動かしてみたんだけど思ってた以上に日本の知識持っててびっくりした
マルチリンガルのモデルって知識が各国語に分散してて会話文とかが素っ気なくなりがちと思ってたけど、これは結構良いかも
あと設定間違えてCPUオンリーで動かしちゃったんだけどそれでも7token/s出てビビったわ。小さいモデルだと普通にCPUで実用可能な速度出るんだな
0767名無しさん@ピンキー2025/03/15(土) 10:07:32.79ID:???
command r+の8月版は規制強かったけど
今回のAは規制ゆるゆるだな
ただ文章が長くなると繰り返し現象が起きやすいのは同じか
日本語の表現力はかなり上がっている印象
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況