なんJLLM部避難所 ★6

1002コメント332KB

なんJLLM部避難所 ★6

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/02/13(木) 21:16:02.49ID:KkRdf1Mm

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/

0699名無しさん＠ピンキー

2025/03/12(水) 20:51:33.71ID:???

UnslothのはDeepseekR1の時みたいな特別なことやっとるんやろか？
というかDeepseekR1のGGUFで名前を初めて聞いたけど
もともといろんなモデルのGGUFをリリースしてるとこなんやな

0700名無しさん＠ピンキー

2025/03/12(水) 21:53:41.12ID:hdZr+BS5

AIがほとんど同じような返答を繰り返すのは何とかならんのか？

0701名無しさん＠ピンキー

2025/03/12(水) 22:15:22.95ID:???

mcp経由でLLMにウェブ検索機能を付けるやつ、
1. Firecrawlをdockerでローカル実行
2. Firecrawl MCP Serverをインストールして実行
が強いな
ドキュメントがちゃんと用意されてるからclaude君に食わせれば細かい書き方は全部やってくれる
ある程度賢いモデルならLibraChat利用してローカルLLMに使わせることもできるはず

0702名無しさん＠ピンキー

2025/03/12(水) 22:21:26.09ID:???

>>700
同じ返答を繰り返す原因はいくつかあるんだけど
どのモデルでどれぐらい会話をしたときにどういう返答を繰り返してるんだ？

0703名無しさん＠ピンキー

2025/03/13(木) 01:23:42.44ID:???

gemma3 27Bは何か凄い饒舌だな

0704名無しさん＠ピンキー

2025/03/13(木) 02:08:45.96ID:???

M4 Max 128Gが使えるようになったので llama-3.3-swallow-70b-instruct の8bit版を試した
速度は4bitの12tk/secから6.6tk/sに落ちたがハルシネーションが激減した
llama3.3なら6bit以下だとダメなのかもしんない。部分的な量子化が進んでほしい

0705名無しさん＠ピンキー

2025/03/13(木) 03:34:53.71ID:???

すごい赤ちゃん質問かもしれんけど
gemma-3-27b-it
gemma-3-27b-pt
て何が違うんや？

ワイはスキルないからGGUFじゃなくてファイル分割されとるとお手上げやから
なんも試せんけども……

0706名無しさん＠ピンキー

2025/03/13(木) 03:44:59.86ID:???

>>701
なにそれめちゃくちゃ楽しそう
デスクトップ秘書に質問したらええ感じで検索してくれる……てこともできそう
しかしワイdockerすらいじれない低スペやった

0707名無しさん＠ピンキー

2025/03/13(木) 05:04:12.29ID:???

ちょっと前まで巨大モデル動かすのが目標だったけど最近の新しいモデルを見ると32Bさえ動かせれば十分かもしれんな
60GBあれば足りるか

0708名無しさん＠ピンキー

2025/03/13(木) 05:12:28.37ID:???

MoEも各専門家がだいたい30B前後だもんね
手動で専門家選ぶか..

0709名無しさん＠ピンキー

2025/03/13(木) 05:17:09.99ID:???

>>705
it = Instruction Tuned チャット用
pt = Pre-trained 自分で追加学習したい用

itのほうをおすすめ

LM Studioとか使えばファイル分割されてても勝手にやってくれるよ
細かいモデルの違いに対応してなかったりするけど、そこは諦める

0710名無しさん＠ピンキー

2025/03/13(木) 06:06:49.07ID:???

Vram使わん場合
使っとらんPCが32GあるけどDDR3やからサッパリやろなあ……
メインPCはDDR4やけど
n100でDDR5使うminiPCのほうが速いかもしれんなあ

>>709
ありがとうやで！普段遣いはitでええのね
いつかトレーニングできるとええなあ
LM Studioやったことないけどメモっとくで！

0711名無しさん＠ピンキー

2025/03/13(木) 07:33:14.47ID:gZr5CeZa

>>709
横からやけど、jpとかkrとかのノリでイタリア語FT版とポルトガル語FT版とかかな？と勘違いしてたで！
サンガツや～

0712名無しさん＠ピンキー

2025/03/13(木) 10:45:06.67ID:???

koboldだと分割再生できるけどメモリ余計に食うから結合させて使ってる

0713名無しさん＠ピンキー

2025/03/13(木) 10:57:37.28ID:???

いまさっき動画生成試したらメモリ68G消費したわ
ちょうど128Gに増設したとこやったんでギリギリセーフ
ちゅうてもDDR4やから当面はQwQ-32Bでキャラ設定を詰めていきたい

webで量子化による違いが書かれとったんやけど、他のモデルもこんな感じなんやろか？
ちょうどQwQ-32Bもええ感じと言われとるんがQ4_K_Mよね
obsidianにコピペしといたもので、元記事のリンクまでない、ここのニキが書いたものならスマンやで

llama.cppモデルのバリエーション一覧（7Bの例）
Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨>
Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下
Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下
Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下
Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下
Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】
Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】
Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】
Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下
Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー>
Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー>
Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー>
Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー>
Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨>
F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨>
F32 : 26.00G : - - クソデカ、質低下なし<非推奨>

Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。
Kのない4bit/5bit量子化（q4_0, q4_1, q5_0, q5_1）は旧方式のレガシーなので基本的に選ばない。
Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。
Perplexity Lossの値が大きいほど、量子化による劣化も大きい。
例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」
一方で、Q4_K_M～Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。

0714名無しさん＠ピンキー

2025/03/13(木) 11:19:06.24ID:???

QwQ-32Bを日本語向けにチューニングするのがいつ出てくるか

0715名無しさん＠ピンキー

2025/03/13(木) 11:29:25.58ID:???

q2とかq3て使わなくていいじゃんとか思っちゃう😅
サイズ下げてq5以上使うほうが良いような気がして

0716名無しさん＠ピンキー

2025/03/13(木) 11:35:56.63ID:???

もしハードがあっても日本語QAデータセットが貧弱なのがネックだなと思う
画像にdanbooru、音声にギャルゲがあったように何か日本語QAデータの金脈を見つければ少しは良くなりそう

0717名無しさん＠ピンキー

2025/03/13(木) 11:39:02.08ID:???

>>713
基本的に大きいモデルになるほど量子化耐性が強くなるから3bitでも対して劣化しないモデルもある
どちらにせよ4bit以下はimatrix量子化はマスト

0718名無しさん＠ピンキー

2025/03/13(木) 11:46:13.40ID:???

>>650
この間はアドバイスありがとう。
色々試して結局ちょっとしか弄らなかったんだけど、おかげでコマンドの意味について調べるきっかけができたから良かった。

レイヤー数48からVRAMから漏れてるのか急激に遅くなるけど、47までは動くし数字大きい方が早く動くから、早くて安定するレイヤー数45でやっていくことにした。
（モデルはqwq-32b-q4_k_m・ｺﾝﾃｷｽﾄｻｲｽﾞは4096固定で　レイヤー数30で3.0t/s、レイヤー数40で4.0t/s　レイヤー数45で4.4t/s程度）

もらったアドバイスでもChatGPTに聞いたところでもVRAM的にレイヤー数下げた方が良いって言われてたけど、ほとんどVRAMに乗るからそこだけ謎（レイヤー数30だと専有VRAM10.6GB共有VRAM0.1GB、レイヤー数40で専有13.3共有0.2、レイヤー数45で専有14.0共有0.5）

レイヤー数45の時でも専有GPUメモリ2GBほど余裕あるのに共有GPUメモリが使われてるのも不思議に思った。激重になるレイヤー数48でも専有GPUメモリ15.5GB、共有GPUメモリ0.5GBとかだったからVRAM16GBあっても16.0GBまるまる使えるわけじゃないのかな。

0719名無しさん＠ピンキー

2025/03/13(木) 11:47:59.03ID:???

ChatGPTに聞いて用語についてある程度理解したからメモ。他の赤ちゃんに役立ったら良いけど間違ってたらすまんこ。

コンテキストサイズ：モデルが一度に処理できるトークン数（≒文章の長さ）　VRAMに影響：4070tisの場合4096~8192が推奨　（長期的に話したときの記憶力にも影響？）
レイヤー数：推論の精度や速度に影響。LLMモデルは複数レイヤーで構成されているが、そののうち何層目までをVRAMに乗せるかを決める。指定した数の層までがVRAMに乗せられ、それ以外はCPUやRAMに乗せられる。
ｺﾝﾃｷｽﾄｻｲｽﾞを上げるとVRAMに乗せられるレイヤー数は減る。（同環境だとｺﾝﾃｷｽﾄ4096なら25~30層、　8192なら15~20層推奨）

0720名無しさん＠ピンキー

2025/03/13(木) 11:55:24.45ID:???

>>714
QwQのbakeneko版欲しいな
ネーミングが顔文字っぽいし

0721名無しさん＠ピンキー

2025/03/13(木) 12:06:25.43ID:???

DeepSeekのQ4_K_Sが5.6~5.7t/sで動いて快適だからQwQにも同じのが出たら良いなぁ。

0722名無しさん＠ピンキー

2025/03/13(木) 12:30:35.53ID:???

>>719
コンテキストのメモリ使用量はembedding size×トークン長×2(fp16の場合)で求められる
あとllama.cppの場合vramに乗せるのはモデルが優先だからトークン長を増やしてもあふれるのはコンテキストだけのはず

0723名無しさん＠ピンキー

2025/03/13(木) 13:14:24.39ID:???

context size
context length
context window
の違いがよく分からん

0724名無しさん＠ピンキー

2025/03/13(木) 13:17:22.83ID:???

同じ🌠

0725名無しさん＠ピンキー

2025/03/13(木) 18:13:15.46ID:???

LLM関連の話はLLMくんが猛烈に詳しいから素直に聞いたほうがはやい

0726名無しさん＠ピンキー

2025/03/13(木) 19:12:15.78ID:???

m3 ultraでr1動かした動画がyoutubeに上がってる

0727名無しさん＠ピンキー

2025/03/13(木) 20:01:02.99ID:???

qwqとかgemma3とかのおかげで結局project digitsでええかって心境になってきた
project digitsとm3 ultraが出るまでまだ状況変わるやろうからどうなるかわからんけど
llama4も上半期って話があったはずやからそろそろやろうしなぁ・・・

いやぁなんか1月以降目まぐるしく状況変わって大変や
いろいろ考えてるだけでまだ何も買ってへんから全然ええんやけど
どうしようかいろいろ考えてる時が一番楽しい

0728名無しさん＠ピンキー

2025/03/13(木) 22:13:13.31ID:???

cohereの新型フラグシップモデルが出た
汎用的な推論タスクはdeepseekR1と同等以上とLLMは言ってるが如何に

0729名無しさん＠ピンキー

2025/03/13(木) 22:33:45.93ID:???

>>720
でたぞー

0730名無しさん＠ピンキー

2025/03/13(木) 22:37:32.62ID:???

https://huggingface.co/lmstudio-community/gemma-3-27b-it-GGUF/tree/main
ここのgemma-3-27b-it-Q4_K_M.ggufをkoboldで読み込むと起動せずにDOS窓が閉じるんやけどワイ環やろか

0731名無しさん＠ピンキー

2025/03/13(木) 22:43:34.72ID:???

koboldはまだgemma3に対応してないから素のllama.cpp使うしかない

0732名無しさん＠ピンキー

2025/03/13(木) 22:45:27.82ID:Sd+JJpYw

cohereちゃん生きとったんか。めちゃくちゃ気になるけど111Bはデカいンゴねぇ……

0733名無しさん＠ピンキー

2025/03/13(木) 22:51:13.78ID:???

>>731
サンガツや非対応やったんやね…

0734名無しさん＠ピンキー

2025/03/13(木) 22:58:56.73ID:???

cohereのCR+からまだ1年しかたってないのか
あんなに衝撃的だったCR+(105B)も今や14Bのモデル(Phi-4)と同等性能とか

0735名無しさん＠ピンキー

2025/03/13(木) 23:00:15.78ID:???

>>732
デモ試したが、いい感じだな。

ところで、qwq化け猫のQ8_0がkoboldで動かない（thinkしか出ない）のはワイだけ？

0736名無しさん＠ピンキー

2025/03/13(木) 23:04:25.81ID:???

>>726
中国語のやつ？
70Bでめっちゃ速くなってるな
600Bの実演はないかな？

0737名無しさん＠ピンキー

2025/03/13(木) 23:07:13.22ID:???

>>729
まじだ仕事速いな

0738名無しさん＠ピンキー

2025/03/13(木) 23:57:07.58ID:???

日本語かなり優秀だな
https://huggingface.co/rinna/qwq-bakeneko-32b

0739名無しさん＠ピンキー

2025/03/14(金) 00:10:02.62ID:???

>>738
ggufが安定しないー

0740名無しさん＠ピンキー

2025/03/14(金) 07:33:55.72ID:???

32bの性能がメキメキ上がってて草

0741名無しさん＠ピンキー

2025/03/14(金) 07:57:36.60ID:???

>>740
24GBで動かせる上限に近いから4090持っとる様な個人のマニアがボリュームゾーンなんやろな

0742名無しさん＠ピンキー

2025/03/14(金) 08:53:01.39ID:???

5090に買い替えたら32BのQ6辺りにTTS組み合わせてもVRAM内で収まるようになると考えるとめちゃ嬉しい

0743名無しさん＠ピンキー

2025/03/14(金) 09:19:37.38ID:???

>>736
これよ

M3 Ultra Runs DeepSeek R1 With 671 Billion Parameters Using 448GB Of Unified Memory, Delivering High Bandwidth Performance At Under 200W Power Consumption, With No Need For A Multi-GPU Setup
https://wccftech.com/m3-ultra-chip-handles-deepseek-r1-model-with-671-billion-parameters/

0744名無しさん＠ピンキー

2025/03/14(金) 10:34:56.52ID:???

>>743
671BがQ4とはいえ12t/sかよ
ずげーな

0745名無しさん＠ピンキー

2025/03/14(金) 10:48:35.16ID:fNaSb3be

Cohere生きっとんたかワレ!
でもGPT-4o and DeepSeek-V3相当で
Command A｜$2.50 / 1M｜$10.00 / 1M
はちょっと高すぎやな

0746名無しさん＠ピンキー

2025/03/14(金) 10:55:06.64ID:???

cohereは富士通と協業しとるみたいやから日本語得意なんか？
cr+も日本語得意なイメージはあったけども

0747名無しさん＠ピンキー

2025/03/14(金) 11:02:52.78ID:fNaSb3be

>>746
というより多言語を前から意識してる感
ブログにも120↑言語を学習してアラビア語もイケるでみたいなこと書いとるし
LlamaとかMistralあたりの「ジャップ語?すまんワイら英語話者なんでw」なとこと比べてようやっとる印象

0748名無しさん＠ピンキー

2025/03/14(金) 11:30:56.51ID:???

>>747
欧米か

0749名無しさん＠ピンキー

2025/03/14(金) 11:47:57.10ID:???

MoEモデルならMacでも速度出るって言われてたな
MoEだとそんなにGPUパワーを要求しないのかな

0750名無しさん＠ピンキー

2025/03/14(金) 12:08:14.47ID:???

cohereは実質API料金無料なので

0751名無しさん＠ピンキー

2025/03/14(金) 12:10:11.33ID:???

>>749
moe以外でも爆速だったがｗ

0752名無しさん＠ピンキー

2025/03/14(金) 12:46:48.54ID:???

manus はどうなん?

0753名無しさん＠ピンキー

2025/03/14(金) 13:21:09.30ID:???

commnad-A webでは申し訳食らうプロンプトもローカルでは通るな

ところで、qwq-bakeneko koboldで動いてる人いる？

0754名無しさん＠ピンキー

2025/03/14(金) 14:43:19.50ID:???

>>750
でもrate limitあるんでしょ？使い放題じゃないよね？

0755名無しさん＠ピンキー

2025/03/14(金) 14:55:48.66ID:???

cohereの無料APIなんか特殊だったな。
1000回/月だけど、使い切ってから一ヶ月経たないと補充されないから2垢必須だった。
Command R+の頃の知識だから今は変わってるかもしれんが。

0756名無しさん＠ピンキー

2025/03/14(金) 15:03:08.42ID:???

>>754
googleメールのアカウント分だけトライアルAPI作れるから…

0757名無しさん＠ピンキー

2025/03/14(金) 15:18:25.45ID:???

command-A
メモリ64Gでの量子化はiQ4_xsまでいけるな。
R+よりエロい

0758名無しさん＠ピンキー

2025/03/14(金) 15:20:40.75ID:???

>>756
複垢防止が厳密じゃないということか　でも他所もそんなもんじゃないの？
トライアルキーてこれか……新規キー作ればまたそっちで1000回呼び出せるんか？そんな甘くはない？
https://docs.cohere.com/docs/rate-limits
"In addition, all endpoints are limited to 1,000 calls per month with a trial key."
このサイズをローカルで動かせる環境ないのでAPIで試してみるか

あとsarashina2.2-3bも軽い割にはいい感じなんだけど10B程度でもう少し頭いいのが欲しい

0759名無しさん＠ピンキー

2025/03/14(金) 16:50:35.92ID:???

今ダウンロードしてるんだけどsarashina2.2ってエロチャも行けるのかな？
極小モデルは大体厳しめの検閲入ってるのしかないイメージがあるけど
spaceで試した感じでは3bの割に賢かった

0760名無しさん＠ピンキー

2025/03/14(金) 18:09:19.90ID:???

_(QwQ`_)⌒)_

0761名無しさん＠ピンキー

2025/03/14(金) 20:36:04.91ID:???

qwq-bakeneko-32b使ってるとなぜか⚗が連続で表示される…

0762名無しさん＠ピンキー

2025/03/14(金) 22:02:01.56ID:???

やっべ
nagnum 123B超えたわ＞command-A
日本語のエロ表現良すぎるｗ

0763名無しさん＠ピンキー

2025/03/14(金) 22:37:17.95ID:???

command-aは公式がエージェント推しやったから表現力にはあんま期待しとらんかったけどそんなええんか…

0764名無しさん＠ピンキー

2025/03/14(金) 22:50:38.40ID:???

わかってる人にはくだらない質問で申し訳ないんだが
QwQをSillyTavernからちゃんと使えてる人いたら設定を教えてもらえないだろうか

モデルは例えばmradermacher/QwQ-32B-abliterated-i1-GGUFのQ4_K_Mで
llama.cppから次の引数で立ち上げてる
llama-server --model QwQ-32B-abliterated.i1-Q4_K_M.gguf \
--threads 16 \
--ctx-size 32768 \
--n-gpu-layers 99 \
--prio 2 \
--temp 0.6 \
--repeat-penalty 1.1 \
--dry-multiplier 0.5 \
--min-p 0.01 \
--top-k 40 \
--top-p 0.95 \
--samplers "top_k;top_p;min_p;temperature;dry;typ_p;xtc" \
--host 0.0.0.0 \
--port XXXX

STの設定は次の通り
https://litter.catbox.moe/03x39v.png
https://litter.catbox.moe/umiwyw.png

会話例を貼るけど、正直ウチの環境だとあまり賢いようには見えなくて改善したい
(キャラカードは日本語wikiからの借り物でほかのモデルでは問題ない)
https://litter.catbox.moe/qt74jx.png

0765名無しさん＠ピンキー

2025/03/14(金) 23:55:32.62ID:???

>>764
qwen系はロールプレイはあんまり得意じゃないからそれだと思われ
あとabliteratedは少なからず性能が落ちるんでそれも一因かも

0766名無しさん＠ピンキー

2025/03/15(土) 02:37:02.97ID:IJFRzI2Z

llama.cppでgemma-3 12B Q5_K_L動かしてみたんだけど思ってた以上に日本の知識持っててびっくりした
マルチリンガルのモデルって知識が各国語に分散してて会話文とかが素っ気なくなりがちと思ってたけど、これは結構良いかも
あと設定間違えてCPUオンリーで動かしちゃったんだけどそれでも7token/s出てビビったわ。小さいモデルだと普通にCPUで実用可能な速度出るんだな

0767名無しさん＠ピンキー

2025/03/15(土) 10:07:32.79ID:???

command r+の８月版は規制強かったけど
今回のAは規制ゆるゆるだな
ただ文章が長くなると繰り返し現象が起きやすいのは同じか
日本語の表現力はかなり上がっている印象

0768名無しさん＠ピンキー

2025/03/15(土) 10:22:38.32ID:???

>>766
かつてこのスレでは30Bくらいまでは普通にCPUで動かしてる人も多かったからね
もしかしたら○Bは自分のグラボに乗らないから無理と最初から思ってる人もいるかも
まあ速度が折り合うならなんだけどね

0769名無しさん＠ピンキー

2025/03/15(土) 10:59:31.51ID:???

繰り返しはなんちゃらペナルティってオプション上げれば抑制できひんかな
使ってるプラットフォームでオプション名ちゃうかもわからんけど
繰り返しを抑制するオプションはあるはずや

0770名無しさん＠ピンキー

2025/03/15(土) 11:57:06.20ID:???

遅いかどうかで言えばとても遅いけどCPU生成は「できる」んだよね
やってみて待ち切れなかったなら仕方ないけど、やってみる前に数字だけ見て諦めるのはもったいない

0771名無しさん＠ピンキー

2025/03/15(土) 12:58:07.34ID:???

ペナルティは試す時はkoboldのデフォでやってる
mistral large やmagnum 123bの時は繰り返しきにならないレベルやったけどモデルによって調整した方がいいのは確かやね
上げすぎると性能に影響するし

0772名無しさん＠ピンキー

2025/03/15(土) 13:15:13.59ID:???

>>770
70b以上の理解力は一度味わって欲しいな
表現力はローモデルでもかなり上がってきてるから違いは感じにくいと思うけど

0773名無しさん＠ピンキー

2025/03/15(土) 13:18:49.20ID:???

モデルによって繰り返し耐性はまちまち
許容値超えちゃうとペナいくらいじってもどうしようもなくなるんだよな

0774名無しさん＠ピンキー

2025/03/15(土) 13:44:16.34ID:???

ほーん、CPUでもデカいモデル動かせるかもしれんのか
と思って12B_Q4で試したら4token/sしか出なかったからえーんえーんって泣いてる

0775名無しさん＠ピンキー

2025/03/15(土) 14:13:26.53ID:???

gemma3-27B(Q4_K_M)をLM STUDIO+Silly Tavernで実験したけどNSFW厳しい
Qwq-32Bよりずっときつい
日本語がいい感じなだけに惜しい

0776名無しさん＠ピンキー

2025/03/15(土) 14:18:37.59ID:???

kobold gemma3対応したな

0777名無しさん＠ピンキー

2025/03/15(土) 14:52:56.21ID:???

>>775
つ Sillytavern prefill

0778名無しさん＠ピンキー

2025/03/15(土) 15:45:30.02ID:???

>>775
たぶん制限解除版がしばらくしたら出るだろう

0779名無しさん＠ピンキー

2025/03/15(土) 16:34:35.83ID:???

>>765
ありがとうございます
ロールプレイ得意じゃないのなら仕方ないですね

0780名無しさん＠ピンキー

2025/03/15(土) 17:56:57.37ID:???

Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは
たまに変な返答になるけど、おおむね自然なやり取りができた
モデル作者がSillyTavernのsubredditに投稿してるし、ロールプレイはこっちの方がいいかもしれんね
https://tadaup.jp/388802009.png

0781名無しさん＠ピンキー

2025/03/15(土) 19:20:25.52ID:???

>>774
CPU生成はCPU性能よりもメモリの速度に左右されるからなあ

0782名無しさん＠ピンキー

2025/03/15(土) 19:31:01.49ID:???

CPU性能も多少は効くぞ
以前CPUを載せ換えたら速度が倍くらいになったし

0783名無しさん＠ピンキー

2025/03/15(土) 22:28:36.54ID:???

https://huggingface.co/CohereForAI/c4ai-command-a-03-2025/tree/main
command r+のaってこれかな
GGUF待ちや

4090でcobold→SillyTavernでの使用時
QwQ-32B Q4_K_M、4096だとちょっと辻褄あってない気がしたんで
>>719を参考にしていじってみた

コンテキストサイズ8192だとレイヤーが全て載らず遅かった
6000代だと66レイヤー全部？載る（-1 で限界まで乗せる、であっとるやろか）
ここらへんが上限かな……
いやでも他の作業できなさそうだから4096でするけども
駄目なところはプロンプトや設定の工夫でなんとかしたい

0784名無しさん＠ピンキー

2025/03/15(土) 23:06:12.87ID:???

RPならDavidAU、Drummer、Anthracite、Steelskullあたりはチェックしとくといいと思うで。
英語できるなら最強や。

0785名無しさん＠ピンキー

2025/03/15(土) 23:58:43.53ID:???

24GBで貧弱扱いなLLM界隈ホンマ辛い🥺

0786名無しさん＠ピンキー

2025/03/16(日) 00:24:02.74ID:???

>>780
日本語もいい感じやし4090でVRAMに載るのがありがたい
突然小説や説明文を書き始めるのが困るが制御できるんやろか

0787名無しさん＠ピンキー

2025/03/16(日) 01:17:18.57ID:???

>>783
GGUFいっぱいきてるで

0788名無しさん＠ピンキー

2025/03/16(日) 11:14:37.09ID:???

>>785
LLMに限定すれば4090買う金あれば4060TiやA4000を複数枚買うのがよいんだろうな
他の用途には使いにくくなるし場所くったりマザボ選んだりしそうだが

0789名無しさん＠ピンキー

2025/03/16(日) 11:42:58.54ID:???

プロデジちゃんほしすぎる

0790名無しさん＠ピンキー

2025/03/16(日) 14:00:29.95ID:???

gemma3は４Bだと褒めてる人いるけど12以上の評価はよくわからないな

0791名無しさん＠ピンキー

2025/03/16(日) 14:33:59.10ID:???

4b以上も普通にすごいよ
12Bも27Bも同規模のモデル同士で比べたら非思考モデルの中で賢さは１番だと思う

0792名無しさん＠ピンキー

2025/03/16(日) 15:33:10.74ID:???

SillyTavernで
Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored.Q4_K_M 使ってみたけど
qwqと同じ条件で会話させてみたけどかなり地の文での描写が増えてるね
そして設定したキャラの外見を引用してくる
ただVramの圧迫が凄い、22.6/24G　
Q4_K_Sでいいのかもしれない

地の文は丁寧語じゃないほうがいいな
Prompt OverridesのMain Promptに
地の文は丁寧語でなく「～だ、～である」調。
と書いたけれども反映されないんやがどうすりゃええんや
そもそも「地の分」て概念伝わっとるんやろか

>>787
ほんまやありがとう
でも分割したGGUFしか見つからんかったわ
これcoboldの読み込みで0001.GGUFを読ませたら自動で0002も読んでくれるんかしら

0793名無しさん＠ピンキー

2025/03/16(日) 15:59:12.87ID:???

>>792
読み込んでくれるけどメモリ食うからギリで動かす時はお勧めしない
その形式はllamacppで結合する必要あるけど
mradermacher/c4ai-command-a-03-2025-i1-GGUF
↑の分割形式は
copy /B コマンドで通常のコマンドプロンプトから結合できるから楽よ
(ちなこっちの形式は結合しないと読み込めない)

0794名無しさん＠ピンキー

2025/03/16(日) 16:01:54.62ID:???

「会話以外の文章は」でよくないっすか
文章書きのテクニックや文章論を読んじゃってる（うえで内部翻訳されてる）場合、地の文とか迂闊に書くと別なものだと思われる可能性

0795名無しさん＠ピンキー

2025/03/16(日) 16:23:15.61ID:???

koboldで繋いでSillyTavern
Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored.Q4_K_M
レズビアンにされたり会話にならない…
設定はデフォにしてる

0796名無しさん＠ピンキー

2025/03/16(日) 16:42:36.85ID:???

>>795
設定そのままで同じベースの他モデルでやって大丈夫かどうか試したら？

0797名無しさん＠ピンキー

2025/03/16(日) 17:04:57.26ID:???

gemma3賢いんだけど頑固って言うか、なかなか性格を変えられない感じがするな
特に「短く返答して」っていうとめちゃくちゃ不満そうに長文で文句つけてくる

0798名無しさん＠ピンキー

2025/03/16(日) 17:16:14.12ID:???

>>792
Examples of dialogueに例文書いてもダメなの？

0799名無しさん＠ピンキー

2025/03/16(日) 18:16:05.17ID:???

>>793
cmdコマンドでできるのね、てっきりサーバー借りたり大仰なことかと思った……
試してみるやでありがとう

>>794
ありがとうやで
つい「地の文」表記にしたけど
AI君のフロー的には「会話以外の文章は」のほうがわかり易いね
そんで>>798ニキの通りにExamples of dialogue　に

会話以外の文章は丁寧語を使わない。
会話以外の文章は「～だ、～である」調。

と記入したらいけたわ、五体投地サンガツやで
この項目、このためにあったんか……

■ このスレッドは過去ログ倉庫に格納されています