なんJLLM部 避難所 ★6
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★5 https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/ mcp経由でLLMにウェブ検索機能を付けるやつ、 1. Firecrawlをdockerでローカル実行 2. Firecrawl MCP Serverをインストールして実行 が強いな ドキュメントがちゃんと用意されてるからclaude君に食わせれば細かい書き方は全部やってくれる ある程度賢いモデルならLibraChat利用してローカルLLMに使わせることもできるはず >>700 同じ返答を繰り返す原因はいくつかあるんだけど どのモデルでどれぐらい会話をしたときにどういう返答を繰り返してるんだ? M4 Max 128Gが使えるようになったので llama-3.3-swallow-70b-instruct の8bit版を試した 速度は4bitの12tk/secから6.6tk/sに落ちたがハルシネーションが激減した llama3.3なら6bit以下だとダメなのかもしんない。部分的な量子化が進んでほしい すごい赤ちゃん質問かもしれんけど gemma-3-27b-it gemma-3-27b-pt て何が違うんや? ワイはスキルないからGGUFじゃなくてファイル分割されとるとお手上げやから なんも試せんけども…… >>701 なにそれめちゃくちゃ楽しそう デスクトップ秘書に質問したらええ感じで検索してくれる……てこともできそう しかしワイdockerすらいじれない低スペやった ちょっと前まで巨大モデル動かすのが目標だったけど最近の新しいモデルを見ると32Bさえ動かせれば十分かもしれんな 60GBあれば足りるか MoEも各専門家がだいたい30B前後だもんね 手動で専門家選ぶか.. >>705 it = Instruction Tuned チャット用 pt = Pre-trained 自分で追加学習したい用 itのほうをおすすめ LM Studioとか使えばファイル分割されてても勝手にやってくれるよ 細かいモデルの違いに対応してなかったりするけど、そこは諦める Vram使わん場合 使っとらんPCが32GあるけどDDR3やからサッパリやろなあ…… メインPCはDDR4やけど n100でDDR5使うminiPCのほうが速いかもしれんなあ >>709 ありがとうやで!普段遣いはitでええのね いつかトレーニングできるとええなあ LM Studioやったことないけどメモっとくで! >>709 横からやけど、jpとかkrとかのノリでイタリア語FT版とポルトガル語FT版とかかな?と勘違いしてたで! サンガツや〜 koboldだと分割再生できるけどメモリ余計に食うから結合させて使ってる いまさっき動画生成試したらメモリ68G消費したわ ちょうど128Gに増設したとこやったんでギリギリセーフ ちゅうてもDDR4やから当面はQwQ-32Bでキャラ設定を詰めていきたい webで量子化による違いが書かれとったんやけど、他のモデルもこんな感じなんやろか? ちょうどQwQ-32Bもええ感じと言われとるんがQ4_K_Mよね obsidianにコピペしといたもので、元記事のリンクまでない、ここのニキが書いたものならスマンやで llama.cppモデルのバリエーション一覧(7Bの例) Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨> Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下 Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下 Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下 Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下 Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】 Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】 Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】 Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下 Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー> Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー> Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー> Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー> Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨> F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨> F32 : 26.00G : - - クソデカ、質低下なし<非推奨> Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。 Kのない4bit/5bit量子化(q4_0, q4_1, q5_0, q5_1)は旧方式のレガシーなので基本的に選ばない。 Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。 Perplexity Lossの値が大きいほど、量子化による劣化も大きい。 例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」 一方で、Q4_K_M〜Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。 QwQ-32Bを日本語向けにチューニングするのがいつ出てくるか q2とかq3て使わなくていいじゃんとか思っちゃう😅 サイズ下げてq5以上使うほうが良いような気がして もしハードがあっても日本語QAデータセットが貧弱なのがネックだなと思う 画像にdanbooru、音声にギャルゲがあったように何か日本語QAデータの金脈を見つければ少しは良くなりそう >>713 基本的に大きいモデルになるほど量子化耐性が強くなるから3bitでも対して劣化しないモデルもある どちらにせよ4bit以下はimatrix量子化はマスト >>650 この間はアドバイスありがとう。 色々試して結局ちょっとしか弄らなかったんだけど、おかげでコマンドの意味について調べるきっかけができたから良かった。 レイヤー数48からVRAMから漏れてるのか急激に遅くなるけど、47までは動くし数字大きい方が早く動くから、早くて安定するレイヤー数45でやっていくことにした。 (モデルはqwq-32b-q4_k_m・コンテキストサイズは4096固定で レイヤー数30で3.0t/s、レイヤー数40で4.0t/s レイヤー数45で4.4t/s程度) もらったアドバイスでもChatGPTに聞いたところでもVRAM的にレイヤー数下げた方が良いって言われてたけど、ほとんどVRAMに乗るからそこだけ謎(レイヤー数30だと専有VRAM10.6GB共有VRAM0.1GB、レイヤー数40で専有13.3共有0.2、レイヤー数45で専有14.0共有0.5) レイヤー数45の時でも専有GPUメモリ2GBほど余裕あるのに共有GPUメモリが使われてるのも不思議に思った。激重になるレイヤー数48でも専有GPUメモリ15.5GB、共有GPUメモリ0.5GBとかだったからVRAM16GBあっても16.0GBまるまる使えるわけじゃないのかな。 ChatGPTに聞いて用語についてある程度理解したからメモ。他の赤ちゃんに役立ったら良いけど間違ってたらすまんこ。 コンテキストサイズ:モデルが一度に処理できるトークン数(≒文章の長さ) VRAMに影響:4070tisの場合4096~8192が推奨 (長期的に話したときの記憶力にも影響?) レイヤー数:推論の精度や速度に影響。LLMモデルは複数レイヤーで構成されているが、そののうち何層目までをVRAMに乗せるかを決める。指定した数の層までがVRAMに乗せられ、それ以外はCPUやRAMに乗せられる。 コンテキストサイズを上げるとVRAMに乗せられるレイヤー数は減る。(同環境だと コンテキスト4096なら25~30層、 8192なら15~20層推奨) >>714 QwQのbakeneko版欲しいな ネーミングが顔文字っぽいし DeepSeekのQ4_K_Sが5.6~5.7t/sで動いて快適だからQwQにも同じのが出たら良いなぁ。 >>719 コンテキストのメモリ使用量はembedding size×トークン長×2(fp16の場合)で求められる あとllama.cppの場合vramに乗せるのはモデルが優先だからトークン長を増やしてもあふれるのはコンテキストだけのはず context size context length context window の違いがよく分からん LLM関連の話はLLMくんが猛烈に詳しいから素直に聞いたほうがはやい m3 ultraでr1動かした動画がyoutubeに上がってる qwqとかgemma3とかのおかげで結局project digitsでええかって心境になってきた project digitsとm3 ultraが出るまでまだ状況変わるやろうからどうなるかわからんけど llama4も上半期って話があったはずやからそろそろやろうしなぁ・・・ いやぁなんか1月以降目まぐるしく状況変わって大変や いろいろ考えてるだけでまだ何も買ってへんから全然ええんやけど どうしようかいろいろ考えてる時が一番楽しい cohereの新型フラグシップモデルが出た 汎用的な推論タスクはdeepseekR1と同等以上とLLMは言ってるが如何に koboldはまだgemma3に対応してないから素のllama.cpp使うしかない cohereちゃん生きとったんか。めちゃくちゃ気になるけど111Bはデカいンゴねぇ…… cohereのCR+からまだ1年しかたってないのか あんなに衝撃的だったCR+(105B)も今や14Bのモデル(Phi-4)と同等性能とか >>732 デモ試したが、いい感じだな。 ところで、qwq化け猫のQ8_0がkoboldで動かない(thinkしか出ない)のはワイだけ? >>726 中国語のやつ? 70Bでめっちゃ速くなってるな 600Bの実演はないかな? >>740 24GBで動かせる上限に近いから4090持っとる様な個人のマニアがボリュームゾーンなんやろな 5090に買い替えたら32BのQ6辺りにTTS組み合わせてもVRAM内で収まるようになると考えるとめちゃ嬉しい >>736 これよ M3 Ultra Runs DeepSeek R1 With 671 Billion Parameters Using 448GB Of Unified Memory, Delivering High Bandwidth Performance At Under 200W Power Consumption, With No Need For A Multi-GPU Setup https://wccftech.com/m3-ultra-chip-handles-deepseek-r1-model-with-671-billion-parameters/ >>743 671BがQ4とはいえ12t/sかよ ずげーな Cohere生きっとんたかワレ! でもGPT-4o and DeepSeek-V3相当で Command A|$2.50 / 1M|$10.00 / 1M はちょっと高すぎやな cohereは富士通と協業しとるみたいやから日本語得意なんか? cr+も日本語得意なイメージはあったけども >>746 というより多言語を前から意識してる感 ブログにも120↑言語を学習してアラビア語もイケるで みたいなこと書いとるし LlamaとかMistralあたりの「ジャップ語?すまんワイら英語話者なんでw」なとこと比べてようやっとる印象 MoEモデルならMacでも速度出るって言われてたな MoEだとそんなにGPUパワーを要求しないのかな commnad-A webでは申し訳食らうプロンプトもローカルでは通るな ところで、qwq-bakeneko koboldで動いてる人いる? >>750 でもrate limitあるんでしょ?使い放題じゃないよね? cohereの無料APIなんか特殊だったな。 1000回/月だけど、使い切ってから一ヶ月経たないと補充されないから2垢必須だった。 Command R+の頃の知識だから今は変わってるかもしれんが。 >>754 googleメールのアカウント分だけトライアルAPI作れるから… command-A メモリ64Gでの量子化はiQ4_xsまでいけるな。 R+よりエロい >>756 複垢防止が厳密じゃないということか でも他所もそんなもんじゃないの? トライアルキーてこれか……新規キー作ればまたそっちで1000回呼び出せるんか?そんな甘くはない? https://docs.cohere.com/docs/rate-limits "In addition, all endpoints are limited to 1,000 calls per month with a trial key." このサイズをローカルで動かせる環境ないのでAPIで試してみるか あとsarashina2.2-3bも軽い割にはいい感じなんだけど10B程度でもう少し頭いいのが欲しい 今ダウンロードしてるんだけどsarashina2.2ってエロチャも行けるのかな? 極小モデルは大体厳しめの検閲入ってるのしかないイメージがあるけど spaceで試した感じでは3bの割に賢かった qwq-bakeneko-32b使ってるとなぜか⚗が連続で表示される… やっべ nagnum 123B超えたわ>command-A 日本語のエロ表現良すぎるw command-aは公式がエージェント推しやったから表現力にはあんま期待しとらんかったけどそんなええんか… わかってる人にはくだらない質問で申し訳ないんだが QwQをSillyTavernからちゃんと使えてる人いたら設定を教えてもらえないだろうか モデルは例えばmradermacher/QwQ-32B-abliterated-i1-GGUFのQ4_K_Mで llama.cppから次の引数で立ち上げてる llama-server --model QwQ-32B-abliterated.i1-Q4_K_M.gguf \ --threads 16 \ --ctx-size 32768 \ --n-gpu-layers 99 \ --prio 2 \ --temp 0.6 \ --repeat-penalty 1.1 \ --dry-multiplier 0.5 \ --min-p 0.01 \ --top-k 40 \ --top-p 0.95 \ --samplers "top_k;top_p;min_p;temperature;dry;typ_p;xtc" \ --host 0.0.0.0 \ --port XXXX STの設定は次の通り https://litter.catbox.moe/03x39v.png https://litter.catbox.moe/umiwyw.png 会話例を貼るけど、正直ウチの環境だとあまり賢いようには見えなくて改善したい (キャラカードは日本語wikiからの借り物でほかのモデルでは問題ない) https://litter.catbox.moe/qt74jx.png >>764 qwen系はロールプレイはあんまり得意じゃないからそれだと思われ あとabliteratedは少なからず性能が落ちるんでそれも一因かも llama.cppでgemma-3 12B Q5_K_L動かしてみたんだけど思ってた以上に日本の知識持っててびっくりした マルチリンガルのモデルって知識が各国語に分散してて会話文とかが素っ気なくなりがちと思ってたけど、これは結構良いかも あと設定間違えてCPUオンリーで動かしちゃったんだけどそれでも7token/s出てビビったわ。小さいモデルだと普通にCPUで実用可能な速度出るんだな command r+の8月版は規制強かったけど 今回のAは規制ゆるゆるだな ただ文章が長くなると繰り返し現象が起きやすいのは同じか 日本語の表現力はかなり上がっている印象 >>766 かつてこのスレでは30Bくらいまでは普通にCPUで動かしてる人も多かったからね もしかしたら○Bは自分のグラボに乗らないから無理と最初から思ってる人もいるかも まあ速度が折り合うならなんだけどね 繰り返しはなんちゃらペナルティってオプション上げれば抑制できひんかな 使ってるプラットフォームでオプション名ちゃうかもわからんけど 繰り返しを抑制するオプションはあるはずや 遅いかどうかで言えばとても遅いけどCPU生成は「できる」んだよね やってみて待ち切れなかったなら仕方ないけど、やってみる前に数字だけ見て諦めるのはもったいない ペナルティは試す時はkoboldのデフォでやってる mistral large やmagnum 123bの時は繰り返しきにならないレベルやったけどモデルによって調整した方がいいのは確かやね 上げすぎると性能に影響するし >>770 70b以上の理解力は一度味わって欲しいな 表現力はローモデルでもかなり上がってきてるから違いは感じにくいと思うけど モデルによって繰り返し耐性はまちまち 許容値超えちゃうとペナいくらいじってもどうしようもなくなるんだよな ほーん、CPUでもデカいモデル動かせるかもしれんのか と思って12B_Q4で試したら4token/sしか出なかったからえーんえーんって泣いてる gemma3-27B(Q4_K_M)をLM STUDIO+Silly Tavernで実験したけどNSFW厳しい Qwq-32Bよりずっときつい 日本語がいい感じなだけに惜しい >>775 つ Sillytavern prefill >>775 たぶん制限解除版がしばらくしたら出るだろう >>765 ありがとうございます ロールプレイ得意じゃないのなら仕方ないですね Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは たまに変な返答になるけど、おおむね自然なやり取りができた モデル作者がSillyTavernのsubredditに投稿してるし、ロールプレイはこっちの方がいいかもしれんね https://tadaup.jp/388802009.png >>774 CPU生成はCPU性能よりもメモリの速度に左右されるからなあ CPU性能も多少は効くぞ 以前CPUを載せ換えたら速度が倍くらいになったし https://huggingface.co/CohereForAI/c4ai-command-a-03-2025/tree/main command r+のaってこれかな GGUF待ちや 4090でcobold→SillyTavernでの使用時 QwQ-32B Q4_K_M、4096だとちょっと辻褄あってない気がしたんで >>719 を参考にしていじってみた コンテキストサイズ8192だとレイヤーが全て載らず遅かった 6000代だと66レイヤー全部?載る(-1 で限界まで乗せる、であっとるやろか) ここらへんが上限かな…… いやでも他の作業できなさそうだから4096でするけども 駄目なところはプロンプトや設定の工夫でなんとかしたい RPならDavidAU、Drummer、Anthracite、Steelskullあたりはチェックしとくといいと思うで。 英語できるなら最強や。 >>780 日本語もいい感じやし4090でVRAMに載るのがありがたい 突然小説や説明文を書き始めるのが困るが制御できるんやろか >>785 LLMに限定すれば4090買う金あれば4060TiやA4000を複数枚買うのがよいんだろうな 他の用途には使いにくくなるし場所くったりマザボ選んだりしそうだが gemma3は4Bだと褒めてる人いるけど12以上の評価はよくわからないな 4b以上も普通にすごいよ 12Bも27Bも同規模のモデル同士で比べたら非思考モデルの中で賢さは1番だと思う SillyTavernで Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored.Q4_K_M 使ってみたけど qwqと同じ条件で会話させてみたけどかなり地の文での描写が増えてるね そして設定したキャラの外見を引用してくる ただVramの圧迫が凄い、22.6/24G Q4_K_Sでいいのかもしれない 地の文は丁寧語じゃないほうがいいな Prompt OverridesのMain Promptに 地の文は丁寧語でなく「〜だ、〜である」調。 と書いたけれども反映されないんやがどうすりゃええんや そもそも「地の分」て概念伝わっとるんやろか >>787 ほんまやありがとう でも分割したGGUFしか見つからんかったわ これcoboldの読み込みで0001.GGUFを読ませたら自動で0002も読んでくれるんかしら >>792 読み込んでくれるけどメモリ食うからギリで動かす時はお勧めしない その形式はllamacppで結合する必要あるけど mradermacher/c4ai-command-a-03-2025-i1-GGUF ↑の分割形式は copy /B コマンドで通常のコマンドプロンプトから結合できるから楽よ (ちなこっちの形式は結合しないと読み込めない) 「会話以外の文章は」でよくないっすか 文章書きのテクニックや文章論を読んじゃってる(うえで内部翻訳されてる)場合、地の文とか迂闊に書くと別なものだと思われる可能性 koboldで繋いでSillyTavern Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored.Q4_K_M レズビアンにされたり会話にならない… 設定はデフォにしてる >>795 設定そのままで同じベースの他モデルでやって大丈夫かどうか試したら? gemma3賢いんだけど頑固って言うか、なかなか性格を変えられない感じがするな 特に「短く返答して」っていうとめちゃくちゃ不満そうに長文で文句つけてくる >>792 Examples of dialogueに例文書いてもダメなの? >>793 cmdコマンドでできるのね、てっきりサーバー借りたり大仰なことかと思った…… 試してみるやでありがとう >>794 ありがとうやで つい「地の文」表記にしたけど AI君のフロー的には「会話以外の文章は」のほうがわかり易いね そんで>>798 ニキの通りにExamples of dialogue に 会話以外の文章は丁寧語を使わない。 会話以外の文章は「〜だ、〜である」調。 と記入したらいけたわ、五体投地サンガツやで この項目、このためにあったんか…… gemma3の倫理感ぶっ壊しエロ調教済み頼む😿 えっちなことができないローカルに意味はあるのですか🤥 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる