なんJLLM部 避難所 ★8
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな
SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける ●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで
Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3
Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)
magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348
Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B
magnumの日本語版:
Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで テンプレここまで、しばらく更新されてないから過去ログも参考にしてな サンイチやで
EVO-X2予約ニキの報告楽しみにしとるで Violet_Magcap-12Bの設定使ったら推論って奴できて嬉しい ryzenMAX+はCPUにAVX512とか載ってるから
CPUにも仕事させた方が良いんだろうか 70Bモデルまで行くと速度的に厳しそう
それでもCPU推論よりはマシか?
Testing the Ryzen M Max+ 395 : r/LocalLLM
https://www.reddit.com/r/LocalLLM/comments/1k3hlw3/testing_the_ryzen_m_max_395/ >>14
DeepSeek-R1-Distill-Llama-70B Q3_K_Lと
Qwen3-235B-A22Bでかなり違うのな
>>16のDeepSeek R1 70Bでも5〜10tk/s
なんかコード修正したら10tk/s以上出るとかも
言われてるけど
https://x.com/hjc4869/status/1913562550064799896 これでゲームもCUDAが必要とか言ってる動画生成系のやつも全部できたら乗り換えるのになぁ 前スレのこれ、sshでつないでポートフォワードしたらできるで
>Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります? 前にここで紹介された
Qwen3-30B-A3B-NSFW-JP
ggufがないからまだ試せないンゴ 別にわざわざポートフォワードせんでもlan内でポートへの接続許可したらマシンのipで繋げれるんとちゃうか。winならファイアウォールの設定で受信の許可ルール作ればええ >>21
ERPの方はggufあげてくれてるで。nsfwは事前学習モデルやからそのまま使ってもいい感じにはならなさそう Project Wannabeは最初に提示されたkobld_client.pyを書き換える方法で上手くいきました。 >>23
サンガツやで! さっそくDLしてきた
あとで試してみるわ
Q6_Kから25Gやけど
このへん5090ニキらなら乗るんかぁええなあ…… >>25
ホンマやありがとう!
同じ量子化のをDLして比べてみるわ
wannabeつかわせてもろとるけど
koboldでのモデル変更て一旦cmd閉じて再起動よね?
モデル切り替えちょい面倒なんよな koboldcppってOllamaと結構性能違うのかな?
Ollamaの方が使い分け楽だから、性能僅差ならOllamaで済ませたいなぁ。
誰か詳しい人いる? >>26
古いMacStudioやけど128gbあるからQ8が乗るで
LLM以外やとまじで役に立たんけどな そういやwannabeニキに大それたリクエストがあるんやけど
縦書き
仕様にできんやろか?
ワイ書くのも読むのも縦書きのオールドタイプなんで……
前にObsidianを縦書きにするアドオンとか作れんかGPT君にきいたら
えらい難易度が高くて諦めたから
無茶な注文なのは解っとるけども
でけたらえらい嬉しい >>29
ええなあ……ワイはメデューサ待ちや
出るまでに自分が電書化した小説とか学習できたらええんやが
技術がない…… Qwen3-30B-A3B-NSFW-JP っていうやつ見たら「事後学習せい」って書いてあるけど、なにしたらええんや?
なんか参考になるリンクとかあったら教えてほしい。 ベース学習しただけだから指示じゃなくて続き書かせる手法にするってことか >>32
すまん、ChatGPTにきいたら自決したわ。 evo-x2はやっぱり同スペックのm4proと同じかちょっと早いくらいやな。
m4maxには勝てんかったか... やっぱりハード面は根本的なブレイクスルーが必要だよなあ win機なら需要の幅広そうだしm4との棲み分けはできそう >>37
2022年のM1 Ultraにも負けてるじゃん?
メモリの帯域幅が足りないからでは?
256GB/sではM1 Ultraの800GB/sには遠く及ばない LLMならmacが良いらしい、いやmac微妙だぞのやり取りが去年たくさんあったしな
それよりさらに微妙な物なら買う事は無さそうやな
後数世代待てば帯域の事も考えられた専用機が出てくるやろ 去年と違うのは今はMoEが主流になりつつことだな
動かすだけならユニファイドメモリが最も手軽な手段だし
3090x4より安いし30万以下なら全然あり Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。
初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。
しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください
プロットは一つ100文字以内とし、箇条書きで書き出してください。」というプロンプトで、
プロットを一つずつしか出してくれないのでめんどくさい。
https://ibb.co/cXXq5vxy i7-14700 64GB 4090 の環境で 20t 〜 40t くらい
速度は十分実用的だと思う >>44
そのモデルは多分そういうプロンプトには対応してないと思うで
ロールプレイの一種ではあるけどそういうのは学習してないと思う >>46
そうなんや、ERPとChatはまた違うってことか。サンガツやで。 >>47
モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね
このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね
でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ >>41
Macの良さってメモリの大きさだけなんだよな
OSとかGPUとかはべつにLLMに向いてない DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも(多分)使えるのが売りになるのかな >>51
帯域はべつに普通じゃないか?
M3ウルトラはNvidiaよりは遅い
M3 MaxはRyzenより遅い 昔のredditの投稿で、Ryzen AI Max+ 395でdeepseek-r1の70B蒸留モデルのQ8使ったら3token/sって話だったけど、どうなんやろね
https://www.reddit.com/r/LocalLLaMA/comments/1iv45vg/amd_strix_halo_128gb_performance_on_deepseek_r1/
>>14の記事だとQ3_K_L?らしいから、これがQ8になった時に本当にどこまで速度が落ちるのかどうか気になる ryzenMax+のmac ultraやDGXに対する加点部分はお値段とグラボが積めるってあたりか GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ
なんなんだコイツは 今日5090が届いたから4090から換装してみた
最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず
そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ
comfyも同様
RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ ドライバは最新のにしたくないなぁ
一応reforgeやKohyaも正常に動いてるし DGX SparkはARM64のLinuxなのが意外にネックになりそう
oobaもKoboldもx64ほど簡単には動かない予感 あ、やっぱり5090でSBV2の学習駄目ぽ…
文字起こしまではできたけど(4090よりクソ遅い)その先がエラー出るや ChatGPTスレから誘導されて来ました
ローカルで質問なんですけど
32Bモデルの量子化されてないオリジナルをロードできる環境があって
その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか?
生成の質っていうのはタスクの理解力みたいやイメージです うっかり嫁とエッホエッホの話振ったら
それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った >>63
余裕で100b
4bitまでは性能劣化がほとんどないからサイズも1/4にできると考えていいよ >>23 >>25
Wannabeで試してみたが
Qwen3-30B-A3B-NSFW-JP-Q4_K_M まったく使い物にならんかった
Qwen3-30B-A3B-ERP-v0.1-Q4_K_M こっちは出力されんかった
なおkobold上だと応答はあって不思議
>>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな……