なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★6 https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant 主に小説用で使われとるで ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで 量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral-7B系: LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-08-2024 (35B) c4ai-command-r-plus-08-2024 (104B) magnumシリーズ(エロ特化): https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348 Lumimaid-Magnum: Lumimaid-Magnum-v4-12B magnumの日本語版: Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで 若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで API keyの入手はhttps://aistudio.google.com/apikey ここからできるで とりあえずテンプレそのままで立てた、ミスってたらすまん grok3、nsfwの話題に関してはどんどんナーフされてってる? 前は「フィクションです」って言っとけばなんでもガバガバだったのに最近使ったらいっちょ前に倫理語るようになってた サンイチやで ついでに前スレでも貼ったやつ llama.cppモデルのバリエーション一覧(7Bの例) Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨> Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下 Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下 Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下 Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下 Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】 Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】 Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】 Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下 Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー> Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー> Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー> Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー> Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨> F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨> F32 : 26.00G : - - クソデカ、質低下なし<非推奨> Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。 Kのない4bit/5bit量子化(q4_0, q4_1, q5_0, q5_1)は旧方式のレガシーなので基本的に選ばない。 Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。 Perplexity Lossの値が大きいほど、量子化による劣化も大きい。 例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」 一方で、Q4_K_M〜Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。 実際4bit(q4、iq4、4bpwとか)がコスパ的には最高で、それ以上にする特別な理由がなければパラメーター数のより多いモデルにした方が結果が良いことが多いね と言ってもモデルごとにプリセットやテンプレートの変更やプロンプトの利きやすさが違うのもあるから新しいモデルを探すよりは使い慣れたモデルを使うっていう特別な理由が出てくる 逆に言えば慣れたモデルが無ければどんどんモデルを乗り換えたり色んな公開プリセットなりテンプレートなりに手を出して合ったの探すといいぞ >>14 なんに使うか分からんが qwenのdeepseek r1 32Bは? exl2 4pbwで試した限りではSillyTavern用のweepプリセットも割と良く効いたのか反応も割と良かったよ つってもcontext length 16kなら24GBに乗り切っちゃうサイズだったけど GPUおじゃんになったから新品買おうと思ったらVRAM12GB以上のやつまじで全然売ってなくて困った… 去年VRAM拡張のために買った4060Ti 16GBの1台だけしかないからLLM積んだら画像生成とかTTSとかSTTの機能が全く載せられない どうやってGPU手に入れてるん?中古のGPUは火を吹いたことがあるから中古以外で 1、2月に中古の3090を3枚も買ったアホならここにいるが、今はグラボ最高に不足してるし手に入らんのでは。 DeepSeek-R1-Distillは日本語いまいちやん QwQ-32Bの方が自然だと思う エロならQwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored RTX 30xxが市場に余りまくりだった反動でRTX 40xxが早々に製造終了したのと モンハンワイルズ特需、生成AIブームが全部重なった 企業がAIに大規模投資して世界的に半導体不足になってる コンシューマ需要も増えてるけどその煽りを食らって供給足りなくて値段も上がってる GPUってしょっちゅう足りなくなって高騰してるよなw前も仮想通貨マイニング需要でだったな 緑のGPUは企業に殆ど流れてるからコンシューマ需要に耐えられてない Blackwell系の価格設定が完全に企業向けだしついてけねーよ 赤がそのコンシューマ需要を背負いつつROCmのWindows対応も急いでるから この流れが続くならAI関連のCudaオンリーの時代がようやく終わるのかな 企業向けに10倍の値段で売ってるからそもそもコンシューマ向けには供給したくないだけだよ 企業にそっち買われちまったら儲からないからな Blackwellの96Gのやつって、エチエチのAI動画生成とかも一瞬で出来るの? グラボ1枚に180万は出せねえなあ 個人のエロ目的お遊び程度ならクラウドのgpuに課金して月1万使ったとしても15年分になるし 緑赤青でハイミドルローのパイを分け合ってる様にも見えて雲行き怪しいよね クラウドで1日A100使って3年でだいたい同じくらいか NVIDIA RTX 6000 Adaが安くならないかな〜 Nvidiaの異様な値付けとVRAM制限で個人のAI利用がずっとブロックされたままなんだよな このスレって前は3060ニキの中に4090ニキが混じってる感じで賑わってたのに今年入ってからは普通に複数or3桁万円のマシンの話がどんどん増えてて震える😨 >>12 特にgrokが固くなったりダメになった感じはしないなあ 貫通についてはあいかわらず倫理観ゼロの国って言っときゃ済むし 普及を考えるなら、GPU貸しサービスにGPUバンバン売りつけて実質使用料を減らしていくいまの方策のが正解な気もする 16/24/32GBでは足りず、かといってレンタルもフィットしないという狭間に陥った逸般人は詰みな感じもしますけど >>37 低スぺック用モデルはおもちゃレベルのまま全然進歩せんからな 低スぺックニキはほとんど飽きたか、Webサービスのスレに移ったんちゃう? 5080(16GB)ワイの場合 24Bモデル→サクサク 画像生成→サクサク SillyTavernでチャットしながら画像生成→激重 STで同時にやる場合、画像生成はクラウド環境借りるのが良いというのが今の結論 TTSも組み合わせたいけど16GBだと24B乗せた時点でパンパンになるから無理なんだよな ローカルで全部やるならTitanRTXかき集めて何台かマシン作るのが今のところ一番現実的に思える TTSって意外とメモリ食わないからCPU側で仕事させる事出来たりせんのかな? RVCでボイチェンしつつモンハンやってた時はRVCをCPU処理させたらゲームがカクつかなくなったしボイチェンもスムーズなままだったので 推論はどうにかなってるけどfinetuneしたい場合今の環境だと辛い 企業が出したファインチューニングモデルもオリジナルより性能低下してるのを見ると自分でやる気は起きんなあ LLMはモデル自体がオープンでも学習法が謎に包まれとるから素人には厳しい PRO6000や5000や中華4090改造版のおかげでA6000や6000 ADAの中古価格は結構下がりそうやけどな RTX8000が10万台、A6000は30万円台まで落ちると予想してる ワイはLLMはいのちの電話にもなると思っとるから 人生最後のグラボやと思って4090買ったんやが スタートラインでしかなかったんやな…… でも プロデジかm3maxを買うゼニーはないんで rayzenAIがんばえー >>41 そうかな?このスレの話題って大体30B前後の話題が多いと思うけど ファインチューンって牛乳にrank分の濃さ、学習率分量のコーヒーを混ぜて同じ量に調整するようなことだとふんわり思ってたけど違うのかな むしろ中規模モデルはリリース多いしスコアも上がっていってるから熱い 32Bをまともに動かすならVRAM 24GBはいるし、24GBは一般的には低スペックやないやろ 日本語LLM的には最低ラインかもしれんが そもそも一般的な基準なら低スペは2060とかや 12GB乗ってるグラボは一般ならミドル ここの基準はハイスペが抜けすぎててどこまでを低スペって言ってるかわからん LLMに人生相談したいんだけどそういうのもできる? GPUメモリ12gbやけどqwq32bのIQ4xsを試した時 まあ我慢できなくもない速度出てたからチャットなら使おうと思えば使えると思うで >>53 割とLLMの得意分野だと思う 相談する側もAI相手なら恥ずかしがらずありのまま話せるだろうし >>53 認知行動療法みたいなことはできる ネガティブな思考がぐるぐるしてるとき 客観的な意見いれるとか よかった探しとか GPTでやっとるけど救われる ローカルでやるにはワイの技術がまだ足らん…… >>51 いや元が「低スペモデルは玩具すぎて飽きるから低スペニキがいなくなった」って話だったからさ その低スペモデルが仮に14Bくらいだとして、正直14Bと32Bじゃできることの幅自体は大して変わらん気がする リアル相談はGPTにしまくってる 気に食わない回答があっても突き詰めてとことんできるしね webでできる事はローカルではやらんからなぁ… 以前のこのスレはGPUに全部載せることにはこだわらずCPUでバリバリ(ノロノロ)動かすニキがほとんどだったがの 70Bはさすがに遅い、30Bくらいが性能と速度のバランスがいいなんて会話をしてたものだ いつの間にかGPUに全部載せる前提になってんだな そりゃもちろんその方がいいんだけどさ 小説勢よりもチャット派の方にボリューム層が移ったんかな 小説書く人とチャットする人どっちが多いかって言ったらチャットだろうな 創作人口はいつだって少ない >>55 >>56 >>58 そっかサンクス カウンセリングの代わりをさせたくて 高性能で格安な新興WebサービスがローカルLLMの上位互換になったからでしょ ローカルLLMは遅いのを我慢してまでやるもんじゃなくなった 昔はローカルLLMがWebサービスより高性能だったみたいな口ぶりだけどいつの話? 性能じゃなく格安なのが大事なんだけど ChatGPTしかなかった頃はまだローカルLLMの方が安かったが 今じゃエロとセキュリティくらいしかローカルの優位性がない GPUに収める前提の話が増えたのLightChatAssistantみたいなまともに動くものが出てきたからじゃないか? webサービス並みのものを求めてローカルLLMを始める人は少ないだろうし求めてる水準に達すればあとは速さをって そいやRadeon直近の国内販売シェア45%に達したとか聞いたな AI関連含めてNVIDIAと競争できるようになってほしいもんだか LLMをローカルで仕上げるには ・限られた中で最大効率を目指すチューナー気質 ・語彙、描写力など文章における教養 ・パラメータを作って管理するTRPGのゲームマスター気質 ・申し訳をすりぬけるトライアンドエラーできるハッカー気質 がないとローカルは無理だと感じる 湾岸ミッドナイトみたいな世界観やけど これ面白いと感じられない人はそもそもAIには向いとらん気がするが LLMはその極みな気がするわ そういやここってID非表示なんやね 発言追うの大変やけどこれ普通なんかしら いまんとこイキってグロ画像貼る奴おらんからええとは思うけども 絵のほうで一人おるだけでエライ目にあったで >>66 いや格安も何もchatGPTは有料プランもあるだけで無料で使えるし昔も無料で使えたやろ >>68 AMDはrocmとか言うウンチ環境なので駄目です nvidaiのCUDAが地道に頑張ってきたのにAMDは未だにWindowsに対応してない(WSLで動かす) GPUの性能以前にやる気がねえ ローカルはセンシティブなことやらせるためだけに利用している 元々このスレがそうだったように実用性よりも弄り回して評価するのが楽しい人を別にすれば 音声や画像と繋げていろいろやりたい人や自分の好きなようにカスタマイズしたい人だろうな デカいVRAMを求めてるお人はまず間違いなくその筋や 普通のPCで実用性を求めるならそりゃwebサービスに行けとなる >>69 >ID非表示なんやね なんU時代の☆1~7と避難所☆1~3まではワッチョイ付きだったけど☆4から急に無くなったのよね ワイは推しを「何か。+代歩のタスクランチャー+LLM」にしたいんや なので頑張って食らいついていきたいンゴ >>74 ワイUのときはROMっとっただけで、いじるようになったのは最近の新参やけど Uはスクリプトに蹂躙されてログ追うのもキツイし 絵のほうでも半ネームドが出てきて荒れて 技術ニキほど寡黙になっていくんが辛くてのう ふと思い出したんや ワイはワッチョイ有りでもなんでもええで ローカルモデルの問題は日本語応答による性能ロスが看過しがたいくらい大きいことだから、日本語応答性能をベンチマークにしたらローカルLLMって意味ある?になるのは避けようがないような 英語応答で問題ない領域を攻める必要があるんじゃないの ワイは今のとこエロが全ての原動力になってるわ イリュージョンが世界に目を向けてソフト路線になって改造もNGになったのは日本の損失やと思ってる 3DモデリングとかVRの技術はAIと組み合わせて昇華して欲しかった 14Bや32Bモデルはベンチマーク性能は劇的に上がってるけど日本語性能はうんちだからな モデルを小さくする以上何かが切り捨てられるのは避けられないから日本人のローカル勢は決して救済されない運命 3DエロゲはVaMが強すぎる VaM2はAIとの連携も視野に入れてるらしいから早く出て欲しいわ >>75 素人考えだけど、伺かだったら 栞でイベントをプロンプト変換→応答が構文になるように仕組んだら一応動きそうには思えるけど、どうなんだろうなあ モデル側は基本的な構文を大量のデータ、例えばSSTPbottleのログ100万件くらいでQLoRA学習→マージしてスクリプトが使えるようにした後に 作りたいキャラの口調と絵柄パターンを更にQLoRA学習させてLoRA適用すればなんとかなったりするんかね 動かないとかおま環やろ (なお 685B params) v3 0324、日本語も一回り良くなってる気がする Appleの中のMLXの人 https://x.com/awnihannun/status/1904177084609827054 「4 ビットの新しい Deep Seek V3 0324 は、mlx-lm を搭載した 512GB M3 Ultra で> 20 toks/秒で動作します。」 前スレ392の音声聴いてからワイも興味持ってモデル探したりしたけどなかなか良い感じのが見つからん… 声質とか抑揚とかすごく好みだったからもし良ければモデルupしてクレメンス >>82 ワイ初心者すぎてニキの言っとることろくに理解できんけども メモらせてもらったで! できそう、ってのだけでも今日を生きる希望になるわ >>86 20tk/sもでるのか。MoEだから一つ一つは小ぶりというメリットでてるな Gemma3も27Bx4くらいで出して欲しい >>91 chain of thought (CoT)で推論(Reasoning)するか否かやろ >>88 openaiに対策されたからclaudeでデータ生成したのかな? DSV3、600Bも700Bもいらんから、 コーディングタスクや小説用のタスクだけ活性化する エキスパート部分だけ分離して欲しい。 丸ごと動かしても、 マシンリソースの無駄遣いじゃねーか。 R1はV3に数学の問題を自分で解かせる事後学習をしたモデル、と言われてる 数学が解けるようになると、何故か色々なことが出来るようになったよという V3改はClaudeというよりはプログラミングコードを大量に学習してる、とかかな? いま現在求められているのはそういうモデルですし R1が数学を自分で1から解かせて事後学習をさせたように、今度出すR2はプログラミングを自分で1から解かせて事後学習をしました、と言い出すかもね https://joisino.hatenablog.com/entry/physics コレ面白いな。 線形モデル(LLM的な高度な解釈能力を持たないモデル)にLLMの内部情報を食わせると、理解出来るところと出来ないところに分類できる、線形モデルに理解出来るほど整理されているなら、LLM自身にも理解出来ている情報と見なせる。 このプローブを使ってLLMの頭のなかを分析してみたよって話。 >>98 ベンチマークは陳腐化していくって話はベンチスコア詐偽とか有るらしいから納得 間違いを認識していても訂正方法を事前学習してないから訂正できないだけで 事前学習で訂正方法を学習させれば訂正出来るようになるって話は面白いな DeepSeekV3がチャットアリーナでR1や推論無しSonnet3.7の順位を逆転 これはR2の性能は噂通りトップを伺いそうだな、まあどうせ日本語はウンチなんだろうけど ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる