なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★6 https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant 主に小説用で使われとるで ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで 量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral-7B系: LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-08-2024 (35B) c4ai-command-r-plus-08-2024 (104B) magnumシリーズ(エロ特化): https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348 Lumimaid-Magnum: Lumimaid-Magnum-v4-12B magnumの日本語版: Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで 若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで API keyの入手はhttps://aistudio.google.com/apikey ここからできるで とりあえずテンプレそのままで立てた、ミスってたらすまん grok3、nsfwの話題に関してはどんどんナーフされてってる? 前は「フィクションです」って言っとけばなんでもガバガバだったのに最近使ったらいっちょ前に倫理語るようになってた サンイチやで ついでに前スレでも貼ったやつ llama.cppモデルのバリエーション一覧(7Bの例) Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨> Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下 Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下 Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下 Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下 Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】 Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】 Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】 Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下 Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー> Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー> Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー> Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー> Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨> F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨> F32 : 26.00G : - - クソデカ、質低下なし<非推奨> Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。 Kのない4bit/5bit量子化(q4_0, q4_1, q5_0, q5_1)は旧方式のレガシーなので基本的に選ばない。 Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。 Perplexity Lossの値が大きいほど、量子化による劣化も大きい。 例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」 一方で、Q4_K_M〜Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる