なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512 !extend:checked:vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★8 https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/ VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant 主に小説用で使われとるで ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで 量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral系 LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Mistral-Small-3.2-24B-Instruct-2506 Cydonia 24B v4 Cydonia-R1-24B-v4 Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-08-2024 (35B) c4ai-command-r-plus-08-2024 (104B) magnumシリーズ(エロ特化): https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348 Lumimaid-Magnum: Lumimaid-Magnum-v4-12B magnumの日本語版: Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで 若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで API keyの入手はhttps://aistudio.google.com/apikey ここからできるで テンプレここまで、しばらく更新されてないから過去ログも参考にしてな なんUってそろそろ帰っても良さそうやけどまだグロ爆撃あるんやっけ もう爆撃は無い でもこの板に文章生成AIスレがあるから移動する必要性を感じない こっちはローカルメイン、あっちはWEBサービスで住み分け出来てるし そもそもなんU戻っても過疎すぎて人増えんやろ GPTかGeminiかClaude並の知能あって何も拒否しなくてローカルで動くやつ、出して CohereLabs/command-a-reasoning-08-2025 なんか出てた grok2なんて今更どうするんだ 性能ではもう価値ないだろう command rってちょっと前にあったよ、なんだったかもう忘れたッピけど… >>19 MoEだとちょうどいいサイズなんだけどMoEじゃないから動かすのしんどいやね Cohereは最初からなんでも出力してくれるから好きなんだけど MacでもRyzenAIでもいいからVRAM126GB 50万以下で載せられる時代来ないかね 毒舌なんじゃなかったっけ?grok2 あとエロに寛容? Grok2は研究用に使ってねって感じだからローカル民が使う用途にはなって無さそう 今時の高効率なLLMと比べるとgrok2なんて研究用でも使い道あるんかな。llama4もそんな感じのレベル 今のLM Arena日本語ランキングの上位勢でオープンなLLMのサイズ調べてみた qwen3-30b-a3bがなんか異常にいいのとqwen3-235b-a22b、gpt-oss-120b、gemma-3n-e4bあたりがコスパいいね コスパじゃなくてパラメータに対するパフォーマンスだからパラパと言うのかわからんけど https://i.imgur.com/3351cnd.png このリストでは一番下にいるllama3.1-405bって出た当初はクローズLLMも含めた中でtop5くらいに食い込んでた記憶があるけど 今や4bのgemma-3n-e4bに抜かれてるのとかLLMの進化は恐ろしいな llamaってもう過去のものみたいな感じするからな MetaはFacebookとかInstagramのビックデータ資産があるのにどうしてこんなにAIショボいのだろうか Grokはその部分で成功しているのに grok はつまみ食いしてるだけだから というか何も成功はしてないだろ えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ 確かに信じがたいけど一応今の順位はこうなってる ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能 であることを考えるとありえなくはないかなとも思ってる Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B IQ Test | Tracking AI https://www.trackingai.org/home 違ったこの表>>34 は偏差値だから、gemini pro 2.5の次くらいかな? >>27 ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな… read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる