なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな
SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける ●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで
Mistral系
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Mistral-Small-3.2-24B-Instruct-2506
Cydonia 24B v4
Cydonia-R1-24B-v4
Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3
Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)
magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348
Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B
magnumの日本語版:
Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで テンプレここまで、しばらく更新されてないから過去ログも参考にしてな なんUってそろそろ帰っても良さそうやけどまだグロ爆撃あるんやっけ もう爆撃は無い
でもこの板に文章生成AIスレがあるから移動する必要性を感じない
こっちはローカルメイン、あっちはWEBサービスで住み分け出来てるし
そもそもなんU戻っても過疎すぎて人増えんやろ GPTかGeminiかClaude並の知能あって何も拒否しなくてローカルで動くやつ、出して CohereLabs/command-a-reasoning-08-2025
なんか出てた grok2なんて今更どうするんだ
性能ではもう価値ないだろう command rってちょっと前にあったよ、なんだったかもう忘れたッピけど… >>19
MoEだとちょうどいいサイズなんだけどMoEじゃないから動かすのしんどいやね
Cohereは最初からなんでも出力してくれるから好きなんだけど MacでもRyzenAIでもいいからVRAM126GB
50万以下で載せられる時代来ないかね 毒舌なんじゃなかったっけ?grok2
あとエロに寛容? Grok2は研究用に使ってねって感じだからローカル民が使う用途にはなって無さそう 今時の高効率なLLMと比べるとgrok2なんて研究用でも使い道あるんかな。llama4もそんな感じのレベル 今のLM Arena日本語ランキングの上位勢でオープンなLLMのサイズ調べてみた
qwen3-30b-a3bがなんか異常にいいのとqwen3-235b-a22b、gpt-oss-120b、gemma-3n-e4bあたりがコスパいいね
コスパじゃなくてパラメータに対するパフォーマンスだからパラパと言うのかわからんけど
https://i.imgur.com/3351cnd.png
このリストでは一番下にいるllama3.1-405bって出た当初はクローズLLMも含めた中でtop5くらいに食い込んでた記憶があるけど
今や4bのgemma-3n-e4bに抜かれてるのとかLLMの進化は恐ろしいな llamaってもう過去のものみたいな感じするからな MetaはFacebookとかInstagramのビックデータ資産があるのにどうしてこんなにAIショボいのだろうか
Grokはその部分で成功しているのに grok はつまみ食いしてるだけだから
というか何も成功はしてないだろ えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ 確かに信じがたいけど一応今の順位はこうなってる
ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能
であることを考えるとありえなくはないかなとも思ってる Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B
IQ Test | Tracking AI https://www.trackingai.org/home 違ったこの表>>34は偏差値だから、gemini pro 2.5の次くらいかな? >>27
ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな… gpt-oss-20bよりはQwen3 30B-A3Bのほうがまあって感じはあるけど、それでもClaude超えはちょっと眉唾感
ローカルでしか試してないけど そもそもlm arenaは性能じゃなくて人間の主観による評価だからあんまり参考にならない
llama4みたいに実性能は終わってるモデルでも媚びへつらいまくったら上位に入れるからね
性能比較したいならartificial analysisの方がいいよ Qwenはエロが終わってるからこのスレ民には全く価値ない それよりMistral Largeの新バージョンがもうすぐ出るという噂だからこっちが本命かも 実際に使わずに推測しだすのは謎すぎる
Qwen30bは性能はよくある30b程度なんだけど日本語そのものが流暢ってモデルだね https://i.imgur.com/Cqa45vu.jpeg
ローカルで使いやすい〜30Bくらいのモデルだと大体こんな感じ
LGが出したExaone地味に気になってるんだよな メインメモリ増やしたからGLM 4.5 Air Q6さわってみたけど理解力とエロは良かった
ただ結構中国語混ざったりワードチョイスが変で日本語はなんとも
Mistral系ぐらい日本語出来て100B前後のMoEが欲しくなる LGもLLM作ってたんだな
NTTも作ってるらしいけど公開しないから無いのと同じだな ちょっと前にSTでGLM 4.5 AirのQ4KM触った時はワードチョイスはともかく特に中国語混じったりはしなかった記憶
サンプラー設定の違いかな?
ただAirのQ4動かすよりGLM 4.5無印のIQ2XXSの方が体感的には良かった 量子化はかなり性能落ちてるから元モデルの性能あまり当てにならないんよな
落ち方も色々だし >>45
あれそうなんだ、設定弄ってみます
無印も試そうかな ベンチマークと体感の性能が合わなすぎてな
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ 典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね AMD RDNA 5がVRAM 512GB載せられるかも、みたいな怪情報が出てたけどどうなんだろう
70Bクラスのモデルをfp16で動かせるのはすごそう strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ… command-a-reasoning-08-2025
これ3月版より進化してないか?
むちゃくちゃエロくなってる >>57
koboldだとthinkしてくれない
逆にどうやったらthinkさせられるかな?
thinkさせたら更にエロくなるかもw >>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。 RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん