なんJLLM部 避難所 ★9
0001名無しさん@ピンキー 転載ダメ (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:52:18.71ID:5lw7ZcNF0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0002名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:52:48.95ID:5lw7ZcNF0
初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki
0003名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:53:01.31ID:5lw7ZcNF0
oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui
0004名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:53:13.44ID:5lw7ZcNF0
●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant
0005名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:53:40.81ID:5lw7ZcNF0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0006名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:53:57.63ID:5lw7ZcNF0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0007名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:54:14.74ID:5lw7ZcNF0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0008名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 14:06:17.76ID:5lw7ZcNF0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral系
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Mistral-Small-3.2-24B-Instruct-2506
Cydonia 24B v4
Cydonia-R1-24B-v4

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2
0009名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 14:06:34.21ID:5lw7ZcNF0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで
0010名無しさん@ピンキー (ワッチョイ fec0-xVEZ)2025/08/23(土) 14:06:46.46ID:5lw7ZcNF0
テンプレここまで、しばらく更新されてないから過去ログも参考にしてな
0011名無しさん@ピンキー (ワッチョイ f651-Nkl/)2025/08/23(土) 14:11:17.26ID:x3P4s8SO0
なんUってそろそろ帰っても良さそうやけどまだグロ爆撃あるんやっけ
0012名無しさん@ピンキー (ワッチョイ be27-slH+)2025/08/23(土) 14:41:19.47ID:DqRDqYzm0
もう爆撃は無い
でもこの板に文章生成AIスレがあるから移動する必要性を感じない
こっちはローカルメイン、あっちはWEBサービスで住み分け出来てるし
そもそもなんU戻っても過疎すぎて人増えんやろ
0013名無しさん@ピンキー (ワッチョイ f385-6Hg8)2025/08/23(土) 23:35:58.73ID:nllRM+eP0
スレ立てありがとう
0020名無しさん@ピンキー (ワッチョイ f3c2-DcZR)2025/08/24(日) 10:46:14.18ID:OJuYvR2Q0
grok2なんて今更どうするんだ
性能ではもう価値ないだろう
0021名無しさん@ピンキー (ワッチョイ d203-TnY8)2025/08/24(日) 10:49:30.41ID:20pTTCWQ0
command rってちょっと前にあったよ、なんだったかもう忘れたッピけど…
0023名無しさん@ピンキー (ワッチョイ f3c2-TcND)2025/08/24(日) 11:39:43.59ID:h1oo6yxg0
MacでもRyzenAIでもいいからVRAM126GB
50万以下で載せられる時代来ないかね
0024名無しさん@ピンキー (ワッチョイ a36a-Bq+j)2025/08/24(日) 12:03:09.69ID:K9fb1xWi0
毒舌なんじゃなかったっけ?grok2
あとエロに寛容?
0025名無しさん@ピンキー (ワッチョイ f3a6-Nkl/)2025/08/24(日) 12:50:40.01ID:UGJ9tbE40
Grok2は研究用に使ってねって感じだからローカル民が使う用途にはなって無さそう
0027名無しさん@ピンキー (ワッチョイ b6a9-slH+)2025/08/24(日) 14:47:20.24ID:5IWKqrSs0
今のLM Arena日本語ランキングの上位勢でオープンなLLMのサイズ調べてみた
qwen3-30b-a3bがなんか異常にいいのとqwen3-235b-a22b、gpt-oss-120b、gemma-3n-e4bあたりがコスパいいね
コスパじゃなくてパラメータに対するパフォーマンスだからパラパと言うのかわからんけど
https://i.imgur.com/3351cnd.png

このリストでは一番下にいるllama3.1-405bって出た当初はクローズLLMも含めた中でtop5くらいに食い込んでた記憶があるけど
今や4bのgemma-3n-e4bに抜かれてるのとかLLMの進化は恐ろしいな
0028名無しさん@ピンキー (ワッチョイ f66f-/T2E)2025/08/24(日) 16:18:42.39ID:mZXf77670
llamaってもう過去のものみたいな感じするからな
0029名無しさん@ピンキー (ワッチョイ fb8c-GMkG)2025/08/24(日) 16:24:33.63ID:j7Yf8Kt20
>>28
gpt-oss 出ちゃったからなぁ
0030名無しさん@ピンキー (ワッチョイ 2249-DcZR)2025/08/24(日) 16:56:34.90ID:3I/Vxdms0
MetaはFacebookとかInstagramのビックデータ資産があるのにどうしてこんなにAIショボいのだろうか
Grokはその部分で成功しているのに
0031名無しさん@ピンキー (ワッチョイ fb8c-GMkG)2025/08/24(日) 18:01:11.62ID:j7Yf8Kt20
grok はつまみ食いしてるだけだから
というか何も成功はしてないだろ
0032名無しさん@ピンキー (ワッチョイ f3b0-TnY8)2025/08/24(日) 20:54:18.60ID:KAk5/6Ny0
えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ
0033名無しさん@ピンキー (ワッチョイ b6a9-slH+)2025/08/24(日) 21:53:36.27ID:5IWKqrSs0
確かに信じがたいけど一応今の順位はこうなってる
ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能
であることを考えるとありえなくはないかなとも思ってる
0034名無しさん@ピンキー (ワッチョイ bfec-TnY8)2025/08/24(日) 22:17:19.22ID:1z/0yi150
Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B

IQ Test | Tracking AI https://www.trackingai.org/home
0035名無しさん@ピンキー (ワッチョイ bfec-TnY8)2025/08/24(日) 22:20:19.57ID:1z/0yi150
違ったこの表>>34は偏差値だから、gemini pro 2.5の次くらいかな?
0036名無しさん@ピンキー (ワッチョイ bfec-TnY8)2025/08/24(日) 22:21:43.42ID:1z/0yi150
>>27
ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな…
0038名無しさん@ピンキー (ワッチョイ f66e-3pEJ)2025/08/24(日) 23:19:43.96ID:DhANUb0X0
そもそもlm arenaは性能じゃなくて人間の主観による評価だからあんまり参考にならない
llama4みたいに実性能は終わってるモデルでも媚びへつらいまくったら上位に入れるからね
性能比較したいならartificial analysisの方がいいよ
0042名無しさん@ピンキー (ワッチョイ f285-Nkl/)2025/08/25(月) 17:06:23.49ID:9pvmUDuL0
https://i.imgur.com/Cqa45vu.jpeg
ローカルで使いやすい〜30Bくらいのモデルだと大体こんな感じ
LGが出したExaone地味に気になってるんだよな
0043名無しさん@ピンキー (ワッチョイ f38e-FUtm)2025/08/25(月) 17:16:16.20ID:6/dlAeV90
メインメモリ増やしたからGLM 4.5 Air Q6さわってみたけど理解力とエロは良かった
ただ結構中国語混ざったりワードチョイスが変で日本語はなんとも
Mistral系ぐらい日本語出来て100B前後のMoEが欲しくなる
0044名無しさん@ピンキー (ワッチョイ 2249-DcZR)2025/08/25(月) 17:23:46.34ID:UOPr6/iC0
LGもLLM作ってたんだな
NTTも作ってるらしいけど公開しないから無いのと同じだな
0045名無しさん@ピンキー (ワッチョイ 5bc6-53nT)2025/08/25(月) 18:24:17.67ID:VQ3VpI5L0
ちょっと前にSTでGLM 4.5 AirのQ4KM触った時はワードチョイスはともかく特に中国語混じったりはしなかった記憶
サンプラー設定の違いかな?

ただAirのQ4動かすよりGLM 4.5無印のIQ2XXSの方が体感的には良かった
0046名無しさん@ピンキー (ワッチョイ fe57-TcND)2025/08/25(月) 19:08:19.02ID:Q9en1aht0
量子化はかなり性能落ちてるから元モデルの性能あまり当てにならないんよな
落ち方も色々だし
0048名無しさん@ピンキー (ワッチョイ fbfb-GMkG)2025/08/25(月) 19:54:16.15ID:Rgpm/ZNh0
ベンチマークと体感の性能が合わなすぎてな 
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ 典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん
0050名無しさん@ピンキー (ワッチョイ e67d-Nkl/)2025/08/25(月) 19:57:18.80ID:eX9rrhFH0
ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね
0052名無しさん@ピンキー (オッペケ Srd7-pOSt)2025/08/25(月) 22:09:04.17ID:9jAW386or
strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ…
0053名無しさん@ピンキー (ワッチョイ f3c8-2tZm)2025/08/26(火) 14:45:51.13ID:A5cB8PUx0
LPDDRでメモリクロック低めバス幅広めみたいね
0059名無しさん@ピンキー (ワッチョイ bf52-eKAO)2025/08/27(水) 09:10:35.50ID:w5Y0R7kr0
>>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。
0060名無しさん@ピンキー (ベーイモ MM0e-zVP4)2025/08/27(水) 12:50:15.55ID:MatvxI7ZM
どのくらいのスペックいるんや?
0062名無しさん@ピンキー (ワッチョイ fb42-TcND)2025/08/28(木) 09:17:13.80ID:PtV/rBm30
RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん
レスを投稿する


ニューススポーツなんでも実況