なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured MetaはFacebookとかInstagramのビックデータ資産があるのにどうしてこんなにAIショボいのだろうか
Grokはその部分で成功しているのに grok はつまみ食いしてるだけだから
というか何も成功はしてないだろ えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ 確かに信じがたいけど一応今の順位はこうなってる
ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能
であることを考えるとありえなくはないかなとも思ってる Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B
IQ Test | Tracking AI https://www.trackingai.org/home 違ったこの表>>34は偏差値だから、gemini pro 2.5の次くらいかな? >>27
ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな… gpt-oss-20bよりはQwen3 30B-A3Bのほうがまあって感じはあるけど、それでもClaude超えはちょっと眉唾感
ローカルでしか試してないけど そもそもlm arenaは性能じゃなくて人間の主観による評価だからあんまり参考にならない
llama4みたいに実性能は終わってるモデルでも媚びへつらいまくったら上位に入れるからね
性能比較したいならartificial analysisの方がいいよ Qwenはエロが終わってるからこのスレ民には全く価値ない それよりMistral Largeの新バージョンがもうすぐ出るという噂だからこっちが本命かも 実際に使わずに推測しだすのは謎すぎる
Qwen30bは性能はよくある30b程度なんだけど日本語そのものが流暢ってモデルだね https://i.imgur.com/Cqa45vu.jpeg
ローカルで使いやすい〜30Bくらいのモデルだと大体こんな感じ
LGが出したExaone地味に気になってるんだよな メインメモリ増やしたからGLM 4.5 Air Q6さわってみたけど理解力とエロは良かった
ただ結構中国語混ざったりワードチョイスが変で日本語はなんとも
Mistral系ぐらい日本語出来て100B前後のMoEが欲しくなる LGもLLM作ってたんだな
NTTも作ってるらしいけど公開しないから無いのと同じだな ちょっと前にSTでGLM 4.5 AirのQ4KM触った時はワードチョイスはともかく特に中国語混じったりはしなかった記憶
サンプラー設定の違いかな?
ただAirのQ4動かすよりGLM 4.5無印のIQ2XXSの方が体感的には良かった 量子化はかなり性能落ちてるから元モデルの性能あまり当てにならないんよな
落ち方も色々だし >>45
あれそうなんだ、設定弄ってみます
無印も試そうかな ベンチマークと体感の性能が合わなすぎてな
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ 典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね AMD RDNA 5がVRAM 512GB載せられるかも、みたいな怪情報が出てたけどどうなんだろう
70Bクラスのモデルをfp16で動かせるのはすごそう strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ… command-a-reasoning-08-2025
これ3月版より進化してないか?
むちゃくちゃエロくなってる >>57
koboldだとthinkしてくれない
逆にどうやったらthinkさせられるかな?
thinkさせたら更にエロくなるかもw >>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。 RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん 4.5無印のUD-IQ2_XXSをDDR4-2666/128GB、VRAM/16GB&12GBで"--cpu-moe"オプション、"gpu-layers"をMAXで読み込んで入力するContextのサイズにもよるけど1.7~3.0トークン/s前後って感じ やっぱりアクティブパラメータ漏れて遅くなるんやねぇサンガツ
Airの高量子化とかにメモリ増設の価値はあるんやろか…… 検索機能がついてるLLMなんて無い
検索は外部のツールで情報持ってきてLLMにデータを渡しているだけ >>64
63だけどAirのQ4_K_Mなら5トークン/s前後だったよ
ローカルで動画生成とかもするならメモリ増設の価値はあるかも >>55
これ動かすのってQ8 ggufの複数あるのを全部落として、koboldcppで読み込めばいいの?
96gbメモリーで動くかな? >>68
96GならQ5_k_mかな
Q6_kはギリギリいけるかどうか
2ファイル落としてcmdで結合させて読み込む >>69
Q5_k_m.ggufが00001〜00006まであるんだけど、1と2だけを結合すればいいの? >>70
あ ごめん 複数って書こうとして間違えた
連番全部ね >>70
あれ?
見てるとこ違うかな
mradermacher/command-a-reasoning-08-2025-GGUF
こっちなら2ファイルですむで command aってAPI経由なら月1000回まで無料で使えるから試すだけならそっちで良いんじゃないの?最悪BANされても痛くないし
流石にメモリオフロードすると1t/sすら切るからまともに使えんよ
3090 x 3とq4_k_mで10t/sぐらいそれでも遅いくらいなのに >>65
正確に検索するならElasticSearch
ベクトルでなんとなく近い文書検索ならFAISSとかChromaを呼び出して
最終的にLLMで文書化する感じ >>72
ダウンロードしてたけど>>73の案で行ってみる!
ニキ2人ともサンガツです >>74
ESは入れたことあるから知っとるで
クローラーでゴリゴリWebからデータを引っ張りたいんや
LLMサーバの負荷を考えると別サーバで立てられる奴がええな 書いた小説をテキストビューアで見てるけど、やはり画像もあった方が捗る。
挿絵機能欲しい silly tavern使っててしばらくチャット進めてると
キャラのセリフがずっと「アハ、アハ」言って笑ってて不気味になる。
コンテキストがいっぱいなんかな あはっ、あはっ、なんにもおぼえられなくなっちゃった、あはっ…… EPYC 4545Pとか言う安いのがあると思ったらam5用だった
名前はいいけどレーンもっと出してくれなきゃ嫌よ command a API経由でSilly Tavernで使ったけど所々変な英語が混じるね 緩めとはいえAPIも以前からエロチェックしてるよ
システムプロンプトと最後に入力したメッセージは厳しくチェックされる
道中の会話は割とスルーされる
だからある程度回避はできる
出力結果もチェックされるけどこれはな…
露骨なエロワード避けるようなプロンプト組めば回避出てきそうだが、それって結果の質が下がる訳で ollama見つけて熱に浮かされたようにあれこれ入れてみたけど、落ち着いてきたら使用する機会がない。
スマホで動かせないし、話し相手にも使わないからかな。
日常利用にはChatGPTとGrokでほぼ足りる。 ところでこのスレ何でこんな妙なタイトルなのでしょうか?
ローカルLLM総合みたいなスレも他に見当たらないし。 もともとなんJにあったスレだから、
なんJがスクリプト荒らしが発生してこっちに避難した やっぱローカルでやってる人は少ないのかな
情報もあんまりないし 新しいモデルがあまり出ないからねー
今の旬はcommand-a-reasoning-08-2025 やね 俺はローカルでやってるが出せるような情報を持って無いのでず〜っとROM専
RTX3060 12GB + メインメモリ32GB では出来ることも限られてる ではcommand-aの感想をば
3月版に比べて明らかに進化して規制も緩くなってて申し訳も少ないけど
ストーリーを健全な方向に持って行こうとする傾向があるのでunconsented版が出たら大化けするかも 先週ノートPCのメモリを128GBに増やしたら
Qwen3-235B-A22B-Instruct-2507-Q4_K_M
が動くようになった
eGPUでTITAN RTXを繋いで合計152GB うちのPCは8Bモデル程度が限界だわ
もっと低VRAMで動くようになればなあ >>79
おぼえられなくなっちゃったからにはもう・・・ネ・・・ 最近だと前スレで出てたCydonia v4がよかったくらいだな
もちろん理解力とか知識は24B相当ではあるけど同サイズ帯だったら個人的には一番 512GB、帯域幅819.2GB/sのユニファイドメモリのM3 Ultra Mac Studioが150万か… ベースモデルの性能だと今もmistral small 3.1 baseがずば抜けている印象
新モデルだとseed ossとかZLMもqwenもgemmaと同様に知性自体は悪くないけど日本語工口知識はなさそう
mistralもマイナーチェンジしか出さないしもう一社くらい良い性能のモデルだしてほしい MS3.2-PaintedFantasy-v2-24Bが自分の中じゃ一番かなぁ繰り返しや変な点が沢山ついたりするのが無くなった >>97 VRAMを500GB以上にできるから実は激安なんだよ! 正直その辺のファインチューニング版は日本語だと普通に誤差レベルだと思う
学習データ全部英語だろうし
たまたまその人にとっていい感じになったとかはあり得るけど個人差の域を出ないと思う mistral-smallに日本語を継続学習させたのをCydoniaあたりとChatVectorしたらいい感じになったりしないかな windows updateしてからタスクマネージャーでGPUの状況が表示されなくなったんだが 大体winアプデに含まれたドライバ自動で当てられておかしくなってるから入れ直し スレ違いかも知れんが特に話題無いようだしここで聞かせてくれ
やっぱ文章生成だけじゃなくて喋らせたいんやがみんなTTSは何使うてるんや? AivisSpeech、voicevox、elevenlabsあたりか? elevenlabsは初めて聞いたな
しかしローカルで動かんからこれアカンな…
無難にvoicevoxとaivisspeechを試すわ感謝 いやらしい感じの文章をえんえんリピートする症状って結局根本的な回避法ってないのん?
症状が出ないように温度となんとかペナルティを祈りながら動かすだけ? ワイのパソコンDDR3 32GB RAM + 4060Ti 16GB VRAMとローカルLLM的にお寒い性能なのでそろそろ更新せなって思っとるんやが、
Ryzen 9 7XXX系にRAMガン積みするのと、AI Max+ 395みたいなユニファイドメモリみたいなタイプ、どっちが将来性あるとみんなは考えとるんや?
今のグラボも使いまわしたいし、LLMだけでなくSBV2とかUnityでVR開発と醸しとるんで、今んとこRyzen 9 + RAMガン積みに気持ちは傾いとるんやが、みんなの忌憚のない意見やワイの見落としてる点とか聞かせてもらえたら嬉しいんやで 今判断するの難しいけどやっぱまだメモリ増設できる普通構成で良いんじゃないかな
ローカルモデルが巨大化していって、転送帯域ゴリ押しみたいなやり方も続くなら、一般人がLLM使うときの正解はメインメモリ直付け高速化したPCになっていくけど Ryzen9 9950x,96GRAM,4080s だけどLLMを実用に使うのは自分では無理
プロンプト投入、応答に10分待つとかできるならOK
待てる待てないは人にもよるからね
いくらRAMを積もうがPCIeを5から7まで上げようが現状のMoEモデルでもほとんど効果がない
x86系は全部VRAMで動作する画像生成なら速いんだけどね
AI Maxはいまのはやはり「積んでみました」程度
次期バージョンであっても結局バス幅が128bitとかだから帯域がまるで足りない
DDR8くらいならなんとかなるかも? >>110
繰り返しは仕組み上避けられんしな
根本的な方法というならDPOとかでチューニングすればある程度緩和できるはずだけどデータセットを作るのが面倒くさそう 繰り返すのはプロンプトが悪いのもあるんじゃね、頭悪いLLMは繰り返しとか続けてとか、プロンプトに入れるとループする RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。 >>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか?
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな 小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ… もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな… Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る >>120
え、そうなんだ。。。
てか脱獄して 以降の意味がちんぷんかんぷんだから調べてやってみる >>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事 >>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)
真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ >>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する >>122
Wikiみて脱獄したらイケた!ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね
あともう一つ、勝手に「っっっっっ」とか「!!!!!」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの? >>122
調べて自己解決した!
Repetition PenaltyがGemini APIには無いから(設定欄がない)温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった!
サンガツ! >>113
9950xでCPU使用率はどれくらい?
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。 いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな