なんJLLM部 避難所 ★9
0001名無しさん@ピンキー 転載ダメ (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:52:18.71ID:5lw7ZcNF0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0032名無しさん@ピンキー (ワッチョイ f3b0-TnY8)2025/08/24(日) 20:54:18.60ID:KAk5/6Ny0
えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ
0033名無しさん@ピンキー (ワッチョイ b6a9-slH+)2025/08/24(日) 21:53:36.27ID:5IWKqrSs0
確かに信じがたいけど一応今の順位はこうなってる
ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能
であることを考えるとありえなくはないかなとも思ってる
0034名無しさん@ピンキー (ワッチョイ bfec-TnY8)2025/08/24(日) 22:17:19.22ID:1z/0yi150
Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B

IQ Test | Tracking AI https://www.trackingai.org/home
0035名無しさん@ピンキー (ワッチョイ bfec-TnY8)2025/08/24(日) 22:20:19.57ID:1z/0yi150
違ったこの表>>34は偏差値だから、gemini pro 2.5の次くらいかな?
0036名無しさん@ピンキー (ワッチョイ bfec-TnY8)2025/08/24(日) 22:21:43.42ID:1z/0yi150
>>27
ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな…
0038名無しさん@ピンキー (ワッチョイ f66e-3pEJ)2025/08/24(日) 23:19:43.96ID:DhANUb0X0
そもそもlm arenaは性能じゃなくて人間の主観による評価だからあんまり参考にならない
llama4みたいに実性能は終わってるモデルでも媚びへつらいまくったら上位に入れるからね
性能比較したいならartificial analysisの方がいいよ
0042名無しさん@ピンキー (ワッチョイ f285-Nkl/)2025/08/25(月) 17:06:23.49ID:9pvmUDuL0
https://i.imgur.com/Cqa45vu.jpeg
ローカルで使いやすい〜30Bくらいのモデルだと大体こんな感じ
LGが出したExaone地味に気になってるんだよな
0043名無しさん@ピンキー (ワッチョイ f38e-FUtm)2025/08/25(月) 17:16:16.20ID:6/dlAeV90
メインメモリ増やしたからGLM 4.5 Air Q6さわってみたけど理解力とエロは良かった
ただ結構中国語混ざったりワードチョイスが変で日本語はなんとも
Mistral系ぐらい日本語出来て100B前後のMoEが欲しくなる
0044名無しさん@ピンキー (ワッチョイ 2249-DcZR)2025/08/25(月) 17:23:46.34ID:UOPr6/iC0
LGもLLM作ってたんだな
NTTも作ってるらしいけど公開しないから無いのと同じだな
0045名無しさん@ピンキー (ワッチョイ 5bc6-53nT)2025/08/25(月) 18:24:17.67ID:VQ3VpI5L0
ちょっと前にSTでGLM 4.5 AirのQ4KM触った時はワードチョイスはともかく特に中国語混じったりはしなかった記憶
サンプラー設定の違いかな?

ただAirのQ4動かすよりGLM 4.5無印のIQ2XXSの方が体感的には良かった
0046名無しさん@ピンキー (ワッチョイ fe57-TcND)2025/08/25(月) 19:08:19.02ID:Q9en1aht0
量子化はかなり性能落ちてるから元モデルの性能あまり当てにならないんよな
落ち方も色々だし
0048名無しさん@ピンキー (ワッチョイ fbfb-GMkG)2025/08/25(月) 19:54:16.15ID:Rgpm/ZNh0
ベンチマークと体感の性能が合わなすぎてな 
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ 典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん
0050名無しさん@ピンキー (ワッチョイ e67d-Nkl/)2025/08/25(月) 19:57:18.80ID:eX9rrhFH0
ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね
0052名無しさん@ピンキー (オッペケ Srd7-pOSt)2025/08/25(月) 22:09:04.17ID:9jAW386or
strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ…
0053名無しさん@ピンキー (ワッチョイ f3c8-2tZm)2025/08/26(火) 14:45:51.13ID:A5cB8PUx0
LPDDRでメモリクロック低めバス幅広めみたいね
0059名無しさん@ピンキー (ワッチョイ bf52-eKAO)2025/08/27(水) 09:10:35.50ID:w5Y0R7kr0
>>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。
0060名無しさん@ピンキー (ベーイモ MM0e-zVP4)2025/08/27(水) 12:50:15.55ID:MatvxI7ZM
どのくらいのスペックいるんや?
0062名無しさん@ピンキー (ワッチョイ fb42-TcND)2025/08/28(木) 09:17:13.80ID:PtV/rBm30
RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん
0063名無しさん@ピンキー (ワッチョイ 5bc6-Emuj)2025/08/28(木) 10:46:20.62ID:zC+NRNLm0
4.5無印のUD-IQ2_XXSをDDR4-2666/128GB、VRAM/16GB&12GBで"--cpu-moe"オプション、"gpu-layers"をMAXで読み込んで入力するContextのサイズにもよるけど1.7~3.0トークン/s前後って感じ
0066名無しさん@ピンキー (ワッチョイ bf35-8L5d)2025/08/28(木) 13:39:25.56ID:7DDmQCxX0
検索機能がついてるLLMなんて無い
検索は外部のツールで情報持ってきてLLMにデータを渡しているだけ
0068名無しさん@ピンキー (ワッチョイ c22a-TnY8)2025/08/28(木) 13:59:28.17ID:MOCeri5p0
>>55
これ動かすのってQ8 ggufの複数あるのを全部落として、koboldcppで読み込めばいいの?
96gbメモリーで動くかな?
0070名無しさん@ピンキー (ワッチョイ c22a-TnY8)2025/08/28(木) 14:27:10.74ID:MOCeri5p0
>>69
Q5_k_m.ggufが00001〜00006まであるんだけど、1と2だけを結合すればいいの?
0073名無しさん@ピンキー (ワッチョイ bf35-GMkG)2025/08/28(木) 16:47:31.62ID:xl5DRWuq0
command aってAPI経由なら月1000回まで無料で使えるから試すだけならそっちで良いんじゃないの?最悪BANされても痛くないし
流石にメモリオフロードすると1t/sすら切るからまともに使えんよ
3090 x 3とq4_k_mで10t/sぐらいそれでも遅いくらいなのに
0075名無しさん@ピンキー (ワッチョイ f25e-TnY8)2025/08/28(木) 22:37:55.88ID:vd6bbEay0
>>72
ダウンロードしてたけど>>73の案で行ってみる!
ニキ2人ともサンガツです
0077名無しさん@ピンキー (ワンミングク MMa2-1Laf)2025/08/29(金) 15:50:24.61ID:QgHAaCUyM
書いた小説をテキストビューアで見てるけど、やはり画像もあった方が捗る。
挿絵機能欲しい
0080名無しさん@ピンキー (ワッチョイ efc9-4tCA)2025/08/30(土) 14:12:22.62ID:3hx39vZG0
茂木さんが乗り移ったとか?
0082名無しさん@ピンキー (ワッチョイ ef6a-4tCA)2025/08/30(土) 16:47:32.49ID:M5/IkpAF0
command a API経由でSilly Tavernで使ったけど所々変な英語が混じるね
0083名無しさん@ピンキー (ワッチョイ 93df-4tCA)2025/08/30(土) 20:43:01.58ID:M+HiyT//0
gemini apiエロ防壁作動してない?
0084名無しさん@ピンキー (ワッチョイ ef27-5CC8)2025/08/31(日) 01:37:17.86ID:QSNVGU1f0
緩めとはいえAPIも以前からエロチェックしてるよ
システムプロンプトと最後に入力したメッセージは厳しくチェックされる
道中の会話は割とスルーされる
だからある程度回避はできる

出力結果もチェックされるけどこれはな…
露骨なエロワード避けるようなプロンプト組めば回避出てきそうだが、それって結果の質が下がる訳で
0085名無しさん@ピンキー (オイコラミネオ MM7f-4sJE)2025/08/31(日) 09:40:52.22ID:5wmO9Mw4M
ollama見つけて熱に浮かされたようにあれこれ入れてみたけど、落ち着いてきたら使用する機会がない。
スマホで動かせないし、話し相手にも使わないからかな。
日常利用にはChatGPTとGrokでほぼ足りる。
0091名無しさん@ピンキー (ワッチョイ 4366-TchX)2025/08/31(日) 13:04:55.92ID:HY3TnHzC0
俺はローカルでやってるが出せるような情報を持って無いのでず〜っとROM専
RTX3060 12GB + メインメモリ32GB では出来ることも限られてる
0092名無しさん@ピンキー (シャチーク 0C77-1eHW)2025/08/31(日) 13:33:10.71ID:CJ5ondywC
ではcommand-aの感想をば
3月版に比べて明らかに進化して規制も緩くなってて申し訳も少ないけど
ストーリーを健全な方向に持って行こうとする傾向があるのでunconsented版が出たら大化けするかも
0095名無しさん@ピンキー (ワッチョイ ff66-C4T7)2025/08/31(日) 16:58:23.64ID:jV+qo11F0
>>79
おぼえられなくなっちゃったからにはもう・・・ネ・・・
0098名無しさん@ピンキー (ワッチョイ 3fcd-QNGN)2025/08/31(日) 18:35:32.55ID:aw8WlFbQ0
ベースモデルの性能だと今もmistral small 3.1 baseがずば抜けている印象
新モデルだとseed ossとかZLMもqwenもgemmaと同様に知性自体は悪くないけど日本語工口知識はなさそう
mistralもマイナーチェンジしか出さないしもう一社くらい良い性能のモデルだしてほしい
0101名無しさん@ピンキー (ワッチョイ cfd9-Sz+9)2025/08/31(日) 22:21:06.77ID:uBoO6iIK0
正直その辺のファインチューニング版は日本語だと普通に誤差レベルだと思う
学習データ全部英語だろうし
たまたまその人にとっていい感じになったとかはあり得るけど個人差の域を出ないと思う
0102名無しさん@ピンキー (ワッチョイ 6375-dfzl)2025/09/01(月) 03:06:55.30ID:GHk97tzm0
mistral-smallに日本語を継続学習させたのをCydoniaあたりとChatVectorしたらいい感じになったりしないかな
0106名無しさん@ピンキー (ワッチョイ 63a4-vYwD)2025/09/02(火) 11:42:03.93ID:mRzJl1JX0
スレ違いかも知れんが特に話題無いようだしここで聞かせてくれ
やっぱ文章生成だけじゃなくて喋らせたいんやがみんなTTSは何使うてるんや?
0107名無しさん@ピンキー (ワッチョイ efbd-F6ss)2025/09/02(火) 11:48:49.87ID:OSnhYV1G0
AivisSpeech、voicevox、elevenlabsあたりか?
0110名無しさん@ピンキー (ワッチョイ bf9f-D63A)2025/09/02(火) 23:44:31.99ID:LqsAXTo20
いやらしい感じの文章をえんえんリピートする症状って結局根本的な回避法ってないのん?
症状が出ないように温度となんとかペナルティを祈りながら動かすだけ?
0111名無しさん@ピンキー (ワッチョイ ef32-ZghJ)2025/09/03(水) 07:43:34.16ID:4rMkALTk0
ワイのパソコンDDR3 32GB RAM + 4060Ti 16GB VRAMとローカルLLM的にお寒い性能なのでそろそろ更新せなって思っとるんやが、
Ryzen 9 7XXX系にRAMガン積みするのと、AI Max+ 395みたいなユニファイドメモリみたいなタイプ、どっちが将来性あるとみんなは考えとるんや?
今のグラボも使いまわしたいし、LLMだけでなくSBV2とかUnityでVR開発と醸しとるんで、今んとこRyzen 9 + RAMガン積みに気持ちは傾いとるんやが、みんなの忌憚のない意見やワイの見落としてる点とか聞かせてもらえたら嬉しいんやで
0112名無しさん@ピンキー (ワッチョイ bf32-iuFk)2025/09/03(水) 10:11:32.07ID:Tb5aNmqP0
今判断するの難しいけどやっぱまだメモリ増設できる普通構成で良いんじゃないかな

ローカルモデルが巨大化していって、転送帯域ゴリ押しみたいなやり方も続くなら、一般人がLLM使うときの正解はメインメモリ直付け高速化したPCになっていくけど
0113名無しさん@ピンキー (ワッチョイ 3ffa-Mlxs)2025/09/03(水) 10:21:45.43ID:owNF+gEB0
Ryzen9 9950x,96GRAM,4080s だけどLLMを実用に使うのは自分では無理
プロンプト投入、応答に10分待つとかできるならOK
待てる待てないは人にもよるからね
いくらRAMを積もうがPCIeを5から7まで上げようが現状のMoEモデルでもほとんど効果がない
x86系は全部VRAMで動作する画像生成なら速いんだけどね
AI Maxはいまのはやはり「積んでみました」程度
次期バージョンであっても結局バス幅が128bitとかだから帯域がまるで足りない
DDR8くらいならなんとかなるかも?
0114名無しさん@ピンキー (ワッチョイ 3f7b-QNGN)2025/09/03(水) 11:05:45.93ID:Q6HNBhdw0
>>110
繰り返しは仕組み上避けられんしな
根本的な方法というならDPOとかでチューニングすればある程度緩和できるはずだけどデータセットを作るのが面倒くさそう
0116名無しさん@ピンキー (ワッチョイ efa3-TchX)2025/09/03(水) 15:46:21.58ID:raCyPxWa0
RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。
0117名無しさん@ピンキー (ワッチョイ bfb7-ZghJ)2025/09/03(水) 17:24:55.24ID:a88ca2F/0
>>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか?
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな
0118名無しさん@ピンキー (ワッチョイ 8ffc-gtXd)2025/09/03(水) 17:47:03.47ID:YG6G4kHk0
小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな
0119名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 19:50:22.13ID:HS0dl7tD0
Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ… もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな…
0120名無しさん@ピンキー (ワッチョイ 4311-M1Je)2025/09/03(水) 20:09:23.26ID:ihRdpRFz0
Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る
0121名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 20:17:56.24ID:HS0dl7tD0
>>120
え、そうなんだ。。。
てか脱獄して 以降の意味がちんぷんかんぷんだから調べてやってみる
0122名無しさん@ピンキー (ワッチョイ 53dc-M1Je)2025/09/03(水) 20:33:56.58ID:LsXo9UqX0
>>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事
0123名無しさん@ピンキー (ワッチョイ 4302-Mlxs)2025/09/03(水) 21:38:00.94ID:+f82752F0
>>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)

真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ
0124名無しさん@ピンキー (ワッチョイ bfe8-IahM)2025/09/03(水) 22:02:33.05ID:qoCbGdaM0
>>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する
0125名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 22:05:23.42ID:HS0dl7tD0
>>122
Wikiみて脱獄したらイケた!ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね

あともう一つ、勝手に「っっっっっ」とか「!!!!!」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの?
0126名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 22:25:49.22ID:HS0dl7tD0
>>122
調べて自己解決した!
Repetition PenaltyがGemini APIには無いから(設定欄がない)温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった!
サンガツ!
0127名無しさん@ピンキー (ワッチョイ efa3-TchX)2025/09/03(水) 23:55:03.36ID:raCyPxWa0
>>113
9950xでCPU使用率はどれくらい?
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。
0128名無しさん@ピンキー (ワッチョイ 8f8f-QNGN)2025/09/04(木) 14:12:23.59ID:KGTrzcu30
いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな
0129名無しさん@ピンキー (ワッチョイ 9332-Soy0)2025/09/04(木) 17:10:02.38ID:M4YL4AtO0
>>127
横からだけど9900x 128GB VRAM 12GB
GLM4.5AirQ4でcpu-moeをmax、コンテキスト長32kでVRAM使いきり
これで使用率gpu50%cpu100%、4t/s
9950xでもレイヤー数とVRAM次第だろうけど100%になると思うよ
レスを投稿する


ニューススポーツなんでも実況