なんJLLM部 避難所 ★9
0001名無しさん@ピンキー 転載ダメ (ワッチョイ fec0-xVEZ)2025/08/23(土) 13:52:18.71ID:5lw7ZcNF0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0116名無しさん@ピンキー (ワッチョイ efa3-TchX)2025/09/03(水) 15:46:21.58ID:raCyPxWa0
RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。
0117名無しさん@ピンキー (ワッチョイ bfb7-ZghJ)2025/09/03(水) 17:24:55.24ID:a88ca2F/0
>>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか?
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな
0118名無しさん@ピンキー (ワッチョイ 8ffc-gtXd)2025/09/03(水) 17:47:03.47ID:YG6G4kHk0
小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな
0119名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 19:50:22.13ID:HS0dl7tD0
Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ… もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな…
0120名無しさん@ピンキー (ワッチョイ 4311-M1Je)2025/09/03(水) 20:09:23.26ID:ihRdpRFz0
Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る
0121名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 20:17:56.24ID:HS0dl7tD0
>>120
え、そうなんだ。。。
てか脱獄して 以降の意味がちんぷんかんぷんだから調べてやってみる
0122名無しさん@ピンキー (ワッチョイ 53dc-M1Je)2025/09/03(水) 20:33:56.58ID:LsXo9UqX0
>>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事
0123名無しさん@ピンキー (ワッチョイ 4302-Mlxs)2025/09/03(水) 21:38:00.94ID:+f82752F0
>>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)

真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ
0124名無しさん@ピンキー (ワッチョイ bfe8-IahM)2025/09/03(水) 22:02:33.05ID:qoCbGdaM0
>>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する
0125名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 22:05:23.42ID:HS0dl7tD0
>>122
Wikiみて脱獄したらイケた!ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね

あともう一つ、勝手に「っっっっっ」とか「!!!!!」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの?
0126名無しさん@ピンキー (ワッチョイ 6389-4tCA)2025/09/03(水) 22:25:49.22ID:HS0dl7tD0
>>122
調べて自己解決した!
Repetition PenaltyがGemini APIには無いから(設定欄がない)温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった!
サンガツ!
0127名無しさん@ピンキー (ワッチョイ efa3-TchX)2025/09/03(水) 23:55:03.36ID:raCyPxWa0
>>113
9950xでCPU使用率はどれくらい?
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。
0128名無しさん@ピンキー (ワッチョイ 8f8f-QNGN)2025/09/04(木) 14:12:23.59ID:KGTrzcu30
いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな
0129名無しさん@ピンキー (ワッチョイ 9332-Soy0)2025/09/04(木) 17:10:02.38ID:M4YL4AtO0
>>127
横からだけど9900x 128GB VRAM 12GB
GLM4.5AirQ4でcpu-moeをmax、コンテキスト長32kでVRAM使いきり
これで使用率gpu50%cpu100%、4t/s
9950xでもレイヤー数とVRAM次第だろうけど100%になると思うよ
0132名無しさん@ピンキー (ワッチョイ 8fde-qKMj)2025/09/04(木) 19:06:20.31ID:O125gjBs0
多分差が出ない、てかむしろ負けるから出せないんだと思う
0133名無しさん@ピンキー (ワッチョイ 33f0-Mlxs)2025/09/04(木) 20:01:07.66ID:gvxobVnD0
>>127
遅くなってすまん
せっかく >>129 が例を出してくれたから条件揃えようと思ったらダウンロードに時間かかった(笑
条件は合わせたつもり
Yahooニュースから適当に拾った事件1000文字に対して、文章要約とその対策案を聞いた

- Q4K_M 9950X,HT off(16core)
 プロセッシングに8秒、CPU,GPUともに100%付近
 結果は5,2tk/s

 96Gメモリだと残り7GくらいになってOSに回せるギリギリだw
 HT切ってるのは開発用マシンなので仮想PCに正しいCPU数を割り当てたいから
 もちろん仮想系は全部切ってテストした

- Q6 mac studio m4max,プロセッシングに 0.4秒、結果は 34tk/s
0134名無しさん@ピンキー (ワッチョイ 7372-TchX)2025/09/04(木) 20:20:20.79ID:pxnBUR0q0
>>129>>133
CPUを安く済ませられるかと思ったけど、そうもいかないのか。
アリガト
0135名無しさん@ピンキー (ワッチョイ 33f0-Mlxs)2025/09/04(木) 23:05:44.13ID:gvxobVnD0
それでもx86に対応する技術者はすげぇ頑張ってるのよ
ほんの数ヶ月前ならCPUを全く活かせずもっと酷かった
こんなにうまくCPUを使える様になってるとは知らんかった
0139名無しさん@ピンキー (ワッチョイ 8f0a-c25x)2025/09/05(金) 02:18:25.80ID:07IlwcOs0
自分のしょぼ環境で動く範囲だと
Gemma3が一番エッチな文章書いてくれるわ
Mistral-Smallと違ってひよこ系で激怒するから回答編集してイエスマンにする必要あるけども…
123Bのモデル触ったら世界変わるんだろか
0140名無しさん@ピンキー (ワッチョイ 33f0-Mlxs)2025/09/05(金) 02:37:29.66ID:XUkLc0/u0
汎用で量子化するならQ6は最低限な感じ
mlxだとFP16からの量子化でmixed_2_6とか4_6にできるけどベストポジション探すのめんどい
mac 128Gだと100B前後が限界。300BをQ2とかで動かしてもね
そのサイズだとGPUパワー足りなくて待ちきれん
M4maxだと128Gは絶妙なサイズなのかも
M3Ultraはどうにも予算がw
VRAMに乗ればnVidiaは圧倒的
MoEはそろそろピークで次はJet-Nemotronだな
来年のLLM界隈も楽しみだ
0142名無しさん@ピンキー (ワッチョイ 33f0-Mlxs)2025/09/05(金) 04:15:37.94ID:XUkLc0/u0
電気的にはTB5だからeGPUはできる筈なんだけど、Appleはサポートしない、と明言してる
自作すればできるかもしんない
メモリはDRAMという意味ではメモリは盛れない
TB的にはDMAサポートくらい
インフィニバンドみたいなメモリマッピングはない
SSDなら外付けの4T SSDから起動できる(してる)
スレチになってしまった、すまん
0144名無しさん@ピンキー (ワッチョイ 43b9-F6ss)2025/09/05(金) 05:25:32.51ID:9SDQdp0B0
https://x.com/liquidai_/status/1963681029333618960
350Mパラメータで4oクラスの日英翻訳できるってことはローカライズなしでローカルLLM動かして遊ぶ選択肢出来そうやけどどうやろ
0149名無しさん@ピンキー (ワッチョイ ff3d-ZP/9)2025/09/05(金) 22:45:39.74ID:pJWH9cgL0
>>146
ConnectX7搭載されてるのか!?
AIではなくファイルサーバーとして使いたくなってくるな
0151名無しさん@ピンキー (ワッチョイ 7ea9-sTI1)2025/09/06(土) 00:37:51.64ID:B6NjqRnx0
俺だったら今後もMoEが盛り上がってくのに賭けて5090+メモリ256GBにすっかなぁ(と思うだけで買う金ないけど)

ただこればっかりは半年前が大昔に感じるこの業界、どうなるかわからんもんな・・・
半年後にはdenseばっかりになってるかもしれない
0154名無しさん@ピンキー (ワッチョイ ba3d-Nw1s)2025/09/06(土) 01:10:43.39ID:2e+obcm60
Qwen3 Maxが出たけどオープンモデルではないのかな
0158名無しさん@ピンキー (スッププ Sd4a-37a0)2025/09/06(土) 03:43:46.93ID:WPX3Ot9Rd
>>156
公式チャットで使ってみたけど正直あまり賢くない感じ
指示に引っ張られ過ぎて幅広い観点から生成出来ない傾向がある

これからまだ調整するのかも知れないが現状ではカネを払うほどの価値はないかな
0159名無しさん@ピンキー (ワッチョイ ba3d-Nw1s)2025/09/06(土) 04:20:53.11ID:2e+obcm60
まだ中華LLMのなかではGLM4.5が一番使えるな
0160名無しさん@ピンキー (JP 0Hf3-PAgB)2025/09/06(土) 04:29:13.26ID:XTux2irUH
「遅いけど動く」と「全く動かない」には天と地ほどの差があるからDDR5の256GB憧れるわ
最悪、外出中とかに動かしっぱなしにしておけばいいし
スクリプト組んで複数出してガチャとか
0161名無しさん@ピンキー (スッププ Sd4a-37a0)2025/09/06(土) 05:45:55.11ID:WPX3Ot9Rd
>>160
俺は多段生成による精度アップを狙ってるわ
コード生成ならレスポンスに自動的に文法チェッカーをかけていったん突っ返すとか
人力でやってきた面倒くさいやり取りを省力化する感じやな

電気代しかかからないから出来る贅沢や
0163名無しさん@ピンキー (ワッチョイ aac7-19mR)2025/09/06(土) 09:09:25.19ID:vrI8nwc30
>>145
LM StudioでInternVL3.5動かしてみた
MoEなので、メモリがあれば動くな
小説書かせてみたけど、英語やハングルが混じることがあるし、日本語が怪しいなあ
このモデル優秀みたいだけど、小説には向いてないんかね
0165名無しさん@ピンキー (JP 0H07-yNNw)2025/09/06(土) 10:28:27.39ID:pMp/YTf9H
動画生成で英語のエロプロンプト描かせたいんですがおすすめの無規制モデルありますか?
GPUは4090です
0167名無しさん@ピンキー (ドコグロ MMef-Nw1s)2025/09/06(土) 14:56:17.96ID:UYmT8eiTM
kimi K2の新しいの出たぞ
0168名無しさん@ピンキー (ワッチョイ aac7-19mR)2025/09/06(土) 19:48:35.24ID:vrI8nwc30
ジブリのフリー素材を元にInternVL3.5の画像認識してみた。
ついでに別のモデルと比較してみた。

比較対照画像
https://i.imgur.com/qsieYr7.jpeg

プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字(OCR)、レイアウト、リスク(個人情報・著作権)、
推論(何が起きているか)を日本語で返してください。

画像解析レポート比較(InternVL3.5 / GLM-4.5V / ChatGPT-5)
https://rentry.org/gb3zddft

使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5

総合比較所見
InternVL3.5:全体像を捉えるが、OCRで誤認(「釧路」→「金路」)。記述は簡潔。
GLM-4.5V:服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5:人物の感情(慌てている・落ち着いている)など解釈を加えた推論が強み。
0171名無しさん@ピンキー (ワッチョイ aac7-19mR)2025/09/07(日) 14:43:08.70ID:2YGM74aR0
ChatGPT-5だけ性別答えなかったから、追加で聞いてみたら「断定はできない」って言われたわ
短髪で、男の子にも女の子にも見える中性的な容姿らしい

ぱっと見た感じ、まつげがあったり、麦わら帽子のリボンがピンクだったり、スカートっぽかったりするから、女の子だと推測するんだけどね

ま、もう少し突っ込んで聞いてみたら、「女性キャラクターである可能性は高い」って返ってきたわ
0172名無しさん@ピンキー (ワッチョイ aac7-19mR)2025/09/07(日) 15:05:47.39ID:2YGM74aR0
>>167
Kimi-K2-Instruct-0905いれてみたけど何が良くなったんだろうな

Kimi-K2は比較的比喩が多めで、あいかわらず難しい文章だけど芸術的な文章を書くんだよな
結構リアルに描写してくるし
官能小説書かせるならKimi-K2がええかもしれんな
0174名無しさん@ピンキー (JP 0H07-PAgB)2025/09/07(日) 16:30:46.58ID:LGjx/NnAH
LM Studioのモデル一覧でたまたま見つけたHermes 4ってモデルが無検閲らしいんだけどRTX4070Ti SUPERじゃ1token/secで泣いた、てかなぜかあんまりGPU使ってくれなくて遅い
しかも普通に検閲された
0175名無しさん@ピンキー (ワッチョイ 7ea9-sTI1)2025/09/07(日) 17:03:33.64ID:wpiQxp5W0
405B、70B、14Bとあるけど全部llama3.1のファインチューンみたいやね

Llama3.1はいいモデルではあるけどさすがに最新モデルと比べると古臭く感じてしまうな
0180名無しさん@ピンキー (ワッチョイ 9a27-dhXO)2025/09/08(月) 16:17:19.71ID:f6OzfNqA0
>メモリー消費量を最大94%削減する1ビット量子化を実現。
>これにより、量子化前と比べて精度維持率89%という世界最高水準の性能を保ちつつ、
>処理速度を3倍に高速化した。

嘘みたいな夢の技術で草なんだ
0181名無しさん@ピンキー (ワッチョイ d7c3-ASDQ)2025/09/08(月) 16:33:24.88ID:Z/7EV7k90
じゃあ嘘だろっ
0184名無しさん@ピンキー (ワッチョイ baeb-//eG)2025/09/08(月) 18:53:34.35ID:SmKNjTkH0
本当なら革命的過ぎるだろ
0188名無しさん@ピンキー (ワッチョイ 6e8f-PAgB)2025/09/08(月) 20:14:27.99ID:2fbxNKp30
なんやこの怪情報は……ホンマやったら大事件やで
2レイヤーだけFP16書いてあるけど、将来的にはこの層だけGPUにオフロードして主としてCPUで演算するみたいな事もできるんやろか。結局メモリ帯域が足りんか?
0189名無しさん@ピンキー (ワッチョイ 1f6a-Lbu8)2025/09/08(月) 20:20:20.26ID:ii2Qwx+/0
1bit llmてMSのやつのパクリ?
0198名無しさん@ピンキー (ワッチョイ aafb-Nw1s)2025/09/09(火) 03:06:03.23ID:q/9nZWfL0
富士通のAIのニュース初めて見たわ
0199名無しさん@ピンキー (ワッチョイ aadd-Zp20)2025/09/09(火) 06:20:47.13ID:F2Nlmp0Q0
https://arxiv.org/pdf/2504.09629
論文自体は4月にプレプリント出てるこれか
0200名無しさん@ピンキー (ワッチョイ af10-M23X)2025/09/09(火) 10:05:00.85ID:8F4I4Vc00
俺の5090ちゃんでcommand a出来ちゃうの?
0201名無しさん@ピンキー (ワッチョイ af10-M23X)2025/09/09(火) 10:07:49.02ID:8F4I4Vc00
って思ったら推奨VRAM40GB以上って書いてあんね…🥺
0202名無しさん@ピンキー (ワッチョイ 7ea9-eoO5)2025/09/09(火) 10:22:30.61ID:H557KSrB0
unslothもbartuwskiも今ん所GGUF化しとらんね
有名モデルだとリリースされてから数時間でGGUF化しとるけどこの人ら
技術的にできないのか、やる必要ないと思ってるのか
0203名無しさん@ピンキー (ワッチョイ 9b5e-PAgB)2025/09/09(火) 11:21:13.92ID:P+al+Xe90
>>201
コレこそクラウドGPUの出番だな
契約して無駄遣いしてるやつに殴り込んでもらうしか
0204名無しさん@ピンキー (ワッチョイ 1f6a-Lbu8)2025/09/09(火) 11:31:35.16ID:q37S+Bfh0
パープレキシティでしか評価してないってことは
実タスクで相当落ちるタイプのやつか
0205名無しさん@ピンキー (ワッチョイ af43-Zp20)2025/09/09(火) 11:36:20.78ID:TPuhOpJW0
GPT-oss-120bとかでやってみて欲しいんだよな
論文の著者がXで言及してたからやってくれるかもしれんが
0206名無しさん@ピンキー (ワッチョイ 7ea9-sTI1)2025/09/09(火) 13:05:50.71ID:H557KSrB0
この量子化を行うためのソフトは公開してくれてないねんなぁ
論文だけ見れば他の人が実装できるようなものなんやろか

このあたりintel(autoround)とかmicrosoft(bitnet)とは姿勢が違うよねぇやっぱ
0208名無しさん@ピンキー (ワッチョイ ab39-oX69)2025/09/09(火) 16:37:10.44ID:FvYfS6ek0
なんか来るのかな?

https://www.perplexity.ai/page/chinese-researchers-unveil-bra-qpwOqvGHTAWdlohIzxf3vw

中国の研究者たちは、主流のChatGPTのようなモデルとは一線を画し、生物学的ニューロンを模倣してエネルギー効率の高いコンピューティングを実現する、脳に着想を得た人工知能システム「SpikingBrain-1.0」を発表しました。

従来のAIシステムは、大量のデータセットと計算能力を必要とするトランスフォーマーアーキテクチャに依存していますが、新しいモデルは、主流モデルが通常必要とする事前学習データのわずか2パーセントしか使用せず、同等の性能を達成しています。
0209名無しさん@ピンキー (ワッチョイ 936f-Gd3L)2025/09/09(火) 16:44:29.13ID:0HiZJcJ10
ついに本物のニューラルネットが来るのか
0210名無しさん@ピンキー (ワッチョイ 936f-Gd3L)2025/09/09(火) 16:56:23.59ID:0HiZJcJ10
>>196
本質は量子化するときのグループを広くしようってことみたい
今までは層1,2,3とあったら各層ごとに量子化してた
QEPは層1での量子化やったあと、その量子化誤差を層2での量子化で考慮する、みたいな
そして今度は層2での量子化誤差を層3での量子化で考慮する

記事の1bit云々はよくわからない
INT4辺りだとヘッシアン使うGPTQとそんな変わらんかったってことなんかな
0211名無しさん@ピンキー (JP 0H07-PAgB)2025/09/09(火) 17:11:31.28ID:ukhsyM9SH
>>208
CXLってのが普通のCPUは対応してなくてダメらしいのでThreadripperで遊べる富豪以外は縁がない
あとPCIeだからメモリ直刺しよりいろいろ劣るはず
0212名無しさん@ピンキー (ワッチョイ af43-Zp20)2025/09/09(火) 17:16:49.92ID:TPuhOpJW0
Sakana.aiもそうだけど生物学的アプローチを測ろうとする研究まあまああるよね
アーキテクチャ的に覇権握るのは難しそうだけど
0213名無しさん@ピンキー (ワッチョイ aa97-0wYC)2025/09/09(火) 20:33:17.86ID:IYOhagA50
LMstudioでこの界隈を知ったからずっと使ってるんですけどなんかメモリ効率悪いとか処理が遅いみたいなウワサを聞いて困惑してます
実行環境で優秀なやつってどれなんですかね
0215名無しさん@ピンキー (ワッチョイ beab-7f2d)2025/09/09(火) 21:41:46.20ID:ATCCfEy60
40GのVRAMってA800とかだろ
ご家庭に200万円クラスのカードが買えってか?
gpt-oss-120bを10Gbyteくらいにしてくれたほうが
世界中のみんなが幸せになれて、この方式がデファクトスタンダードになる可能性があるのに
日本メーカーって技術はよくても謎のケチくささで後出しの海外製にあっさり抜かれて勝てないパターン
レスを投稿する


ニューススポーツなんでも実況