なんJLLM部避難所 ★9

1002コメント342KB

なんJLLM部避難所 ★9

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ fec0-xVEZ)

2025/08/23(土) 13:52:18.71ID:5lw7ZcNF0

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/

VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0116名無しさん＠ピンキー (ﾜｯﾁｮｲ efa3-TchX)

2025/09/03(水) 15:46:21.58ID:raCyPxWa0

RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。

0117名無しさん＠ピンキー (ﾜｯﾁｮｲ bfb7-ZghJ)

2025/09/03(水) 17:24:55.24ID:a88ca2F/0

>>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか？
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな

0118名無しさん＠ピンキー (ﾜｯﾁｮｲ 8ffc-gtXd)

2025/09/03(水) 17:47:03.47ID:YG6G4kHk0

小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな

0119名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 19:50:22.13ID:HS0dl7tD0

Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ…　もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな…

0120名無しさん＠ピンキー (ﾜｯﾁｮｲ 4311-M1Je)

2025/09/03(水) 20:09:23.26ID:ihRdpRFz0

Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る

0121名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 20:17:56.24ID:HS0dl7tD0

>>120
え、そうなんだ。。。
てか脱獄して　以降の意味がちんぷんかんぷんだから調べてやってみる

0122名無しさん＠ピンキー (ﾜｯﾁｮｲ 53dc-M1Je)

2025/09/03(水) 20:33:56.58ID:LsXo9UqX0

>>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事

0123名無しさん＠ピンキー (ﾜｯﾁｮｲ 4302-Mlxs)

2025/09/03(水) 21:38:00.94ID:+f82752F0

>>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)

真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ

0124名無しさん＠ピンキー (ﾜｯﾁｮｲ bfe8-IahM)

2025/09/03(水) 22:02:33.05ID:qoCbGdaM0

>>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する

0125名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 22:05:23.42ID:HS0dl7tD0

>>122
Wikiみて脱獄したらイケた！ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね

あともう一つ、勝手に「っっっっっ」とか「！！！！！」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの？

0126名無しさん＠ピンキー (ﾜｯﾁｮｲ 6389-4tCA)

2025/09/03(水) 22:25:49.22ID:HS0dl7tD0

>>122
調べて自己解決した！
Repetition PenaltyがGemini APIには無いから（設定欄がない）温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった！
サンガツ！

0127名無しさん＠ピンキー (ﾜｯﾁｮｲ efa3-TchX)

2025/09/03(水) 23:55:03.36ID:raCyPxWa0

>>113
9950xでCPU使用率はどれくらい？
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。

0128名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f8f-QNGN)

2025/09/04(木) 14:12:23.59ID:KGTrzcu30

いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな

0129名無しさん＠ピンキー (ﾜｯﾁｮｲ 9332-Soy0)

2025/09/04(木) 17:10:02.38ID:M4YL4AtO0

>>127
横からだけど9900x 128GB VRAM 12GB
GLM4.5AirQ4でcpu-moeをmax、コンテキスト長32kでVRAM使いきり
これで使用率gpu50%cpu100%、4t/s
9950xでもレイヤー数とVRAM次第だろうけど100%になると思うよ

0130名無しさん＠ピンキー (ﾜｯﾁｮｲ bf77-M1Je)

2025/09/04(木) 17:47:23.96ID:7SQ8082X0

mambaは期待の新技術ではあるんだけど7Bとか9BとかのSLMしか出てこないのはスケーリングに問題あるんかね

0131名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-EsdB)

2025/09/04(木) 18:16:23.86ID:QzkBFfjr0

mambaって知らんかったから調べてみたけど去年の技術なんやね
今それを採用したモデルが全然出てないの見ると厳しいのかね

0132名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fde-qKMj)

2025/09/04(木) 19:06:20.31ID:O125gjBs0

多分差が出ない、てかむしろ負けるから出せないんだと思う

0133名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/04(木) 20:01:07.66ID:gvxobVnD0

>>127
遅くなってすまん
せっかく >>129 が例を出してくれたから条件揃えようと思ったらダウンロードに時間かかった(笑
条件は合わせたつもり
Yahooニュースから適当に拾った事件1000文字に対して、文章要約とその対策案を聞いた

- Q4K_M 9950X,HT off(16core)
　プロセッシングに8秒、CPU,GPUともに100%付近
　結果は5,2tk/s

　96Gメモリだと残り7GくらいになってOSに回せるギリギリだw
　HT切ってるのは開発用マシンなので仮想PCに正しいCPU数を割り当てたいから
　もちろん仮想系は全部切ってテストした

- Q6 mac studio m4max,プロセッシングに 0.4秒、結果は 34tk/s

0134名無しさん＠ピンキー (ﾜｯﾁｮｲ 7372-TchX)

2025/09/04(木) 20:20:20.79ID:pxnBUR0q0

>>129>>133
CPUを安く済ませられるかと思ったけど、そうもいかないのか。
アリガト

0135名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/04(木) 23:05:44.13ID:gvxobVnD0

それでもx86に対応する技術者はすげぇ頑張ってるのよ
ほんの数ヶ月前ならCPUを全く活かせずもっと酷かった
こんなにうまくCPUを使える様になってるとは知らんかった

0136名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-9zWR)

2025/09/04(木) 23:24:18.52ID:QzkBFfjr0

cohere moe出してくれんかな

0137名無しさん＠ピンキー (ﾜｯﾁｮｲ 5323-z+45)

2025/09/04(木) 23:44:34.43ID:oWnbbGlJ0

Mac Studioええなあ
128GBくらいあればLLM困らないんやろか

0138名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 01:57:26.15ID:wClS/Ku1d

Q6って使い物になるの？

0139名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f0a-c25x)

2025/09/05(金) 02:18:25.80ID:07IlwcOs0

自分のしょぼ環境で動く範囲だと
Gemma3が一番エッチな文章書いてくれるわ
Mistral-Smallと違ってひよこ系で激怒するから回答編集してイエスマンにする必要あるけども…
123Bのモデル触ったら世界変わるんだろか

0140名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/05(金) 02:37:29.66ID:XUkLc0/u0

汎用で量子化するならQ6は最低限な感じ
mlxだとFP16からの量子化でmixed_2_6とか4_6にできるけどベストポジション探すのめんどい
mac 128Gだと100B前後が限界。300BをQ2とかで動かしてもね
そのサイズだとGPUパワー足りなくて待ちきれん
M4maxだと128Gは絶妙なサイズなのかも
M3Ultraはどうにも予算がw
VRAMに乗ればnVidiaは圧倒的
MoEはそろそろピークで次はJet-Nemotronだな
来年のLLM界隈も楽しみだ

0141名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 02:43:24.80ID:wClS/Ku1d

>>140
俺自身は貧乏だからMacに全く縁は無いが
mac 128Gに適当なeGPUをつけてメモリを更に盛ったりは出来ないの？

0142名無しさん＠ピンキー (ﾜｯﾁｮｲ 33f0-Mlxs)

2025/09/05(金) 04:15:37.94ID:XUkLc0/u0

電気的にはTB5だからeGPUはできる筈なんだけど、Appleはサポートしない、と明言してる
自作すればできるかもしんない
メモリはDRAMという意味ではメモリは盛れない
TB的にはDMAサポートくらい
インフィニバンドみたいなメモリマッピングはない
SSDなら外付けの4T SSDから起動できる(してる)
スレチになってしまった、すまん

0143名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 04:24:18.08ID:wClS/Ku1d

>>142
Macも一長一短なんだな
DGX Sparkもモノが出てこないし過渡期だわ

0144名無しさん＠ピンキー (ﾜｯﾁｮｲ 43b9-F6ss)

2025/09/05(金) 05:25:32.51ID:9SDQdp0B0

https://x.com/liquidai_/status/1963681029333618960
350Mパラメータで4oクラスの日英翻訳できるってことはローカライズなしでローカルLLM動かして遊ぶ選択肢出来そうやけどどうやろ

0145名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sddf-p01K)

2025/09/05(金) 06:49:50.35ID:wClS/Ku1d

また新しいの来てる
mradermacher/InternVL3_5-241B-A28B-GGUF

https://huggingface.co/mradermacher/InternVL3_5-241B-A28B-GGUF

Q4_K_M 142.3GB
Q4_K_S 133.8GB
Q3_K_M 112.5GB

0146名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-EsdB)

2025/09/05(金) 18:14:34.16ID:keZ7Ey2Y0

DGX Sparkのサードパーティー製、実売価格って書かれてるから市販されそうだね
10月上旬だってさ
https://pc.watch.impress.co.jp/docs/news/2045021.html

0147名無しさん＠ピンキー (ﾜｯﾁｮｲ 937a-Iv9T)

2025/09/05(金) 18:49:24.29ID:4c/WUon60

10月かあ

0148名無しさん＠ピンキー (ﾜｯﾁｮｲ 13c0-ZgjU)

2025/09/05(金) 18:54:31.08ID:+dwGKR7V0

最近のモデル見てると128GBで273GB/sはもう力不足感がある

0149名無しさん＠ピンキー (ﾜｯﾁｮｲ ff3d-ZP/9)

2025/09/05(金) 22:45:39.74ID:pJWH9cgL0

>>146
ConnectX7搭載されてるのか！？
AIではなくファイルサーバーとして使いたくなってくるな

0150名無しさん＠ピンキー (ﾜｯﾁｮｲ ef69-YdP+)

2025/09/05(金) 23:24:02.81ID:gJPh+GYu0

50万以上いっちゃうなら、Mac Studio M4Max 128GB(帯域546GB/s)にするかなぁ…

0151名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/06(土) 00:37:51.64ID:B6NjqRnx0

俺だったら今後もMoEが盛り上がってくのに賭けて5090+メモリ256GBにすっかなぁ(と思うだけで買う金ないけど)

ただこればっかりは半年前が大昔に感じるこの業界、どうなるかわからんもんな・・・
半年後にはdenseばっかりになってるかもしれない

0152名無しさん＠ピンキー (ﾜｯﾁｮｲ aadb-o23O)

2025/09/06(土) 00:44:04.13ID:cyphtZVT0

MoEも結局クソデカメモリがいるって点で優しくはないからなあ

0153名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/06(土) 00:57:32.31ID:B6NjqRnx0

DDR5なら64GB*4が最安10万で買える
なんかLLMでハード一つこしらえようと色々調べてると10万が糞安く感じる

0154名無しさん＠ピンキー (ﾜｯﾁｮｲ ba3d-Nw1s)

2025/09/06(土) 01:10:43.39ID:2e+obcm60

Qwen3 Maxが出たけどオープンモデルではないのかな

0155名無しさん＠ピンキー (ﾜｯﾁｮｲ 2a32-lqz+)

2025/09/06(土) 01:23:38.24ID:brqF1P4K0

貧民の味方zen2epyc

0156名無しさん＠ピンキー (ﾜｯﾁｮｲ c310-7f2d)

2025/09/06(土) 02:39:10.75ID:jD6H/xXN0

Qwen3 Maxって1兆超えなんだ。
expつかってM3 Ultra2台(1024GByteメモリに見せかける)で動くのか。安いな(麻痺

0157名無しさん＠ピンキー (ﾜｯﾁｮｲ c310-7f2d)

2025/09/06(土) 02:39:41.20ID:jD6H/xXN0

expじゃない、exo github.com/exo-explore/exo

0158名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd4a-37a0)

2025/09/06(土) 03:43:46.93ID:WPX3Ot9Rd

>>156
公式チャットで使ってみたけど正直あまり賢くない感じ
指示に引っ張られ過ぎて幅広い観点から生成出来ない傾向がある

これからまだ調整するのかも知れないが現状ではカネを払うほどの価値はないかな

0159名無しさん＠ピンキー (ﾜｯﾁｮｲ ba3d-Nw1s)

2025/09/06(土) 04:20:53.11ID:2e+obcm60

まだ中華LLMのなかではGLM4.5が一番使えるな

0160名無しさん＠ピンキー (JP 0Hf3-PAgB)

2025/09/06(土) 04:29:13.26ID:XTux2irUH

「遅いけど動く」と「全く動かない」には天と地ほどの差があるからDDR5の256GB憧れるわ
最悪、外出中とかに動かしっぱなしにしておけばいいし
スクリプト組んで複数出してガチャとか

0161名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd4a-37a0)

2025/09/06(土) 05:45:55.11ID:WPX3Ot9Rd

>>160
俺は多段生成による精度アップを狙ってるわ
コード生成ならレスポンスに自動的に文法チェッカーをかけていったん突っ返すとか
人力でやってきた面倒くさいやり取りを省力化する感じやな

電気代しかかからないから出来る贅沢や

0162名無しさん＠ピンキー (ﾜｯﾁｮｲ ab55-lqz+)

2025/09/06(土) 06:21:06.98ID:b8vzGuQQ0

ssdオフロードが残されている

0163名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR)

2025/09/06(土) 09:09:25.19ID:vrI8nwc30

>>145
LM StudioでInternVL3.5動かしてみた
MoEなので、メモリがあれば動くな
小説書かせてみたけど、英語やハングルが混じることがあるし、日本語が怪しいなあ
このモデル優秀みたいだけど、小説には向いてないんかね

0164名無しさん＠ピンキー (ｼｬﾁｰｸ 0C7f-t1bO)

2025/09/06(土) 10:02:51.87ID:oKD+EvBCC

>>163
マルチモーダルやね
画像認識どんな感じ？

0165名無しさん＠ピンキー (JP 0H07-yNNw)

2025/09/06(土) 10:28:27.39ID:pMp/YTf9H

動画生成で英語のエロプロンプト描かせたいんですがおすすめの無規制モデルありますか？
GPUは4090です

0166名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR)

2025/09/06(土) 13:39:15.46ID:vrI8nwc30

>>164
画像認識は飛びっきりという訳じゃないけど、いい感じよ
文字認識はそこそこいけてる感じ
あとでレポするわ

0167名無しさん＠ピンキー (ﾄﾞｺｸﾞﾛ MMef-Nw1s)

2025/09/06(土) 14:56:17.96ID:UYmT8eiTM

kimi K2の新しいの出たぞ

0168名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR)

2025/09/06(土) 19:48:35.24ID:vrI8nwc30

ジブリのフリー素材を元にInternVL3.5の画像認識してみた。
ついでに別のモデルと比較してみた。

比較対照画像
https://i.imgur.com/qsieYr7.jpeg

プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字（OCR）、レイアウト、リスク（個人情報・著作権）、
推論（何が起きているか）を日本語で返してください。

画像解析レポート比較（InternVL3.5 / GLM-4.5V / ChatGPT-5）
https://rentry.org/gb3zddft

使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5

総合比較所見
InternVL3.5：全体像を捉えるが、OCRで誤認（「釧路」→「金路」）。記述は簡潔。
GLM-4.5V：服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5：人物の感情（慌てている・落ち着いている）など解釈を加えた推論が強み。

0169名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd4a-37a0)

2025/09/06(土) 21:16:59.69ID:WPX3Ot9Rd

>>168
GLMがパラメータ数の割に優秀だな

0170名無しさん＠ピンキー (ﾜｯﾁｮｲ d332-9Aqc)

2025/09/06(土) 21:58:54.65ID:1aKptocs0

>>168
良いレポートだ

0171名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR)

2025/09/07(日) 14:43:08.70ID:2YGM74aR0

ChatGPT-5だけ性別答えなかったから、追加で聞いてみたら「断定はできない」って言われたわ
短髪で、男の子にも女の子にも見える中性的な容姿らしい

ぱっと見た感じ、まつげがあったり、麦わら帽子のリボンがピンクだったり、スカートっぽかったりするから、女の子だと推測するんだけどね

ま、もう少し突っ込んで聞いてみたら、「女性キャラクターである可能性は高い」って返ってきたわ

0172名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR)

2025/09/07(日) 15:05:47.39ID:2YGM74aR0

>>167
Kimi-K2-Instruct-0905いれてみたけど何が良くなったんだろうな

Kimi-K2は比較的比喩が多めで、あいかわらず難しい文章だけど芸術的な文章を書くんだよな
結構リアルに描写してくるし
官能小説書かせるならKimi-K2がええかもしれんな

0173名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd4a-37a0)

2025/09/07(日) 15:22:59.54ID:koLXHZAZd

>>172
KimiはQwenと比べて脱獄が難しい
鉄板の脱獄シスプロがあったら教えてくれ

0174名無しさん＠ピンキー (JP 0H07-PAgB)

2025/09/07(日) 16:30:46.58ID:LGjx/NnAH

LM Studioのモデル一覧でたまたま見つけたHermes 4ってモデルが無検閲らしいんだけどRTX4070Ti SUPERじゃ1token/secで泣いた、てかなぜかあんまりGPU使ってくれなくて遅い
しかも普通に検閲された

0175名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/07(日) 17:03:33.64ID:wpiQxp5W0

405B、70B、14Bとあるけど全部llama3.1のファインチューンみたいやね

Llama3.1はいいモデルではあるけどさすがに最新モデルと比べると古臭く感じてしまうな

0176名無しさん＠ピンキー (ﾜｯﾁｮｲ ab16-v85C)

2025/09/07(日) 19:22:19.99ID:3QSVSNUz0

VLMでのキャプショニングいくつかモデルとか訊き方試して調査したけど自然言語だと点数つけるのムズすぎてレポートにするの諦めたわ

0177名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-eoO5)

2025/09/07(日) 20:00:19.82ID:wpiQxp5W0

VLMのベンチマークの問題と解答を
このスレ向けのに差し替えるのがええと思う

0178名無しさん＠ピンキー (ﾜｯﾁｮｲ aac7-19mR)

2025/09/07(日) 23:59:27.89ID:2YGM74aR0

>>173
前スレでも公式からだと脱獄が難しいと言ってたな
ローカルだとそこまでじゃなさそうだったよ
magnumより厳しいけど

0179名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/08(月) 15:27:26.66ID:Xy8bHzyF0

なんか富士通が凄い1bit量子化を開発したらしく
command-aをその技術で量子化したものを配布するとか
https://japan.zdnet.com/article/35237691/

0180名無しさん＠ピンキー (ﾜｯﾁｮｲ 9a27-dhXO)

2025/09/08(月) 16:17:19.71ID:f6OzfNqA0

>メモリー消費量を最大94％削減する1ビット量子化を実現。
>これにより、量子化前と比べて精度維持率89％という世界最高水準の性能を保ちつつ、
>処理速度を3倍に高速化した。

嘘みたいな夢の技術で草なんだ

0181名無しさん＠ピンキー (ﾜｯﾁｮｲ d7c3-ASDQ)

2025/09/08(月) 16:33:24.88ID:Z/7EV7k90

じゃあ嘘だろっ

0182名無しさん＠ピンキー (ﾜｯﾁｮｲ aa66-o23O)

2025/09/08(月) 16:37:51.74ID:zBwTMHsf0

BitNetちゃんはどうなったんですか？

0183名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd4a-37a0)

2025/09/08(月) 16:41:04.88ID:/tHg3GFDd

嘘みたいな本当の話(様式美)

0184名無しさん＠ピンキー (ﾜｯﾁｮｲ baeb-//eG)

2025/09/08(月) 18:53:34.35ID:SmKNjTkH0

本当なら革命的過ぎるだろ

0185名無しさん＠ピンキー (ﾜｯﾁｮｲ fe7a-zNAd)

2025/09/08(月) 18:58:17.07ID:DAUS0Vio0

アニメじゃない
アニメじゃない

0186名無しさん＠ピンキー (ﾜｯﾁｮｲ 8b81-PAgB)

2025/09/08(月) 19:15:04.20ID:ZAKIf4uD0

>>179のやつこれらしい
://huggingface.co/qep/qep-1bit-extreme

0187名無しさん＠ピンキー (ﾜｯﾁｮｲ b7b5-sTI1)

2025/09/08(月) 19:45:50.13ID:mdiKwxMa0

>>186
ローエンドGPUでも動くとか記事にあったけど
32.4GBあるぞ

0188名無しさん＠ピンキー (ﾜｯﾁｮｲ 6e8f-PAgB)

2025/09/08(月) 20:14:27.99ID:2fbxNKp30

なんやこの怪情報は……ホンマやったら大事件やで
2レイヤーだけFP16書いてあるけど、将来的にはこの層だけGPUにオフロードして主としてCPUで演算するみたいな事もできるんやろか。結局メモリ帯域が足りんか？

0189名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f6a-Lbu8)

2025/09/08(月) 20:20:20.26ID:ii2Qwx+/0

1bit llmてMSのやつのパクリ？

0190名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/08(月) 21:00:40.67ID:Xy8bHzyF0

>>186
2.5bitくらいない？
いやまぁGGUFなんかも数字以上にでかいのばっかだから別にびったし1bitサイズでなくてもいいけどさぁ
これはちょっとでかすぎひん？

0191名無しさん＠ピンキー (ﾜｯﾁｮｲ abd6-yNNw)

2025/09/08(月) 21:15:01.58ID:ErovGGJz0

>>190
埋め込み層は量子化せんからな
command aは語彙数256kで滅茶苦茶多いから30%ぐらいは量子化されずに16bitで保持されてる

0192名無しさん＠ピンキー (ﾜｯﾁｮｲ 2a32-lqz+)

2025/09/08(月) 21:39:18.29ID:hLbgj8PG0

懐疑的だったりバカにされがちだけど富士通わりと信用してる

0193名無しさん＠ピンキー (ﾜｯﾁｮｲ db32-sTI1)

2025/09/08(月) 21:41:20.77ID:RndVeeho0

>>186
とりあえずggufに量子化してほしい

0194名無しさん＠ピンキー (HK 0H62-w2tz)

2025/09/08(月) 21:49:53.25ID:LubjsghCH

てすと

0195名無しさん＠ピンキー (HK 0H62-w2tz)

2025/09/08(月) 21:58:05.82ID:LubjsghCH

>>186
これ気になるわ

0196名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/08(月) 23:31:29.97ID:Xy8bHzyF0

重みの場所によって量子化度合い変えてるのは
unslothちゃんがやってるのと同じことか？

それとも全然違うことなんかなぁ
ようわからん

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ 2a32-lqz+)

2025/09/09(火) 00:55:13.79ID:H9FVpmp/0

元記事からはイマイチ読み取れんけどdynamic quantizationの一種じゃなかったら事件かもなあ

0198名無しさん＠ピンキー (ﾜｯﾁｮｲ aafb-Nw1s)

2025/09/09(火) 03:06:03.23ID:q/9nZWfL0

富士通のAIのニュース初めて見たわ

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ aadd-Zp20)

2025/09/09(火) 06:20:47.13ID:F2Nlmp0Q0

https://arxiv.org/pdf/2504.09629
論文自体は4月にプレプリント出てるこれか

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ af10-M23X)

2025/09/09(火) 10:05:00.85ID:8F4I4Vc00

俺の5090ちゃんでcommand a出来ちゃうの？

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ af10-M23X)

2025/09/09(火) 10:07:49.02ID:8F4I4Vc00

って思ったら推奨VRAM40GB以上って書いてあんね…🥺

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-eoO5)

2025/09/09(火) 10:22:30.61ID:H557KSrB0

unslothもbartuwskiも今ん所GGUF化しとらんね
有名モデルだとリリースされてから数時間でGGUF化しとるけどこの人ら
技術的にできないのか、やる必要ないと思ってるのか

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ 9b5e-PAgB)

2025/09/09(火) 11:21:13.92ID:P+al+Xe90

>>201
コレこそクラウドGPUの出番だな
契約して無駄遣いしてるやつに殴り込んでもらうしか

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f6a-Lbu8)

2025/09/09(火) 11:31:35.16ID:q37S+Bfh0

パープレキシティでしか評価してないってことは
実タスクで相当落ちるタイプのやつか

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ af43-Zp20)

2025/09/09(火) 11:36:20.78ID:TPuhOpJW0

GPT-oss-120bとかでやってみて欲しいんだよな
論文の著者がXで言及してたからやってくれるかもしれんが

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ea9-sTI1)

2025/09/09(火) 13:05:50.71ID:H557KSrB0

この量子化を行うためのソフトは公開してくれてないねんなぁ
論文だけ見れば他の人が実装できるようなものなんやろか

このあたりintel(autoround)とかmicrosoft(bitnet)とは姿勢が違うよねぇやっぱ

0207名無しさん＠ピンキー (ｶﾞｯｸｼ 0626-Zp20)

2025/09/09(火) 16:33:04.14ID:+6lF6wmQ6

https://www.gdm.or.jp/pressrelease/2025/0905/603289
流れてきたけどこういうのって使えるもんなのかね

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ ab39-oX69)

2025/09/09(火) 16:37:10.44ID:FvYfS6ek0

なんか来るのかな？

https://www.perplexity.ai/page/chinese-researchers-unveil-bra-qpwOqvGHTAWdlohIzxf3vw

中国の研究者たちは、主流のChatGPTのようなモデルとは一線を画し、生物学的ニューロンを模倣してエネルギー効率の高いコンピューティングを実現する、脳に着想を得た人工知能システム「SpikingBrain-1.0」を発表しました。

従来のAIシステムは、大量のデータセットと計算能力を必要とするトランスフォーマーアーキテクチャに依存していますが、新しいモデルは、主流モデルが通常必要とする事前学習データのわずか2パーセントしか使用せず、同等の性能を達成しています。

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ 936f-Gd3L)

2025/09/09(火) 16:44:29.13ID:0HiZJcJ10

ついに本物のニューラルネットが来るのか

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ 936f-Gd3L)

2025/09/09(火) 16:56:23.59ID:0HiZJcJ10

>>196
本質は量子化するときのグループを広くしようってことみたい
今までは層1,2,3とあったら各層ごとに量子化してた
QEPは層1での量子化やったあと、その量子化誤差を層2での量子化で考慮する、みたいな
そして今度は層2での量子化誤差を層3での量子化で考慮する

記事の1bit云々はよくわからない
INT4辺りだとヘッシアン使うGPTQとそんな変わらんかったってことなんかな

0211名無しさん＠ピンキー (JP 0H07-PAgB)

2025/09/09(火) 17:11:31.28ID:ukhsyM9SH

>>208
CXLってのが普通のCPUは対応してなくてダメらしいのでThreadripperで遊べる富豪以外は縁がない
あとPCIeだからメモリ直刺しよりいろいろ劣るはず

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ af43-Zp20)

2025/09/09(火) 17:16:49.92ID:TPuhOpJW0

Sakana.aiもそうだけど生物学的アプローチを測ろうとする研究まあまああるよね
アーキテクチャ的に覇権握るのは難しそうだけど

0213名無しさん＠ピンキー (ﾜｯﾁｮｲ aa97-0wYC)

2025/09/09(火) 20:33:17.86ID:IYOhagA50

LMstudioでこの界隈を知ったからずっと使ってるんですけどなんかメモリ効率悪いとか処理が遅いみたいなウワサを聞いて困惑してます
実行環境で優秀なやつってどれなんですかね

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ db32-sTI1)

2025/09/09(火) 20:49:01.82ID:HmjLdaGy0

>>213
ワイは手軽なkobold使ってる

0215名無しさん＠ピンキー (ﾜｯﾁｮｲ beab-7f2d)

2025/09/09(火) 21:41:46.20ID:ATCCfEy60

40GのVRAMってA800とかだろ
ご家庭に200万円クラスのカードが買えってか?
gpt-oss-120bを10Gbyteくらいにしてくれたほうが
世界中のみんなが幸せになれて、この方式がデファクトスタンダードになる可能性があるのに
日本メーカーって技術はよくても謎のケチくささで後出しの海外製にあっさり抜かれて勝てないパターン

■ このスレッドは過去ログ倉庫に格納されています