なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>79
おぼえられなくなっちゃったからにはもう・・・ネ・・・ 最近だと前スレで出てたCydonia v4がよかったくらいだな
もちろん理解力とか知識は24B相当ではあるけど同サイズ帯だったら個人的には一番 512GB、帯域幅819.2GB/sのユニファイドメモリのM3 Ultra Mac Studioが150万か… ベースモデルの性能だと今もmistral small 3.1 baseがずば抜けている印象
新モデルだとseed ossとかZLMもqwenもgemmaと同様に知性自体は悪くないけど日本語工口知識はなさそう
mistralもマイナーチェンジしか出さないしもう一社くらい良い性能のモデルだしてほしい MS3.2-PaintedFantasy-v2-24Bが自分の中じゃ一番かなぁ繰り返しや変な点が沢山ついたりするのが無くなった >>97 VRAMを500GB以上にできるから実は激安なんだよ! 正直その辺のファインチューニング版は日本語だと普通に誤差レベルだと思う
学習データ全部英語だろうし
たまたまその人にとっていい感じになったとかはあり得るけど個人差の域を出ないと思う mistral-smallに日本語を継続学習させたのをCydoniaあたりとChatVectorしたらいい感じになったりしないかな windows updateしてからタスクマネージャーでGPUの状況が表示されなくなったんだが 大体winアプデに含まれたドライバ自動で当てられておかしくなってるから入れ直し スレ違いかも知れんが特に話題無いようだしここで聞かせてくれ
やっぱ文章生成だけじゃなくて喋らせたいんやがみんなTTSは何使うてるんや? AivisSpeech、voicevox、elevenlabsあたりか? elevenlabsは初めて聞いたな
しかしローカルで動かんからこれアカンな…
無難にvoicevoxとaivisspeechを試すわ感謝 いやらしい感じの文章をえんえんリピートする症状って結局根本的な回避法ってないのん?
症状が出ないように温度となんとかペナルティを祈りながら動かすだけ? ワイのパソコンDDR3 32GB RAM + 4060Ti 16GB VRAMとローカルLLM的にお寒い性能なのでそろそろ更新せなって思っとるんやが、
Ryzen 9 7XXX系にRAMガン積みするのと、AI Max+ 395みたいなユニファイドメモリみたいなタイプ、どっちが将来性あるとみんなは考えとるんや?
今のグラボも使いまわしたいし、LLMだけでなくSBV2とかUnityでVR開発と醸しとるんで、今んとこRyzen 9 + RAMガン積みに気持ちは傾いとるんやが、みんなの忌憚のない意見やワイの見落としてる点とか聞かせてもらえたら嬉しいんやで 今判断するの難しいけどやっぱまだメモリ増設できる普通構成で良いんじゃないかな
ローカルモデルが巨大化していって、転送帯域ゴリ押しみたいなやり方も続くなら、一般人がLLM使うときの正解はメインメモリ直付け高速化したPCになっていくけど Ryzen9 9950x,96GRAM,4080s だけどLLMを実用に使うのは自分では無理
プロンプト投入、応答に10分待つとかできるならOK
待てる待てないは人にもよるからね
いくらRAMを積もうがPCIeを5から7まで上げようが現状のMoEモデルでもほとんど効果がない
x86系は全部VRAMで動作する画像生成なら速いんだけどね
AI Maxはいまのはやはり「積んでみました」程度
次期バージョンであっても結局バス幅が128bitとかだから帯域がまるで足りない
DDR8くらいならなんとかなるかも? >>110
繰り返しは仕組み上避けられんしな
根本的な方法というならDPOとかでチューニングすればある程度緩和できるはずだけどデータセットを作るのが面倒くさそう 繰り返すのはプロンプトが悪いのもあるんじゃね、頭悪いLLMは繰り返しとか続けてとか、プロンプトに入れるとループする RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。 >>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか?
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな 小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ… もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな… Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る >>120
え、そうなんだ。。。
てか脱獄して 以降の意味がちんぷんかんぷんだから調べてやってみる >>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事 >>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)
真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ >>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する >>122
Wikiみて脱獄したらイケた!ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね
あともう一つ、勝手に「っっっっっ」とか「!!!!!」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの? >>122
調べて自己解決した!
Repetition PenaltyがGemini APIには無いから(設定欄がない)温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった!
サンガツ! >>113
9950xでCPU使用率はどれくらい?
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。 いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな >>127
横からだけど9900x 128GB VRAM 12GB
GLM4.5AirQ4でcpu-moeをmax、コンテキスト長32kでVRAM使いきり
これで使用率gpu50%cpu100%、4t/s
9950xでもレイヤー数とVRAM次第だろうけど100%になると思うよ mambaは期待の新技術ではあるんだけど7Bとか9BとかのSLMしか出てこないのはスケーリングに問題あるんかね mambaって知らんかったから調べてみたけど去年の技術なんやね
今それを採用したモデルが全然出てないの見ると厳しいのかね 多分差が出ない、てかむしろ負けるから出せないんだと思う >>127
遅くなってすまん
せっかく >>129 が例を出してくれたから条件揃えようと思ったらダウンロードに時間かかった(笑
条件は合わせたつもり
Yahooニュースから適当に拾った事件1000文字に対して、文章要約とその対策案を聞いた
- Q4K_M 9950X,HT off(16core)
プロセッシングに8秒、CPU,GPUともに100%付近
結果は5,2tk/s
96Gメモリだと残り7GくらいになってOSに回せるギリギリだw
HT切ってるのは開発用マシンなので仮想PCに正しいCPU数を割り当てたいから
もちろん仮想系は全部切ってテストした
- Q6 mac studio m4max,プロセッシングに 0.4秒、結果は 34tk/s >>129>>133
CPUを安く済ませられるかと思ったけど、そうもいかないのか。
アリガト それでもx86に対応する技術者はすげぇ頑張ってるのよ
ほんの数ヶ月前ならCPUを全く活かせずもっと酷かった
こんなにうまくCPUを使える様になってるとは知らんかった Mac Studioええなあ
128GBくらいあればLLM困らないんやろか 自分のしょぼ環境で動く範囲だと
Gemma3が一番エッチな文章書いてくれるわ
Mistral-Smallと違ってひよこ系で激怒するから回答編集してイエスマンにする必要あるけども…
123Bのモデル触ったら世界変わるんだろか 汎用で量子化するならQ6は最低限な感じ
mlxだとFP16からの量子化でmixed_2_6とか4_6にできるけどベストポジション探すのめんどい
mac 128Gだと100B前後が限界。300BをQ2とかで動かしてもね
そのサイズだとGPUパワー足りなくて待ちきれん
M4maxだと128Gは絶妙なサイズなのかも
M3Ultraはどうにも予算がw
VRAMに乗ればnVidiaは圧倒的
MoEはそろそろピークで次はJet-Nemotronだな
来年のLLM界隈も楽しみだ >>140
俺自身は貧乏だからMacに全く縁は無いが
mac 128Gに適当なeGPUをつけてメモリを更に盛ったりは出来ないの? 電気的にはTB5だからeGPUはできる筈なんだけど、Appleはサポートしない、と明言してる
自作すればできるかもしんない
メモリはDRAMという意味ではメモリは盛れない
TB的にはDMAサポートくらい
インフィニバンドみたいなメモリマッピングはない
SSDなら外付けの4T SSDから起動できる(してる)
スレチになってしまった、すまん >>142
Macも一長一短なんだな
DGX Sparkもモノが出てこないし過渡期だわ https://x.com/liquidai_/status/1963681029333618960
350Mパラメータで4oクラスの日英翻訳できるってことはローカライズなしでローカルLLM動かして遊ぶ選択肢出来そうやけどどうやろ また新しいの来てる
mradermacher/InternVL3_5-241B-A28B-GGUF
https://huggingface.co/mradermacher/InternVL3_5-241B-A28B-GGUF
Q4_K_M 142.3GB
Q4_K_S 133.8GB
Q3_K_M 112.5GB 最近のモデル見てると128GBで273GB/sはもう力不足感がある >>146
ConnectX7搭載されてるのか!?
AIではなくファイルサーバーとして使いたくなってくるな 50万以上いっちゃうなら、Mac Studio M4Max 128GB(帯域546GB/s)にするかなぁ… 俺だったら今後もMoEが盛り上がってくのに賭けて5090+メモリ256GBにすっかなぁ(と思うだけで買う金ないけど)
ただこればっかりは半年前が大昔に感じるこの業界、どうなるかわからんもんな・・・
半年後にはdenseばっかりになってるかもしれない MoEも結局クソデカメモリがいるって点で優しくはないからなあ DDR5なら64GB*4が最安10万で買える
なんかLLMでハード一つこしらえようと色々調べてると10万が糞安く感じる Qwen3 Maxが出たけどオープンモデルではないのかな Qwen3 Maxって1兆超えなんだ。
expつかってM3 Ultra2台(1024GByteメモリに見せかける)で動くのか。安いな(麻痺 expじゃない、exo github.com/exo-explore/exo >>156
公式チャットで使ってみたけど正直あまり賢くない感じ
指示に引っ張られ過ぎて幅広い観点から生成出来ない傾向がある
これからまだ調整するのかも知れないが現状ではカネを払うほどの価値はないかな まだ中華LLMのなかではGLM4.5が一番使えるな 「遅いけど動く」と「全く動かない」には天と地ほどの差があるからDDR5の256GB憧れるわ
最悪、外出中とかに動かしっぱなしにしておけばいいし
スクリプト組んで複数出してガチャとか >>160
俺は多段生成による精度アップを狙ってるわ
コード生成ならレスポンスに自動的に文法チェッカーをかけていったん突っ返すとか
人力でやってきた面倒くさいやり取りを省力化する感じやな
電気代しかかからないから出来る贅沢や >>145
LM StudioでInternVL3.5動かしてみた
MoEなので、メモリがあれば動くな
小説書かせてみたけど、英語やハングルが混じることがあるし、日本語が怪しいなあ
このモデル優秀みたいだけど、小説には向いてないんかね >>163
マルチモーダルやね
画像認識どんな感じ? 動画生成で英語のエロプロンプト描かせたいんですがおすすめの無規制モデルありますか?
GPUは4090です >>164
画像認識は飛びっきりという訳じゃないけど、いい感じよ
文字認識はそこそこいけてる感じ
あとでレポするわ ジブリのフリー素材を元にInternVL3.5の画像認識してみた。
ついでに別のモデルと比較してみた。
比較対照画像
https://i.imgur.com/qsieYr7.jpeg
プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字(OCR)、レイアウト、リスク(個人情報・著作権)、
推論(何が起きているか)を日本語で返してください。
画像解析レポート比較(InternVL3.5 / GLM-4.5V / ChatGPT-5)
https://rentry.org/gb3zddft
使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5
総合比較所見
InternVL3.5:全体像を捉えるが、OCRで誤認(「釧路」→「金路」)。記述は簡潔。
GLM-4.5V:服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5:人物の感情(慌てている・落ち着いている)など解釈を加えた推論が強み。 ChatGPT-5だけ性別答えなかったから、追加で聞いてみたら「断定はできない」って言われたわ
短髪で、男の子にも女の子にも見える中性的な容姿らしい
ぱっと見た感じ、まつげがあったり、麦わら帽子のリボンがピンクだったり、スカートっぽかったりするから、女の子だと推測するんだけどね
ま、もう少し突っ込んで聞いてみたら、「女性キャラクターである可能性は高い」って返ってきたわ >>167
Kimi-K2-Instruct-0905いれてみたけど何が良くなったんだろうな
Kimi-K2は比較的比喩が多めで、あいかわらず難しい文章だけど芸術的な文章を書くんだよな
結構リアルに描写してくるし
官能小説書かせるならKimi-K2がええかもしれんな >>172
KimiはQwenと比べて脱獄が難しい
鉄板の脱獄シスプロがあったら教えてくれ LM Studioのモデル一覧でたまたま見つけたHermes 4ってモデルが無検閲らしいんだけどRTX4070Ti SUPERじゃ1token/secで泣いた、てかなぜかあんまりGPU使ってくれなくて遅い
しかも普通に検閲された 405B、70B、14Bとあるけど全部llama3.1のファインチューンみたいやね
Llama3.1はいいモデルではあるけどさすがに最新モデルと比べると古臭く感じてしまうな VLMでのキャプショニングいくつかモデルとか訊き方試して調査したけど自然言語だと点数つけるのムズすぎてレポートにするの諦めたわ VLMのベンチマークの問題と解答を
このスレ向けのに差し替えるのがええと思う >>173
前スレでも公式からだと脱獄が難しいと言ってたな
ローカルだとそこまでじゃなさそうだったよ
magnumより厳しいけど なんか富士通が凄い1bit量子化を開発したらしく
command-aをその技術で量子化したものを配布するとか
https://japan.zdnet.com/article/35237691/ >メモリー消費量を最大94%削減する1ビット量子化を実現。
>これにより、量子化前と比べて精度維持率89%という世界最高水準の性能を保ちつつ、
>処理速度を3倍に高速化した。
嘘みたいな夢の技術で草なんだ >>179のやつこれらしい
://huggingface.co/qep/qep-1bit-extreme >>186
ローエンドGPUでも動くとか記事にあったけど
32.4GBあるぞ なんやこの怪情報は……ホンマやったら大事件やで
2レイヤーだけFP16書いてあるけど、将来的にはこの層だけGPUにオフロードして主としてCPUで演算するみたいな事もできるんやろか。結局メモリ帯域が足りんか? >>186
2.5bitくらいない?
いやまぁGGUFなんかも数字以上にでかいのばっかだから別にびったし1bitサイズでなくてもいいけどさぁ
これはちょっとでかすぎひん? >>190
埋め込み層は量子化せんからな
command aは語彙数256kで滅茶苦茶多いから30%ぐらいは量子化されずに16bitで保持されてる 懐疑的だったりバカにされがちだけど富士通わりと信用してる