なんJLLM部 避難所 ★8 	
レス数が1000を超えています。これ以上書き込みはできません。
 !extend:checked:vvvvv:1000:512 
 !extend:checked:vvvvv:1000:512 
  
 AIに色々なことをしゃべってもらうんやで 
 そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 
 自薦・他薦のモデルやツールは>>2以降 
  
 本スレ(避難中) 
 なんJLLM部 ★7 
 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 
 前スレ(実質本スレ) 
 なんJLLM部 避難所 ★7   
 https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/ 
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured  llama.cppのn-cpu-moeオプションええなこれ 
 gpt-oss-120bが20token/s近く出るわ  opencvってウンコだな、diffusersしか勝たん  OpenCVは数学的に正確な関数であって幻覚がでる拡散モデルじゃないから用途が全然違うから比べられない 
 もっともClear LinuxもOpenCVもCPUもIntelだからオワコンではあるが  >>951 
 Chutesの推論apiサブスク(10ドルプラン)で使ってるけど、アレも多分プライバシーポリシーなにそれなやつだと思うからオススメはしにくいな  画像処理させるのにGPU対応が難しいopencvをAIが使おうとするのやめてほしい。いちいちopencvは使うなとプロンプトに書かないといけない  >>964 
 空リポジトリなのにすでに500↑いいねとかDeepseekほんま覇権やな  オープンウェイトのモデルがどんどん増えてるのはありがたいけMoEばっかで24GB-32GBGPUに適合するdenseモデルは全く増えんな  むしろmoeのが良くない? 
 llamacppでmoeの高速化パッチ当たったばっかだし 
 vramが24gbありゃ100bクラスのmoeを実用的な速度で動かせる  MoEのが結果的にvRAM節約出来てるから方向性的にはそれで良い気はする 
 GPT-ossもm4macbook単体で動くレベルなのが凄いし  100B前後のmoeはdenseの24-32B程度の性能しかない(LMarena基準) 
 それでいてオフロードしないと動かせないし速度もアクティブパラメータ次第だけどVRAMに全部載った30Bより遅い 
 例えばgpt oss 120B(A5.1B)を4090 + DDR5 96GBで動かすと15-20t/s 
 GLM4.5 airだと10-12t/s 一方高密度32Bモデルの4bitが4090で30-35t/sも出る 
 その上微調整しようとするとパラメータ数相応のメモリが要求されるから嫌い 
 サービスを提供したりcpuオンリー環境なら恩恵あるのは理解できるけどね  >>972 
 どゆこと? 
 qwen3-30b-a3bより順位高いオープンな非moe無いように見えんだけど  no-thinkingとほぼ互角って感じやねthinkingだと差をつけられるんじゃないかな 
 VRAMをもっと手軽に盛れる環境がこないかぎりはMoE路線の方が今のところの現実路線な感じがする 
 ryzen ai max+ 395とかユニファイドメモリもうちょっと盛り上がってくれるといいんだけど  俺のスペックに丁度いいサイズのMoE出せよってことなら分かる 
 勝手ながら30bは小さいし235bはちょっと苦しい  >>974 
 それproprietaryって書いてあるからクローズちゃうんか  Deepseekv3.1出たけどAPIのコスパの良さが際立つくらいで671B-A37Bはローカルやと使いにくそうやね  >>978 
 そこら辺はオープンウェイトとは言ってもH100クラスを想定した設計なんじゃね 
 Kimi K2やGLMもそう 
  
 Qwen3-235B-A22Bだけが大型モデルで唯一ご家庭で動くギリギリを狙ってきている 
 QwenはImageもあるし設計思想がPCを意識しているんだろう  >>972 4090ってそんなに遅いのか 
 macだと65-70tk/sくらい 
 gpt oss 120B(mlx)  >>981 
 そりゃVRAMに乗り切らない分はCPUで演算しとるからね 
 GPUと比較したいなら相手はVRAMに乗り切るRTX PRO 6000になるんとちゃう  redditに出てたけどpro 6000での20b 120bの出力速度はそれぞれ200t/s 140t/sらしい 
 ちなみにvllmを使うとgpt 20bをバッチ機能を使って計算リソースを飽和させれば4090でも10000t/s出るらしい 
 複数利用を想定するならMoEは圧倒的に有利  ローカルLLM演算って基本同規模vRAMなら帯域差でMac勝つ印象だけどそうでもない?  >>985 
 その認識であってると思う 
 結局MacはGPUの性能が足りてないから  生成速度なら帯域速度の差だけどprompt evalがMacはクソ遅いということは無視されがち  なんかMac、というかアップルシリコンはFP8だかFP16あたりの処理が不得意な感じらしいな  インテルはAVX2(AVX-256)があるからCPU単体でも並列演算で速い 
 AVX-512ネイティブ対応ならさらに早い(AMDはエミュだけど) 
 Apple Mシリーズ NEON(ARM SIMD)は128bitしかない 
 GPU側だとUltraまでいかないと演算器が足りない。Ultraで4070くらい 
 ただ実際「汎用の」ピクセルシェーダーを書いてると5090並に速くなることもあるんだよね 
 バス幅が有利なんかな  RTX3090でも快適に使えるエチチもいけるLLMで今ベストってQwen3-32B-Uncensored.Q4_K_M?  xeonのAMXがcoreにも搭載されりゃいいんだけどなぁ 
 xeonをxeonたらしめてる理由の一つだし無理かなぁ  >>993 
 coreだとメモリ帯域足りなくてAMX搭載しても活かしきれなさそう  core ultraとか言う中途半端オブ中途半端sの事は考えなくて良いと思う  もうみんなローカルLLMは使ってないの?APIのみ?  ddr6と同時にintelもAMDも4ch動作をコンシューマで解禁するみたいな噂もあるしローカルはCPU推論がメインになりそうではあるな 
 nova lakeとか52コアで高くても20万円くらいでしょ 4ch ddr6なら帯域幅256GB-512GB/sも狙えるしMoEなら70万円程度でSOTAモデルを実用レベルで動かせる可能性高そう 
 というかそう考えるとmac studioの先見性すごいな  Mac Stuidoの場合基板にメモリ直付けでオクタチャンネルだしな 
 NVIDIAにしてもサーバー向けのGrace HopperはArmCPUにGPUとHBMメモリの一体設計だし 
  
 ソケットやスロットで全部のパーツを交換可能なのが自作PCの強みだけど、AIでハイパフォーマンスを目指すとなると、ソケットやスロットで配線が厳しいのがボトルネックになってきてる  ローカルLLM初心者なんだがLM StudioでNSFWで検索したら出てきたQwen-72B-nsfw-novel-GGUFをダウンロード中なんだが 
 もしかしてNSFWよりUncensoredの方がファイル名としては一般的?  このスレッドは1000を超えました。 
 もう書けないので、新しいスレッドを立ててくださいです。。。  
life time: 104日 11時間 33分 22秒 レス数が1000を超えています。これ以上書き込みはできません。