なんJLLM部 避難所 ★9
Mac Studio512GBでGLM4.6動かしてみた人いないの >>660
https://x.com/AliDTwitt/status/1977685088285675860
以下GROKによる翻訳
Mac Studio M3 Ultra 512GB RAM 80 GPUでGLM 4.6 8bit(MLX)をローカルで実行中。LM Studioで書くと、380GBのRAMをガッツリ使いながら、たった3.5トークン/秒しか生成しない。壁のペンキが乾くのを見ている気分。
品質ではGPT5 Codex(High think)やSonnet 4.5を上回る。とにかく遅いだけ。
@Zai_org
の素晴らしい仕事、GLM 4.7が大幅に速くなることを期待してる。 >>658
期待してたんだけど、この値段で速度 1/4 かぁ。
DGX Spark GPT OSS 120B: 11.65 tok/sec
M3 max GPT OSS 120B: 41.71 tok/sec >>661
3.5t/sも出るならワイ的には十分実用や VRAMの速度がローエンドGPU以下なんよ
MoEが増えてきた今まじで存在意義ない
この速度でもせめて512GBありゃまだ存在意義あったけど といってもVRAMが300GB/s以下ってことは500GBのDenseモデルを動かすとしたら最大でも0.6トークン/sって事にならんか?
やっぱり帯域不足は痛いで。LPDDRを使う方向性はええと思うんやけど、それなりに高速なチップとクソ広バス幅用意してくれへん事にはなぁ…… もしかするとMoEだとXeonやスリッパのヘキサチャンネルオクタチャンネルDDR5の方がLPDDR5より良くね?って思えて来た MoEモデル前提だとLPDDR5選ぶ理由はないわねえ
70Bあたりのdenseモデルがスカスカだから活かしどころがないのも難点 単一モデルでthink/no thinkモード切り替えみたいにnsfw/sfw切り替えできるようにならんかなー think/no think切り替えとnsfw/sft切り替えは
本質的に同じだからできるんだけど
やってくれる人がいないんだろうねw
一番最初が一番儲かるからがんばってみては? >>667
もともと1gpuじゃ不足気味なジャンルってことでpcieレーン数的に向いてたけどメモリの帯域も恩恵受けだした状況ね ミニPCみたいなナリでオクタチャンネルのメモリ搭載してるMacStudioがやっぱ凄いわ