Llama-3.1-70B-Japanese-Instruct-2407 だけど
ターミナルから56GByteまでVRAM利用許可を出したら動いた
```
次のurlを日本語で要約して
https://en.wikipedia.org/wiki/Apple_M1
```
mlx版(NeuralEngine対応版。NPUだね)は 4bitで 5token/s
gguf版はQ4が全滅だったので Q3KSで 3.2token/s
1bit多いのにmlxのほうが速かった
LM Studioも0.3.4だとmlxのメモリー効率悪くてmlxで動作させられなかったけど
0.3.5にしたらQ4で動いた。ありがてぇありがてぇ
M4 max(Ultraも?)NEがM1の何倍も早いらしいし楽しみだな