304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした
Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後
M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s

不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた
llama.cppのVerかパラが違うっぽい?