なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured なんUってそろそろ帰っても良さそうやけどまだグロ爆撃あるんやっけ もう爆撃は無い
でもこの板に文章生成AIスレがあるから移動する必要性を感じない
こっちはローカルメイン、あっちはWEBサービスで住み分け出来てるし
そもそもなんU戻っても過疎すぎて人増えんやろ GPTかGeminiかClaude並の知能あって何も拒否しなくてローカルで動くやつ、出して CohereLabs/command-a-reasoning-08-2025
なんか出てた grok2なんて今更どうするんだ
性能ではもう価値ないだろう command rってちょっと前にあったよ、なんだったかもう忘れたッピけど… >>19
MoEだとちょうどいいサイズなんだけどMoEじゃないから動かすのしんどいやね
Cohereは最初からなんでも出力してくれるから好きなんだけど MacでもRyzenAIでもいいからVRAM126GB
50万以下で載せられる時代来ないかね 毒舌なんじゃなかったっけ?grok2
あとエロに寛容? Grok2は研究用に使ってねって感じだからローカル民が使う用途にはなって無さそう 今時の高効率なLLMと比べるとgrok2なんて研究用でも使い道あるんかな。llama4もそんな感じのレベル 今のLM Arena日本語ランキングの上位勢でオープンなLLMのサイズ調べてみた
qwen3-30b-a3bがなんか異常にいいのとqwen3-235b-a22b、gpt-oss-120b、gemma-3n-e4bあたりがコスパいいね
コスパじゃなくてパラメータに対するパフォーマンスだからパラパと言うのかわからんけど
https://i.imgur.com/3351cnd.png
このリストでは一番下にいるllama3.1-405bって出た当初はクローズLLMも含めた中でtop5くらいに食い込んでた記憶があるけど
今や4bのgemma-3n-e4bに抜かれてるのとかLLMの進化は恐ろしいな llamaってもう過去のものみたいな感じするからな MetaはFacebookとかInstagramのビックデータ資産があるのにどうしてこんなにAIショボいのだろうか
Grokはその部分で成功しているのに grok はつまみ食いしてるだけだから
というか何も成功はしてないだろ えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ 確かに信じがたいけど一応今の順位はこうなってる
ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能
であることを考えるとありえなくはないかなとも思ってる Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B
IQ Test | Tracking AI https://www.trackingai.org/home 違ったこの表>>34は偏差値だから、gemini pro 2.5の次くらいかな? >>27
ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな… gpt-oss-20bよりはQwen3 30B-A3Bのほうがまあって感じはあるけど、それでもClaude超えはちょっと眉唾感
ローカルでしか試してないけど そもそもlm arenaは性能じゃなくて人間の主観による評価だからあんまり参考にならない
llama4みたいに実性能は終わってるモデルでも媚びへつらいまくったら上位に入れるからね
性能比較したいならartificial analysisの方がいいよ Qwenはエロが終わってるからこのスレ民には全く価値ない それよりMistral Largeの新バージョンがもうすぐ出るという噂だからこっちが本命かも 実際に使わずに推測しだすのは謎すぎる
Qwen30bは性能はよくある30b程度なんだけど日本語そのものが流暢ってモデルだね https://i.imgur.com/Cqa45vu.jpeg
ローカルで使いやすい〜30Bくらいのモデルだと大体こんな感じ
LGが出したExaone地味に気になってるんだよな メインメモリ増やしたからGLM 4.5 Air Q6さわってみたけど理解力とエロは良かった
ただ結構中国語混ざったりワードチョイスが変で日本語はなんとも
Mistral系ぐらい日本語出来て100B前後のMoEが欲しくなる LGもLLM作ってたんだな
NTTも作ってるらしいけど公開しないから無いのと同じだな ちょっと前にSTでGLM 4.5 AirのQ4KM触った時はワードチョイスはともかく特に中国語混じったりはしなかった記憶
サンプラー設定の違いかな?
ただAirのQ4動かすよりGLM 4.5無印のIQ2XXSの方が体感的には良かった 量子化はかなり性能落ちてるから元モデルの性能あまり当てにならないんよな
落ち方も色々だし >>45
あれそうなんだ、設定弄ってみます
無印も試そうかな ベンチマークと体感の性能が合わなすぎてな
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ 典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね AMD RDNA 5がVRAM 512GB載せられるかも、みたいな怪情報が出てたけどどうなんだろう
70Bクラスのモデルをfp16で動かせるのはすごそう strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ… command-a-reasoning-08-2025
これ3月版より進化してないか?
むちゃくちゃエロくなってる >>57
koboldだとthinkしてくれない
逆にどうやったらthinkさせられるかな?
thinkさせたら更にエロくなるかもw >>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。