なんJLLM部 避難所 ★9
>>429
もちろんそういう問題もあるけど知識や技術の差も大きいで
アホな小学生は文章の良し悪しや文法の間違いに気付くことが出来ない
絵も同じで画力が無い奴は絵のおかしな部分に気付くことが出来ないし、単に下手なのかわざと崩しているのかの区別もつかない
画力があると絵を見た瞬間に多くの情報を正しく拾っておかしな部分に気付いてしまう
んで人類のほとんどはアホな小学生の文章力と同レベルの稚拙な画力しか持っていないから間違いが気になるはずもない
英語苦手な奴が英文読んだときにその良し悪しに気付かないのも同じことやで OpenRouterにGrok 4 Fastが来た。
しかもフリー。なんだこれ最高かよ。 CPU推論ってシングルスレッドが有効?
スリッパだとシングルが弱い上にメモリアクセスにワンクッション挟むからRyzen 8000シリーズより遅くなる印象
ThreadripperならGPU複数枚構成かなぁ epycで良くないか?
SP5ソケットなら最大12ch動作やから500GB/sくらい出たはず
それにデュアルcpuにすれば理論帯域幅も倍になるから1000GB/s超えも狙える(ソフト側の問題で実際の速度向上は30%程度らしい)
まあCCDの数で実際の帯域幅は律速されるから12chフルで使えるCPUにすると数百万コースやけど 調べたら9B45とか128core DDR5 12channel で50万くらいなので組み方次第で100万以下も狙えそう
MoEならGPUも載せて一部オフロードすればさらに高速化狙えるし pcie4.0でいいやと思ってsp3マザーとzen2epyc狙い magistral 1.2推論ってやつ使ってないけど普通に楽しいや epycはxeonのAMXより速いってベンチマーク出してきてるけどほんまなんかな
llmのcpu推論は第三者のベンチマークがほとんどないんよなぁ Threadripper Proやepyc買うなら24コア以上推奨
16コア以下だとCCD数の関係で、例えば8chのメモリ帯域をフルに活かせない
chが増えるほど必要なCCD数がいるはず jukofyork/command-a-03-2025-uncut
command-aの規制解除版(lora統合かな?)
規制強かった3月版が、エロエロになったわw qwen3 omniは純粋に面白そう
日本語での音声入出力が可能らしい まもなく10月だが、Windows11とかCPUとかどうでもいい
TPMなんか無くても何ら問題ない Qwen明日またモデル出るっぽいな
ミニサイズで性能良かったら嬉しいが、 Qwenのリリース速度はすごいな
さすがアリババ
クラウドサービス持ってるところは強い >>424
人類が意味と価値を見出せるパターンが文章より圧倒的に少ない
ローカルで動いてる画像生成なんて裸の女の子ドーン!みたいな似たような絵しか出ないやろ
それに自然言語で色々出せるモデルはそろそろローカルじゃキツくなってきてるころや エロ小説をLMstudio君に生成させてみたいんだけどどのモデルがいいのかね?
さすがにgptモデルじゃ無理でした… >>448
おほーサンクス
家に帰ってみたら早速実装してみます オナテク板で真面目なLLM性能も議論してるから教えて欲しいんやが
コード添付して色々教えてもらうのってどのモデルがええんや?
GPTやと1つのphpコードであれこれ入門的な説明してもらってるときに
「添付があるからこれ以上続行すらさせへんで」になるからLLMでやりたいんや codingとか名前付いてるやつかgpt-ossでいいんじゃない
でもクラウドモデルのが圧倒的にいいからgpt以外も試してみるべきかな コーディングだとclaudeが強いって前に評判だったけど最新の情勢は違うのかもしれん
ローカルだとそもそもコンテキストサイズ的に満足行く回答が得られるか怪しいと思うで claude安定なのはそうだけど添付で怒られるってので勝手に無料想定して外してたわ >>451-453
サンガツ
添付が無かったらワイのつたない質問でも永遠に相手してくれるんやが
100行のPHPコードだけでもすぐに「このスレッドには添付があるからこれ以上は質問すらさせへんで」になるのが無料やから仕方ないんよな コーディングはエロ小説と違って間違いが一つでもあると動かないからローカルLLMではまだ厳しい
Qwen3-Coder-480B-A35B-Instructでも微妙だった どうしてもローカルがいいならgpt-oss 20B/120Bかqwen3 coder試してみて、ダメだったらcodexとかclaude codeにいくしかないと思うで
強めのグラボ積んでるならLM StudioでGPU offloadを最大にしてflash attensionを有効にすればワイの環境ならgpt-oss 120Bで140tok/sec出てるで
長めの文章読み込めるようにcontext lengthをそのモデルの最大(gpt-ossなら13万)にするか、遅くならない程度の値にしておくんやで コードを扱うならどこのAIでも良いので大人しく課金した方が良い
仕事でバリバリ使ってない限り20$の一番安いプランで、
チャットでもCLIでもまず制限には当たらない ↑gpt-oss 20Bで140tok/sec出てるで の間違いや
120Bで140tok/sec出るモンスターPCほしいわ ai studioでいいのでは?
あそこ制限ないぞ >>456-458
それでご飯食べてるわけではなくて初学者で
まれにファイル添付して全体的な質問をする時があるくらいやからその時はローカルでと思ったんやが
codeがついているモデルで添付OKなモデルでやってみるやで 試行錯誤の時間のほうがコスト高い
ノールックでChatGPT契約して なんも考えずにChatGPT契約して使い倒してから続けるか止めるか考えればいい
ローカルLLMは日本語でやりとりすることによる 性能ロスが大きすぎるから殆どの用途で使い物にならん
英語ネイティブですというなら違う可能性はあるけど ChatGPTの契約はもう必須と捉えてるからコストとして考えてないわ ワイも必須になりつつある
毎日の食事カロリー計算から運動のリマインダー、
あとマイコンボードでのデバイス制作とめちゃ助かってる
(肝心な部分はredditの海外ニキらのコメントだが)
でもローカルLLMはロマンはあるンゴね 日本語が下手なので使いこなすのも何気にエネルギー要るのはワイだけか カロリーは脳ミソでもかなり消費するはずだから
エネルギーが要るというのは間違ってはないと思う
お堅い文面でもLLMにぶち込むモノでも頭はけっこう使うし >>468
プロンプトの書き方も使いこなし方もAIに聞いてお勉強するんや 【朗報】さくらインターネットのAI、「さくらのAI Engine」の一般提供開始!!国策AIがついに動き出す! [673057929]
http://greta.5ch.net/test/read.cgi/poverty/1758803926/
これ一から自前で作ってる国産? ただのインフラ屋のさくらがそんなもん自前で出来るわけないやん さくら最近gpu鯖そこそこ用意してたし良し悪し問わなきゃモデル作るのも難しくはないから
オリジナルの可能性もなくはないな QwenとかのMoEモデルを誰か日本語ファインチューニングしてくれないかな
主力モデルが日本語を捨ててるからレスポンスに謎言語が混ざりすぎる >>478
数ヶ月前までRinnaがやってたけどな最近は更新されてないか >>479
rinnaはdenseモデルしかFT実績がないな
MoEのFTは海外ではチラホラ見かけるが技術的に壁があるのかも知らん クソ真面目な話をすると仕事で売上予測とかやりたい場合にLLMのモデルって使うの? >>482
アフィカス記事を量産するためにLLMが使われている 予測はboosting木とかの古典的機械学習とかDLのクラス分類とかじゃろ
メディア通すとまとめてAIやが ROCm 6.4.4リリースでようやっとRyzen AI Max+ 395.がサポートされたみたいね
これからローカルLLMて進展が出てくるの期待だわ llama.cppでもうすぐQwen3 Nextがサポートされそう 朗報やね。っていうか対応させるまで数ヶ月かかりそうとか言ってたはずなのに、技術者さんたち凄すぎんか nextの時点でだいぶ性能いいから3.5楽しみなんだよなぁ
そういう意味でnext対応しといてくれると3.5出たときに対応スムーズに行きそうやね Qwenのthinkingモデルはローカルでこれ使っていいのかって性能で驚くけど長考癖が不満やなあ 日本語エロ性能の更新が無くてすっかり真面目スレになってしまっているのが悲しい😭 https://github.com/MoonshotAI/K2-Vendor-Verfier
kimi K2がホスティングサービス毎のツール呼び出し成功率測ってたけどfp8とfp4で30%以上成功率下がるらしい
もしかして世間で言われてる以上に4bit量子化による性能低下って大きいのか? 4bitは結構性能下がるよ
あとtool coolingはコーディングみたいに1文字間違ったら動かない事が多いから量子化には元々厳しいと思うし
だからはじめから4bitしか公開されてないgptossがあの性能出てるのがすごい >>450
とりあえずclaudeのmaxプランに加入するとええで
レートリミット限界まで使わんと損した気になるから開発も学習も捗る
mcpがチャット版でも使えるのも大きい
特に今見てるブラウザのタブを読めるようにするmcpを使うと「今見てるこれって〜」みたいな質問ができるからドキュメント漁りがメッチャ楽
まぁ何より頭がええんやけどな
よく言われるコンテキスト圧縮問題もserena使えばそんなに問題にならん >>493
新参者の面白AI出てきてないからしゃあない 初期はChatGPTがエロ厳しいからローカルでみたいなモチベーションあったけど
今は色んなサービス増えて規制ゆるくなってるし何なら無料枠でも結構遊べるからな 無知ですいません。おしえてください。EasyNovelAssistantを導入しライトノベルを書かせたいのですが、APIなどで料金が発生するのでしょうか? >>501
ローカル=自分のPC内で全て完結するシステムなので料金は一切発生しないよ
ただしPCの性能が求められるので使ってるものによってはPCパーツ交換代がかかる >>502
返答ありがとうございます。2060spなので不安ですが試してみます 中華がCUDA互換のVRAM112GBグラボ出すらしいがこれいくらになるんだ? Qwen3-Next-80B-A3B-Instruct、これ総量160Gくらいあるやんけ
ワイの24Gなどアリンコやった
試せてるニキらはもう選ばれし者すぎなんよ >>505
ツールのGGUF対応を待ってメインメモリへのオフロードを前提にすれば必要なメモリはだいぶ減るで
ワイのメモリ128GB&VRAM24GB環境でもいつかは動くと信じて口開けて待っとるで >>506
サンガツやで
ワイDDR4で上限いっぱい128G搭載済みなんやが総量が足らンゴ
ニキと同じく待つことにする…… ほとんどの人はツール側が対応してくれるの待ちやで。128GBもあればQ8_0でも動かせるやろ
ワイ64GB環境やと高望みしてQ6、実際問題Q4がええとこやろなぁ…… 動画生成用に増設したDRAMがここでも役に立つとは嬉しいンゴ 推論中にタスクマネージャ見てるとCPUもGPUも使用率そこまで上がらないんですね
読み込むのに容量が必要なだけで推論自体はそこまでリソース使わないって認識で合ってますか? LLMは計算量そのものよりもとにかく高速なメモリアクセスがいるって感じ