なんJLLM部 避難所 ★9
カロリーは脳ミソでもかなり消費するはずだから
エネルギーが要るというのは間違ってはないと思う
お堅い文面でもLLMにぶち込むモノでも頭はけっこう使うし >>468
プロンプトの書き方も使いこなし方もAIに聞いてお勉強するんや 【朗報】さくらインターネットのAI、「さくらのAI Engine」の一般提供開始!!国策AIがついに動き出す! [673057929]
http://greta.5ch.net/test/read.cgi/poverty/1758803926/
これ一から自前で作ってる国産? ただのインフラ屋のさくらがそんなもん自前で出来るわけないやん さくら最近gpu鯖そこそこ用意してたし良し悪し問わなきゃモデル作るのも難しくはないから
オリジナルの可能性もなくはないな QwenとかのMoEモデルを誰か日本語ファインチューニングしてくれないかな
主力モデルが日本語を捨ててるからレスポンスに謎言語が混ざりすぎる >>478
数ヶ月前までRinnaがやってたけどな最近は更新されてないか >>479
rinnaはdenseモデルしかFT実績がないな
MoEのFTは海外ではチラホラ見かけるが技術的に壁があるのかも知らん クソ真面目な話をすると仕事で売上予測とかやりたい場合にLLMのモデルって使うの? >>482
アフィカス記事を量産するためにLLMが使われている 予測はboosting木とかの古典的機械学習とかDLのクラス分類とかじゃろ
メディア通すとまとめてAIやが ROCm 6.4.4リリースでようやっとRyzen AI Max+ 395.がサポートされたみたいね
これからローカルLLMて進展が出てくるの期待だわ llama.cppでもうすぐQwen3 Nextがサポートされそう 朗報やね。っていうか対応させるまで数ヶ月かかりそうとか言ってたはずなのに、技術者さんたち凄すぎんか nextの時点でだいぶ性能いいから3.5楽しみなんだよなぁ
そういう意味でnext対応しといてくれると3.5出たときに対応スムーズに行きそうやね Qwenのthinkingモデルはローカルでこれ使っていいのかって性能で驚くけど長考癖が不満やなあ 日本語エロ性能の更新が無くてすっかり真面目スレになってしまっているのが悲しい😭 https://github.com/MoonshotAI/K2-Vendor-Verfier
kimi K2がホスティングサービス毎のツール呼び出し成功率測ってたけどfp8とfp4で30%以上成功率下がるらしい
もしかして世間で言われてる以上に4bit量子化による性能低下って大きいのか? 4bitは結構性能下がるよ
あとtool coolingはコーディングみたいに1文字間違ったら動かない事が多いから量子化には元々厳しいと思うし
だからはじめから4bitしか公開されてないgptossがあの性能出てるのがすごい >>450
とりあえずclaudeのmaxプランに加入するとええで
レートリミット限界まで使わんと損した気になるから開発も学習も捗る
mcpがチャット版でも使えるのも大きい
特に今見てるブラウザのタブを読めるようにするmcpを使うと「今見てるこれって〜」みたいな質問ができるからドキュメント漁りがメッチャ楽
まぁ何より頭がええんやけどな
よく言われるコンテキスト圧縮問題もserena使えばそんなに問題にならん >>493
新参者の面白AI出てきてないからしゃあない 初期はChatGPTがエロ厳しいからローカルでみたいなモチベーションあったけど
今は色んなサービス増えて規制ゆるくなってるし何なら無料枠でも結構遊べるからな 無知ですいません。おしえてください。EasyNovelAssistantを導入しライトノベルを書かせたいのですが、APIなどで料金が発生するのでしょうか? >>501
ローカル=自分のPC内で全て完結するシステムなので料金は一切発生しないよ
ただしPCの性能が求められるので使ってるものによってはPCパーツ交換代がかかる >>502
返答ありがとうございます。2060spなので不安ですが試してみます 中華がCUDA互換のVRAM112GBグラボ出すらしいがこれいくらになるんだ? Qwen3-Next-80B-A3B-Instruct、これ総量160Gくらいあるやんけ
ワイの24Gなどアリンコやった
試せてるニキらはもう選ばれし者すぎなんよ >>505
ツールのGGUF対応を待ってメインメモリへのオフロードを前提にすれば必要なメモリはだいぶ減るで
ワイのメモリ128GB&VRAM24GB環境でもいつかは動くと信じて口開けて待っとるで >>506
サンガツやで
ワイDDR4で上限いっぱい128G搭載済みなんやが総量が足らンゴ
ニキと同じく待つことにする…… ほとんどの人はツール側が対応してくれるの待ちやで。128GBもあればQ8_0でも動かせるやろ
ワイ64GB環境やと高望みしてQ6、実際問題Q4がええとこやろなぁ…… 動画生成用に増設したDRAMがここでも役に立つとは嬉しいンゴ 推論中にタスクマネージャ見てるとCPUもGPUも使用率そこまで上がらないんですね
読み込むのに容量が必要なだけで推論自体はそこまでリソース使わないって認識で合ってますか? LLMは計算量そのものよりもとにかく高速なメモリアクセスがいるって感じ command-a-03-2025とqwen3-235b-a22b
近いサイズまで量子化してあるやつを読み込んで推論したら
command-aの方は0.8t/sぐらいなのに
qwen3は5.0t/s出るんですけど
なんでこんなに差があってqwen3の方は早いんですか?
LMstudioでやってます、ロード時のパラメータでcommand-aには無いもの(エキスパート数とか)がqwen3にはありますがこれが影響してるのでしょうか
ローカルLLMに最近手を出したにわかですがご教示お願いします🙏 gpuが上がりきらないのは無茶なモデルサイズとかでcpu-gpu間の転送やらメモリ速度やらのボトルネック >>513
モデル名に答え書いてある
Qwenの方は"a22b"だから、計算量は22b LLMの系譜が多すぎ問題
上を辿ればアリババになるのが多いんやろか
Linuxの系譜みたいに進化図があればわかりすいんやけどなぁ アリババってQwenだけだろ
DeepSeekもKimiもGLMも全く別の企業だよ そうなんか、知らんかったわ
中国は人数もおるだけに賢い人間の絶対数が桁違いなんやろな >>520
オープンソースAIでアメリカを殴りに行くのが中国の国家戦略だから
ぶっちゃけ現場は有無を言わさずオープンソースにさせられてると思う
俺らにはありがたい話だが 中国産の方が漢字対応マルチリンガル前提だから日本語にも強い印象 アメリカモデルを中国モデルが追い越したら一気に情勢は変わりそうではある
最も賢いモデルにユーザ需要が集中するall or nothingの狂ったLLM市場で性能が劣るモデルがなんとか爪痕を残すためにオープンウェイトにしてるだけだろうしな 途中送信すまん
簡体字が文章中に稀に混じるからそれだけで一気に日本語が下手に感じてまうというバイアスもあるんだろうけど中国モデルは合成データ使いまくったバリバリのベンチマーク最適化の影響か文章も硬くて文章表現力もClaude gpt geminiには勝てないって印象
工ロ用途でも全然だし >>524
いずれMoEモデルの先に好きなエキスパートをモジュールとして入れ替えられる時代が来ると思う
日本語強化モジュールや翻訳専用モジュール、個人データ特化モジュールetc
今は汎用モデルの強化合戦が続いているが頭打ちになればカスタマイズの話が出てくるだろう GLM-4.6 3bitでもメモリー足りぬ
Sonnet 4.5よりベンチスコアいい(部分がある)とは llama.cppでのqwen3 next対応はいつ終わるのか推定するのが難しいぐらいくらいにはまだ作業あるのかも
https://github.com/ggml-org/llama.cpp/pull/16095
まぁ最初2、3か月かかる言うてたくらいやからな
気長に待つしかないでな