なんJLLM部 避難所 ★9
クソ真面目な話をすると仕事で売上予測とかやりたい場合にLLMのモデルって使うの? >>482
アフィカス記事を量産するためにLLMが使われている 予測はboosting木とかの古典的機械学習とかDLのクラス分類とかじゃろ
メディア通すとまとめてAIやが ROCm 6.4.4リリースでようやっとRyzen AI Max+ 395.がサポートされたみたいね
これからローカルLLMて進展が出てくるの期待だわ llama.cppでもうすぐQwen3 Nextがサポートされそう 朗報やね。っていうか対応させるまで数ヶ月かかりそうとか言ってたはずなのに、技術者さんたち凄すぎんか nextの時点でだいぶ性能いいから3.5楽しみなんだよなぁ
そういう意味でnext対応しといてくれると3.5出たときに対応スムーズに行きそうやね Qwenのthinkingモデルはローカルでこれ使っていいのかって性能で驚くけど長考癖が不満やなあ 日本語エロ性能の更新が無くてすっかり真面目スレになってしまっているのが悲しい😭 https://github.com/MoonshotAI/K2-Vendor-Verfier
kimi K2がホスティングサービス毎のツール呼び出し成功率測ってたけどfp8とfp4で30%以上成功率下がるらしい
もしかして世間で言われてる以上に4bit量子化による性能低下って大きいのか? 4bitは結構性能下がるよ
あとtool coolingはコーディングみたいに1文字間違ったら動かない事が多いから量子化には元々厳しいと思うし
だからはじめから4bitしか公開されてないgptossがあの性能出てるのがすごい >>450
とりあえずclaudeのmaxプランに加入するとええで
レートリミット限界まで使わんと損した気になるから開発も学習も捗る
mcpがチャット版でも使えるのも大きい
特に今見てるブラウザのタブを読めるようにするmcpを使うと「今見てるこれって〜」みたいな質問ができるからドキュメント漁りがメッチャ楽
まぁ何より頭がええんやけどな
よく言われるコンテキスト圧縮問題もserena使えばそんなに問題にならん >>493
新参者の面白AI出てきてないからしゃあない 初期はChatGPTがエロ厳しいからローカルでみたいなモチベーションあったけど
今は色んなサービス増えて規制ゆるくなってるし何なら無料枠でも結構遊べるからな 無知ですいません。おしえてください。EasyNovelAssistantを導入しライトノベルを書かせたいのですが、APIなどで料金が発生するのでしょうか? >>501
ローカル=自分のPC内で全て完結するシステムなので料金は一切発生しないよ
ただしPCの性能が求められるので使ってるものによってはPCパーツ交換代がかかる >>502
返答ありがとうございます。2060spなので不安ですが試してみます 中華がCUDA互換のVRAM112GBグラボ出すらしいがこれいくらになるんだ? Qwen3-Next-80B-A3B-Instruct、これ総量160Gくらいあるやんけ
ワイの24Gなどアリンコやった
試せてるニキらはもう選ばれし者すぎなんよ >>505
ツールのGGUF対応を待ってメインメモリへのオフロードを前提にすれば必要なメモリはだいぶ減るで
ワイのメモリ128GB&VRAM24GB環境でもいつかは動くと信じて口開けて待っとるで >>506
サンガツやで
ワイDDR4で上限いっぱい128G搭載済みなんやが総量が足らンゴ
ニキと同じく待つことにする…… ほとんどの人はツール側が対応してくれるの待ちやで。128GBもあればQ8_0でも動かせるやろ
ワイ64GB環境やと高望みしてQ6、実際問題Q4がええとこやろなぁ…… 動画生成用に増設したDRAMがここでも役に立つとは嬉しいンゴ 推論中にタスクマネージャ見てるとCPUもGPUも使用率そこまで上がらないんですね
読み込むのに容量が必要なだけで推論自体はそこまでリソース使わないって認識で合ってますか? LLMは計算量そのものよりもとにかく高速なメモリアクセスがいるって感じ command-a-03-2025とqwen3-235b-a22b
近いサイズまで量子化してあるやつを読み込んで推論したら
command-aの方は0.8t/sぐらいなのに
qwen3は5.0t/s出るんですけど
なんでこんなに差があってqwen3の方は早いんですか?
LMstudioでやってます、ロード時のパラメータでcommand-aには無いもの(エキスパート数とか)がqwen3にはありますがこれが影響してるのでしょうか
ローカルLLMに最近手を出したにわかですがご教示お願いします🙏 gpuが上がりきらないのは無茶なモデルサイズとかでcpu-gpu間の転送やらメモリ速度やらのボトルネック >>513
モデル名に答え書いてある
Qwenの方は"a22b"だから、計算量は22b LLMの系譜が多すぎ問題
上を辿ればアリババになるのが多いんやろか
Linuxの系譜みたいに進化図があればわかりすいんやけどなぁ アリババってQwenだけだろ
DeepSeekもKimiもGLMも全く別の企業だよ そうなんか、知らんかったわ
中国は人数もおるだけに賢い人間の絶対数が桁違いなんやろな >>520
オープンソースAIでアメリカを殴りに行くのが中国の国家戦略だから
ぶっちゃけ現場は有無を言わさずオープンソースにさせられてると思う
俺らにはありがたい話だが 中国産の方が漢字対応マルチリンガル前提だから日本語にも強い印象 アメリカモデルを中国モデルが追い越したら一気に情勢は変わりそうではある
最も賢いモデルにユーザ需要が集中するall or nothingの狂ったLLM市場で性能が劣るモデルがなんとか爪痕を残すためにオープンウェイトにしてるだけだろうしな 途中送信すまん
簡体字が文章中に稀に混じるからそれだけで一気に日本語が下手に感じてまうというバイアスもあるんだろうけど中国モデルは合成データ使いまくったバリバリのベンチマーク最適化の影響か文章も硬くて文章表現力もClaude gpt geminiには勝てないって印象
工ロ用途でも全然だし >>524
いずれMoEモデルの先に好きなエキスパートをモジュールとして入れ替えられる時代が来ると思う
日本語強化モジュールや翻訳専用モジュール、個人データ特化モジュールetc
今は汎用モデルの強化合戦が続いているが頭打ちになればカスタマイズの話が出てくるだろう GLM-4.6 3bitでもメモリー足りぬ
Sonnet 4.5よりベンチスコアいい(部分がある)とは llama.cppでのqwen3 next対応はいつ終わるのか推定するのが難しいぐらいくらいにはまだ作業あるのかも
https://github.com/ggml-org/llama.cpp/pull/16095
まぁ最初2、3か月かかる言うてたくらいやからな
気長に待つしかないでな ggufじゃなくていいならほかに動くプラットフォームはもうあるのよ https://huggingface.co/fastllm/Qwen3-Next-80B-A3B-Instruct-UD-Q4_K_M
fastllmというどマイナーなバックエンド用だけどこいつで動くやで。
デフォ設定だとエキスパートしかVRAMに置かない思い切った設計のバックエンドだけど、おかげでなんだったらVRAM8GBでもなんとか動く。
うちのVRAM12GB+RAM128GB環境で20tok/s出て、セカンドのGPU1は完全に寝てる。
CUDA13だとcuda認識出来ずにCPUモードで動こうとするから13の人は12.9に落とす必要あるからそこだけ注意かな ただ試しにコード書かせてみたり尻で相手してもらったりした感触は
Qwen3-Coder-30Bの蒸留版や信頼のAratako印のQwen3-30B-ERPあたりと大差ないかやや落ちるかもしんないという個人の感想だから
本番はちゃんと事後学習や蒸留したバリエーションが揃ってからかもねという現状のお気持ち それ知らんかったからChatGPTにllama.cppとの違い聞いてみたらfastllmは相当尖った実装してるみたいでちょっと面白そうやな GLM4.6 80GBぐらいのやつダウンロードしたんですけど
ロードに必要なリソースがTB超えてくるんですけどどういうこっちゃ……
Qwen3-235B-A22Bはモデルのサイズ+コンテキストぐらいのリソースで収まってたので行けると思ったんですが
ちなLMstudioでやってます lm studioは裏で安定版lammacpp動いてるわけだが、GLM4.6ってもう対応したっけ?lm studioは枯れたモデル試すのはGUIで楽ちんだけど最新モデルの人柱にはあんま向いてないやで?GLM 4.6がlm studio対応してます!ってきっぱり言ってるならごめんやが 先にもちょいと書き込んだが、エロに弱いと言われるQwen3だけど、mistralPrismや天照様でエロ事後学習に定評のあるAratako先生のQwen3-30B-A3B-ERPかなり良い。
デフォルトだといつものQwenでこらあかんかと思ったら、繰り返しペナをデフォルトの1.1から1.15から1.17ぐらいにしてやるとかなり良い感じ。
調子に乗って1.2とかにしちゃうとお前bergちゃんかよという感じのキチガイエロ女になるから注意や。
事後学習ってやっぱり大事なんやなって 確かそのモデルは継続事前学習してなかったっけ?
そのくらいいじればQwenでもある程度は良くなるってことなんだろうな
数十万くらい作るのにかかってそうだけど… ガチでやってるやつはファインチューンじゃなくて追加の事前学習しとるよね
本来なら追加学習というと「追加の事前学習」のことらしい
ファインチューンと何がちゃうのかようわからんが ワイはむしろberghofちゃんの隠語マシマシドスケベ女とRPしたいんや
berghof ERPが純粋に賢くなったようなモデルが欲しい LLMのエロプロンプトで培ったテクニックが動画生成でも役に立つようになるんだろうな グラボのメモリ12GBでエロいことできるモデルを教えて >>542
超簡単に言うと
事前学習:赤ちゃんのbaseモデルにチャットのやり方ぐらいまで教え込むこと。めっさ膨大なコスト(データセット)と時間がかかる
継続学習/継続事前学習:事前学習ではまだわからんちんの子に事前学習と同じやり方でさらにしばく。事前学習ほどではないが相当のコスト
事後学習/ファインチューン:とりあえずチャットなりが出来るようになった子に専門知識(エロとかコード知識とか)を教え込む
事前学習系よりは圧倒的に低コスト
大体こんな感じや、多分Aratako先生がQwenちゃん見て「んー、この子にはもっと躾が必要ですねえ」と判断して特別調教をしてお出しされた牝豚モデルがQwen3-ERPちゃんなわけやな >>545
Magnum v4血統の12Bの奴でVRAMに収まる奴、もしくは遅くていいならMistral Prism、あるいはメインメモリの方には自信ありニキならQwen3-ERPでええんちゃうか?
大体Aratakoさんのモデルにはハズレ少ないから初心者はあの人のモデルから自分ちのリソースに収まるの探すのがお勧めやで 継続事前学習あたりになると個人の金でできる範囲超えちゃうし、金ある会社がエロ継続事前学習してモデル公開してくれるかというと絶対してくれないから結構絶望的だよな Aratakoさん、エロ調教用のデータセットは公開してくださるわ、mistral large調教版の天照様は公開してるわで化け物よなぁ 今日は8年前に始めて彼女ができた日だ
お互い童貞と処女だったが
結局ヤレずに破局
いまごろどこで何をしてるのかな……
https://youtu.be//6XB6vALjDmg ロールプレイがやりたくてAratako/MistralPrism-24B-Q4_K_MをOpenwebUIで使おうとしたんやが
2,3回は普通に会話が出来るんやがその後なんも返答が生成されなくなってしまうんや
再生成をポチポチしてると基本無反応何やがたまに小説みたいに最後まで流れをがーっと書いて終わらせてしまう
なんやこれどうなっとるんや よくあるくり返しが気になるんやが
LM STUDIOでくり返しペナルティなるものはどこで設定するんやろか
グローバルな設定項目なのか、モデルを読み込んだ時の設定なのかわからんのよね >>551
キャラ設定とかのプロンプトをすごく簡潔にして非エロの短文会話をした場合もそうなる?
何かが上手く噛み合ってないのかもしれへんで >>552
モデル一覧の歯車からInference >>554
サンガツ、最新版なんやが右側サイドの設定で見つけたわ、チャット単位の設定項目なんやな
右サイドはシステムプロンプトしか意識していなかったんやがこんなところにあったんか
sampling -> repeat penaltyがあって1.1やったわ
1.2,1.3にしてもあまり変わらんような・・、temperature 低いと確かにちょっと物足りん子になってしまう
temperature 0.8やが、エロ目的なら温度やペナ設定どれくらいが適切なんやろか SillyTavernのweb検索機能今更入れたけど大手のキャラ再現率の高さこれのおかげなんか?口調とか一気にそれっぽくなった外れもあるけど困ったらGrokのエキスパートに聞いたらだいぶ改善してくれるよ >>553
1回ちょっと短くしたんやがそれでもちょい長いかもなぁと思ってはいたから後で思い切って1行で済むぐらい短くして試してみるわ BasedBase/GLM-4.5-Air-GLM-4.6-DistillのQ6_K試してみた
GLM-4.5-Airよりは良いけどやっぱりちょっとワードチョイスが変な感じ
サンプラー設定詰めたらいいかもだけどQwen3-235B-A22B-Instruct-2507の方が自分的には好みかな 235Bのnextが出てllama.cppも対応して日本語エロFTモデルも出るとええな 早速GLM4.6のAir触ってみたけど、
俺の用途だと幸いワードチョイス変だとは思わんかったな
合う奴には合うんじゃね
ただ、あれ本当に「4.6 Air」相当なんかね?
本家からは4.6のAir出てないっぽいし…
てか、GLM4.6のほうは4.5と別物だろこれ…
4.5の時点で、Geminiに迫ってきたか?って思ってたのに、4.6はそれを越えてきた感あるわ
1発目から違い分かるレベル
なんか作者の意思というか魂こもってる感じするわ
なんで、これが話題にならないのかと不思議だわ
ただ、欠点もあって、考えて考えまくるのか、Thinkingのトークン消費量がえげつないw GLM4.6はベンチマークによってはclaude sonnet4.5よりスコア高いからすごいよ うん、マジでGLM4.6すごいわ
本家からあのレベルでGLM4.6 Air出してきたら神だろ
他にGLM使ってる人おらんのかな 話題に出るまで気づいてなかったけどBasedBase/GLM-4.5-Air-GLM-4.6-Distillいいね
名前からするにGLM4.5-Airをベースに4.6の蒸留モデルを作ったんだろうけど日本語も良くなってる
個人的にAirがぎりぎりVRAM乗るサイズだからこれはありがたい エロとしての性能を評価してるのかどうかどっちなんだい! もちろん、エロとしての性能よ
日本語ではGLMがトップクラスじゃね? 熟練エロLLM使い手に聞きたいんやが
新モデルで「ぉほぉ〜すごい性能上がってる」とか何の差分で判断してるんやろか?
くり返しをしにくいとか表現的なバリエーションが多いとか起承転結がしっかりしたエロ文章になってるとか? 文章の破綻の有無もあるけど少ないプロンプトでも"察してくれる"かどうかも一つのポイントかな
例えばSTのキャラクターでケモミミ尻尾を持つ設定のキャラが居るとして"賢い"モデルは会話例に記載しなくてもポン出しの地の文で
*緊張のあまり、尻尾をピンッと立たせ〜*
とかケモミミや尻尾の描写をちゃんと出してくれる
あんまり賢くないモデルだと会話例に記載しないとこういった描写してくれないんよ NovelAIも最近GLM採用したけど、とりあえず当面はこいつがトップって感じでええんか ChatGPTちゃんが、また露骨に厳しくなっちゃった
文章の出力量はあがったけど エロ業界もAIで絶滅するわ、確信した。
AVもエロ漫画も官能小説も絶滅する。 >>570
自分で詳細を考えることなく、個性的で魅力的な作品を誰しもが一瞬で作れるようになったら絶滅するな
モデルの癖みたいなものも無くなって、人物、話の流れ、構図等の多種多様なパターンをお手軽かつ魅力的に生成してくれるようになったらゲームエンドや >>563
imatrix版出ないかなぁ
要望は上がってるみたいだけど
遅くてもいいから64Gに乗ればいい まだ創作を絶滅に至らしめるような未来は見えてもいないと思うけどな
神は細部に宿ると言うように、人間の手というノイズが入っていないとどこかにこれじゃない感が出る
パターンを網羅するだけじゃ足りん 今の学習のさせ方だとネット上にある情報で止まってしまうから行っても大学院生レベルまで
ただ糞広い範囲の知識を持ってる大学院生って感じ
この時点で作業のアシスタントとしてはもう十分な能力だなという感じなんだけど
人間より優れた創作となると院生レベルは超えて業界トップレベルまで行かないと厳しいよね
我々が見てる漫画なんかは学生レベルは超えてプロとなって働いている人らの中でも
さらに雑誌に掲載されてるような上澄みの作品を見て面白い、つまらないって評価してくるくらいだから
それはもう何段かブレイクスルーしないとたどりつけなさそう GLM-4.5-Air-GLM-4.6-Distill試したいんだがまだOllamaだと動かんよね?お試しニキはlammacppかkoboldcppあたりでやっとる感じやろか? GLM 4.5 Airに4.6を蒸留したと主張しているモデルはGLM 4.5 Airから重みも含めて一切変わっていない詐欺モデルという話が出てきてるね
だから4.5 air動かせば実質4.6 Distillや
それはともかく公式の4.6 airも2週間以内に公開されるって話もある BasedBase氏の蒸留モデル全部詐欺じゃね?ってRedditで騒がれてるね
それはそれと公式の4.6Air楽しみ なーんかbasebase氏のqwen3-coder-distillもなんも変わってなくね?とかredditで騒いでる奴いるけど、少なくともうちで実測してOllamaのtok/s明らかに違うし、全く同じとは思えんのだがなあ。まあちょいとこの騒ぎについては静観。 >>579
アーキテクチャもパラメータ数が同じなら実効速度も同じになるはずだから本物の蒸留モデルだとしても何かおかしいよそれ 単純な蒸留じゃなくて量子化段階の辞書化の最適化もやってるでってモデルカードにあった覚えがあるんで、それ自体はおかしくない。
GLM4.5の蒸留は現物見てないのでなんとも言えないが、なんか騒いでる奴ももひとつ信用でけへんなこれというのが今回の騒ぎなんよ あ、今redditのスレ見直したら全然ちゃうで?嘘松乙って総ツッコミ入ってるわ。
GLM4.5はわからんけど他も、は完全に言いがかりでいいみたい >>581
主要レイヤーの重みを比較した結果も出ててGLM 4.5 airと同一のモデルなのは確定や corderもベンチマークや出力応答含めベースモデルと完全に一致してて99%黒 気になるならhuggingfaceのdissccusion漁るとええ >>583
見てきたサンガツやで。合わせてredditの関連スレも読んで来た
まだ今んとこ真っ黒主張してるデータを明確に出してるソースが一箇所/一名だけで、何しろデータ自体出てきてから24時間経ってないので作者側もすぐに客観的なデータ出せずにぷち炎上って感じなんやな。
おそらく何日かすれば白黒はっきりする話やろし、なんJでまで炎上の飛び火されるのもなんで一旦ここまでにしとくわ。ポインタはサンガツな。 >>574
カラオケうまい素人みたいなもんだな
ただそのレベルでも結構難しいし自分で好きなことやらせられるのが大きな違いじゃある 前にロールプレイ上手く生成されないって書いた者やがプロンプトを人物設定程度にとどめたら上手く行くようになったで
ストーリーとかガチガチに作ってたのがダメだったんやなよく見かけるAIが想像する余地を残しとけってのがようやく理解できたわ >>586
ロールプレイは難易度高かった気がするわ
AIが想像できる余地残すというのはなんか分かる気がするで
試行錯誤しながら期待通りの出力を目指していくのも楽しいんよな おれsilly tavernでロールプレイばっかやってるけど似たような事?はあるな
あるキャラを出来るだけ忠実に再現したくて例えば出身地は京都、伝統工芸品が好き、地元愛が強いなんて情報をキャラカードに書くと関係ない話題の時もいきなり京都や着物のことなんかをぶっ込んで来るんだよね
何やこいつ突然!?ってなる
そのキャラの重要な特徴ではあるものの滅多に会話に出てこないような情報は思い切って切り捨てた方がいいと思う
設定を詰めこむとAIちゃんは不自然になろうと全部使いたくなるみたいだから… 尻あるあるやな。ファンタジー冒険ものやりたくてworld設定に書き込んだ「倒された魔王」が毎回のセッション毎に復活して「もうやめて!魔王のHPはもう」とテンプレ発言したくなる奴 情報を抜いていくとそれはそれで思わぬ展開に持ち込まれて面白かったりするのがええな
画像生成のガチャ途中に意図せぬ大当たりがあるように文章生成でも意図せぬドストライク展開があると色々調整したり試行錯誤しがいがでてくるわ 女子数人のグループ会話を流してて一切何の設定もしてないのにBL大好き属性が勝手に付与されて私が考えたカップリング見て!見て!って迫ってきた時はワロタ 尻タブで特定ワードに引っ張られる現象を避けたい場合はキャラカードにその設定を描くより
Lorebookにトリガー設定して書くといいよ
確かキャラごとにLorebookのグループ分けみたいなので来たはずだから
例えば「京都の伝統工芸品が好き」というエントリを作ったらその話題が出るとトリガされて返答時に言及してくれる
んでエントリにはスティッキー、クールダウン、ディレイを設定できるから上手く使おう
スティッキーはn回ターンの間ずっとエントリ(京都云々)が有効になる、n回は設定可能
クールダウンはターン数を設定するとエントリが有効になった後n回ターンエントリが無効になり、スティッキーと併用できる
ディレイは経過ターン数が設定したディレイのターン数になるまでエントリトリガされても有効にならない
例えばチャットをはじめて10ターン後にトリガできるようになるとかにすれば、10ターン以降そのワードが出たら呪いが発生しゲームオーバーとかできる
他にもワードがでたあとトリガされる確率設定とかできるから、30%でトリガされるようにすれば
ディレイで5ターンの間トリガされなくして、ある程度お互い知り合ったところで適当なワードで(京都云々)をトリガさせる、スティッキーで数ターン京都の話をさせるようにして、クールダウンか他の機能でスティッキー後トリガを無効化させる(100ターンとかにする)
同じエントリを作ってディレイ10ターン、クールダウン5ターン、トリガ確率30%にすれば上の動作後に30%ごとに京都の話ガチャができる
他にいい方法あるかもしれんけど参考までに 割と曖昧なトリガーでも機能してくれるんだ?
俺てっきり単語辞書みたいなもんだと思ってた
好物Aというワードをこっちから出したら機能するけど「何が好き?」と聞くと無視されるような感じなのかなって 直前のモデルの返答と今回のユーザーの入力のどちらかに設定したキーワードが含まれてれば設定した内容が送られるって感じだから単語辞書に近い
こちらの入力を工夫して上手いこと誘導する必要がある GLM、モデルはいいけど中国のZ.AIはプライバシーポリシーもまともな内容出てないし
OpenRouterなりで別のプロバイダーのGLM使うのがいいのかねぇ deepseekもだがその辺の中華大型llmはローカルで動かしてなんぼであり公式クラウドは使うもんじゃないと思ってる
まあ個人だとまだGLM4.5/4.6をローカルで動かすのは相当敷居高いというのは認める サードパーティの方も情報管理ガバガバだからその手の情報を扱うならローカルだわな
コスパだけならサードパーティ一択やけど VCからの資金調達目当てで絶対採算取れてないだろって例も見かけるし mradermacher/gpt-oss-120b-i1-GGUF
これって、なんで量子化レベルに関係なくサイズが同じなの?
通常ならiQ3_Mでメモリ64Gにのるんだけど。 >>600
多分>>583絡み。逃亡か作り直しかはしらね Samsung、LLMでも日本を軽く追い抜く。小さくて誇らしいニダ!
gigazine.net/news/20251010-tiny-recursion-model-trm/
しかしGrok4はすんごいんだなw maywell/GLM-4.5-Air-GLM-4.6-Distill
今度は大丈夫かな 前回はggufのみだったけど今回はiQも他が出してくれそうだし繋ぎにはいいかもね >>604
redditで作者が話してるけどアイデアが面白いからやってみたけどあくまで実験モデルで出力壊れるしわざわざダウンロードするもんじゃないってさ 久しぶりに来たけど>>8のまとめがありがたいな
個人的には出力遅くてもいいから理解力特化してるのが欲しい Qwen3-Next-80BとかGLM4.6Airとか普通に個人向けで覇権候補になり得るブツの登場が秒読み段階で楽しみな時期と言えば楽しみな時期よね しかし、80Bとかどういうグラボ使えば動くんやろ…
まさか一般ユーザーでVRAM容量100B超えのグラボを持ってるとか? 個人で中古B100持ってる人いたな
仕事でa100 4つ使った時は 超喜んでたなー
deepseek-r1とか軒並み大きな奴をロードできたし qwen3-nextはどっかの天才がllamacpp対応今頑張ってるから待つんやで qwen3nextもglmもMoEだから割とどうにでもなっちゃう
denseモデルをメインメモリ展開してたらまあまあキツいんだけど 最近はMoEモデルが増えたせいでGPUもだがメインRAM256GBだの384GB積めるXeonかスリッパが欲しくなる問題。デスクトップRyzenの限界近い192GBでもGLM4.5あたりだとQ3ぐらいまでが限界で >>814
Qwen3-Next-80B-A3BはぶっちゃけコアのA3BさえVRAMに収まってりゃそこそこの速度で動く。上の方でlammacppより先にQwen3-Next対応したfastllmで試したニキいるけどA3Bだけ置いてVRAM8GBも使わずに20tok/s出たって言ってたはず デスクトップRyzenでもDDR5なら64GB×4枚で256GB積めなかったけ? MoEのおかげでもうそういう時代じゃないのよ
(MoEをメインメモリも使って高速に動かす方法を編み出したのはktransformersが最初やろうけど) 最近Stable DiffusionやってるけどLLMと違って、画像にどんなタグを付けているか予想しながらじゃないといけないのがつらいな
LLMは言葉でどこまでも詳細にいけるけど、 danbooruのwikiと睨めっこしてる感じかな 例えば、騎乗位にはいろいろ種類があって、名前が詳細についているけど、ほとんどのモデルは騎乗位としかタグ付けされていない。
だからガチャで生成するしかない JNVAスレで聞いてきたらええよ
多分そもそもタグあるだろうし、なかったとして、出すための方法はおそらくもう確立してる
慣れるとすごい楽よdanbooruタグ 因数分解みたいな要領で出せるのも結構あるよね
だいしゅきホールド = hug + leg cross + missionary danbooru語への翻訳をLLMにやらせればいい
danbooru語の辞書はネットに転がってるからRAGで食わせればいい kobold.cppで、overridetensorsを有効にしようとして
koboldcpp\koboldcpp.exe --overridetensors --gpulayers 24
で起動させたら落ちるんだけど、やり方間違ってる?
メモリ64G VRAM12G >>622
DDR5 64GBになると割高過ぎてXeon買った方が良くね?になっちゃうからなあ。 >>631
システムメモリフォールバックなしを優先にしてないよね?
それやって落ちた経験あらあるやり方をAIに聞いた方が早そう >>632
確かにそうだよな
DDR4も2倍近く上がったわ
192GBでGLM4.6の動かんのだっけ? なんか最新のLLMモデル軽くなった?
gpt-oss:120bで久々にローカルLLM入れたけど
5-6token/secが昔のllama:120bとかは限界だったのに
gpt-ossだと普通に思考4-5秒で20~token/secで出力されるし精度がgptと変わらんやん
Mac StudioM1Ultraの128GB環境だけどモデル側でこんな変わるんかって感じ そういやgpt-oss:120bのggufって何であんなにデカいん?
メモリ64Gに乗らないやん >>635
gpt-oss-120bはアクティブ5bだから
moeの仕組みは前からあるけど最近はそれが主流になりつつある ここ最近このスレでmoeのことをわかってない人が急に増えた気がするんやが外でこのスレ紹介されたりしたんやろか
llamacppがcpumoe実装してからモデルがmoeかどうかは個人でLLM動かす人には超重要事項になっとるで 必要なスペックも書かずにglm4.6で個人がここまでのai使える!みたいなの言ってる記事は伸びてたな… >>640
なるほどなー
magnum v4 123bでシコってた頃から随分進化したもんや
gpt-oss abiliteratedがかなり期待外れだったからmagnumとかの生成早くなってるやつがあったらかなり良さそう lammacppのrocm対応が進んで今だとQwen3-coder-30BならradeonでもRX7900XTXなら80tok/sぐらい出るようになったし、MoEの成熟も進んで春先あたりの頃の常識がだいぶ変わったよな 俺が一番シコれる文章を生成してくれるのは
QuantFactory/Berghof-NSFW-7B-GGUF
だけなんだよな
他のモデルは文章こそ滑らかかも知れんけどチンポにズドンとくる文章じゃなくて惜しい もともとガチガチに禁止してなかったもんを解禁とか言い出したときは「キッチリ監視の目を入れて安全に使えるようにした、今までの無法地帯ではない」にしか聞こえない
最近ちょっと固い期間あったとはいえ エロokなのと無検閲は全く違うからな
非同意系は今まで通り無理だろうしopenAIは顧客のチャット履歴精査して中国政府の機密資料を晒上げる程度のプライバシー意識の会社だしエロチャするの怖すぎ >>643
GLM4.5Airがベースのコレとか試してみたら?
huggingface.co/TheDrummer/GLM-Steam-106B-A12B-v1 >>649
逆に履歴提供してる前提でモデル改善オンにしてAIと深い話やOpenAIの横暴についてや正当なコミュニケーションの進展におけるスキンシップの正当性について話してるわ
一番直接的で有効なフィードバックになるからね
チャット履歴提供上等だよ >>651
試したいけどmodelfile化でgguf結合が上手くいってないのかinternal errorになるわ
magnumの時と同じやり方なんだけどな >>653
ModelfileうんぬんってことはOllama?確かまだ未対応やったんちゃうかな?modelcardにあるようにlammacppかその派生(コボちゃんとか)でないと対応してないはず >>654
Ollamaにはまだ対応してないのか
そっちでうごかしてみます、ありがとう lenovoとかGIGABYTEとかがNVIDIA DGXベースのミニスパコン一斉に発表したな。本家革ジャン印のDGXもいよいよか? >>651
横からだが試してみた。回答内容は悪くないけど重いなぁ。Qwen3-Nextが速杉とも言えるが小説支援には良いけど尻とかでチャットに使うには個人的にびみょかった(個人の感想です) DGX Sparkは結局Ryzen AI Maxくらいしかパフォーマンス出なさそうだし微妙だね。
CUDA使えるのとConnect-X付いてるのはいいけどRyzenと比べて価格が倍以上だし
それならMac買うかってなるな 1台買うにしても将来的に増設予定じゃないとイマイチか
connectxが本体 Mac Studio512GBでGLM4.6動かしてみた人いないの >>660
https://x.com/AliDTwitt/status/1977685088285675860
以下GROKによる翻訳
Mac Studio M3 Ultra 512GB RAM 80 GPUでGLM 4.6 8bit(MLX)をローカルで実行中。LM Studioで書くと、380GBのRAMをガッツリ使いながら、たった3.5トークン/秒しか生成しない。壁のペンキが乾くのを見ている気分。
品質ではGPT5 Codex(High think)やSonnet 4.5を上回る。とにかく遅いだけ。
@Zai_org
の素晴らしい仕事、GLM 4.7が大幅に速くなることを期待してる。 >>658
期待してたんだけど、この値段で速度 1/4 かぁ。
DGX Spark GPT OSS 120B: 11.65 tok/sec
M3 max GPT OSS 120B: 41.71 tok/sec >>661
3.5t/sも出るならワイ的には十分実用や VRAMの速度がローエンドGPU以下なんよ
MoEが増えてきた今まじで存在意義ない
この速度でもせめて512GBありゃまだ存在意義あったけど といってもVRAMが300GB/s以下ってことは500GBのDenseモデルを動かすとしたら最大でも0.6トークン/sって事にならんか?
やっぱり帯域不足は痛いで。LPDDRを使う方向性はええと思うんやけど、それなりに高速なチップとクソ広バス幅用意してくれへん事にはなぁ…… もしかするとMoEだとXeonやスリッパのヘキサチャンネルオクタチャンネルDDR5の方がLPDDR5より良くね?って思えて来た MoEモデル前提だとLPDDR5選ぶ理由はないわねえ
70Bあたりのdenseモデルがスカスカだから活かしどころがないのも難点 単一モデルでthink/no thinkモード切り替えみたいにnsfw/sfw切り替えできるようにならんかなー think/no think切り替えとnsfw/sft切り替えは
本質的に同じだからできるんだけど
やってくれる人がいないんだろうねw
一番最初が一番儲かるからがんばってみては? >>667
もともと1gpuじゃ不足気味なジャンルってことでpcieレーン数的に向いてたけどメモリの帯域も恩恵受けだした状況ね ミニPCみたいなナリでオクタチャンネルのメモリ搭載してるMacStudioがやっぱ凄いわ どの時間帯でもOpenRouterからDeepSeek繋がらねえ
何か祭りでもあったんか ryzen395にPCIex8スロットが付いた中華マザーまだー? Antから大型の新モデルLing-1TとRing-1Tが出てる
無料枠が無いから誰か金ある人プンルーで試してみてくれ llamacppのqwen next対応が大体できあがってきたみたいやな
とりあえず動作するところまでは来ていて、今は精度のチューニング中? みたいな段階のようや
まだmainにマージはされとらんからこのprを直接動かす必要ある
https://github.com/ggml-org/llama.cpp/pull/16095 >>675
帰ったらデモ試してみるか
ringとlingって何が違うんだろ lingが通常のモデルでringがlingをベースにした思考モデルっぽい?
他にも103B(MoE)のLing-flash-2.0, Ring-flash-2.0や16B(MoE)のLing-mini-2.0, Ring-mini-2.0のGGUFも出てるね >>676
ええかんじやね。CPU Onlyだった所にCUDAに対応させるコードをAIに書かせた人も出てきて実際もりもり高速に動いとる
あとは精度の問題だけみたいやね。ここはプルキンニキの人力コーディング力に期待や NTTは30B程度で天狗になってるのか、悲しくなるな日本 パラメータ数を誇るのは金のあるとこに任せときゃいい
日本だとソフバンが一番やるのかなあ 実際30B辺りで日本語強くてエロいけるモデル出たらこのスレ的には覇権やろうしなあ
でもどうせ業務向けなんだろうな オープンウェイトでないからパラメータ数は関係ないしAPIすら公開されてないから株価対策以外の何物でもない
本当に独自アーキテクチャなら頑張ってほしいけどね
でも比較対象のモデルがころころ変わってるの面白い 型落ちのqwen2.5としか比較してなかったり、それまでgemma3と比較してたのにファインチューニング性能比較では突然gemma2と比較してたり 富士通の1bit量子化はあれ以来どうなっとるんや
ローエンドGPU(A100)で動く微妙なモデル出して終わりなんか? と思ったらNVIDIAとAIで提携してるし来週の水曜日に1bit量子化のワークフローとか公開するんか
誰でも1bit量子化できるかも、と煽ってるからここから1bit量子化が加速すればいいんだが 日本でエロチューンやってるのaratakoさんだけでしょ
rinnaもエロチューンではないだろうし 専門タスクってのはあるけど
plamoの翻訳は実際に良かったよ
qwenあたりより高速で精度もいい ayaファンに朗報です。嫁モデルが来ました
ernie-4.5-21b-a3b-pt.ggufはRPが良いです。
中国のモデルでa3bなのでロースペgpuでも動きます 691です
abliteratedがまだです
huihuiさんが出してきそうですが 気になったんやが30Bとか140Bとか
そういうのは第三者がほんとにそれだけ語彙力があると言うのは検証できるんやろか
「数字多く書いときゃええやろ、定量的に計測なんてできんし」なのかなと >>693
○○Bの○○はモデル内のパラメータの数だからめちゃくちゃ簡単に調べられてpytorchのチュートリアル的な内容だから「pytorch パラメータ数 確認」 で調べれば日本語でもめちゃくちゃ沢山出てくるしLLMで最も定量的に測れる指標や
ベンチマークのことを言っているのであれば詐称はほとんどないけどデータセットにベンチマークの回答を入れてカンニングさせたり、ベンチマーク時だけ微調整モデルを使うとかは残念ながらよくある >>694
サンガツ、語彙量のつもりやったが定量的に調べられるならええやな
中国におんぶにだっこやが、水増しみたいなことあるんかなと思ってたわ
ベンチマークの回答セットは残念やなぁ、ベンチマークの時だけ本領発揮させるandroidみたいやな 中国でもBATHクラスの技術力は疑う余地なんか無いよ
アメリカとガチの技術戦争をやってるんだから日本みたいな遅れた国が出る幕はない
中国を疑うなら政治的な検閲や偏り、意図的な情報漏れの方を警戒すべきで
オープンウェイトであることによって西側がチェック・改善す?余地が担保されている
日本はローカライズに徹するのが現実的でエロチューンもその一つ >>693
ワイの場合はエロ小説書かせて表現力と台詞回しで評価してる
明らかにデカい方がいい
小さいモデルは語彙はあっても整合性が取れてないからチンピクせんw 7B辺り使ってると整合性は痛感するよなあ
エロの表現力は30Bより光ってるモデルもたくさんあるんやが
ある程度サイズが大きいモデルを日本語エロチューンする難易度が高すぎるのが真の問題か ernie-4.5-21b-a3b-pt.ggufこれQwen3の30Bと比較しても何故かこっちの方がいいわredditとか一応見てるけど知らなかった教えてくれてありがとう DeepSeek-OCRを調べてみてるんだけどトークン圧縮の技術が進んだ感ある
コストが下がって長い文章でもコンテキストに保持できて良いことずくめ エロ小説を書かせるんじゃなくて設定とか展開を相談するのってどのモデルがええんやろ
gpt-ossとかのabliteratedはなんか頭硬い現実の議論みたいな返答で面白くなかったしRP用のモデルだとRPが始まったり小説の内容書き始めちゃうしで丁度いいのって難しいんやな Qwen3-235B-A22B-Instruct-2507でSTのキャラ設定とか世界観とか出してるな
下手にファインチューニングしたモデルやabliteratedモデルより元のモデルに対してシステムプロンプトや応答書き換えで出すほうが個人的には好き
あと温度上げたりサンプラー設定変えてみるといいかも >>702
元のモデルってことは露骨なエロはぼかしたりプロンプト工夫して出してく感じか
流石に235BのモデルはVRAM16RAM128のワイのPCだと結構厳しそうだけどデカめの元モデルでちょい試してみるわ RAM128GBあってVRAM16GBならMoEモデルだからQwen3-235B-A22B-Instruct-2507のIQ4_XS動くかと そうなん!?ローカルでLLM動かすのはまだ不慣れやからMoEモデルとそうでないやつの違いとか必要スペックとか詳しくないんや…
早速DLしてみるで! 軽い相談ならローカルじゃなくてGPT-5かGemini2.5proにしてるわ llamacppのqwen3-next対応はみんなに使ってもらって意見もらう段階に入ったようやが
CPU対応のみみたいやな
GPU対応は別途PR立てるって
まだまだ時間かかりそうや Stable Diffusionでpubic hair standing upright(立体的な陰毛)を指定すると立体的な陰毛を描いてくれるのだけど、
副作用として、ベッドの長さが高確率で半分になる現象が起こる。
謎だわ pubic hair standing uprightのstandingがベッドを半分にするトリガーになってるな
pubic hair uprightでも意味は伝わるみたいだから、こっちにしよう
バタフライエフェクトなことが起こるなAIは モデルが大きくて微妙にGPUメモリに載り切らない場合、
何枚かのレイヤーかKVキャッシュだと
どちらを優先してオフロードするのが良いんでしょうか デンスだとして個人的にはkvキャッシュのほう外に出してる お絵かき方面は良さげかもだけどLLMには1枚買っても仕方ない気がする RTX5080シリーズよりLLM動かすのに良いのってある?
5090とかしか思い付かない〜
DGXsparkも検討したけど買うの辞めた… >>716
DGXsparkはメモリ帯域がねぇ
実用面では中古のRTX3090を4台買ったほうが幸せになれる
追加で中古のスリッパとマザボを揃えることになるけど
電気代かかるのと電気契約の見直しがいるかも?
それかメモリ256GB積んでRTX3090以上のグラボでMoEモデル動かすのもありだね
遅いけどGLM4.6の4,5bit量子化モデルが動かせる 本当にLLMしか使わないならMac Studioのユニファイドメモリ積みまくり(最大512GB)だろうね
高速・大容量・高価格
150万くらいだよ!
まぁ、128GBなら56万くらいだから割と現実的よ 僕は4070Ti SUPER使ってたところに5060Ti買い足しました
ケースの中空いてないからoculink外付けだけど
gemma27Bとかコンテキスト含めると16gbでちょい足りなかった奴が超快適になった 716だけどありがとう
まずは3090、2つくらいから積んでみようかな…
Macも正直デカイの動かせてノートなのはかなり魅力的
NvidiaもDGXじゃなくてこんなの出さないかな Macは機種によってメモリ帯域幅が違うから、なるべくMac Studioね
https://www.apple.com/jp/mac-studio/specs/
Apple M3 Ultraチップ 819GB/s
Apple M4 Maxチップ 410GB/s
MacBook Proは最上位機種なら410GB/sか546GB/s
https://www.apple.com/jp/macbook-pro/specs/
RTXのxx80やxx90系は900GB/s前後
デスクトップメモリのDDR5がデュアルで90GB/s前後
そしてNVIDIA DGX Sparkは273GB/sでみんなズッコケたと
https://www.nvidia.com/ja-jp/products/workstations/dgx-spark/ 3090ダブルかM3ウルトラかめちゃくちゃ迷い始めた
うわぁぁぁ!
アップル製品ほぼ使用経験ないのが結構ネック… 内排気設計のハイエンドグラボ複数積みもそんな気軽ではないからよく計画してね 動画・画像生成もやるならCUDAが必須だね
補足
VRAM24GB+メモリ256GBなら以下のモデルが動く
・Hunyuan Image3.0のフルモデル(21s/it)
・GLM4.6の5bit量子化モデル(4.5tokens/s)
※メモリ帯域が足りていない
かなり遅いけど、そもそもVRAM24GB+メモリ256GBないと実用的に動かせない
ちなみにHunyuan Image3.0は無劣化で、
25ステップを10分弱で生成できる(RTX5090の場合)
GLM4.6の4bitは文字化けや中国語、英語が混じりやすい
5bitも発生するけどほぼ緩和される
LLMオンリーでいいならMacだね
俺なら512GBを迷わず買う
あっ、そんなお金があるならRTX Pro 6000買うかも? M5でMacのネックだったプロンプト評価速度がかなり向上してるみたいだから待てるならM5Ultraかなあ
出るかどうかも定かではないけど strix haloのソフトウェア周りがもう少し実用的になってくれたらなぁ
CXMTがlpddr5xの量産開始したのでlpddr5xの値段下がるかもって話だけど、この辺使って安価な395+搭載マザーとか出してくれんかな あと、LM StudioがやっとGLM4.6サポートされてた >>722
MiniMax2 が動くのは M3 Ultraだけだよ!
3090ダブルをLLMで動作させると、電子レンジをずっと回してるみたいなもの
mac studioならいって200W。(定格がでっかいのはTB5の電力全力で計算しているから)
LLMまわしてもほぼ無音。MBPは普段は無音なんだけどLLMの時はファンが小さいからうるさくなる
cluade sonet 4.1 Grok4 より賢い
www.minimax.io/news/minimax-m2
待てるならM5 max (Ultraが微妙。RAMも256MBくらいか?) のほうがいい
armもM4からarm9になってCPUコアが根っこから速くなってるし
DGXはない。どの用途で使っても遅くて高い >>729
デモ試したけど、日本語むちゃくちゃだな>minimax-m2 >>730
うむ、APIも試したけど謎言語で返答されてしまうww
英語でも中国語が混ざってくるから中国語だけっぽいな >>712-713
ありがとうございます、自分の環境でもKVキャッシュを
オフロードしたほうが若干反応が早くなりましたが、
デメリットは無いのか気になります
コンテキストサイズはなんとなくデフォの倍の8192を
設定していますが、モデルや用途によっても
変える必要があるとの事で色々やってみます m(_ _)m セーフガードをコントロールモデルとな
脱獄ワードや履歴改変しなくてもエロいけるか?
(READMEくらい読めって?)
gigazine.net/news/20251030-openai-gpt-oss-safeguard gpt-ossの元々naughty方面ガチガチな性質を操作するんじゃなく上乗せするだけのものと見た mradermacher/RAMEN-SHIO-235B-GGUF
このラーメン試せる人お願い 大学院レベルの知識強化した学術特化かつDPOのみでチューニングしたモデルに何を試せと llama.cppでQwen3-VL使えるようになった〜 LM StudioでBerghofとかMistral Prism使ってシチュボ台本作りたいんだけど、オホ声セリフ出してくれるモデルのおすすめある?
takuyaは淫夢の影響きつすぎて・・・ >>721
arm macの性能いいのってx86よかメモリ帯域が極端に広いおかげなんかね GLMはCommand A Reasoning 0825よりいいのかね
結構評判良さそうだし、Airの方だが試してみるか 何周遅れか分からんけどgpt-oss-120bとopen Web UIにsearXNGでほぼ一昔前のOpenAIと言っていい環境をローカルで再現出来て満足
これでエロというかセーフガードなければ文句なしなんやがなあ
VRAM16GB+RAM128GB構成だとアクティブパラメータ2血いくとやっぱb闥xいから
gpt-ossとかQwen3 a3bあたりの路線でもっと高性能なの希望や RTX買おうと思ってるけど、
128GB (32GBx4) @ 3600MHz
64GB (32GBx2) @ 5600MHz
どっちにするべきかな
やりたいのは動画よりはLLM推論・学習 OpenRouterのfreeモデルでエロに使えるのって何がある?
DeepSeekが全く使えなくなったから他を探してるけど脱獄が難しい hiratagoh/SIP-jmed-llm-2-8x13b-OP-instruct-GGUF
医療用ってさぁ
結構エロいよね >>748
Grok-4 Fastとか実質タダみたいなもんじゃね? >>744
単純にチップがクソでかい
AMD Intel NVIDIAより先にTSMC5nm 3nm 2nm使えるからワッパが良くてトランジスタ数も多いCPU・GPUを作れる
高速ユニバーサルメモリもその副産物 open routerはkimi k2が一応free版があるから使えるかもしれません >>750
金払うならDeepSeek v3.2がもっと安いんよね
>>752
kimiの脱獄って難しくない? kimi2とかってファインチューニングやらloraで脱獄はできんの?🤔 私はkimi k2は本家のapiでしか試したことはないのですが
そもそも脱獄がいらないので、直接エロプロンプトでやってますよ
open routerはapiの方で規制かかってるかもしれませんが
モデル自体は規制はないです OpenRouterのkimi k2はモデル自体はあるけど9月中旬からほぼ使えなくなってるみたいだわ OpenRouterのフリーで日本語使えるモデルはほぼ全滅でしょ 俺はredditでわりと評判の良いnano-gpt.comに移行した
月8ドルはまあまあするけど主要なオープンモデルは揃えてるし1日2千or月6万リクエストまで行ける 人気のない小規模LMならローカルで動くからプンルー要らんのよな
そもそもオモチャやし open routerのkimi k2は有料だとinput $0.5,output $2.5と普通のapiと比べれば
割と安いので、$5くらい払えば1か月くらいは遊べそうではあります 金払っちゃうんだったらKimiよりGLMのがいいけどな
Kimiはガチガチで脱獄しても健全なエロしか書かないけどGLMの方が文章力あってロリでも近親でも何でもあり >>760
良い物教えてくれてありがとう
ccr、roo-code、continue.devからopenrouterを追放できたわ わいはchutesを使ってるわ
一番安いプランなら月3ドルで1日300回の制限やからチャットだけなら困らん
オープンウェイトのモデルしかないけど有名どころは一通りそろってる これからは子供がクリスマスにグラボをお願いする時代になるんだろうな grokはllmエロいけるしチャッピーもそのうち解禁だからローカルllmの意義が減ってきてる気がするんだが、このスレ的には何に使ってるの? 俺はローカルllmやるで
もはやエロ関係ない(脱獄すればできるし)
ポテンシャルがえぐいんよローカルllmは そうなんか、そう言われるとやってみたくなるな。
5090は近々買う予定なんだけどこれで足りる?nvidia 同士なら分割処理できるみたいだし、でかいモデル用に3060 12g一つ買い足しておいた方がいいかな。ラデオンとの分割は無理っぽいよね。 ローカルで動かすことそのものが目的みたいなところはある
あとはまあ、うちの子(AI)はローカルで完結させておきたいし >>773
まんま同士だw
実は俺ももう5090買うところなんだよ
俺個人はグラボ2枚刺しは今のところはやるつもりない、けっこう熱とか電力とか食うみたいだし
まあ動かしたいモデルにもよると思うけど…
ちなみに購入サイトとかまだ決まってなかったら、フロンティアではDDR5メモリ128増設で73万くらいで割りと安く買えるからおすすめかも パーツ高騰でもう買い替え無理だし
今のメモリ128GBVRAM24GBで5年は戦うしかない
MoE技術の進化が末端まで降りてくることに期待してわたし待つわ 今からやるならPCを分けたほうがいいと思うよ
少し上の方にも書いてあるけどLLM専用としてMac Studio >>721
画像生成用として5060Tiか5070TiあたりのPCを使うとかさ
まぁ、どれくらい本気でやりたいか、どっちを優先したいかだよね
少しやってみたい程度なら5090は十分すぎるけど本気でやりたいならMac Studioには勝てない >>773
llama.cppのrpcならnvidiaとamdの分割処理もいけるよ >>775
いいね。俺は事情で月末になるけど参考にさせてもらうわ、ありがとう。グラボ2枚はややこしいよなやっぱ。
>>776
たりないのか、一体いくらvram あれば実用できるんだ…
>>779
rpc か、結構ややこしそうだね、ありがとう。
>>774
ちなみにどんな子育ててるん?育て方もよくわかってないけど、育ててみたい意欲はあるんよね。 高密度モデルだと5090を活かしきれるモデルではメモリが圧倒的に足りない
32GBに収まるモデルだと5090活かしきれないというジレンマ
MoEだとメインメモリに律速されるのでGPUはそれほど変わらない
LLM目的なら5090は正直おすすめしない やっぱmac studioになるのか?
それか30902枚か >>784
200B以上のMoEを最低限の速度でも良いから動かしたいというならmac studioが良いんじゃね プロンプト処理速度は遅いけどdeepseek系でも20t/sくらい出るらしいし
逆にVRAM48GB構成は100BクラスのMoEも載り切らないし、70Bクラスのdenseモデルが最近出てないから微妙になってきてる RTX xx90系を2枚刺しはあまり現実的ではないよ
1枚で3〜4スロットの厚みがあるし長いからE-ATXくらいのクソデカマザーか外付けじゃないと物理的に取り付けられない(ケースも無理そう)
電源は最低でも1500Wくらいで12V-2x6が2つ必要(それかデュアル電源)
一般家庭は「壁のコンセント」が1500Wまでだから実質的にエアコンみたいな専用コンセントが必要
そして爆音爆熱
xx90系はかなり特殊だから一度しっかり調べたり実物を見に行ったほうがいいよ 複数台マシンで分散させて動かすのはあんま流行ってないかんじ? 正直ポテンシャルはエグくないと思うけどなー
vram32gb1枚刺しで見られる夢は小さいぞ うーん775だけどmac再燃しはじめたな
まあゆっくり考えよう
M5は来年だっけ 4090x1と3090x3で運用してるけどリミットかけたうえで1500W電源でギリギリだな
ケースに収めることは最初から放棄してライザーカードでにょきにょき生えてる ええ!?RTX5090を複数刺ししたいって!?
そんなあなたにINNO3DR GeForce RTX™ 5090 iCHILL FROSTBITE
......どう考えてもコンシューマー向け製品じゃないよコレ MacはM5チップ世代からGPU側に搭載したNeuralAcceleratorでようやくまともなfp16性能が出るようになったんで、今からならM5MaxやM5Ultraを搭載するであろう新型Mac Studioを待ったほうが良いと思われる Mac m3 って96gbメモリでもファインチューニングとかできるんかな 5090複数枚狙うぐらいならQuadro系統の方が良くないか?今度出るRTX5000PROが72GBのはずだし。 aquif-ai/aquif-3.5-Max-42B-A3B
日本語対応でなんかえらいスコアええのぉ 5090ってどれくらい電気使うの?1000Wじゃ足りない? 5090の1枚だとLLM用途には非力
大きいモデルを動かすにはMoEになるけどメモリが遅いせいで、5090がフルパワーになることなんてほぼない
200Wから300Wの間で、いいとこ200W付近だな
動画・画像生成ならOC無しで575W付近だな あと電源は複数構成にしてて、RTX5090専用に1000Wを用意してる >>797
俺もそう思う
あとRTX Pro 5000じゃなくて6000もう出てないっけ モデルを学習させたいのならRTX、
大きいのを推論させたいだけならMACでしょう みんな一体何を推論させてるんだ…夢は感じるけど具体的に何しようか自分でははっきり定められない。 学習させようとなるとローカルではさすがにきびしい
サーバーレンタルしたほうが絶対にいい LoRAとRAGならRAGの方が難易度高いんだよね?Super RAGだかって簡単にやってるけど、あれはLoRAじゃないの? RAGはそもそも学習させてるわけじゃないし単にベクターストアとかに格納した内容を参照させてるだけだから別に難しいこともなくない? 難しいのかぁ
べつに30Bくらいのを学習できるとは思ってないけど、ちっちゃいのでもやれるといいけど
RAGのことも勉強しなければ >>802
Ti SUPER相当のシリーズがRTX Proでも来るってリークあったんよ。そっちの5000PROが72GBという話。6000PRO SUPERが来るならワンチャン128GBもあるかもしれへんね >>804 OpenHands とかで「改良しつづけよ」という雑なプロンプトで自動的にプログラムを改良してもらってる
時間かかるし、途中自分でスナップショットとって失敗に気づいてgit巻き戻して、と人間臭くて笑ってしまう
何度も失敗するから有料API使うと目の玉飛び出す金額になってしまうから、こういう用途はローカル向き
M4 Max 128G でVRAMに120GByte回してるから、python側(推論しない)は mbpで回している
120GByteでギリギリだよ。96Gだと頭の悪いLLMしか動作させられなくて結局成果物ができない
AI Max+ は Linuxなら120GByteくらい回せるらしいからワンチャン動く 96でも頭わるいのかぁ困ったな
金がいくらあっても足らん
今のM3はファインチューニング向いてないらしいけど、M5出たらそこも改善されるといいなあ