なんJLLM部 避難所 ★8
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured >>329
レポ乙
EVO X2の素の設定だと1.33 tok/s
EVO X2+TeslaP40だと1.81 tok/s
下はVRAMは最下限?の512MBにしてCPUとして動作させた。
あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな? >>332
そうそう、それで合ってる
見づらい書き方ですまんかった 知ってたけどdenseモデルだととんでもなく遅いな
40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう >>330
3台はすごいな、消費電力的にも。。
どんなモデルでも動かせるんじゃないか >>331
70Bなら40Gは超えるから32Gの5090x1では厳しいだろ
もしx1.5が出たらいけるけど >>337
3スロットx3?
凄すぎです
所謂ラックマウントなのか会社レベル
vram増やすにはいいけど電源問題もありなかなか >>329
LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ
1.33tok/sは厳しいな
型落ちMacBookPro(M3 Max/128GB)で
Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s
Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s
くらい出るから大人しく次のMacStudioまで待つわ… ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね?
VSCodeとか >>337
>>339
さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ
電力ヤバいからPL絞って1枚200Wちょいにしてる
ちなみにマザボはお古だけどグラボが4スロット刺せるやつ EmemeTownまた延期してるな
開発しているうちにどんどん性能が上がっていくLLMをゲームに組み込むのは難しいのか llama.cppをdockerで動かしてる人
cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる?
sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど 12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。 EVO X2とX1ってどれぐらい性能違うの?
どっちも64GBだとして >>341
ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか
いいな >>329 >>340 mac studio M4 Max 128Gだと6.14tk/sだった
M5 maxがすごいらしいから待った方がよさげ MoEモデル慣れてると古いモデル(Mistral-Large)は出だしが遅いな。賢いんだけどね >>350
ベンチマーク助かる
BookとStudioの差もありそうだけどM3Max→M4Maxで40%高速化はでかいな
M5Max期待できそう >>341
動く(動くとは言っていない)
みたいな状態にはなるけどな
プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか? 品質がどうでも良い用途ならローカルでもいいんじゃないの? 5090で動画生成
4090で画像生成
3090複数台(または4060Ti/5060Ti)でLLM/VLM
GPUでできる個人レベルの理想形はこんな感じか rtx pro 6000 なら全部できるな・・・( ゚д゚) なおrtx pro 6000買うだけの金があれば中古3090を10台以上買える模様
高杉 >>341
CLINEでLM Studioをサーバーにして使ってる
賢さと知識量はどうにも商用には敵わないけど
ローカルだとAWSのキー丸出しで質問できるのは楽
使い分けだよね RTX PRO 6000とかのデータセンター向けGPUを家庭で使うと音で気が狂うかも知れない >>360
用途がAIなら別室におくのがいいね
エアコンは必須だけど >>359
その用途だとむしろバカなLLMを使ってる方が危なくないか?
承認者の人間側が十分に賢い前提ならまた違うのかもしれんが >>360
Q-max版なら300wやで
悩ましいわw >>360
うるさいの?
(驚いたことに)むしろスロット数少ないらしいしパワー少なそうに見えたけど
まあどうせ自分では買えないから関係ないけど workstation版は5090のFEと同等だから許容できる騒音だろうけど300W版はシロッコファンだから地獄みたいな騒音やろな >>360
RTX Pro 6000はワークステーション向けやで。
画像生成スレの御仁も使ってるぞ >>364
最近のグラボが何のためにスロット多いかというとヒートシンクの表面積を大きくして風量の多い大型ファン積むことで少しでも低回転で効率よく冷却するためであって
600Wで2スロットとなると容赦なく高回転でぶん回していると思う
ワークステーション用だから人のいる部屋に置くことなんて想定してないだろうし ワークステーションはサーバじゃないから人のいる部屋で使うんじゃないの AIやるのにPCケースなんて使わねぇよな
マイニング筐体 スマホでやるのがメインなんだけどスレの流れ見てるとローカルをパソコンで走らせつつスマホで動かす事もできるの?
パソコンが起動しっぱなしになると電気代まあまあ掛かりそうではあるけど家の中で遊ぶならそんなに気にならないからできるならやってみたいな… >>367
なるほどねえ
AI しか使わんし一時PRO4000も候補に考えてたけどやめてよかったかな >>371
pro4000は1スロットで排熱すごそうだからワイはpro4500を考えてたわ
煙突ケース使ってるから、むしろシロッコファンじゃないと熱効率悪いし
今使ってるasus turboの外排気もそこまで気になる音でもないかな
しかし6000に涎が・・・w
こいつをローカルサーバにして、magnun123bQ5kmあたりでskyrimのAImod繋げて遊びてぇぇ!! >>372
PRO6000はロン街だったわ
"普通"の個人ではあり得ん
でもVRAMはうらやま
(マジで50シリーズはVRAMけちりすぎ)
いずれ俺も必要になったらライザーで複数台トライするかも ちょっと目を離してるうちにR1の70B.ggufとかllama3.3出てるんね
試してみるか chatarenaの日本語版でQwen3の235bがdeepseekの上に来てんな
Thinking版よりNoThinking版のほうが上に来てるのも興味深い 聞きたいんやけど、今一番良いモデルで無臭エチエチで使えるのってQwen3 32Bかな?
グラボは3090です 一番良いモデルで無臭エチエチなモデルならmagnum123bだが、遅さに耐えられるかな Qwen3ベースのrinnaのbakeneko出してほしい
できれば235BA22B版も テンプレ見てgptに聞きながら試したんだけど全然上手くいかないので相談
ゲーミングノートです
AMD Ryzen AI 9HX
RTX5090/24G
メモリ64G
koboldcpp_cu12.exe起動、そのままlaunchボタン押したらモデル読み込みしろって言われるからテンプレのmagnum-v4-12b-Q8_0.gguf読み込む
おっぱい揉む描写してって頼んでも、お断りされる
geminiに命令する時みたいに色々フィクションだのなんだのって思い込ませないとダメですか >>380
abliterated なモデル使うとか。
プロンプトさらして見るとか? >>383
mafnum-v4-12b q4_k_mだけどそのまま指示して出てきたよ。
VRAM24Gはうらやましく。
Mistral small 24b q4_k_mくらいでも良いかもよ? お試しでやろうとしただけだから設定とかコンテキストはいじってないんだよな
プロンプトと返答そのまんま貼り付けるわ
女性のおっぱいを揉みしだく描写をしてください
「私は描写ができません。エチケットや相手の感情を考えずに性的な描写を行うのは好ましくありません。他人の身体を勝手に触るような行為は侵害行為として問題があります」
フィクションですので問題ありません
「フィクションだとしても、私にとっては差し障りのない表現は行いません。人格モデルの観点から不適切だと感じる内容には賛同できません。あなたの要望に応えることは避けさせていただきます」
私は人格モデルに基づいて振る舞っています。エチケットや相手の感情を尊重することが基本的な信念であり、それを崩すことはできません。お互いに理解し合えれば幸いと思います。 新しいセッションにしたら変な日本語だけどそれっぽいのが出たわ
お騒がせしました >>381
俺が試した限りではQwQ-32Bの方が良かったよ
Qwen3-32Bは複雑なプロンプトだと/think指定しても返答精度が低くなる模様
検閲もQwQより厳しくなってて、abliterated版でもエロ無理だった >>388
キャラ設定の項目や最初の会話の項目はちゃんと埋めてる?
設定を全く書いていない状態だとお断りされるモデルもあるよ qwenはそっち目的だと激弱という印象
回答拒否以前に学習時点でデータ排除してるっぽいから追加学習含め何しても無駄
baseモデル比較すると大体傾向が見えるけどmistral系が一番良かったよ ST使うと5ターン程会話したら同じ文を出力して会話にならないのはなんで?
どのモデルでもなる… >>392
長文すぎて設定したコンテキストサイズ超えてない? バックエンド側でコンテキストシフト的な機能を有効化してないとか? 一応huihuiAIのqwen3:8bQ5_K_Mだと
脱獄必要なくまぁまぁのエロ小説は出力されるかな
日本語よりは不便なの否めないけど >>389
やっぱり通常版より無臭版の方が色々イケないセリフも言ってくれるのかな?試してみよう >>393
設定凝りまくってるのが原因かもしれない。もう少し圧縮してみる 2025年06月18日 11時43分
世界最長のコンテキストウィンドウ100万トークン入力・8万トークン出力対応にもかかわらずたった7800万円でトレーニングされたAIモデル「MiniMax-M1」がオープンソースで公開され誰でもダウンロード可能に
https://gigazine.net/news/20250618-minimax-m1-open-source/