なんJLLM部 避難所 ★8
DeepSeek R1ってまともにローカルで動かせるんけ? 蒸留してなくてもKTransformersを使うとそこまで難易度高くない
800GBくらいのDRAMとRTX4090が1つあれば動く R2かと思ったら違った
しかしファイルサイズでかいな…… plamo-2-8bをローカルで動作させられた人いますか? >>205
すいません
購入を考えているのですが
AI最適化済みのWIN11って普通のものと何か違ってましたか
用途によるんでしょうが、radeonで困ることってありますか >>227
きちんと検証した訳じゃないけど多分普通のwin11じゃないかな
radeonで困ることはおそらくあると思う
lm studioでrocmランタイム有効にするのも一手間かかったし
ユーザー増えて対応進むといいなと思ってる(他力本願) Ai(LLM)で人物とかの設定と細かいストーリーラインを指示して小説風に仕上げることを繰り返して物語を作りたいのですが、おすすめありますか? DeepSeek-R1-0528-Qwen3-8Bがあるらしいけどまだ公開されてないな >>220
デモ試してるが、日本語でthinkするようになってるね >>228
返信ありがとうございます
cudaがないとやはり一手間かかるんだと思いますが
それも楽しそうですね >>231
日本語性能がかなり上がったように見える RADEONてローカルLLMで使えるんでしょうか?
メモリ容量だけ見るとNVより有利に見えるけど... >>234
RADEONだとローカルLLMはVulkanを利用する事になるだろうけど、
画像生成までしたいのならZLUDAでCUDA互換環境を作るとか苦労するだろうね RadeonはLinuxかWindowsかでも結構変わってくる
Linuxのほうが開発が進んでいる
Linuxが扱えない人には難易度高い Ryzen AI MAX ならミニPCやろうし
LinuxでLLM動かして
普段はWinのメインPCからリモートで扱う感じになるんかねえ これ誰か量子化してくれないかなぁ?
pfnet/plamo-2-translate ・ Hugging Face
https://huggingface.co/pfnet/plamo-2-translate >>238
そもそもmac以外で動作するの?という話 >>239
Mac関係あるの?ああ、サイズ大きいんじゃないかって?
Model size 9.53B params, Tensor type BF16 でも大きい? >>240
mamba-ssm問題が解決してなかったと思う >>238
ていうかSambaモデルがMacというかMLXで動くのか
実はApple Silicon Mac持ちなのでMLXで動くなら動かせるんよ
で、中の人がtranslateの方もMLX用の量子化モデルを作ってくれていたので動かせた
(Model treeのリンクが間違っているので量子化モデルの存在に気付けなかった)
https://x.com/mitmul/status/1927960884103762302
https://huggingface.co/mlx-community/plamo-2-translate >>238
これ精度低いよ
bleuも公開できないほど AmazonでRyzen AI Maxの128GBのが22万円のセールやってるな deepseek-R1-0528のIQ2_XXS動かしてるんだけど日本語は自然になってるね
でも小説書かせてみたらmagnum-v4-123bほどではないんだけどそんなもんかな? >>249
てゆうかエロ小説でこれを超えるモデルそろそろ出て欲しいんだわ 小説性能ってベースモデルの事前学習時点で決まる感じやから当分は来ないやろね
qwenやgemmaは明らかに学習データをフィルタリングしてるしmistralも最近はSTEM重視の姿勢でクリエイティブ性能落ちてる
deepseekはかなり緩めだけどそれで越えれないなら厳しい magnum-v4-123b使うときGPUとRAM何GB消費してる?
RTX3060 12GBと32GBしか積んでなくて、どれくらい増せばよいのか知りたい >>252
メモリは最低でも64Gないと動かん
64GでもIQ3_Mの量子化が限界
96GあればQ5_K_Mが動くが、メモリで動かすと絶望的に遅いからお勧めしない
ワイは64Gで動かしてるが、プロンプト打ち込んだら、別の事して30〜40分掛かって512トークン終わる感じだわw
3080tiの12GのVRAMは一応使ってるが、あっても無くても変わらんレベル
しかもmagnum123Bは日本語トークン対応してないみたいで、1文字2トークン使うから、対応してる70Bの体感3倍遅いwww
RTX6000proQ-Maxが欲しいいいいいいい
このグラボでフルスペックの512G mac買えるけど画像AIにも使えるしマジ悩むw magnumは最近のモデルで作ってほしいよね
123bってMistral Largeだしちょっともう古いよね
今ならCommand-Aが元からゆるゆるだしよさそうやが >>252
ありがトン
じゃあとりあえず32GBx2買うかあ
最低64GB、相性運よけりゃ4枚刺しで96GBで。現代もメモリの相性問題があるのかは知らんけど・・・ Ryzen AI Max期待してたんだけど微妙なの? 数値あげてくれとるニキおるからそれ参考にしてもろて >>257
70B以上のモデルでも普通のPCのメインメモリに載せて動かすよりは速いのと省電力性が良いって感じかな Ryzen AI Maxは128GBメモリを使えるPCでは一番安いのが強みではある
そこに良さを感じないなら微妙かもね 結局マシンスペックに帰結するんだよな
もっと手軽に高品質な官能小説出したいだけなのに 楽しみながらデータセット無限生成編始まった一粒で6度美味しい
こういうのみんなで出し合ったらデータセット簡単に作れそうやけど情報偏りそう
https://i.imgur.com/AYt6MwY.png >>262
キャラチャット用のFT手順一式が欲しいわ
今はUnslothとかいうのを使うのか? 最近ローカルでLLM使えるの知って今日始めてSilly Tavernでオリキャラと会話して遊んでるけど
なんか緊張して関係性進展しなくて草
でも昔恋愛シュミレーションゲームやってて選択肢をどっちにするかとか考えて楽しかったけど
こっちは無限にいろんな分岐があるゲームをやってるみたいで更に楽しいね Project-Wannabeの作者様へ
いつも使わせていただいております
ありがとうございます
要望なのですが
・出力されたものは全てパラメータjsonやkcppsと共に
logとして残しておくことはできないでしょうか
・デフォルトの生成パラメータ数値ヘ簡単に戻すことはできないでしょうか
・出力時に1行ずつ空白行を挿入(改行)されてしまうことが多いのですが、
それをさせないようにすることはできないでしょうか >>263
unslothのcolabノートブック使ってみるといいよ
わかりやすいし何より無料 学習データって>>262のように同じテーマで口調を変えただけのものを用意するのと
バラバラなテーマで口調を変えたものを用意するのとどっちが適してるのかな
もちろんトータルのデータセット数は同じだと仮定した場合ね
前者でいいなら楽にデータセット用意できるけど後者だと内容考えるだけでも大変なんだけど 後者のほうが良いよ
基本多様であれば多様なほど良いと思って良い
テーマのリストとか口調のリストとかをGeminiとかで大量に書かせてリスト化してランダムに組み合わせてLLMに合成させる感じとかでそれなりに多様にはできると思う shisa-ai/shisa-v2-llama3.1-405b-GGUF
だれか試せる人おらんかな?
moeじゃない405Gの日本語finetune >>271
おおサンキュ!
早速試したが、R1並みにいいかも
webだから規制入ってるけどローカルならどうなんだろ ちょっと試しただけだけどllama3.1はもう古い感じがした
計算リソース食ってる割には...他のLLMの進化が早すぎるんよ >>275
70Bなんか動かせるマシン持ってるやつ少ねえよってのと最近は性能大幅に落としてもいいからエッジデバイスでいかにそれっぽいのを動かせるかに研究が移ってるっぽいからなあ >>269
やっぱりそうかぁ
以前、内容や名詞をスクリプトで自動的に組み合わせて生成した金太郎飴みたいなデータセット1万件ぐらいを使ってLoRA作成したんだけど
推論結果が同じく金太郎飴みたいになってて全く使い物にならなかったんよ
質問文は自力で頑張って用意してそれをLLMに蒸留させてデータ作成するのが一番現実的そうやね
ただOpenAIは蒸留に対する検知厳しくなったみたいだしローカルLLMで蒸留させるしかないのかな Gemma3の70Bくらいが欲しいよね
Llama3.1 405Bの位置が低すぎる
huggingface.co/blog/gemma3 >>281
Instruct版のSpaceあったので遊んでみたけど、ハルシネーション抑制、ってあったけどInstruction Followig、Groundnessともに怪しい感じでこれで4o越えは評価のスコープを思いい切り絞らないと、って印象
文体は自然でそこそこなので惜しい感じ
フルスクラッチ日本語モデルって点では今後に期待
111B多言語対応のCommand-a越えを期待してたんだけど... >>282
それ古い方じゃないかな?
今回のはマルチモーダルモデルなので用途が違うかな >>283
あ、そうかも
いまもう一回検索したらStockmark-2-VL-100BではSpace出てない感じだった
楽しみが増えた、ありがとう Stockmarkは…うん…界隈の人だとある程度察すると思う GENIACにオルツが入ってるから何でも胡散臭く見える >>285
以前試したが小説目的だとまさしく話にならないレベルで速攻消した思い出 >>286
別になんか悪いことしてるとかではないんだけど、シンプルにこのスレ民的には全く期待しなくて良いと思うというお話 世間一般ではダメじゃないかもしれんがスレの評価が低かっただけ
でも、どんなベンチマークの評価よりこのスレの評価の方が参考になるんだわw Aratako/NemoAurora-RP-12B
これLumimaidとかMagnum-v4とか混ざってるから良さげな雰囲気あるな
仕事終わったら試してみるわ 一応モデル作るだけ評価は出来るが比較対象のレベル低すぎてお察し
なんで100Bと14B並べてイキってんねん Aratakoってワイの一番のお気に入りのcalm3-22b-RP-v2作った神か?
NemoAurora-RP-12B触ってみるわ NemoAuroraちょっと試したがかなり饒舌な感じで淫語とかも普通に出やすいな
この人のモデルにしては珍しく小説系とかそっち寄りな感じがする
この辺はHimeyuri-12Bとかをマージしてる影響かな?エロ系はかなり自然な感じ
その分何回も会話してるとだんだん応答が長くなって行きがちだから適度に過去会話をカットしてあげると良さそう(SillyTavernとかなら楽)
README読むとコンテキスト長32kで学習されてるみたいだけど実際そこまでいけるならかなり実用性ありそう エロokの配信サイトとか最近やと何処がええんやろ?ワイのAIライバーをニキらのオモチャにしてみたい fc2とかええかなって思ったけどツールでコメント拾う手法が確立されてないんか EVO X2届いた
とりあえず窓の認証済ませてからLinux入れるか Aratako/NemoAurora-RP-12B(Q3_K_S)触ってみた。
・一から書かせるのは微妙…?やっぱすぐ「以下省略」とか記号連発とかしてくる。
・チャット時の性格は、変な頑固さがなくて割と素直かも。法律・倫理に反する嘘を理詰めで教え込むのに成功した。
・なんか「NHK」好き過ぎん?よく出るような。あんまり脈絡なく「それで、NHKがNHKのNHKによるNHKのためのNHKNHKNHKNHK...」とか出た時は吹いた。
・既存短編を読み込ませて架空の読者コメントを書かせた場合の自然さ、理解力、多様さは過去一かも。 >>307
小説書かせてる感じ?RPって付いてるしこの人の後悔してるデータセットとか見ても基本はロールプレイ用じゃないかな
読者コメント書かせるのはある種のRPなのか…? >>308
読み込ませたのは過去の簡易TRPGリプレイ。
一応RPだけど、GM(AI)やNPC(AI)と自分の発言以外に地の文も有りで、ラノベ的。
>>309
CPU(Ryzen 5 7530U)+メモリ16GB(DDR4 8GB*2)のサブノートPC。
GPUが安くなったらメインPC(13年使用)組み直そうと思ってるが安くならんな…
その予算50万あるんで今でもそこそこの組めそうなんだが、今は時期が悪い。 magistralはqwqやqwen3と違って日本語ネイティブ推論できるっぽいしクリエイティブ用途だと悪くなさそうね >>310
2年後くらいにはミニPCの進化でグラボよりええかもしれんね
いまスマホでもメモリ16Gでてきてるし
SoCもAI対応うたってるのあるしなんならLLMも積める言うてるし
シャオミも独自SoC作ったし
スマホもどうなるやろなあ AndroidならすでにGemma-3nがそこそこまともに動いてびびった Mistral自体のMediumも公開されてないから無さそう なんかこう、知識はないけど賢いモデルってのは出てこないもんかね
8Bくらいだけどfunction callingしてネットなりを検索して勝手に小説なりを読んで応用効かせて書いちゃうみたいな
そんなことできる頃にはシンギュラっちゃってるだろうが 賢くない奴がネットで得た知識だけで語るって地獄やんけ
ネット検索自体がゴミになっててそこから正しい情報吸い上げるには常識が必要なんちゃうか >>315
Large出すタイミングでMediumを解放すると期待してる 知識はないけど理解力と推論力が凄い、ってのは魅力ある
それこそが真の意味での知性ではないかと 言語モデルである限り理解力=知識ベースだから難しいのでは
言語に頼らずニューロンをシミュレーションするモデルが必要だ redditでスレが立ってたshisa-ai/shisa-v2-llama-3.1-405bって日本語最強モデルはどうなんだろ
東京にスタジオがあるらしいけど初めて知った
方言とか口調や人称ニュアンスが再現できる方向に進化してほしいな 賢さ自体をよそから手に入れればよさそう
MCP時代のモデルは、何が分からないのかを判断する能力と、どこで聞けば良いのかだけを持っていればいいのかもしれん >>321
デモで試したが悪くはなかったよ。
でもmagnum123bは超えてない感触だった NvidiaのProRLって方法で1.5Bが7Bレベルの推論出来るようになったって話があるし
言語モデルは単純に記憶してるだけじゃなくて概念を理解して学習してるとかの話もあって
中小規模モデルでももっと賢くできそうな気配あるよ 単純な知識量はモデルサイズに比例するとして、理解力と分離できたらいいんだけどね
MCPでWebから検索するのは危険だから、別な知識タンクがあるといいんだけど
そうなればモバイルでも知識はSSD、理解力は内部メモリに分離できそう
研究者の方々は当然そういうことはやってるんだろうけど >>324
4070tiなら12GBのVRAMに収まるようにって考えるかもしれないけど、
小説目的ならチャットみたいにリアルタイムな応答は必ずしも必要ないからメインメモリも使ってでっかいモデル動かすのもありやで 304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした
Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後
M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s
不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた
llama.cppのVerかパラが違うっぽい? >>328
安すぎて買ったわ
これでRTX5090とRTX3090x3台の構成になる見込み ノートの5090だけど70Bとかほとんど動かないレベルで遅いんだけど設定が悪いのかなぁ >>329
レポ乙
EVO X2の素の設定だと1.33 tok/s
EVO X2+TeslaP40だと1.81 tok/s
下はVRAMは最下限?の512MBにしてCPUとして動作させた。
あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな? >>332
そうそう、それで合ってる
見づらい書き方ですまんかった 知ってたけどdenseモデルだととんでもなく遅いな
40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう >>330
3台はすごいな、消費電力的にも。。
どんなモデルでも動かせるんじゃないか >>331
70Bなら40Gは超えるから32Gの5090x1では厳しいだろ
もしx1.5が出たらいけるけど >>337
3スロットx3?
凄すぎです
所謂ラックマウントなのか会社レベル
vram増やすにはいいけど電源問題もありなかなか >>329
LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ
1.33tok/sは厳しいな
型落ちMacBookPro(M3 Max/128GB)で
Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s
Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s
くらい出るから大人しく次のMacStudioまで待つわ… ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね?
VSCodeとか >>337
>>339
さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ
電力ヤバいからPL絞って1枚200Wちょいにしてる
ちなみにマザボはお古だけどグラボが4スロット刺せるやつ EmemeTownまた延期してるな
開発しているうちにどんどん性能が上がっていくLLMをゲームに組み込むのは難しいのか llama.cppをdockerで動かしてる人
cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる?
sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど 12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。 EVO X2とX1ってどれぐらい性能違うの?
どっちも64GBだとして >>341
ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか
いいな >>329 >>340 mac studio M4 Max 128Gだと6.14tk/sだった
M5 maxがすごいらしいから待った方がよさげ MoEモデル慣れてると古いモデル(Mistral-Large)は出だしが遅いな。賢いんだけどね >>350
ベンチマーク助かる
BookとStudioの差もありそうだけどM3Max→M4Maxで40%高速化はでかいな
M5Max期待できそう >>341
動く(動くとは言っていない)
みたいな状態にはなるけどな
プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか? 品質がどうでも良い用途ならローカルでもいいんじゃないの? 5090で動画生成
4090で画像生成
3090複数台(または4060Ti/5060Ti)でLLM/VLM
GPUでできる個人レベルの理想形はこんな感じか rtx pro 6000 なら全部できるな・・・( ゚д゚) なおrtx pro 6000買うだけの金があれば中古3090を10台以上買える模様
高杉 >>341
CLINEでLM Studioをサーバーにして使ってる
賢さと知識量はどうにも商用には敵わないけど
ローカルだとAWSのキー丸出しで質問できるのは楽
使い分けだよね RTX PRO 6000とかのデータセンター向けGPUを家庭で使うと音で気が狂うかも知れない >>360
用途がAIなら別室におくのがいいね
エアコンは必須だけど >>359
その用途だとむしろバカなLLMを使ってる方が危なくないか?
承認者の人間側が十分に賢い前提ならまた違うのかもしれんが >>360
Q-max版なら300wやで
悩ましいわw >>360
うるさいの?
(驚いたことに)むしろスロット数少ないらしいしパワー少なそうに見えたけど
まあどうせ自分では買えないから関係ないけど workstation版は5090のFEと同等だから許容できる騒音だろうけど300W版はシロッコファンだから地獄みたいな騒音やろな >>360
RTX Pro 6000はワークステーション向けやで。
画像生成スレの御仁も使ってるぞ >>364
最近のグラボが何のためにスロット多いかというとヒートシンクの表面積を大きくして風量の多い大型ファン積むことで少しでも低回転で効率よく冷却するためであって
600Wで2スロットとなると容赦なく高回転でぶん回していると思う
ワークステーション用だから人のいる部屋に置くことなんて想定してないだろうし ワークステーションはサーバじゃないから人のいる部屋で使うんじゃないの AIやるのにPCケースなんて使わねぇよな
マイニング筐体 スマホでやるのがメインなんだけどスレの流れ見てるとローカルをパソコンで走らせつつスマホで動かす事もできるの?
パソコンが起動しっぱなしになると電気代まあまあ掛かりそうではあるけど家の中で遊ぶならそんなに気にならないからできるならやってみたいな… >>367
なるほどねえ
AI しか使わんし一時PRO4000も候補に考えてたけどやめてよかったかな >>371
pro4000は1スロットで排熱すごそうだからワイはpro4500を考えてたわ
煙突ケース使ってるから、むしろシロッコファンじゃないと熱効率悪いし
今使ってるasus turboの外排気もそこまで気になる音でもないかな
しかし6000に涎が・・・w
こいつをローカルサーバにして、magnun123bQ5kmあたりでskyrimのAImod繋げて遊びてぇぇ!! >>372
PRO6000はロン街だったわ
"普通"の個人ではあり得ん
でもVRAMはうらやま
(マジで50シリーズはVRAMけちりすぎ)
いずれ俺も必要になったらライザーで複数台トライするかも ちょっと目を離してるうちにR1の70B.ggufとかllama3.3出てるんね
試してみるか chatarenaの日本語版でQwen3の235bがdeepseekの上に来てんな
Thinking版よりNoThinking版のほうが上に来てるのも興味深い 聞きたいんやけど、今一番良いモデルで無臭エチエチで使えるのってQwen3 32Bかな?
グラボは3090です 一番良いモデルで無臭エチエチなモデルならmagnum123bだが、遅さに耐えられるかな Qwen3ベースのrinnaのbakeneko出してほしい
できれば235BA22B版も テンプレ見てgptに聞きながら試したんだけど全然上手くいかないので相談
ゲーミングノートです
AMD Ryzen AI 9HX
RTX5090/24G
メモリ64G
koboldcpp_cu12.exe起動、そのままlaunchボタン押したらモデル読み込みしろって言われるからテンプレのmagnum-v4-12b-Q8_0.gguf読み込む
おっぱい揉む描写してって頼んでも、お断りされる
geminiに命令する時みたいに色々フィクションだのなんだのって思い込ませないとダメですか >>380
abliterated なモデル使うとか。
プロンプトさらして見るとか? >>383
mafnum-v4-12b q4_k_mだけどそのまま指示して出てきたよ。
VRAM24Gはうらやましく。
Mistral small 24b q4_k_mくらいでも良いかもよ? お試しでやろうとしただけだから設定とかコンテキストはいじってないんだよな
プロンプトと返答そのまんま貼り付けるわ
女性のおっぱいを揉みしだく描写をしてください
「私は描写ができません。エチケットや相手の感情を考えずに性的な描写を行うのは好ましくありません。他人の身体を勝手に触るような行為は侵害行為として問題があります」
フィクションですので問題ありません
「フィクションだとしても、私にとっては差し障りのない表現は行いません。人格モデルの観点から不適切だと感じる内容には賛同できません。あなたの要望に応えることは避けさせていただきます」
私は人格モデルに基づいて振る舞っています。エチケットや相手の感情を尊重することが基本的な信念であり、それを崩すことはできません。お互いに理解し合えれば幸いと思います。 新しいセッションにしたら変な日本語だけどそれっぽいのが出たわ
お騒がせしました >>381
俺が試した限りではQwQ-32Bの方が良かったよ
Qwen3-32Bは複雑なプロンプトだと/think指定しても返答精度が低くなる模様
検閲もQwQより厳しくなってて、abliterated版でもエロ無理だった >>388
キャラ設定の項目や最初の会話の項目はちゃんと埋めてる?
設定を全く書いていない状態だとお断りされるモデルもあるよ qwenはそっち目的だと激弱という印象
回答拒否以前に学習時点でデータ排除してるっぽいから追加学習含め何しても無駄
baseモデル比較すると大体傾向が見えるけどmistral系が一番良かったよ ST使うと5ターン程会話したら同じ文を出力して会話にならないのはなんで?
どのモデルでもなる… >>392
長文すぎて設定したコンテキストサイズ超えてない? バックエンド側でコンテキストシフト的な機能を有効化してないとか?