なんJLLM部避難所 ★6

1002コメント332KB

なんJLLM部避難所 ★6

レス数が950を超えています。1000を超えると書き込みができなくなります。

0001名無しさん＠ピンキー

2025/02/13(木) 21:16:02.49ID:KkRdf1Mm

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/

0854名無しさん＠ピンキー

2025/03/18(火) 14:46:25.72ID:???

>>853
LLMはgemini-2.0-flash使うてます　ローカル環境貧弱なので(GPUは画像生成に専念させたい)

0855名無しさん＠ピンキー

2025/03/18(火) 14:52:29.43ID:???

gemini２flashいいよね
長くなって繰り返し始めたら、
あらすじ化させて新しく始めてる

0856名無しさん＠ピンキー

2025/03/18(火) 14:56:43.71ID:???

mistral small 3.1出たんだな

0857名無しさん＠ピンキー

2025/03/18(火) 15:28:00.82ID:???

Mistral Small 3.1は日本語性能高そうだなぁ

0858名無しさん＠ピンキー

2025/03/18(火) 15:40:43.27ID:???

>>844
GGUF版はSillyTavernだとなんらかの不具合で⚗や<|im_start|>が出たり、<think>が抜けたりする
それ抜きにしても本家QwQ-32Bより日本語が不自然で現状使い物にならない

0859名無しさん＠ピンキー

2025/03/18(火) 15:50:33.68ID:???

SillyTavernは設定をちゃんとしないと大変だね。
外国人の設定をそのままコピペしたら、なぜか日本語での受け答えもまともになったりするけど、有名なやつじゃないと設定が分からなくて難しいんだよね。

0860名無しさん＠ピンキー

2025/03/18(火) 16:00:41.97ID:???

たぶん設定の問題じゃない
量子化でバグったか、ファインチューニングでバグったかのどっちかだと思う

0861名無しさん＠ピンキー

2025/03/18(火) 16:52:23.00ID:???

>>844
GGUF版はkoboldだとまともに動かんしな
無理やり動かしても本家より落ちる感じ

0862名無しさん＠ピンキー

2025/03/18(火) 17:16:07.88ID:???

軽い気持ちでh100 nvl 94gbの価格調べたらこれ480万もすんのかよwww

0863名無しさん＠ピンキー

2025/03/18(火) 17:27:50.20ID:???

Mistral Small 3.1のQ4_Kで使ってみてるけど、知識も豊富でかなりええ感じに賢い感じがするで！まあ新しいモデル触れるたびこんなこと言ってる気もするけど……
コンテキスト長が長いのと、CPU演算でもそんなに遅くならんのが嬉しい所や。Gemma3ちゃんと違って具体的なエロ描写もOKやったで
注意点は、推奨temperatureが0.15とかなり低いところやね。あともうちょっと試してみないとわからんけど、なりきりチャットはあまり得意ではないかもしれへんね。設定には忠実なんやけど、全体的に真面目な感じや

0864名無しさん＠ピンキー

2025/03/18(火) 17:39:04.32ID:???

RP不得意モデルが続くなあ
ただでさえチャットには応答速度が求められてハードル上がるのに冬の時代は続きそうや…

0865名無しさん＠ピンキー

2025/03/18(火) 18:16:37.97ID:???

koboldっててっきりllamacppベースかと思ってたら違うんだ
でも検索したらllamacppをベースにしたkoboldcppってのもあんねんな

koboldとkoboldcppの2種類あるの知らんでごっちゃにしとったかもわからん

0866名無しさん＠ピンキー

2025/03/18(火) 18:19:50.01ID:???

このスレで言われてるkoboldはまず間違いなくcppの方

0867名無しさん＠ピンキー

2025/03/18(火) 18:31:40.82ID:???

せやったらggufは動くと思うんやけどな
ggufってllamacppの規格やから

0868名無しさん＠ピンキー

2025/03/18(火) 18:36:06.88ID:???

LM studioだと動くけどKoboldcppだと動かないggufとかその逆とかあるよ

0869名無しさん＠ピンキー

2025/03/18(火) 18:39:53.54ID:???

そうなのか・・・
llamacpp直でしかつこうてないからその辺ようしらなんだ

0870名無しさん＠ピンキー

2025/03/18(火) 18:45:50.06ID:WkhupxHu

>853
ご近所スレで
https://rentry.org/7ugh3fa7
こういう手法が提案されてるから、画像リンクが有効な環境ならアバター画像表示は実現可能なのでは

0871名無しさん＠ピンキー

2025/03/18(火) 19:24:47.12ID:???

llamacppのリリースたまに見るけど更新で対応しないと動かないモデルは結構あるっぽいね

0872名無しさん＠ピンキー

2025/03/18(火) 19:29:26.47ID:???

>>863
CPUも速いならいいね
無規制版どのぐらいで出てくるんだろう

0873名無しさん＠ピンキー

2025/03/18(火) 19:55:46.47ID:???

Mistral Small 3.1 itをexl2にしてみた。

Text Generation WebuiのAPI→SillyTavernの環境
max_seq_len 16384で3090のメモリ消費が15GBくらい

context 7000投げてだいたい初回22～28、継続40～48トークン/秒くらいだね

0874名無しさん＠ピンキー

2025/03/18(火) 19:56:51.48ID:???

>>873
exl2 4bpw 量子化書くの忘れてた

0875名無しさん＠ピンキー

2025/03/18(火) 20:37:45.78ID:???

SillyTavern documentation日本語化してる人いない？
日本語情報がなさすぎる

0876名無しさん＠ピンキー

2025/03/18(火) 20:47:51.16ID:???

.mdとかで保存してからclaudeに渡せば全部綺麗に翻訳してくれる

0877名無しさん＠ピンキー

2025/03/18(火) 21:45:01.94ID:???

尻タブは日本語のキャラカード共有サイトがあればな

0878名無しさん＠ピンキー

2025/03/18(火) 21:48:07.23ID:???

だが、おれの桜やしずかちゃんのキャラカードを出したら怒られそうでこわいｗ

0879名無しさん＠ピンキー

2025/03/18(火) 21:51:16.42ID:???

普通にチャットテンプレートとして流用できるし全然ありかも
たぶんこのスレの民が知りたいのってキャラの設定より調教のほうだろうし

0880名無しさん＠ピンキー

2025/03/18(火) 21:55:21.62ID:???

Civitaiで共有できるんとちゃうの？
あそこってファイル形式なんでも行けるんとちゃうかな
というかCivitaiで共有できるならCivitaiが一番いい気がしてきた

0881名無しさん＠ピンキー

2025/03/18(火) 22:01:46.79ID:???

>>877
作ろうと思えばモデルが作ってくれるとは思うぞ

0882名無しさん＠ピンキー

2025/03/18(火) 22:07:15.75ID:???

>>877
一応ここがあるで
数が少ない？君も上げよう
https://seesaawiki.jp/local-llm-memo/bbs/40133/l50

0883名無しさん＠ピンキー

2025/03/18(火) 23:08:56.51ID:???

Mistral Small 3.1をpresetをnemoのまま英語でやってるけどめちゃくちゃ頭いいな…

0884名無しさん＠ピンキー

2025/03/19(水) 00:37:18.04ID:???

>880
共有サイト自体はchubとかcharacter tavernとか幾らでもあるよ
日本語でコミュニケーション出来るところが欲しいという話では

使う側からすれば英語でも日本語でも同じなので1サイトに集積されてるほうが楽だけど、作る側からすれば日本語オンリーの場はニーズあるんじゃないの

0885名無しさん＠ピンキー

2025/03/19(水) 00:45:35.71ID:???

AIノベリスとのwikiだっけそこに似たような目的のキャラ再現用のがあるけど使えるのかな

0886名無しさん＠ピンキー

2025/03/19(水) 00:45:36.95ID:???

AIノベリスとのwikiだっけそこに似たような目的のキャラ再現用のがあるけど使えるのかな

0887名無しさん＠ピンキー

2025/03/19(水) 02:44:55.12ID:???

PCIEの2スロ目って形x16だけど中身x4とかだよな
転送速度落ちるのってどうなんだ？

0888名無しさん＠ピンキー

2025/03/19(水) 03:14:29.54ID:???

2枚刺しはバス以前に電源が弱いとヤバそう

0889名無しさん＠ピンキー

2025/03/19(水) 06:33:03.63ID:???

>>887
モデルのロードが遅くなるくらいで推論にはほぼ影響ないよ

0890名無しさん＠ピンキー

2025/03/19(水) 06:46:47.00ID:ib6xiBiD

Radeonでやってる人いる？7900xtあるけど不都合あるならgeforceに乗り換えようかなと。

0891名無しさん＠ピンキー

2025/03/19(水) 07:04:45.36ID:???

digitの詳細が出てきたけどLLM用途では駄目そう
rtx5070相当のGPUを256gb/sで動かすのは無謀かも

0892名無しさん＠ピンキー

2025/03/19(水) 07:33:19.61ID:???

Ryzen AI買ったほうがいいかもな

0893名無しさん＠ピンキー

2025/03/19(水) 08:11:01.61ID:???

ryzen AI maxですら70bで2t/s以下だからLLM目的だとどうなんやろ
MoEモデルがもっと増えれば良さげなんやが　

0894名無しさん＠ピンキー

2025/03/19(水) 08:34:50.70ID:???

LLMが駄目だとすると何用に作られたやつなんだろ

0895名無しさん＠ピンキー

2025/03/19(水) 08:38:38.28ID:???

273GB/sで遅いと思う人はこっち買えってことでしょ
https://www.nvidia.com/en-us/products/workstations/dgx-station/

0896名無しさん＠ピンキー

2025/03/19(水) 09:15:25.10ID:???

>>889
VRAMに乗り切れば転送速度関係ないか

0897名無しさん＠ピンキー

2025/03/19(水) 09:44:38.30ID:???

>>895
VRAM:Up to 288GB HBM3e | 8 TB/sは笑う
B300相当なんだけどこれ価格いくらになるんだ

0898名無しさん＠ピンキー

2025/03/19(水) 10:18:58.97ID:???

CPU Memory Up to 496GB LPDDR5X | Up to 396 GB/s
Blackwell要らないからGraceだけ売ってくれって感じ

0899名無しさん＠ピンキー

2025/03/19(水) 14:28:13.60ID:???

digits、273GB/sならまあまあじゃないと思ったけど、DDR6 6400の50GB/sと比べて5倍くらいなのか
実際にどのくらいのパフォーマンスになるかは動かしてみないとわからないしまだ期待していたい所
GPUは思ったより強いね、3060くらいのコア載せてくるのかと思ってた。推論よりは学習向きで、LLMよりは動画生成とかの方に向いてるのかな

0900名無しさん＠ピンキー

2025/03/19(水) 14:30:17.74ID:kP6JEcq8

Gemma3の27Bってコーディングはあまり得意じゃないですかね？

0901名無しさん＠ピンキー

2025/03/19(水) 14:34:06.93ID:???

>>893
AI MaxのスペックだけみるとM4 max のバス速度半分くらいだと思うけど
そんなに速度でないもんかね。CUDAベースのLLMを使ってテストしてるのかも
AMDが得意な形式なら倍くらいにはなりそうなもんだが

0902名無しさん＠ピンキー

2025/03/19(水) 14:39:50.57ID:???

5090の1.8TB/s並みの速度はこういうのでは無理なのかな？
4090でも1TB/sあるんやで？

0903名無しさん＠ピンキー

2025/03/19(水) 14:50:04.41ID:???

ソケットにするとインピーダンス調整の幅が狭いから難しいね
512bitにすると8枚必要になるけど配線の問題で無理
直付けって速度面ではすごいメリットあんのよ

0904名無しさん＠ピンキー

2025/03/19(水) 16:06:10.84ID:???

外付けグラボメモリ欲しいと思ったけど直付け以外微妙ならなんかすごく遅くなりそうだな

0905名無しさん＠ピンキー

2025/03/19(水) 16:11:51.41ID:pYcm9CXD

ERPをテキストで遊んでる分には速度それほど気にならないんだけど、音声対話の仕組み作ろうとすると少しでも早い方が...ってなるな
Command aが無規制、実質無料、かなり賢いので助かるが、gpt4-o-miniの方が僅かに早いので悩ましい

0906名無しさん＠ピンキー

2025/03/19(水) 17:28:48.61ID:???

DGX、いろんな会社が参入してて研究用というには商売気があるのが不思議な気がする
ハードウェア統一とNIM Microserviceでボタン一つでAI機能が動きます、とかやりたいのかね

0907名無しさん＠ピンキー

2025/03/19(水) 17:33:33.36ID:???

発表してみたら思ったより一般ユーザーからの反応が良かったから軌道修正しました的な動きはありそうやね

0908名無しさん＠ピンキー

2025/03/19(水) 17:46:51.68ID:???

>>906
ProjectDigits自体「自動運転車とかの頭脳部分にはウチのDigitsを積めばそれでOKやで！これが世界標準や！」みたいな、COSMOS含めて自動車メーカーとかを囲い込むバカデカいビジネスを狙ってる気がするで
いきなり他社製まで出てくるとは思わんかったけど、何にせよ普及が進みそうで嬉しいわ

0909名無しさん＠ピンキー

2025/03/19(水) 18:44:18.97ID:???

それはJetsonくんの仕事だった筈では

0910名無しさん＠ピンキー

2025/03/19(水) 19:01:50.74ID:???

sparkは簡易用みたいな感じだね

0911名無しさん＠ピンキー

2025/03/19(水) 19:37:40.61ID:???

273GB/sってゲフォ3060より遅いんやな(3060ti 448gb/s、3060 360gb/s)
うーむ

まぁ結局ベンチマーク待ちやな

m3 ultraはこんなベンチマークでとったわ
https://llm-speed-viz.vercel.app/

0912名無しさん＠ピンキー

2025/03/19(水) 19:43:23.29ID:???

あるいは、ロボにDGX Sparkを物理的に載せるとかかな
人型ロボ...のまえにアームの台座にDigit入ってますシステムでAIベースの動作設定が出来ます、とか

0913名無しさん＠ピンキー

2025/03/19(水) 20:50:32.77ID:???

>>904
3090x3をegpuにして使ってるけど全く気にならんよ
ちょっとモデルの読み込みが遅いくらい
分散ロードしても余り遅くなった感じしない

0914名無しさん＠ピンキー

2025/03/19(水) 22:04:02.87ID:YEIYtcMX

ついにローカルLLM高速化の時代が来たな。

NVIDIAがデスクトップPCやノートPCに搭載できるAI特化GPU「RTX PRO Blackwellシリーズ」を発表
https://gigazine.net/news/20250319-nvidia-rtx-pro-blackwell/

あとは量子化の高性能化で何とかなれば。

0915名無しさん＠ピンキー

2025/03/19(水) 22:20:51.41ID:???

>>914
ようやく出てきたか！
これ2月の頭にあちこちのテスト機関と思われる所に発送されてたblackwell 96GBの正体だよな

0916名無しさん＠ピンキー

2025/03/19(水) 22:54:56.32ID:???

GDDRメモリの卸価格は1GBあたり1500円程度って言われてるから96GB積んでも本来+15万くらいな筈なんだけどな
実際は+100万くらいの値付けして来そう

0917名無しさん＠ピンキー

2025/03/19(水) 23:36:37.52ID:???

うへぇほんまに噂通り96GBで出してきたんか
A6000ADAが今120万やから200万くらい行くかもわからんな・・・

B100と下位機種の間が広すぎやからそこを埋めるたに値段高くしたかったんかも

0918名無しさん＠ピンキー

2025/03/19(水) 23:50:54.46ID:???

Xによれば143万円らしい
なんJ民でも3人くらい買いそう

0919名無しさん＠ピンキー

2025/03/20(木) 00:02:42.88ID:uIg2rmr8

これで何ができるの？

0920名無しさん＠ピンキー

2025/03/20(木) 00:06:28.70ID:???

５０９０の3台分と考えると高いと感じなくなる不思議

0921名無しさん＠ピンキー

2025/03/20(木) 01:25:01.56ID:???

消費電力的に5090×3は無理だしなあ
でも143万が1年で陳腐化する業界だしな…やっぱつらい🥺

0922名無しさん＠ピンキー

2025/03/20(木) 01:28:46.44ID:???

mac 512G買えるな

0923名無しさん＠ピンキー

2025/03/20(木) 02:23:13.68ID:???

お金持ちしか買えないよねゲームとか他の娯楽と違って進化が早すぎるからどうなるか先が読めない

0924名無しさん＠ピンキー

2025/03/20(木) 02:25:44.26ID:???

一番強いのはフリーランスでAIの仕事を請け負ってる奴だよ
本業で稼いでいれば150万のグラボでも経費で落とせる
減価償却は必要だが

0925名無しさん＠ピンキー

2025/03/20(木) 02:34:26.69ID:???

Mistral Small 3.1　IQ3_Mを4070で動かしてるけど今までで一番言葉を理解して日本語が帰ってきてる気がする

0926名無しさん＠ピンキー

2025/03/20(木) 03:49:57.62ID:???

10年戦えるんだったらblackwell 96GB行ってもいいんだが
実際はすぐに陳腐化だからな

0927名無しさん＠ピンキー

2025/03/20(木) 04:04:38.60ID:???

>>916 おっとApple様の悪口はそこまでだ

0928名無しさん＠ピンキー

2025/03/20(木) 04:53:37.40ID:???

DGX Stationなら5年は戦えるか？

0929名無しさん＠ピンキー

2025/03/20(木) 05:40:25.23ID:???

M3 Ultra500GB 819GB/s 150万円
結局こいつが一番コスパいい

0930名無しさん＠ピンキー

2025/03/20(木) 05:47:08.86ID:???

>>924
たぶん経費で落とせるけど100万～200万と言われると腰が引けるわ……
節税効果は数十万程度だからさすがにキツい

0931名無しさん＠ピンキー

2025/03/20(木) 07:38:43.85ID:???

>>841
Cline + VSCodeとか試したい的にローカルで完結するのは気分が軽い
Clineはとっても便利なんだけど迂闊に使うとAPIをガンガン叩く
しかし恐々使っていたんじゃClineの良さ(悪さ)を知ることができず学習曲線が下がる
または上限に達して、その日は仕事用の質問ができなくなったり
Cursorも似たり。最新のこういうの使う時にローカルあると、遅いけどいくらでも試せるんだよね

0932名無しさん＠ピンキー

2025/03/20(木) 07:48:45.64ID:???

amoral gemma3-12bというのがあって試したけどだめだった。
なんでも、モラルをっ取ってしまったgemma3らしいんだけど、もちろんエロ目的で。
温度は0くらいにするとだいぶまともにはなる

0933名無しさん＠ピンキー

2025/03/20(木) 07:49:40.62ID:???

>>925
エロ小説用途ではダメだったけどそれ以外の日本語はいいよね

0934名無しさん＠ピンキー

2025/03/20(木) 10:31:20.38ID:???

>>933
APIcommand-aより会話してる
ollamaで動かすのが一番良かった

0935名無しさん＠ピンキー

2025/03/20(木) 13:08:13.68ID:???

gemma3は適当に小説書かせるとなぜか雨が降ってるシーンから始まる
Mistral Small 3.1はなぞの地名設定から始まる

0936名無しさん＠ピンキー

2025/03/20(木) 14:30:10.25ID:???

LLMに斬新なエロ設定を考えさせる方法ある？

単に「斬新なエロい設定を考えてくれ」と頼んでも
時間停止とか催眠とかありきたりな設定しか出してくれないんだが

0937名無しさん＠ピンキー

2025/03/20(木) 14:39:24.05ID:???

temperatureの値を上げてみるとか？

0938名無しさん＠ピンキー

2025/03/20(木) 14:48:19.97ID:???

>>937
温度上げてもダメだったけど、
エロと関係ない要素を挙げて→それを題材としたエロい設定を考えて
でなんとかなったわ！

0939名無しさん＠ピンキー

2025/03/20(木) 15:12:16.62ID:OqB4j7KK

134万出してエロ小説書くの？

0940名無しさん＠ピンキー

2025/03/20(木) 15:23:52.27ID:???

>>939
うんっw

0941名無しさん＠ピンキー

2025/03/20(木) 15:32:06.53ID:???

>>939
自分の理想の性癖で小説を書いてくれるんだぞ
プロの文字書きに頼むことを考えれば100万程度屁でもないわw

0942名無しさん＠ピンキー

2025/03/20(木) 15:42:22.24ID:???

画像生成も動画生成も出来るぞ
最高じゃん

0943名無しさん＠ピンキー

2025/03/20(木) 15:55:58.67ID:???

>>936
逆に知ってる設定は書いといてそれ以外と言えばる

0944名無しさん＠ピンキー

2025/03/20(木) 16:08:39.70ID:???

ClaudeなりGrokなりにやってもらえばええのでは...

0945名無しさん＠ピンキー

2025/03/20(木) 16:14:14.42ID:???

>>944
ワイの性癖が外部サーバに出せるようなヌルいシロモノと思うでないw

0946名無しさん＠ピンキー

2025/03/20(木) 16:48:06.14ID:???

>>936
DeepSeek-R1-32BをTemperature高め（1以上）にすると結構ぶっ飛ぶけど設定か…
キャラチャットとかに使うと面白いんだが

0947名無しさん＠ピンキー

2025/03/20(木) 17:11:34.01ID:???

>>944
それも１つの手段だろうけど、ローカルLLMの強みはなんといっても連続生成ガチャができることなんだよな

0948名無しさん＠ピンキー

2025/03/20(木) 17:45:00.01ID:OtT1HgFY

ClaudeとかClineで使ったらチャージしといたクレジットがあっという間に爆散するからな
DeepSeek R1 Freeだいぶ助かってる

0949名無しさん＠ピンキー

2025/03/20(木) 19:17:44.41ID:???

こういうのは上を目指すとキリがないからQwQ系モデルで満足しておく
完璧ではないにせよ、小説もロールプレイもプログラミングも良い感じだし

0950名無しさん＠ピンキー

2025/03/20(木) 20:51:06.85ID:???

Qwen派とMistral派がおるな

0951名無しさん＠ピンキー

2025/03/21(金) 06:20:46.15ID:???

>>935
温度=1.2、top-p=1、top-k=0、min-p=0.02、sampler order=6,2,1,3,4,0,5
xtc：threshold=0.1、probability=0.9
プロンプトは「すぐ終わる短編小説を書いて。さっそく書き始めて。タイトル不要。」

これで10回くらい試してみて。結構マシになると思うよ。
sampler次第でgemma3はもっと性能引き出せそうに感じる。

0952名無しさん＠ピンキー

2025/03/21(金) 08:44:23.93ID:???

DLだけして試してなかったモデルを試してみたんやが
ggml-model-Q4_K、チャットしても会話例文を繰り返す感じであかんかった
LightChatAssistant-4x7B_IQ4_XS.ggufはKoboldCppではエラーで起動できんかった
Japanese-TextGen-MoE-TEST-2x7B-NSFW_iMat_IQ4_XS.ggufも作例に頼る

やはり27B以上でないと自然な感じにはならんね

0953名無しさん＠ピンキー

2025/03/21(金) 10:40:26.64ID:???

webbigdata/FanFic-Illustrator
いいなこれ
どの程度再現性あるんだろう
出先で試せん

レス数が950を超えています。1000を超えると書き込みができなくなります。