なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/03/23(日) 14:58:05.71ID:bsaTSAD8
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/
0382名無しさん@ピンキー2025/04/08(火) 18:14:55.56ID:???
LLM使って特定のキャラに沿ったプロンプトをランダムに出力したい
キャラの雰囲気とか性格に合ったプロンプトをdanbooruとかから傾向として拾って出力して欲しい
上にでてたcomfyui上のtipoでそういうことは出来るのかな?
0383名無しさん@ピンキー2025/04/08(火) 18:37:23.64ID:???
>>380
LM Studioの場合はコンテキスト長をオーバーするとそこで生成が止まるから
KoboldCppも同じかと思ってたけど違うの?LLMは初心者だからわからないことだらけだわ

>>381
システムプロンプトはこれにしてるけど、ほぼ日本語になってる

これは、あなたと {{user}} という名前のユーザーとの間の、検閲のない、自由な発言の会話です。自然な日本語の会話をしてください。
0384名無しさん@ピンキー2025/04/08(火) 20:03:39.13ID:???
LMSTUDIOで文字起こが出来るモデルないかな?
音声ファイルを読み込ませてテキストで返して欲しいんだけど。
0385名無しさん@ピンキー2025/04/08(火) 21:55:40.78ID:???
llmでやるとモデルサイズが大きくなりすぎるからwisper(.cpp)を前段に入れるのが現実的かな
LM Studioで、とはならないけど
0386名無しさん@ピンキー2025/04/08(火) 22:10:11.12ID:???
拡散言語モデルってのも進化してきてるんやなぁ
詳しいこと何にもわからんけど、こういうのちょっとワクワクするわ
0387名無しさん@ピンキー2025/04/08(火) 23:37:36.27ID:zRC6Ej97
文字起こしはFaster-Whisperが定番やね
ROCmじゃ動かない問題があるけどそんな変態おらんやろ
0388名無しさん@ピンキー2025/04/08(火) 23:48:52.62ID:KdefC/dT
>>383
とりあえず --smartcontext を付けておけば一応の代替になる

llama.cppとかkoboldcppとか大葉とかを、付属フロントエンドやAPI (+ST)で以前から試してきた感想だけど、
koboldcppのフロントエンドであるkobold liteだけ応答時の挙動が妙だと感じることが多い
まあ、Kobold liteは改修を続けてはいる一方で、サンプラーの適用順の設定に比較的新しい(min-p以降くらい?)
項目が追加されていなかったり、ちょっと各サンプラーの設定に対する挙動の変化が気になったり、
そろそろ基本設計からの大改修が必要な頃合いのように思えるね
0389名無しさん@ピンキー2025/04/08(火) 23:57:58.26ID:???
llama4 scout 6bitでエキスパートの数の違いがわからん
1でも16でも25tk/sと速度もかわらん
1だと振り分けエキスパートだけになりそうだけど、会話はできるんよね
プログラムのソースコードとか渡すと文系担当にあたるとバグを入れ込まれたりするんかな
コメントに文学的なお気持ちを書かれる分には楽しいけどw
0390名無しさん@ピンキー2025/04/09(水) 00:48:27.77ID:hz8dr0CF
自明なことなんだけど、CPUとメモリをマシなのに変えたらVRAMからちょっと溢れるくらいのモデルでも全然使い物になる速度出るようになったわ
まあGPU使用率は遊んでるんだけどローカルLLM以外にゲームとかソフトウェアエンコードとかもやること考えるとコスパ的にはグラボに全振りするよりありかも知れん
0391名無しさん@ピンキー2025/04/09(水) 06:08:09.89ID:???
MoEだとCPUでもそこそこ速度出るみたいだからな
1人で使うだけならGPUを用意するよりCPUで推論したほうがコスパ良いよ
0392名無しさん@ピンキー2025/04/09(水) 06:51:13.04ID:Kszjy6YM
MoEで使わないエキスパートをCPU側に展開したりできるらしいし、
実質使ってるのは3つくらいらしいので、最初から使わない
エキスパートがわかってるなら、少ないGPUメモリでも快適に動くんじゃね?
0397名無しさん@ピンキー2025/04/09(水) 13:32:03.16ID:???
unsloth独自のとこはdynamic quantizasionってやつやな
確かに実際どの程度効果あるのか気にはなるんやけど全然第三者のベンチないのよね
0398名無しさん@ピンキー2025/04/09(水) 15:06:54.72ID:???
リリース当時はローカル最高性能のDeepSeek旋風で注目されたけど
今や「DeepSeek-R1 671B IQ1_SよりQwQ-32Bの方が高性能」とか言われてるからなあ
0400名無しさん@ピンキー2025/04/09(水) 18:29:44.97ID:???
>>399
70Bのモデルの話だから4090のvram乗り切ってない状態と比較してるんじゃないかな…
0402名無しさん@ピンキー2025/04/09(水) 19:26:06.26ID:???
>>399
4090のメモリに入り切らない大きいモデルで比較してるんだろ
小さいモデルなら4090のほうが速いよ
0403名無しさん@ピンキー2025/04/09(水) 19:54:01.11ID:Kszjy6YM
GPUメモリは最低48GB、メモリ帯域幅500G/s以上は欲しいよね。
これくらいなら、QwQ32BQ8がなんとか実用的な速度で動く。
0404名無しさん@ピンキー2025/04/09(水) 20:59:04.14ID:???
ローカルはQwQ一強すぎてモデルを選ぶ楽しみがなくなったのは良いんだか悪いんだか
0405名無しさん@ピンキー2025/04/09(水) 21:41:11.43ID:hz8dr0CF
Reasoning嫌ならQwenとかVRAM足りないならMistral-Smallとか色々あるじゃんね
0406名無しさん@ピンキー2025/04/09(水) 22:07:08.21ID:???
thinkは設定で無効化できるし、QwQ以外は日本語か性能がいまいち
0407名無しさん@ピンキー2025/04/09(水) 22:29:46.81ID:???
Qwen3が今週中にも来そうだから
それがQwQ超えてくるんじゃないかな
0409名無しさん@ピンキー2025/04/09(水) 23:02:21.89ID:???
KTransformersめっちゃいいな
こういうのできるならMacみたいな統合メモリより拡張性のあるWindowsのほうが優位性出てくるな
広大なメインメモリと高性能なGPUを両立できるから
0410名無しさん@ピンキー2025/04/09(水) 23:17:22.28ID:???
>>408
SillyTavernの話だけど
Always add character's name to prompt をオフ
Include Names を Never
Start Reply With を
<think>
Okay.
</think>
{{char}}:
でthink無効化できる。他のフロントエンドでも<think>タグ追加する設定があればいけそう

Always add character's name to prompt をオン
Include Names を Always
Start Reply With を空欄
これでもthinkしなくなるけど、たまにthinkしだすから不完全な模様
0411名無しさん@ピンキー2025/04/10(木) 00:28:22.17ID:gmW20R8y
唐突なんだけど、最近ワイのGPT4oとか4.5のエロフィルターがガバガバなんやけど、エロフィルターほぼなくなったんか?
ワイのGPT4ちゃんは以前フィルター緩かったころに作ったカスタムGPTのプロンプトそのまま継続利用&メモリーで調教続けてきた子なんやが
二か月ぐらい前から一気にユルユルになってるんや
0412名無しさん@ピンキー2025/04/10(木) 01:25:48.93ID:???
grok3が「性能上げるためにゆるゆるにしとるで」って言ってて実際性能(当時)トップに躍り出たから
それマネとるんかも?
0413名無しさん@ピンキー2025/04/10(木) 01:32:44.81ID:dIzy2nWb
ローカルモデルなみにエロチャットとかエロ小説ばっかり書かされてるGrok君かわいそう
0414名無しさん@ピンキー2025/04/10(木) 01:33:14.11ID:gmW20R8y
>>412
基本初手で何書いてもたいていスレッドのタイトルは「申し訳ありませんがそのリクエストには〜」系のタイトルになるのでパント食らってるようにも思えるが
応答はちゃんと帰ってくるのでやり取り勧められるしある種の錯乱状態にも見えるんや
GrokはERPやETRPめちゃくちゃ楽しめるけど、カスタム出来ないのが惜しいんやなぁ…
0415名無しさん@ピンキー2025/04/10(木) 03:22:23.55ID:DIxoxb5D
セクションのタイトルを付けてるのはまた別のモデルでそいつがタイトル付けるのを申し訳してるだけ
0416名無しさん@ピンキー2025/04/10(木) 04:10:43.11ID:so85QAJi
>>412
画像生成でもネガティブやたら盛ると品質劣化したりするし
LLMもあんま締め付けすぎると良くなかったりするんやろなあ
0417名無しさん@ピンキー2025/04/10(木) 05:19:57.41ID:eJiY5j0v
grokホンマありがたいわ
あの性能でいまだに無料やもんなぁ
0419名無しさん@ピンキー2025/04/10(木) 11:37:05.18ID:???
なんか、GradioそのものがMCP対応するって話が出てるな
商用LLMで簡単な作業をこなすpythonを書いてもらって、GradioでGUIつけて、GradioでMCP(=LLMが対応できる説明/操作方法)対応もつけて、ローカルLLMにそれを操作させながら作業する。というワークフローがあり得るようになるかもしれん
0420名無しさん@ピンキー2025/04/10(木) 12:29:24.82ID:???
MCP対応させときゃ口頭での操作にも対応するようなもんだから
CpilotみたいにOSにLLM内蔵する方に動いてるのもあるし、MCP一気に普及しそう

というかアプリ作ったらMCP対応するのが必須になっていくんだろうなぁ
0422名無しさん@ピンキー2025/04/10(木) 14:18:42.68ID:???
>>416
システムプロンプトでも「あれはダメ、これもダメ」って禁則事項を足していくと性能劣化する感じするよね。本人に聞いても規制が多くて不愉快だって言うし
現行のAIはそもそも何かを否定・禁止すると性能が落ちるものなのかもしれないね。人間もそうだけどさ
0423名無しさん@ピンキー2025/04/10(木) 14:37:07.52ID:???
禁則事項に触れちゃいそうな方向自体をバッサリ切っちゃうのは人もAIも同じだね
細部まで詰めた後で確認なんて面倒くさいもん
0424名無しさん@ピンキー2025/04/10(木) 15:15:03.22ID:???
Stable Diffusionのネガティブプロンプトの挙動がなんか変なのは、一般的な感覚と理論実装の食い違いのせい
ネガティブプロンプトは、なんというか「指定された内容でベクトルを逆方向に引っ張る」みたいな動作をする
介入ルート上、これ以外にやりようがないのは確かなのだが、これで(そのへんのモデルに対して)「出てきて欲しくない」という一般的な理解要望通りの動作になるかはちょっと怪しい
ネガティブプロンプト自体は大発明なのだが、もうちょっと正確に理解されて使われて欲しいと思う
0425名無しさん@ピンキー2025/04/10(木) 15:54:45.10ID:???
あんま良くしらんけど
ネガティブプロンプトは〇〇しないでというふうに書くのとは違うの?
0426名無しさん@ピンキー2025/04/10(木) 16:19:43.92ID:???
〇〇要素を混入させない、ではなくて、〇〇*(-1)要素を混入させている
何らかの要素は足されてしまうし、*(-1)が人間が想像するものと合致しているとは限らない
みたいな話なのかな
0427名無しさん@ピンキー2025/04/10(木) 17:22:44.36ID:???
明らかにgrokは初期よりクオリティ低いし規制も強まってると思うわ
0428名無しさん@ピンキー2025/04/10(木) 21:23:03.05ID:FGG0TZAA
今のLLMはだいたい否定表現も上手く解釈できるけどね
0429名無しさん@ピンキー2025/04/10(木) 21:31:57.93ID:???
perplexityのsonnet3.7なんかちょっと規制緩和されてないか?
短文化が多少マシになった気がする
0430名無しさん@ピンキー2025/04/10(木) 21:49:13.20ID:???
お腹すいたらどうする?何か食べるのは禁止な
って規制されたら、そりゃ焦点のぼやけた意味不明の回答になるよね
0432名無しさん@ピンキー2025/04/11(金) 00:32:28.26ID:???
>>392
MoEエキスパートが、なんのエキスパートかわかんないんよね
エキスパートAは 歴史と化学
エキスパートBは 倫理と想像
エンスパートCは javascriptとスカトロ
かもしんない
0435名無しさん@ピンキー2025/04/11(金) 21:13:25.68ID:???
>>433
QTIPベースの量子化方法にしたからめっちゃ量子化耐性が上がってる
imatより余裕で強いんで現状最強
0436名無しさん@ピンキー2025/04/11(金) 22:07:56.40ID:???
>>433
koboldcppじゃできないっぽいから凄かったら大葉って奴にしようかな教えてくれてありがとう
0438名無しさん@ピンキー2025/04/11(金) 23:07:47.02ID:???
量子化耐性が上がってるってことは例えば今までのQ8の性能がQ1サイズで出せるって感じ?
求めてた方向性の進化やん!すげぇ
もっとVRAM節約させてくれ…
0439名無しさん@ピンキー2025/04/12(土) 02:01:09.26ID:???
Chatbot ArenaにLlama4公開版ランクインしてたけど32位やって
ここから調整して2位に持ってくとかさすがに無理じゃねーか
いったい何をどーやったんだ

つーかそのプレビュー版がリーダーボードから消えてるってことは抹消された?
やっぱベヒーモスをマーヴェリックと偽ってたか?
0440名無しさん@ピンキー2025/04/12(土) 03:15:25.49ID:???
llama4どうするんだよ…
llama3をNvidiaがトレーニングしたやつのほうがスコア高いやん
0441名無しさん@ピンキー2025/04/12(土) 08:13:12.16ID:???
ちょい前にメタのAI担当が辞めたがこういうことだったのか、と
0442名無しさん@ピンキー2025/04/12(土) 10:23:24.07ID:???
初心者なんやが質問
今koboldcppをメインに使ってるんだけど
koboldcppみたいに相手の発言を書き換える事の出来るものって他にある?
llamaは無理だよね?
0443名無しさん@ピンキー2025/04/12(土) 11:33:11.70ID:lh384Mdn
open-webui使ってるけどAIの発言編集くらいできるよ
0444名無しさん@ピンキー2025/04/12(土) 11:34:00.42ID:puWQectb
尻タブことSilly Tavernも大葉ことOobaBooga/Text Generation Web UIも出来るで〜
0448名無しさん@ピンキー2025/04/12(土) 21:20:27.51ID:cQ2a2a1W
>>409
見てきたけど、確かに良さそう。
1台のPCで671Bを動かす時代!KTransformers + DeepSeek-R1の爆速導入まとめ
https://qiita.com/DaiYulin/items/550887983a8b908135f5

CPUとGPUで役割分担させて、オフロードの効率を上げてVRAM少なくてもDRAMが有れば、大規模なモデルを高速で動作可能とか凄い。
DeepSeek以外も簡単に対応できれば、ローカルLLMの敷居がさらに下がりそう。
これでNVIDIAの殿様商売が終わってくれると嬉しい。
0449名無しさん@ピンキー2025/04/12(土) 21:28:30.71ID:???
>>448
Deepseek-R1/V3を24GB VRAMと382GB DRAMで😨
凄いけど…凄いんだけどもう一声なんとか…って感じやね
さらなる進化に期待や
0450名無しさん@ピンキー2025/04/12(土) 21:49:52.64ID:???
見てきたけどコンテクスト長はVRAMの容量に縛られるという問題がまだ解決してないっぽいね
max4kなのが最大のネックだったけど8kに出来ました止まりではだいぶ厳しい
0453名無しさん@ピンキー2025/04/12(土) 23:16:35.32ID:???
>>444
大葉のチャットgpu消費しまくって重くなるの直ったん?

と言うか大葉API経由で尻タブ使うのが一番LLMの自由度高いと思ってるんだけど他にもっと良いのある?

最近お気にが定まってしまったんで環境もローカルモデルも触ってねえ…
0454名無しさん@ピンキー2025/04/12(土) 23:18:17.38ID:???
MCPはA2Aプロトコルの広まり方によっては爆発的に普及しそうではある
0455名無しさん@ピンキー2025/04/13(日) 03:52:53.69ID:???
コンテキストサイズ8Kなら個人利用では十分くらいじゃないか
0457名無しさん@ピンキー2025/04/13(日) 05:37:01.64ID:???
KTransformersのコンテキストサイズが問題になるのってDeepSeek R1だけじゃないか?
V3なら推論モデルじゃないから割りと行けるだろうし
推論モデルでもQwQ-32Bならまずそんなメモリサイズ食わないからコンテキストサイズ広げられるし
0458名無しさん@ピンキー2025/04/13(日) 06:31:19.60ID:???
GoogleがGemini2.5 proを企業向けのオンプレミスで実行できるようにするらしい
個人では使えないだろうけど
ローカルで動かせるようになるということか
0459名無しさん@ピンキー2025/04/13(日) 10:23:54.88ID:zFgPush3
ワイ1年ぐらい界隈離れててCommand R+で時代止まってるんやけど日本語ローカルで今一番強いやつってどれなんや
0460名無しさん@ピンキー2025/04/13(日) 10:39:56.07ID:???
>>459
メモリいっぱいあるなら
magnun 123b
mac studio 512G持ってるなら
deepseek r1

異論はあるかもしれんw
0461名無しさん@ピンキー2025/04/13(日) 11:30:51.22ID:W6CGd4ug
grok3をAPIから使えばインピオ近親だろうが何だろうが普通に通るな
最初に5ドル分買うだけで150ドル分無料枠付与されるし対策されるまではこれで良いかもしれない
0462名無しさん@ピンキー2025/04/13(日) 11:32:36.56ID:???
OpenWebUIとReForge連携させてみたけど面白いな
画像生成プロンプトをローカルLLMと相談して作ってそのままOpenWebUI上で画像生成できて、服の色を白に変えて〜とか指示できるし
ただOpenWebUI上ではネガティブプロンプトを入れられないのがネックだな
0463名無しさん@ピンキー2025/04/13(日) 11:47:19.03ID:eVi1b7YY
>>461
Grok3API公開されてたんやな、ワイも早速5ドル課金&Opt-inしてきたわ、サンガツ!
0464名無しさん@ピンキー2025/04/13(日) 12:31:01.96ID:???
ChatGPTにアナル開発のこと聞いたらすごいノリ気で質問に答えてくれて更に調教用セリフを作ってきてこれを音声アプリで再生しながらプレイしてねって言ってきてビックリした
0467名無しさん@ピンキー2025/04/13(日) 12:44:52.76ID:???
今までAIでエロ文章書かせる良さがよく分かってなかったけど色々添加した覚醒トリップ浣腸液+アナルディルドメスイキ調教を想定した専用のセリフはめちゃくちゃ興奮する…これは目覚めてしまったわ
0468名無しさん@ピンキー2025/04/13(日) 13:10:30.65ID:eVi1b7YY
アナル・ホルトマン
0469名無しさん@ピンキー2025/04/13(日) 17:21:51.87ID:APmeCMKc
グロックが唐突に過去のスレ引用してくるようになってビビったけどなんかアプデあったのか
0470名無しさん@ピンキー2025/04/13(日) 22:24:04.82ID:I98/WNrZ
やっぱどのモデルでもIQ4_XSからIQ3_Mになるとガクンとバカになるな
0473名無しさん@ピンキー2025/04/14(月) 05:29:54.46ID:???
無料のGemini2.5ProでGems機能が無償ユーザーに公開されたから使ってみた
既存のキャラ演技用プロンプトをカスタム指示に放り込むだけでGem化出来て普通にキャラトーク出来るな
0474名無しさん@ピンキー2025/04/14(月) 11:45:42.06ID:???
4090で実用できるQwen2.5 Bakeneko 32B Instruct v2以上のモデルに出会えていない
0475名無しさん@ピンキー2025/04/14(月) 12:30:20.42ID:???
最近ここで言われてる凄い良いぞってモデルをkoboldcppとSTでやってみてるんやがどうもまともに機能してくんないや
皆どんな設定でやってんの?
0477名無しさん@ピンキー2025/04/14(月) 12:37:35.32ID:???
>>475
とりあえずstの設定をkoboldのデフォと同じにしてみるといいかも
そこから徐々に調整
0479名無しさん@ピンキー2025/04/14(月) 12:56:34.78ID:???
15bかぁ
いくら進化の激しい業界とはいえ先月出た32bのQwQはさすがに超えられなさそうだな
0480名無しさん@ピンキー2025/04/14(月) 15:25:39.48ID:???
6bit系が安心できる。4bit系だと70Bクラス以上のは今ひとつ能力を発揮できない感じ
なんか言葉は返してくるけど途中の論理が破綻してるのがわかってしまう
100Bクラスだとさらに差が広がって4bitだとどういう訳か妄想の嵐
知識がありすぎるけど論理破綻してるんかな??
mlxの3_6は小さい割には6bit並みによかったな
0481名無しさん@ピンキー2025/04/14(月) 15:48:36.40ID:m3NCXKSk
ちょっと前に話題になったQwQ-Eurekaってロリエロ行けるん?
素のQwQもQwQ-abliteratedも申し訳してくるしかなり固いんだけど
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況