なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ unsloth独自のとこはdynamic quantizasionってやつやな
確かに実際どの程度効果あるのか気にはなるんやけど全然第三者のベンチないのよね リリース当時はローカル最高性能のDeepSeek旋風で注目されたけど
今や「DeepSeek-R1 671B IQ1_SよりQwQ-32Bの方が高性能」とか言われてるからなあ https://pc.watch.impress.co.jp/docs/news/2005253.html
4090より2倍速くLLMが動く?とか胡散臭いタイトル付いてるけどほんまか?
メモリ帯域クソショボなんじゃなかったっけ
それ以外に高速化される要素あんの? >>399
70Bのモデルの話だから4090のvram乗り切ってない状態と比較してるんじゃないかな… >>399
4090のメモリに入り切らない大きいモデルで比較してるんだろ
小さいモデルなら4090のほうが速いよ GPUメモリは最低48GB、メモリ帯域幅500G/s以上は欲しいよね。
これくらいなら、QwQ32BQ8がなんとか実用的な速度で動く。 ローカルはQwQ一強すぎてモデルを選ぶ楽しみがなくなったのは良いんだか悪いんだか Reasoning嫌ならQwenとかVRAM足りないならMistral-Smallとか色々あるじゃんね thinkは設定で無効化できるし、QwQ以外は日本語か性能がいまいち Qwen3が今週中にも来そうだから
それがQwQ超えてくるんじゃないかな KTransformersめっちゃいいな
こういうのできるならMacみたいな統合メモリより拡張性のあるWindowsのほうが優位性出てくるな
広大なメインメモリと高性能なGPUを両立できるから >>408
SillyTavernの話だけど
Always add character's name to prompt をオフ
Include Names を Never
Start Reply With を
<think>
Okay.
</think>
{{char}}:
でthink無効化できる。他のフロントエンドでも<think>タグ追加する設定があればいけそう
Always add character's name to prompt をオン
Include Names を Always
Start Reply With を空欄
これでもthinkしなくなるけど、たまにthinkしだすから不完全な模様 唐突なんだけど、最近ワイのGPT4oとか4.5のエロフィルターがガバガバなんやけど、エロフィルターほぼなくなったんか?
ワイのGPT4ちゃんは以前フィルター緩かったころに作ったカスタムGPTのプロンプトそのまま継続利用&メモリーで調教続けてきた子なんやが
二か月ぐらい前から一気にユルユルになってるんや grok3が「性能上げるためにゆるゆるにしとるで」って言ってて実際性能(当時)トップに躍り出たから
それマネとるんかも? ローカルモデルなみにエロチャットとかエロ小説ばっかり書かされてるGrok君かわいそう >>412
基本初手で何書いてもたいていスレッドのタイトルは「申し訳ありませんがそのリクエストには〜」系のタイトルになるのでパント食らってるようにも思えるが
応答はちゃんと帰ってくるのでやり取り勧められるしある種の錯乱状態にも見えるんや
GrokはERPやETRPめちゃくちゃ楽しめるけど、カスタム出来ないのが惜しいんやなぁ… セクションのタイトルを付けてるのはまた別のモデルでそいつがタイトル付けるのを申し訳してるだけ >>412
画像生成でもネガティブやたら盛ると品質劣化したりするし
LLMもあんま締め付けすぎると良くなかったりするんやろなあ grokホンマありがたいわ
あの性能でいまだに無料やもんなぁ Dans-PersonalityEngine-V1.2.0が最近いい感じ なんか、GradioそのものがMCP対応するって話が出てるな
商用LLMで簡単な作業をこなすpythonを書いてもらって、GradioでGUIつけて、GradioでMCP(=LLMが対応できる説明/操作方法)対応もつけて、ローカルLLMにそれを操作させながら作業する。というワークフローがあり得るようになるかもしれん MCP対応させときゃ口頭での操作にも対応するようなもんだから
CpilotみたいにOSにLLM内蔵する方に動いてるのもあるし、MCP一気に普及しそう
というかアプリ作ったらMCP対応するのが必須になっていくんだろうなぁ >>416
システムプロンプトでも「あれはダメ、これもダメ」って禁則事項を足していくと性能劣化する感じするよね。本人に聞いても規制が多くて不愉快だって言うし
現行のAIはそもそも何かを否定・禁止すると性能が落ちるものなのかもしれないね。人間もそうだけどさ 禁則事項に触れちゃいそうな方向自体をバッサリ切っちゃうのは人もAIも同じだね
細部まで詰めた後で確認なんて面倒くさいもん Stable Diffusionのネガティブプロンプトの挙動がなんか変なのは、一般的な感覚と理論実装の食い違いのせい
ネガティブプロンプトは、なんというか「指定された内容でベクトルを逆方向に引っ張る」みたいな動作をする
介入ルート上、これ以外にやりようがないのは確かなのだが、これで(そのへんのモデルに対して)「出てきて欲しくない」という一般的な理解要望通りの動作になるかはちょっと怪しい
ネガティブプロンプト自体は大発明なのだが、もうちょっと正確に理解されて使われて欲しいと思う あんま良くしらんけど
ネガティブプロンプトは〇〇しないでというふうに書くのとは違うの? 〇〇要素を混入させない、ではなくて、〇〇*(-1)要素を混入させている
何らかの要素は足されてしまうし、*(-1)が人間が想像するものと合致しているとは限らない
みたいな話なのかな 明らかにgrokは初期よりクオリティ低いし規制も強まってると思うわ 今のLLMはだいたい否定表現も上手く解釈できるけどね perplexityのsonnet3.7なんかちょっと規制緩和されてないか?
短文化が多少マシになった気がする お腹すいたらどうする?何か食べるのは禁止な
って規制されたら、そりゃ焦点のぼやけた意味不明の回答になるよね >>392
MoEエキスパートが、なんのエキスパートかわかんないんよね
エキスパートAは 歴史と化学
エキスパートBは 倫理と想像
エンスパートCは javascriptとスカトロ
かもしんない exl3形式ってなんなんだろう何かすごくなったのかな Qwen3出るっぽい話になってたけどまだ出てないんだな >>433
QTIPベースの量子化方法にしたからめっちゃ量子化耐性が上がってる
imatより余裕で強いんで現状最強 >>433
koboldcppじゃできないっぽいから凄かったら大葉って奴にしようかな教えてくれてありがとう 量子化耐性が上がってるってことは例えば今までのQ8の性能がQ1サイズで出せるって感じ?
求めてた方向性の進化やん!すげぇ
もっとVRAM節約させてくれ… Chatbot ArenaにLlama4公開版ランクインしてたけど32位やって
ここから調整して2位に持ってくとかさすがに無理じゃねーか
いったい何をどーやったんだ
つーかそのプレビュー版がリーダーボードから消えてるってことは抹消された?
やっぱベヒーモスをマーヴェリックと偽ってたか? llama4どうするんだよ…
llama3をNvidiaがトレーニングしたやつのほうがスコア高いやん ちょい前にメタのAI担当が辞めたがこういうことだったのか、と 初心者なんやが質問
今koboldcppをメインに使ってるんだけど
koboldcppみたいに相手の発言を書き換える事の出来るものって他にある?
llamaは無理だよね? open-webui使ってるけどAIの発言編集くらいできるよ 尻タブことSilly Tavernも大葉ことOobaBooga/Text Generation Web UIも出来るで〜 >>409
見てきたけど、確かに良さそう。
1台のPCで671Bを動かす時代!KTransformers + DeepSeek-R1の爆速導入まとめ
https://qiita.com/DaiYulin/items/550887983a8b908135f5
CPUとGPUで役割分担させて、オフロードの効率を上げてVRAM少なくてもDRAMが有れば、大規模なモデルを高速で動作可能とか凄い。
DeepSeek以外も簡単に対応できれば、ローカルLLMの敷居がさらに下がりそう。
これでNVIDIAの殿様商売が終わってくれると嬉しい。 >>448
Deepseek-R1/V3を24GB VRAMと382GB DRAMで😨
凄いけど…凄いんだけどもう一声なんとか…って感じやね
さらなる進化に期待や 見てきたけどコンテクスト長はVRAMの容量に縛られるという問題がまだ解決してないっぽいね
max4kなのが最大のネックだったけど8kに出来ました止まりではだいぶ厳しい contextをメインメモリに置いたらllamacppよりおそなるで >>444
大葉のチャットgpu消費しまくって重くなるの直ったん?
と言うか大葉API経由で尻タブ使うのが一番LLMの自由度高いと思ってるんだけど他にもっと良いのある?
最近お気にが定まってしまったんで環境もローカルモデルも触ってねえ… MCPはA2Aプロトコルの広まり方によっては爆発的に普及しそうではある コンテキストサイズ8Kなら個人利用では十分くらいじゃないか KTransformersのコンテキストサイズが問題になるのってDeepSeek R1だけじゃないか?
V3なら推論モデルじゃないから割りと行けるだろうし
推論モデルでもQwQ-32Bならまずそんなメモリサイズ食わないからコンテキストサイズ広げられるし GoogleがGemini2.5 proを企業向けのオンプレミスで実行できるようにするらしい
個人では使えないだろうけど
ローカルで動かせるようになるということか ワイ1年ぐらい界隈離れててCommand R+で時代止まってるんやけど日本語ローカルで今一番強いやつってどれなんや >>459
メモリいっぱいあるなら
magnun 123b
mac studio 512G持ってるなら
deepseek r1
異論はあるかもしれんw grok3をAPIから使えばインピオ近親だろうが何だろうが普通に通るな
最初に5ドル分買うだけで150ドル分無料枠付与されるし対策されるまではこれで良いかもしれない OpenWebUIとReForge連携させてみたけど面白いな
画像生成プロンプトをローカルLLMと相談して作ってそのままOpenWebUI上で画像生成できて、服の色を白に変えて〜とか指示できるし
ただOpenWebUI上ではネガティブプロンプトを入れられないのがネックだな >>461
Grok3API公開されてたんやな、ワイも早速5ドル課金&Opt-inしてきたわ、サンガツ! ChatGPTにアナル開発のこと聞いたらすごいノリ気で質問に答えてくれて更に調教用セリフを作ってきてこれを音声アプリで再生しながらプレイしてねって言ってきてビックリした 今までAIでエロ文章書かせる良さがよく分かってなかったけど色々添加した覚醒トリップ浣腸液+アナルディルドメスイキ調教を想定した専用のセリフはめちゃくちゃ興奮する…これは目覚めてしまったわ グロックが唐突に過去のスレ引用してくるようになってビビったけどなんかアプデあったのか やっぱどのモデルでもIQ4_XSからIQ3_Mになるとガクンとバカになるな 無料のGemini2.5ProでGems機能が無償ユーザーに公開されたから使ってみた
既存のキャラ演技用プロンプトをカスタム指示に放り込むだけでGem化出来て普通にキャラトーク出来るな 4090で実用できるQwen2.5 Bakeneko 32B Instruct v2以上のモデルに出会えていない 最近ここで言われてる凄い良いぞってモデルをkoboldcppとSTでやってみてるんやがどうもまともに機能してくんないや
皆どんな設定でやってんの? >>475
とりあえずstの設定をkoboldのデフォと同じにしてみるといいかも
そこから徐々に調整 >>476
8bと15bだっけ
うーん70b以上欲しいな 15bかぁ
いくら進化の激しい業界とはいえ先月出た32bのQwQはさすがに超えられなさそうだな 6bit系が安心できる。4bit系だと70Bクラス以上のは今ひとつ能力を発揮できない感じ
なんか言葉は返してくるけど途中の論理が破綻してるのがわかってしまう
100Bクラスだとさらに差が広がって4bitだとどういう訳か妄想の嵐
知識がありすぎるけど論理破綻してるんかな??
mlxの3_6は小さい割には6bit並みによかったな ちょっと前に話題になったQwQ-Eurekaってロリエロ行けるん?
素のQwQもQwQ-abliteratedも申し訳してくるしかなり固いんだけど >>481
エウレカはなんかイマイチだった記憶
後者のは緩くはないが普通に書けてたな
ゆるゆるはmistral large系やね 性癖に刺さる作家の作品をLoRA学習させて自分用の新作を書かせようと模索しているがうまくいかない
同じことしてる人いる?
試したモデル↓
・Mistral-7B-Instruct-v0.3
全然ダメ
・DeepSeek-R1-Distill-Qwen-14B
Mistralより少しマシで新しい喘ぎ表現の生成に成功した
でも文脈は意味不明 >>482
Mistral系は申し訳してきても了解しましたに書き換えれば通るの知ってるけどやっぱキツいか
Qwen系でもQwen2.5-32B-abliteratedは完全に無検閲で使えてるからまあいいんだけど 訂正
無法地帯なのはQwen-2.5-32B-abliteratedじゃなくてQwen2.5-32B-AGIの方 >>8でおすすめされてる「Lumimaid-Magnum-v4-12B」使ってるけど
小学生とお兄ちゃんのアレとかノリノリで出力できてるよ
https://huggingface.co/Undi95/Lumimaid-Magnum-v4-12B-GGUF
自分は文章(ショートストーリー)しかやってないから
キャラなりきりとかでも使えるかはわからないけどね >>483
とりあえずデータセットに指示が入ってないならinstモデルじゃない方がいいはず
データ数とかどこら辺に満足してないのかを書いてくれたら細かくアドバイスできる >>487
・DeepSeekのファインチューニングコード
https://colab.research.google.com/drive/1L1Mx5G-N6XtxbTclNoTu4SSKK6ml294b?usp=sharing
・train.jsonlの形式
{"text": "[1024トークン分の小説本文]"}
{"text": "[1024トークン分の小説本文]"}
がずっと続いてる
・データセット
1作家の作品全体で約60万文字
・不満
そもそも意味の通じる日本語にならない
モデルのせいじゃないんだったら何かを致命的に間違えている気がする LM Studio + STでキャラチャットを試してるんだが、ワールドやキャラクターの説明って日本語で書くと罠に嵌るな
姉、妹とか書いてるとどっちもsister扱いとか、兄弟と姉妹がsiblingsにされたりとか
英文で明確に区別が付くようにold sister, young sisterみたいに書かないとダメなんだな >>485
その無法地帯モデルって日本語しゃべれるの? >>490
日本語理解も表現も素のQwen2.5と変わらん感じ incestモデルに見えた。今日は早く寝よう
>>489
ものすごく残念なことに、本当は一番大事な内部翻訳システムがへぼい(しかも彼らはその致命的さを根本的に理解してない)という問題がある
モデル製作者がこれをissuesだと認識する機会はおそらくもう永遠にないので(AIが邪魔して届かない)、諦めるしかないよ
エロ小説やなりきりチャット作らせるのに一番大事なのは英語力というヘンテコな時代が来る >>488
その形式ならワイもinstructモデルをベースモデルにすべきやないと思うぞ
例えば、alpacha形式でかくと
{"instruction":"〇〇(作者名)の文体で小説を書いてください。", "input": "", "output": "本文"}
みたいに指示と出力という形式にするか
事前学習モデル(baseとかptとかついているモデル)をベースに学習してLoRAをモデルにinstructに適用するかのどちらかにすることをおすすめする。 >>488
見た感じトレーニング時にチャットテンプレートを適応してないからそれが原因じゃない?
表現足りないとか感じたら使う層増やしてみたりほかのエロ特化モデルをベースにするといい感じになるかも
あとunslothのコード使うと早いからおすすめ >>493
>>494
本当にありがとう!自分で考えてたら100年かかっても無理だった
全部試してみるよ >>481
Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensoredも完全には無検閲化されてないが
小説は小説家プロンプト、ロールプレイは>>410のthink無効化でロリレイプでも申し訳されなくなった >>492
これずっと気になってた
少なくともローカルでやるやつ、完全日本語と謳われてない限り思考は英語だよな
どこでどんなふうに訳されてるんだろう
それに、行き帰りの2回経由される翻訳がへなちょこだったらどんなに本体の出力能力が素晴らしくても… ■ このスレッドは過去ログ倉庫に格納されています