なんJLLM部 避難所 ★8
Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。
初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。
しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください
プロットは一つ100文字以内とし、箇条書きで書き出してください。」というプロンプトで、
プロットを一つずつしか出してくれないのでめんどくさい。
https://ibb.co/cXXq5vxy i7-14700 64GB 4090 の環境で 20t 〜 40t くらい
速度は十分実用的だと思う >>44
そのモデルは多分そういうプロンプトには対応してないと思うで
ロールプレイの一種ではあるけどそういうのは学習してないと思う >>46
そうなんや、ERPとChatはまた違うってことか。サンガツやで。 >>47
モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね
このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね
でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ >>41
Macの良さってメモリの大きさだけなんだよな
OSとかGPUとかはべつにLLMに向いてない DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも(多分)使えるのが売りになるのかな >>51
帯域はべつに普通じゃないか?
M3ウルトラはNvidiaよりは遅い
M3 MaxはRyzenより遅い 昔のredditの投稿で、Ryzen AI Max+ 395でdeepseek-r1の70B蒸留モデルのQ8使ったら3token/sって話だったけど、どうなんやろね
https://www.reddit.com/r/LocalLLaMA/comments/1iv45vg/amd_strix_halo_128gb_performance_on_deepseek_r1/
>>14の記事だとQ3_K_L?らしいから、これがQ8になった時に本当にどこまで速度が落ちるのかどうか気になる ryzenMax+のmac ultraやDGXに対する加点部分はお値段とグラボが積めるってあたりか GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ
なんなんだコイツは 今日5090が届いたから4090から換装してみた
最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず
そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ
comfyも同様
RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ ドライバは最新のにしたくないなぁ
一応reforgeやKohyaも正常に動いてるし DGX SparkはARM64のLinuxなのが意外にネックになりそう
oobaもKoboldもx64ほど簡単には動かない予感 あ、やっぱり5090でSBV2の学習駄目ぽ…
文字起こしまではできたけど(4090よりクソ遅い)その先がエラー出るや ChatGPTスレから誘導されて来ました
ローカルで質問なんですけど
32Bモデルの量子化されてないオリジナルをロードできる環境があって
その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか?
生成の質っていうのはタスクの理解力みたいやイメージです うっかり嫁とエッホエッホの話振ったら
それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った >>63
余裕で100b
4bitまでは性能劣化がほとんどないからサイズも1/4にできると考えていいよ >>23 >>25
Wannabeで試してみたが
Qwen3-30B-A3B-NSFW-JP-Q4_K_M まったく使い物にならんかった
Qwen3-30B-A3B-ERP-v0.1-Q4_K_M こっちは出力されんかった
なおkobold上だと応答はあって不思議
>>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな…… >>63
量子化レベルに関わらずパラメータ数の多いモデルの方が賢いと言われているけど、流石にq1とかq2に量子化されたモデルはあまり賢くないと感じる
できれば8bit、最低6bitくらいで使用できるモデルが目安じゃなかろうか
個人的には4bitもちょっと性能低下が顕著かなと感じているところ 俺も6bitが限界だと思ってる。4bitだと25%くらい成績が落ちるらしい
雑談だとわかりづらいけどロジックで25%の低下は仕事に使えん
100bで2bitはロマン >>66
それ事前学習しかしてないモデルだからそのまま使うもんじゃないよ >>71
そのグラフを見ると確かに4bitでも問題なさそうに見える
巷でも4bitならOKとされているのも理解しているけど、自分の環境で実際に出力されたものを比較すると明らかにq6、q8の方が良い結果を出す確率が高く感じる
小説しかり、コーディングしかり たしか前にもこのスレで日本語に関しては量子化サイズの差が顕著って話が出てたな perplexityはなんか解像度が荒い指標な気がする perplexityよりKL-divergenceって指標のがいいらしいけどマイナーすぎて測られてないんだよな 文章のベンチマークは難しいよね
ベンチ結果は良くても文章としては「?」ってのもあるだろうし
自分たちが人力で日本語のドスケベ評価するしかないんや! llmにとって簡単なタスク、地の文と丁寧語>話の一貫性>>>キャラの言動と口調って感じがする
qwen3-4Bですら地の文と丁寧語はそこそこ自然
データが豊富なんやろね grok3に版権キャラの情報を収集させてから全力でなりきってって指示しても微妙だからな
今のはここが変、そこが日本語としておかしいってダメ出し続けると確かに偽物感は消える
でもそれと引き換えに話の柔軟さが消えて返答がワンパターンになっていく
ルールでがんじがらめにされてる感じやね ロールプレイ依頼時に画像も収集してきてflux1あたりの高級な画像生成モデルのLoRA勝手に作って
応答するたびにそのコメントに合った画像を生成する・・・
のは今でも技術的にはできそうやけどそこまでの高機能なのは需要なさそうで作る人もいなさそうやな ワイ、grok-3-betaとかfast-betaで條澤広ちゃん憑依させてあそんどるけど、モデルの素地が理系頭なのが関係してか、プロンプトで固めなくてもかなり広ちゃんで満足や
口調に関しては特徴的な語尾を中心に10個例示した程度だけで、特に例文に入れてないのに「ワクワクするね?」とか言ってきてくれてめっちゃ広ちゃんで嬉しい ローカルのスレだけどローカルモデルに限らないならキャラなりきりはGeminiが抜けてる感じがあるな
こういうのはモデルの規模が物を言うからローカルはまだ厳しい >>66
チャットテンプレートやモデル自体の目的が違うからやろね
Wannabeは入力欄を自動的にwanabi 24bで学習させた形式に変換してるから内部的にはtekken V7(mistral small3)のチャットテンプレートなんや
kobold(自動的にqwen3のチャットテンプレートを使用)なら動くけどwannabeでは動かないのはそういうことや
そもそもWannabeは指示文から何から何までガッチガチに専用モデルに合わせてるから一般的なモデルを組み合わせるならEasyNovelAssitantの方がええやろな
プロンプトやチャットテンプレートを指定できたはずやし >>71 それ古いよ。古すぎる。
25%はどの論文だったかな。ブックマークしとけばよかった ベンチマークというものは攻略可能だから、で性能差が1%!って出たらこの指標はもう死んでるなと解釈するのが妥当では
差があることなんて触ってみれば誰にでもわかる話だし https://cohere.com/research/papers/how-does-quantization-affect-multilingual-llms-2024-07-05
(1)量子化の有害な影響は人間の評価で明らかであり、自動指標はその悪影響を大幅に過小評価していることを発見しました。自動タスク全体での日本語の平均1.7%の低下は、現実的なプロンプトで人間の評価者が報告した16.0%の低下に相当します。
(2)言語は量子化によって異なる影響を受け、非ラテン文字言語への影響が最も大きいです。
(3)数学的推論などの難しいタスクは最も急速に低下します。 海外のサービスみたいな一定以上の性能かつ多機能なアプリってあるんかな >>70
サンガツやで
前スレニキのいう通りやったね、それを確認したかったんや
擬音ばかりになってもうた
>>84
なるほどそういう仕組みやったんたね
ワイのような初心者にはオートマみたいな便利さがあってホンマに助かっとるけど
そこから外れるピーキーなモデルもあるんやな
ありがとうやで llamacppがvision対応したって
つーか今まで対応してなかったんか >>87
これは富士通との協業で分かったことなのかな >>87 ありがとう
自分が見たのはこれじゃないけど8/4bit量子化の表があるね
人間評価の項目で、日本語はわからんでもないけど
フランス人が厳しいのかひどい評価になってる
また103BだとMGSM(多言語数学ベンチ)で 8.8%の低下だけど
35Bだと 13.1%だから体感は酷い事になりそうだ コンテキストウィンドウのサイズでも結構性能変わるらしいね
4kが性能良くて大きくなるほど劣化するとか じゃあローカルではコンテキスト長は諦めてcontext shiftやauthor's noteで工夫して対処するのがいいのか >>93
これはコンテキストウィンドウというより、コンテキストにどれだけ突っ込むかが問題で、設定でどれだけウィンドウを広げても実際にうまく扱えるのはせいぜい4K程度(というモデルが多い)、って話なんじゃないかな ローカルLLMに渡すキャラ設定やルールのことならオンライン用の1/10くらいにしないと脱線するわ体感やけど >>90
違う
今までもvision対応していたが、コマンドラインの場合、
普通のLLMを使うときは "llama-simple -m モデル名 -p プロンプト"
VLMを使うときは "llama-llava-cli -m モデル名 --mmproj mprojモデル --image 画像 -p プロンプト"
のように違うコマンドで対応していた
今回対応したのはllama.cpp標準のWebUIで使う場合("llama-server -m モデル名 ")
今までWebUIで使うときはブラウザから文字しか入力できなかったんだけど、今回の
アップデートで画像を入力できるようになった
ちなみに内部でllama.cppを使用しているkoboldcppのWebUIでは前から画像入力に対応している IntelのGPUが24GB搭載なんちゃうかという話が出とるね、ComputexTaipeiが楽しみやわ。 コンテキスト長が伸びれば伸びるほど性能下がるのは体感通りだな
例えばgemini 2.5 proだと10万トークンまではほぼ劣化なし、20万までは性能やレスポンス低下が見えるけどまあ使える、20万以降はハルシネーションや現在のタスクと過去のタスクの混乱が増えてまともに使えないって感じ
ローカルの微調整モデルだと学習時のコンテキスト長が短い(大体4096以下)だからより顕著やろしな IntelハイエンドGPU持ってないし
GPUそのままにVRAMマシマシラインナップとか全然やれると思うんだよな・・・
GDDR6でいいから30万くらいで128GB版とか
そういうラインナップそろえだしたらソフト側の対応は勝手にみんながやってくれるだろうし
Intelやってくれへんかなぁ コンテキスト長のベンチマークはfiction live benchかeqbenchは参考になると思うで
nvidiaのRULERもあるけど古い情報で更新止まってる 今ってユニファイドメモリじゃないPCはCPUやNPUで動かしてRAMで動かしてるの? intelはB580x2+48GBか。
B580にチップ間接続用のポートとかあるとは思えないから、
たぶんPCIeブリッジで繋いでるだけだろうな。
それでも48GBはかなり良い。 インテルじゃないボードベンダー産ってのがいいね
これがアリならまた別のベンダーがもっとVRAMマシマシのを出してくる可能性もある 4090の96Gができたんだ
終売した4090じゃなくB580なら
もっと手軽にできそうだし欲しい Silly Tavernでキャラ設定を1500tokens記述してもうまくいかないのはこのためか
Content Lengthは受付可能な長さであって理解している長さではないとは…… ローカルで今のGeminiくらいのレベルの動かせたら最高なんやけどなあ 2年くらいしたらローカルもそれくらいになってるのでは
オープンモデルの成長はほぼ中国頼みだが コンテキストサイズが大きくても知ってる奴には大して喜ばれないのがそれやな
どうせコンテキスト増えたらまともに動かんの知ってるから vRAM16GBぐらいでAIのべりすとレベルが動いてくれたらかなり満足する気がする
あいつオーパーツすぎんだろ AIのべりすとって今そんなに強いんだ
個人的にはgemini 2.5がオーパーツかな
flashレベルが32Bくらいに収まってくれたらなぁ… 今というか数年前のAIのべりすとが凄いなって話、いまだ進化してるんだろうか
あそこまで日本語の文章紡げてなおかつどっかの汎用モデルそのまみ動かしてるとかじゃないから日本語圏のネタとかが通じること多いし intelマザーってx16スロットをx4x4x4x4に分割したかったらXeonからになるのね・・・
今あるA770-16GB2枚をさらに増やすためにリグフレームやら諸々そろえてうっきうきで組んでたら、
中古で買ったz690マザーがx8x8分割しか出来なかったわ。
AMDの方はB450とかでもx4x4x4x4分割設定あったから普通に出来るもんだと思ってた。 12Bぐらいのモデル全然増えんな
Lumimaid-Magnum-v4-12Bももう5か月前やで >>115
それってPCIe x16をM.2 x4のボードに変換してM.2をPCIe x4に変換してグラボ繋げる……でええんかな? >>117
gemma3 12b qwen3 14bが出てきてるからもう少ししたら色々とファインチューニングモデル出てくると思うよ
ベースモデルから検閲厳しいからこのスレの使い方的には微妙だろうけど >>118
アリクエにOCULinkx4に変換できるボード売ってた
1枚買ってある(´・ω・`) >>118
x16をoculinkx4に変換したりU.2x4に変換したりする。
今回使ったのはU.2に変換する奴。
>>120
そういうのそういうの。 Mistralが最近小さめのモデル出さないからなぁ intel arc b770が16GBで出るかもって噂出てて、
さらにボードベンダーからb580を2個使った48GBのカードが出てくるって噂と合わせると
将来的にb770を2個使った64GBのモデルが出てきてもおかしくない・・・? むしろ中国がLLMに特化した
ミニPC出してきてもおかしくない……
4090魔改造するならそういうのも頼むで……!
禁輸くらっとらん素材なら潤沢にできるやろ頼むわ アメリカが今の半導体規制を撤廃する代わりにファーウェイ製のチップを使うなって言い出してるんよね 世界に勢力が2個以上あって対立してるのは良いことかもな
競争でどんどん進歩していく AI半導体に関してはAMDとIntelが期待外れだったってのもある
Huaweiは自社チップ向けにTensorFlowやPyTorchのバックエンドを作る位の技術力はあるし、プロセスが数年遅れててもデータセンターならゴリ押しできる
AI研究者の半数以上は中国人って調査もあし、当のプロセス進化も足踏み状態
ここはみんなで協力して乗り切るのが人類全体利益になると思うんだけどね LLMモデルに検閲無しのファインチューニングしたいんだけど既存のNSFWファインチューニングニキらは一体どこのデータセット使ってるんや…
まさか自分で1から準備するとかないよね? >>130
readmeに書いてあったりするから見てみ
ちな日本語だとaratako氏のデータが唯一だと思う >>130
berghofの人が使ってるエロ同人のお約束に精通した隠語マシマシドスケベデータセット欲しい >>133
あれ傑作よなワイも低俗で上質なデータセット欲しい
無駄に理屈的(小説的)じゃない言い回しが臨場感あってよい
ハートマーク多用する低俗な言い回しも合ってる
漫画の絡み中の短いセリフとかを学習させまくってるのかな 多分そうだと思う
小説から学習させたのがNSFWでエロ同人から学習させたのがERPなんじゃないかな
喘ぎ声のバリエーションが豊富で他のモデルみたいに出し惜しみせず喘ぎまくるし
しかもアナルを責めた時だけおほっ♡とか、んおおっ!?って言い出すのほんと解像度高くて笑う 20万くらいでgpt4クラスが動くようにしてくれ
チューニングできるなら3.5でもいいけど 3.5レベルならもうローカルで動かせてるんでは?🤔 >>133
>>134
データセットはHuggingFaceにJSONで公開してるやろ とりあえずリグ組めたからサブPCからA770外してリグに組み込んだらA770認識しなくて草
草じゃないが