なんJLLM部 避難所 ★8 	
■ このスレッドは過去ログ倉庫に格納されています
 !extend:checked:vvvvv:1000:512 
 !extend:checked:vvvvv:1000:512 
  
 AIに色々なことをしゃべってもらうんやで 
 そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 
 自薦・他薦のモデルやツールは>>2以降 
  
 本スレ(避難中) 
 なんJLLM部 ★7 
 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 
 前スレ(実質本スレ) 
 なんJLLM部 避難所 ★7   
 https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/ 
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured  Violet_Magcap-12Bの設定使ったら推論って奴できて嬉しい  ryzenMAX+はCPUにAVX512とか載ってるから 
 CPUにも仕事させた方が良いんだろうか  70Bモデルまで行くと速度的に厳しそう 
 それでもCPU推論よりはマシか? 
  
 Testing the Ryzen M Max+ 395 : r/LocalLLM 
 https://www.reddit.com/r/LocalLLM/comments/1k3hlw3/testing_the_ryzen_m_max_395/  >>14 
 DeepSeek-R1-Distill-Llama-70B Q3_K_Lと 
 Qwen3-235B-A22Bでかなり違うのな 
  
 >>16のDeepSeek R1 70Bでも5〜10tk/s 
 なんかコード修正したら10tk/s以上出るとかも 
 言われてるけど 
  
 https://x.com/hjc4869/status/1913562550064799896  これでゲームもCUDAが必要とか言ってる動画生成系のやつも全部できたら乗り換えるのになぁ  前スレのこれ、sshでつないでポートフォワードしたらできるで 
  
 >Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります?  前にここで紹介された 
 Qwen3-30B-A3B-NSFW-JP 
 ggufがないからまだ試せないンゴ  別にわざわざポートフォワードせんでもlan内でポートへの接続許可したらマシンのipで繋げれるんとちゃうか。winならファイアウォールの設定で受信の許可ルール作ればええ  >>21 
 ERPの方はggufあげてくれてるで。nsfwは事前学習モデルやからそのまま使ってもいい感じにはならなさそう  Project Wannabeは最初に提示されたkobld_client.pyを書き換える方法で上手くいきました。  >>23 
 サンガツやで! さっそくDLしてきた 
 あとで試してみるわ 
 Q6_Kから25Gやけど 
 このへん5090ニキらなら乗るんかぁええなあ……  >>25 
 ホンマやありがとう! 
 同じ量子化のをDLして比べてみるわ 
 wannabeつかわせてもろとるけど 
 koboldでのモデル変更て一旦cmd閉じて再起動よね? 
 モデル切り替えちょい面倒なんよな  koboldcppってOllamaと結構性能違うのかな? 
 Ollamaの方が使い分け楽だから、性能僅差ならOllamaで済ませたいなぁ。 
 誰か詳しい人いる?  >>26 
 古いMacStudioやけど128gbあるからQ8が乗るで 
 LLM以外やとまじで役に立たんけどな  そういやwannabeニキに大それたリクエストがあるんやけど 
  
 縦書き 
  
 仕様にできんやろか? 
 ワイ書くのも読むのも縦書きのオールドタイプなんで…… 
 前にObsidianを縦書きにするアドオンとか作れんかGPT君にきいたら 
 えらい難易度が高くて諦めたから 
 無茶な注文なのは解っとるけども 
 でけたらえらい嬉しい  >>29 
 ええなあ……ワイはメデューサ待ちや 
 出るまでに自分が電書化した小説とか学習できたらええんやが 
 技術がない……  Qwen3-30B-A3B-NSFW-JP っていうやつ見たら「事後学習せい」って書いてあるけど、なにしたらええんや? 
 なんか参考になるリンクとかあったら教えてほしい。  ベース学習しただけだから指示じゃなくて続き書かせる手法にするってことか  >>32 
 すまん、ChatGPTにきいたら自決したわ。  evo-x2はやっぱり同スペックのm4proと同じかちょっと早いくらいやな。 
  
 m4maxには勝てんかったか...  やっぱりハード面は根本的なブレイクスルーが必要だよなあ  win機なら需要の幅広そうだしm4との棲み分けはできそう  >>37 
 2022年のM1 Ultraにも負けてるじゃん? 
 メモリの帯域幅が足りないからでは? 
 256GB/sではM1 Ultraの800GB/sには遠く及ばない  LLMならmacが良いらしい、いやmac微妙だぞのやり取りが去年たくさんあったしな 
 それよりさらに微妙な物なら買う事は無さそうやな 
 後数世代待てば帯域の事も考えられた専用機が出てくるやろ  去年と違うのは今はMoEが主流になりつつことだな  
 動かすだけならユニファイドメモリが最も手軽な手段だし  
 3090x4より安いし30万以下なら全然あり  Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。 
 初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。 
  
 しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください 
 プロットは一つ100文字以内とし、箇条書きで書き出してください。」というプロンプトで、 
 プロットを一つずつしか出してくれないのでめんどくさい。 
  
 https://ibb.co/cXXq5vxy  i7-14700 64GB 4090 の環境で 20t 〜 40t くらい 
  
 速度は十分実用的だと思う  >>44 
 そのモデルは多分そういうプロンプトには対応してないと思うで 
 ロールプレイの一種ではあるけどそういうのは学習してないと思う  >>46 
 そうなんや、ERPとChatはまた違うってことか。サンガツやで。  >>47 
 モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね 
 このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね 
 でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ  >>41 
 Macの良さってメモリの大きさだけなんだよな 
 OSとかGPUとかはべつにLLMに向いてない  DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも(多分)使えるのが売りになるのかな  >>51 
 帯域はべつに普通じゃないか? 
 M3ウルトラはNvidiaよりは遅い 
 M3 MaxはRyzenより遅い  昔のredditの投稿で、Ryzen AI Max+ 395でdeepseek-r1の70B蒸留モデルのQ8使ったら3token/sって話だったけど、どうなんやろね 
 https://www.reddit.com/r/LocalLLaMA/comments/1iv45vg/amd_strix_halo_128gb_performance_on_deepseek_r1/ 
  
 >>14の記事だとQ3_K_L?らしいから、これがQ8になった時に本当にどこまで速度が落ちるのかどうか気になる  ryzenMax+のmac ultraやDGXに対する加点部分はお値段とグラボが積めるってあたりか  GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ 
 なんなんだコイツは  今日5090が届いたから4090から換装してみた 
 最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず 
 そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ 
 comfyも同様 
 RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ  ドライバは最新のにしたくないなぁ 
 一応reforgeやKohyaも正常に動いてるし  DGX SparkはARM64のLinuxなのが意外にネックになりそう 
 oobaもKoboldもx64ほど簡単には動かない予感  あ、やっぱり5090でSBV2の学習駄目ぽ… 
 文字起こしまではできたけど(4090よりクソ遅い)その先がエラー出るや  ChatGPTスレから誘導されて来ました 
 ローカルで質問なんですけど 
 32Bモデルの量子化されてないオリジナルをロードできる環境があって 
 その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか? 
 生成の質っていうのはタスクの理解力みたいやイメージです  うっかり嫁とエッホエッホの話振ったら 
 それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った  >>63 
 余裕で100b 
 4bitまでは性能劣化がほとんどないからサイズも1/4にできると考えていいよ  >>23 >>25 
 Wannabeで試してみたが 
 Qwen3-30B-A3B-NSFW-JP-Q4_K_M まったく使い物にならんかった 
 Qwen3-30B-A3B-ERP-v0.1-Q4_K_M こっちは出力されんかった 
 なおkobold上だと応答はあって不思議 
 >>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな……  >>63 
 量子化レベルに関わらずパラメータ数の多いモデルの方が賢いと言われているけど、流石にq1とかq2に量子化されたモデルはあまり賢くないと感じる 
 できれば8bit、最低6bitくらいで使用できるモデルが目安じゃなかろうか 
 個人的には4bitもちょっと性能低下が顕著かなと感じているところ  俺も6bitが限界だと思ってる。4bitだと25%くらい成績が落ちるらしい 
 雑談だとわかりづらいけどロジックで25%の低下は仕事に使えん 
 100bで2bitはロマン  >>66 
 それ事前学習しかしてないモデルだからそのまま使うもんじゃないよ  >>71 
 そのグラフを見ると確かに4bitでも問題なさそうに見える 
 巷でも4bitならOKとされているのも理解しているけど、自分の環境で実際に出力されたものを比較すると明らかにq6、q8の方が良い結果を出す確率が高く感じる 
 小説しかり、コーディングしかり  たしか前にもこのスレで日本語に関しては量子化サイズの差が顕著って話が出てたな  perplexityはなんか解像度が荒い指標な気がする  perplexityよりKL-divergenceって指標のがいいらしいけどマイナーすぎて測られてないんだよな  文章のベンチマークは難しいよね 
 ベンチ結果は良くても文章としては「?」ってのもあるだろうし 
  
 自分たちが人力で日本語のドスケベ評価するしかないんや!  llmにとって簡単なタスク、地の文と丁寧語>話の一貫性>>>キャラの言動と口調って感じがする 
 qwen3-4Bですら地の文と丁寧語はそこそこ自然 
 データが豊富なんやろね  grok3に版権キャラの情報を収集させてから全力でなりきってって指示しても微妙だからな 
 今のはここが変、そこが日本語としておかしいってダメ出し続けると確かに偽物感は消える 
 でもそれと引き換えに話の柔軟さが消えて返答がワンパターンになっていく 
 ルールでがんじがらめにされてる感じやね  ロールプレイ依頼時に画像も収集してきてflux1あたりの高級な画像生成モデルのLoRA勝手に作って 
 応答するたびにそのコメントに合った画像を生成する・・・ 
 のは今でも技術的にはできそうやけどそこまでの高機能なのは需要なさそうで作る人もいなさそうやな  ワイ、grok-3-betaとかfast-betaで條澤広ちゃん憑依させてあそんどるけど、モデルの素地が理系頭なのが関係してか、プロンプトで固めなくてもかなり広ちゃんで満足や 
 口調に関しては特徴的な語尾を中心に10個例示した程度だけで、特に例文に入れてないのに「ワクワクするね?」とか言ってきてくれてめっちゃ広ちゃんで嬉しい  ローカルのスレだけどローカルモデルに限らないならキャラなりきりはGeminiが抜けてる感じがあるな 
 こういうのはモデルの規模が物を言うからローカルはまだ厳しい  >>66 
 チャットテンプレートやモデル自体の目的が違うからやろね 
 Wannabeは入力欄を自動的にwanabi 24bで学習させた形式に変換してるから内部的にはtekken V7(mistral small3)のチャットテンプレートなんや 
 kobold(自動的にqwen3のチャットテンプレートを使用)なら動くけどwannabeでは動かないのはそういうことや 
 そもそもWannabeは指示文から何から何までガッチガチに専用モデルに合わせてるから一般的なモデルを組み合わせるならEasyNovelAssitantの方がええやろな 
 プロンプトやチャットテンプレートを指定できたはずやし  >>71 それ古いよ。古すぎる。 
 25%はどの論文だったかな。ブックマークしとけばよかった  ベンチマークというものは攻略可能だから、で性能差が1%!って出たらこの指標はもう死んでるなと解釈するのが妥当では 
 差があることなんて触ってみれば誰にでもわかる話だし  https://cohere.com/research/papers/how-does-quantization-affect-multilingual-llms-2024-07-05 
 (1)量子化の有害な影響は人間の評価で明らかであり、自動指標はその悪影響を大幅に過小評価していることを発見しました。自動タスク全体での日本語の平均1.7%の低下は、現実的なプロンプトで人間の評価者が報告した16.0%の低下に相当します。 
 (2)言語は量子化によって異なる影響を受け、非ラテン文字言語への影響が最も大きいです。 
 (3)数学的推論などの難しいタスクは最も急速に低下します。  海外のサービスみたいな一定以上の性能かつ多機能なアプリってあるんかな  >>70 
 サンガツやで 
 前スレニキのいう通りやったね、それを確認したかったんや 
 擬音ばかりになってもうた 
  
 >>84 
 なるほどそういう仕組みやったんたね 
 ワイのような初心者にはオートマみたいな便利さがあってホンマに助かっとるけど 
 そこから外れるピーキーなモデルもあるんやな 
 ありがとうやで  llamacppがvision対応したって 
 つーか今まで対応してなかったんか  >>87 
 これは富士通との協業で分かったことなのかな  >>87 ありがとう 
 自分が見たのはこれじゃないけど8/4bit量子化の表があるね 
 人間評価の項目で、日本語はわからんでもないけど 
 フランス人が厳しいのかひどい評価になってる 
  
 また103BだとMGSM(多言語数学ベンチ)で 8.8%の低下だけど 
 35Bだと 13.1%だから体感は酷い事になりそうだ  コンテキストウィンドウのサイズでも結構性能変わるらしいね 
 4kが性能良くて大きくなるほど劣化するとか  じゃあローカルではコンテキスト長は諦めてcontext shiftやauthor's noteで工夫して対処するのがいいのか  >>93 
 これはコンテキストウィンドウというより、コンテキストにどれだけ突っ込むかが問題で、設定でどれだけウィンドウを広げても実際にうまく扱えるのはせいぜい4K程度(というモデルが多い)、って話なんじゃないかな  ローカルLLMに渡すキャラ設定やルールのことならオンライン用の1/10くらいにしないと脱線するわ体感やけど  >>90 
 違う 
  
 今までもvision対応していたが、コマンドラインの場合、 
 普通のLLMを使うときは "llama-simple -m モデル名 -p プロンプト" 
 VLMを使うときは "llama-llava-cli -m モデル名 --mmproj mprojモデル --image 画像 -p プロンプト" 
 のように違うコマンドで対応していた 
  
 今回対応したのはllama.cpp標準のWebUIで使う場合("llama-server -m モデル名 ") 
  
 今までWebUIで使うときはブラウザから文字しか入力できなかったんだけど、今回の 
 アップデートで画像を入力できるようになった 
  
 ちなみに内部でllama.cppを使用しているkoboldcppのWebUIでは前から画像入力に対応している  IntelのGPUが24GB搭載なんちゃうかという話が出とるね、ComputexTaipeiが楽しみやわ。  コンテキスト長が伸びれば伸びるほど性能下がるのは体感通りだな 
 例えばgemini 2.5 proだと10万トークンまではほぼ劣化なし、20万までは性能やレスポンス低下が見えるけどまあ使える、20万以降はハルシネーションや現在のタスクと過去のタスクの混乱が増えてまともに使えないって感じ 
 ローカルの微調整モデルだと学習時のコンテキスト長が短い(大体4096以下)だからより顕著やろしな  IntelハイエンドGPU持ってないし 
 GPUそのままにVRAMマシマシラインナップとか全然やれると思うんだよな・・・ 
 GDDR6でいいから30万くらいで128GB版とか 
  
 そういうラインナップそろえだしたらソフト側の対応は勝手にみんながやってくれるだろうし 
 Intelやってくれへんかなぁ  コンテキスト長のベンチマークはfiction live benchかeqbenchは参考になると思うで 
 nvidiaのRULERもあるけど古い情報で更新止まってる  今ってユニファイドメモリじゃないPCはCPUやNPUで動かしてRAMで動かしてるの?  intelはB580x2+48GBか。 
 B580にチップ間接続用のポートとかあるとは思えないから、 
 たぶんPCIeブリッジで繋いでるだけだろうな。 
 それでも48GBはかなり良い。  インテルじゃないボードベンダー産ってのがいいね 
 これがアリならまた別のベンダーがもっとVRAMマシマシのを出してくる可能性もある  4090の96Gができたんだ 
 終売した4090じゃなくB580なら 
 もっと手軽にできそうだし欲しい  Silly Tavernでキャラ設定を1500tokens記述してもうまくいかないのはこのためか 
 Content Lengthは受付可能な長さであって理解している長さではないとは……  ローカルで今のGeminiくらいのレベルの動かせたら最高なんやけどなあ  2年くらいしたらローカルもそれくらいになってるのでは 
 オープンモデルの成長はほぼ中国頼みだが  コンテキストサイズが大きくても知ってる奴には大して喜ばれないのがそれやな 
 どうせコンテキスト増えたらまともに動かんの知ってるから  vRAM16GBぐらいでAIのべりすとレベルが動いてくれたらかなり満足する気がする 
 あいつオーパーツすぎんだろ  AIのべりすとって今そんなに強いんだ 
 個人的にはgemini 2.5がオーパーツかな 
 flashレベルが32Bくらいに収まってくれたらなぁ… ■ このスレッドは過去ログ倉庫に格納されています