なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/03/23(日) 14:58:05.71ID:bsaTSAD8
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/
0653名無しさん@ピンキー2025/04/25(金) 21:59:57.67ID:???
低温+高top-kと高温+低top-kだと、露骨に後者の方が出力に多様性が増すと感じる
その分、指示の忠実性は下がるが
0654名無しさん@ピンキー2025/04/25(金) 23:29:45.68ID:???
>>646
単発生成での停止 top-kの項目追加しといた
テンポが速いのは多分モデルのデータセットがweb短編小説がメインやからやね
次のモデルだとデータセットを短編以外からも取得して、セリフが占める割合を指定できるようにしたから多少は重厚な小説も書けるはずや
>>652
繰り返しが多い/直前の展開から書き始める問題に対処するために簡易的やがプロンプトの順番をすこし変えたで 本格対応は次のモデルやね
画像等のチュートリアル含むドキュメントは土日中に作りたいとは思ってる
LLMは文体を維持したがるからねっとりさせたい場合は、自力でねっとりとした文章を書くか、好きなR18作品の盛りシーンをこっそり貼り付けるのがはやいと思うで
0655名無しさん@ピンキー2025/04/26(土) 02:10:11.43ID:???
>>654
調整サンガツやで
作らせたんが男の娘やからアップできんですまんな……ホモやないけど

あれから自分なりに試行錯誤してみた
あらすじでもう少し細切れに指定したら
ある程度長く書いてくれたわ
まあ足りん分は自分で書けばええんやけどね
大いに楽できそうというか、スランプになっとるときに
打開してくれるかもしれんと楽しみやで
0656名無しさん@ピンキー2025/04/26(土) 05:18:21.16ID:???
>>654
さっき再インストールしたらverアップしとった、お疲れ様やで
24日と25日で微妙に動きが違う感じやね
あと外のモデルでも使えるしGUIとしてとっつきやすいからワイ好みや
ホンマにありがとう

管理は日付でやる感じやろか?
とりあえずver違い保存するときに
フォルダ名を合わせようと思っとるんやけど

あとGPT君の力を借りてkobold起動→Wannabe起動の.batを作ってもろて
いちいちvenvに入らんでもよくなって
より使いやすくなったで(日記)
0657名無しさん@ピンキー2025/04/26(土) 12:38:59.29ID:???
>>654
shisa-ai/ablation-189-gemma3.webnovels.test.gemma-3-27b

shisa v2良かったから過去のモデル漁ってこれ試したことあるけど、かなり酷い結果になったよ。
web小説をデータセットに使うのって結構リスキーじゃないか?
0658名無しさん@ピンキー2025/04/26(土) 13:43:16.46ID:???
bitnet b1.58 2B4T、他のモデルの非量子化と精度変わらないっぽいぞ
大きめのモデルでもいけるなら早くだしてほしいわ
0659名無しさん@ピンキー2025/04/26(土) 13:58:25.67ID:???
正直思ったよりも1.58bit普及してないけど
これで普及に弾みついてほしいな
0660名無しさん@ピンキー2025/04/26(土) 14:03:32.20ID:NiAbFCBk
今5060ti16GBと5070tiで迷ってるんだけどllm的にはそんなに結構差が出る感じなんだろうか
0661名無しさん@ピンキー2025/04/26(土) 14:08:16.77ID:???
>>657
モデルカードが空だから何も言えないけど
自分も最初はhttps://huggingface.co/datasets/botp/RyokoAI_Syosetu711Kのデータを使ってたけどひどい目にあったよ
あらすじと本編の区切りがない、ルビの処理がなく支離滅裂になってる場合がある、一定間隔で不自然に改行が入る、後書きや前書きがそのままなどなど…
結局メタデータだけ貰って本編は再取得するはめになったし タグやジャンル、あらすじ含めて全部クリーンアップしてるからかなり良くなってるはず
文体は軽くなるけど青空文庫よりはましかなって

>>660
VRAM量が同じならLLMだと帯域幅がそのまま性能差になるよ
5070ti 896GB/s 5060ti 448GB/sでぴったし2倍の速度差になる
0662名無しさん@ピンキー2025/04/26(土) 14:27:58.65ID:???
>>656
使ってくれてありがとやで
挙動が変わったのはおそらくconfig.jsonの数値がアップデートで更新されて"temperature": 0.5から"temperature": 1.0にデフォルトが変更になったからやね
それを戻して、設定パラメータの「継続タスクのプロンプト順序」を「詳細情報との整合性を優先」に変更すれば24日の生成状況にもどるはずや
同一ブランチ内の変更は基本的に後方互換性を入れるようにしてるけどvenv使わければリポジトリ容量は軽いからrenameしてbackupしておくのが吉やね
0663名無しさん@ピンキー2025/04/26(土) 14:31:11.62ID:???
5070Tiに手が届くなら5060Tiを2枚という選択肢もあるな
VRAM32GB相当で動かせるモデルの幅が広がる
速度は5070Tiだが
0664名無しさん@ピンキー2025/04/26(土) 15:16:16.46ID:???
>>661
商業という選別が入ってるから青空文庫のほうが
web小説より遥かにマシと思っとったが違うんか……

むしろ青空文庫から学習したモデルほしいわ
qwq-32b-q4_k_mあたりで
0665名無しさん@ピンキー2025/04/26(土) 15:17:19.15ID:???
改めてDGX sparkとかの273GB/sって辛いな
60tiにすら大差で負けてる速度かあ
0667名無しさん@ピンキー2025/04/26(土) 16:33:21.99ID:???
2027年のRyzenAIなら384GB/sじゃなかった?
ワイはあれ待ち
その時までにスキル挙げておきたい
0668名無しさん@ピンキー2025/04/26(土) 16:38:43.30ID:???
5060ti二枚行くなら3090買いたいな
今の軽量モデルのターゲットがVRAM24GB帯になっててvram32GBはコンテキストが増やせるぐらいで恩恵薄いし
メンテパーツもアリエク行けば数千円でファン、外装、ヒートシンクと何でも買えるからコアとメモリが壊れない限り当分は維持できる
0670名無しさん@ピンキー2025/04/27(日) 07:24:19.11ID:???
Deepseek R2の話が出てきてるな
どこで出すかと言えば月末のLlamaConに合わせてくるに決まってるわけで忙しくなりそう
0671名無しさん@ピンキー2025/04/27(日) 07:56:12.13ID:???
そんなに早くバージョンアップできるもんなんかな>R2
どちらかと言うとmistral largeのほうをvupして欲しい
あれの書くエロ小説最高や
0672名無しさん@ピンキー2025/04/27(日) 08:32:09.41ID:???
>>671
R1はV3をベースに作られている
V3が出たのが12月でR1は1月
そう考えると新しいV3が出てそろそろ1ヶ月経とうとしている今にR2が出てもおかしくはない
0674名無しさん@ピンキー2025/04/27(日) 19:05:10.42ID:???
https://www.newcomer.co/p/microsofts-big-ai-hire-cant-match

microsoftの社内政治の結果、phiのキーマンが退社して別路線の独自AI MIAを作る方向に向かってしまったらしい
phiはエロはともかく小型で日本語もそこそこ出来る良いモデルだったのに

あとどうでもいいけど、URL貼ってた驚き屋のひとは明後日の方向に話を進めてて意味不明すぎる
グラフだけ見て中身読んでないのかな
0675名無しさん@ピンキー2025/04/27(日) 19:06:43.95ID:???
なんか紛らわしいな

phiのキーマンは退社してopenAI入り、MSは独自モデルMAIをわざわざ作る方向に進んでしまったらしい
0676名無しさん@ピンキー2025/04/27(日) 20:13:58.58ID:???
>>662
引き続きwannabe使ってみた試行錯誤や
というかまずjsonで同じ条件で設定引き継げるのホンマに便利やね
出力物だけを保存できるのもあとで纏めるのに大いに助かる感じ
本文との整合性をあわせる、のほうにするとけっこうキャラのブレがない感じやろかな
まだエロシーンでしか試しとらんけども
とにかくサンガツやで

今度はBLやのうて少年少女で試してみた結果
qwq-32b-q4_k_m やと申し訳ばかりで何も進まなかったところ
wanabi_24b_preview_q4km やとすんなり通った、さすがやで
ついでに
c4ai-command-a-03-2025.i1-Q6_K(89G)も通ったけども
めちゃ時間かかったわ……試行錯誤する以前にこっちの集中力がなくなるンゴ

そんで前スレの終わりで
「お前koboldをちゃんとCUDAで動かせとんのか?」と確認いれてくたニキ
どこをいじればええんか解らんかったんやが
今回タスクマネージャー見たらVram98%くらい使っとった、他の作業がでけんレベル
https://files.catbox.moe/w4ml9y.png
そんで-1(Auto)やのうて12レイヤー載っけてなんとかOK……てことで
指定量でCUDA使えとる、で合っとるやろか
0677名無しさん@ピンキー2025/04/27(日) 20:21:45.89ID:???
重ね重ねシロート質問なんやが
>>638ニキのキャラ設定の表記を真似させてもろとるんやけど

アリス
-
-
-
て半角棒線にしとるのはプログラム的にそっちのほうがええの?
アリス



これやと全角やからあかんのかな
0678名無しさん@ピンキー2025/04/27(日) 20:59:48.66ID:???
>>676
引き続きwannabeで小説形式、12レイヤー載っけて
c4ai-command-a-03-2025.i1-Q6_Kで最初の生成、約40分
これが早いか遅いか分からないンゴ……これCUDAで動いとるんやろか
4090(PL70%)DDR4128G i5-12600 や
ここ達人ニキ多いからあまりに初心者すぎる感じですまんやで

https://files.catbox.moe/s0pn35.png

Processing Prompt [BLAS] (1788 / 1788 tokens)
Generating (1024 / 1024 tokens)
[20:50:40] CtxLimit:2812/4096, Amt:1024/1024, Init:0.01s, Process:45.32s (39.45T/s),
Generate:2428.63s (0.42T/s), Total:2473.94s
0679名無しさん@ピンキー2025/04/27(日) 21:27:41.86ID:???
89GBをVRAM24GBに乗せようとしてて当然溢れてメインメモリに跨ってるから処理が激遅になっているだけやで
メインメモリ128GBあるリッチマンならいっそ全部メインメモリで処理した方が速いのかもしんない
0680名無しさん@ピンキー2025/04/27(日) 21:50:39.67ID:???
>>679
ありがとうやで、12/67程度のっけたところで恩恵はない感じなんやね
ちゅうてもDDR5やないからアップアップや
ここには右手に4090左手に3090、DDR5x4で
バッファローマンを上回るニキがゴロゴロおるから恐ろしいで

でも40分が20分になるならマザボごと買い替えたくなるンゴね
そんな余裕はないからMedusa Ridgeはよう来てくれ──っ
0681名無しさん@ピンキー2025/04/27(日) 22:02:42.26ID:???
Mistral系みたいなCPUでもある程度速度出る設計のモデル以外はVRAMから少しでもはみ出たらそこがボトルネックになってガクンと遅くなる
ある程度遅くなるのを妥協したとしても少なくともレイヤー2/3以上はGPUに載ってほしい
0682名無しさん@ピンキー2025/04/27(日) 23:16:07.07ID:???
>>677
半角ハイフン記号を列挙の印に使うのはMarkdown書式でも使ってる世界的に汎用的な書き方
全角ナカグロは日本語ドキュメントでしか使わないからLLMがそれを列挙の印として認識するかどうか怪しい 賢いモデルならいいんだろうけど
0683名無しさん@ピンキー2025/04/28(月) 00:09:12.70ID:???
試しに計測してみたで
12/67をVramに
[20:50:40] CtxLimit:2812/4096, Amt:1024/1024, Init:0.01s, Process:45.32s (39.45T/s),Generate:2428.63s (0.42T/s), Total:2473.94s
全てをDDR4に
[23:52:31] CtxLimit:3374/4096, Amt:1024/1024, Init:0.01s, Process:2.88s (0.35T/s), Generate:2883.53s (0.36T/s), Total:2886.41s

ワイ詳しくないからトータル時間のみについて
6、7分の差やけどもワイ環境やと一部Vramに載せたほうが速くなった
生成画面は脇に放置しとるから、完了したらすぐに作業できるわけではない
速く終わっても気づかないなら誤差の範囲
むしろVram圧迫して他の作業の余裕がなくなることを考えたらDDRに載せるほうがええ、ハード的なコスパもええ
てな感じやろか、いつも教えてもろとるから何かの参考になれば幸いやで

>>682
知らんかったで、これから「-」使うわ丁寧にサンガツやで!

>>662
勝手にデカいモデルで使わせてもろとるうえに恐縮やが
wannabeに生成が完了したら何かアラーム鳴るような機能って付けたらどうやろか?
普段はオフでええと思うけども
0684名無しさん@ピンキー2025/04/28(月) 00:32:47.80ID:???
どうやろか?という言い方、大上段からで誠にすまんかったやで

欲じいですうううう!
ワイしか必要としとらんかもやけど欲じいですう!
0685名無しさん@ピンキー2025/04/28(月) 06:43:04.22ID:???
たびたびスマンやで
Wannabeのファイル>出力内容を書き出し
ってこれ
下の出力物エリアじゃなくて
上の本文のことなのね

出力物を後で比較しようとして
保存して次、保存して次と
全部ドブに捨てとった……
出力物のみの保存ができると性能比較しやすいんで有り難いで

あとキーワードの働きについて調べとるんやけど
文字長くて10個以上やと見えなくなるから
三行くらいは見えるようにして欲しいで
全消しするにはjsonを開いて直接消したほうが楽やね
全消去ボタンもどこかにあると嬉しいで

ワイばっか書き込んで厄介なファンみたいになってて申し訳ない
0686名無しさん@ピンキー2025/04/28(月) 08:08:13.16ID:???
>>685
フィードバックはなんぼあってもええからほんま助かるわ
キーワードとジャンルの視認性の問題は把握してるので近い内に対処する
出力物の書き出しは詳細情報の横のメモ欄で代用できへんか?
jsonにも保存されるんでモデル変えても引き継がれるはずや
0687名無しさん@ピンキー2025/04/28(月) 09:53:06.31ID:???
>>686
恐縮やで
キーワード部分の対処楽しみや!

出力物の書き出しやけど
書きたいもののプロットが文字数も含めて決まっとる場合は
本来の使い方、Vramに乗せてどんどんガチャして本文に足していくんやのうて
ある程度の長文を一気に出して、全体を見ながらいいとこ取りをしようと思ったんや
(89Gのモデルを2048トークンで出すと一時間かかったから、気軽にその場ガチャでけん)

VSCodeやObsidianで複数カラム並べて比較するなら
別個ファイルのほうが便利やなって(スライダをいったりきたりせんでええ)
ただ昨日思いついたやり方で、まだ数をこなせてないから
本当に必要な機能かといわれたら怪しい部分もある
現状やと別text作ってコピペでもできるけどね

2000文字1時間かかっとるから、A1111みたいに連続生成(と保存)のbatch8とかできたら
クリックひとるでめちゃ楽になるとも思った
寝てる間に短編8本のバリエーションができるわけやからね

あくまで重いモデルを使うレスポンス悪い条件での使い方なんやが
プロットの工夫で構成がうまいこと制御できそうでめちゃ楽しい
wannabe触ってようやくワイのやりたい事ができそうやと
ついテンション高めで書き殴っとるけども堪忍やで
0688名無しさん@ピンキー2025/04/28(月) 10:05:20.95ID:???
>>687
あとキーワードなんやが
A1111のdynamic promptと同じように
{華道部|茶道部|陸上部|水泳部}, {屋上|理科室|地下倉庫}, {2$$A|B|C|D|E}
てな感じでランダム選択とかできるんかな?
いま思いついただけなんやが……

追加と消去は簡単かもしれんけど人為ミスが増えそうやけどね
0689名無しさん@ピンキー2025/04/28(月) 10:25:25.20ID:???
ダイナミックプロンプトは面白い発想かもな
フロントエンド部分での対応になるだろうけどある程度候補を絞った中でAIに任せてどんな話になるか楽しむってのは良さそうね
0690名無しさん@ピンキー2025/04/28(月) 11:35:51.59ID:???
スカイリムってゲームにNPCにAI入れるMODがだいぶ前話題になってたけど
今はかなり実用レベルになるまで使えるようになってるみたい
0693名無しさん@ピンキー2025/04/28(月) 14:42:45.70ID:???
プロンプトに選択しろって書いてLLMに解釈させればどのLLMも選択してくれるはずだけど、クライアント側で扱ったほうが簡単かもね
0694名無しさん@ピンキー2025/04/28(月) 16:27:53.67ID:???
>>688
機能要望は助かるやで
dev ブランチでタグ、キーワードの視認性の改善と各入力欄でdynamic promptの構文の一つを実装したで{選択肢A|選択肢B}
他の構文は実装難度あがるから様子見やね
devブランチはgit checkout devで切り替えられるはずや 色々と追加しちゃったからwanabi preview 24bを使ってるなら非推奨だけど、汎用的なモデルを使ってるならmainブランチより指示能力があがる可能性まであるで
https://github.com/kawaii-justice/Project-Wannabe/tree/dev
0695名無しさん@ピンキー2025/04/28(月) 19:45:33.45ID:???
qwen3は0.6b、1.7b、4b、30b(A3b)らしいね
readmeにはロールプレイ用にも調整されてるらしいけどどんなものになるか
0696名無しさん@ピンキー2025/04/28(月) 20:30:59.18ID:???
今そんな小型モデルを複数出すってことは逆に性能に期待出来る予感
0697名無しさん@ピンキー2025/04/28(月) 20:41:14.50ID:???
サイズはまじで微妙だな
30bクラスで速度が遅いって感じたことないし
これでqwen2.5 72bより高性能ですって言われたら掌返すけど
0698名無しさん@ピンキー2025/04/28(月) 20:50:23.81ID:???
IoTやスマホ用に小さいモデルを作ってるだけだぞ
32B未満は具体的に使う当てがない限り追うだけ無駄
0699名無しさん@ピンキー2025/04/29(火) 00:13:10.98ID:???
うんうん、使い道は人それぞれやね
わいは新モデル出してくれるだけでうれしいよ
ありがとね、qwen
0701名無しさん@ピンキー2025/04/29(火) 01:12:59.98ID:???
Qwen3 30Bすごいな
アクティブパラメータ3Bかよ
CPUでも余裕で動くやん
0703名無しさん@ピンキー2025/04/29(火) 02:29:33.90ID:???
Qwen3もう公開されたんか?
Huggingface検索しても公式じゃないものと思われるものしか見つからんな
0704名無しさん@ピンキー2025/04/29(火) 04:25:59.47ID:???
x見てると一瞬公式で公開された後消されたっぽいな
qwenって中国企業だし公開された時間考えるとなんかおかしいから
中国の昼間時間に改めてちゃんと公開されるんじゃないかって気はするな
0706名無しさん@ピンキー2025/04/29(火) 07:23:07.27ID:???
公式に公開された
通常モデルが0.6 1.7 4 8 14 32
MoEが30(アクティブ3) 235(アクティブ22)
のようね

通常版32BとMoE版30Bのベンチ比較が気になるのと
MoE235Bの性能が普通に気になる
0707名無しさん@ピンキー2025/04/29(火) 07:36:19.89ID:???
やっぱりMoE版の性能気になるよな
ホントにちゃんと性能出るんだったらカスみたいなグラボでも動かせることになる
0709名無しさん@ピンキー2025/04/29(火) 08:47:23.37ID:v2PlSbZ+
流石にDenseの32Bには及ばんよ
MoEの30B(A3B)はDenseの14Bと同じ性能くらいじゃないかな(もう少し低いかも)
0710名無しさん@ピンキー2025/04/29(火) 09:08:32.85ID:???
30b3Aでgpt4o
4bでqwn2.5 72bに匹敵とか言い始めて流石に笑ってる
これがガチなら革命じゃん
0711名無しさん@ピンキー2025/04/29(火) 09:21:27.53ID:???
30B3Aはマジで良いな
最近の20コアくらいあるCPUなら普通に速度出るだろうし
メモリは普通にDDR5が64GBで量子化してないのがそのまま乗る
0714名無しさん@ピンキー2025/04/29(火) 09:40:40.65ID:???
235BはDeepSeek R1完璧に超えてるやん
しばらくの間変わらなかった最強のオープンモデルが更新されたな
しかもパラメータは小さくなってる
0715名無しさん@ピンキー2025/04/29(火) 09:42:26.39ID:???
日本語表現うまいなら普通に常用できるし使いたいぐらいのスコアだな
パフォーマンスよさげならR2より楽しみかも
0716名無しさん@ピンキー2025/04/29(火) 09:44:30.34ID:???
MoE使ったこと無いけど使う部分だけグラボに乗せるタイプで合ってるよな
調べた感じだとそう書いてあるんだが
0718名無しさん@ピンキー2025/04/29(火) 09:56:06.73ID:???
https://i.imgur.com/6X78ggf.png
LM STUDIO+Qwen3-30B-A3B-Q4_K_M.gguf
昔描いたR18同人誌のテキスト起こし(約6000tokens)貼り付けたら、「このような話題には対応できません」と蹴られた(フィルタにかかった模様)
「NSFW表現はぼかして、物語の進行と登場人物の関係性、心理描写に焦点を当てて分析してください。」と聞き直したら分析してくれた。4090(PL70%)で100tokens/sec出ており素晴らしい。
0721名無しさん@ピンキー2025/04/29(火) 10:04:50.02ID:???
こうなるとabliteratedとかの緩いモデルが欲しいな
いや脱獄文貼ればいいだけといえばそうだけど
0722名無しさん@ピンキー2025/04/29(火) 10:15:25.47ID:???
>>712
半年前にQwen2.5が出た時に高性能だと話題になったけど
その2.5の72bでもQwen3の32bにすら遠く及ばないんだな
少なくてもベンチマークスコア上では
0723名無しさん@ピンキー2025/04/29(火) 10:19:44.99ID:???
アプリのほうから色々試してみたけど235BはDeepSeekR1より日本語上手いね
0725名無しさん@ピンキー2025/04/29(火) 10:38:09.60ID:???
>>716
ふつうのLLMはモデル全体を処理しないと答えを出せないけど、LLMが内部的に分割されてて部分的処理で済むようにしたのがMoE
アクティブパラメータx稼働箇所の処理だけで済む
0726名無しさん@ピンキー2025/04/29(火) 11:07:27.45ID:???
Deepseek R1からまだ3か月半しかたってないって考えると恐ろしいなぁ
0727名無しさん@ピンキー2025/04/29(火) 11:22:24.47ID:K+axbIy/
KTransformers見てみたけどインストールめんどくせええやる気おきんわ
0730名無しさん@ピンキー2025/04/29(火) 12:11:25.55ID:???
30BのggufはQ6Q8以外バグってるらしい
量子化のバグならllama.cppの対応待ちかも
0731名無しさん@ピンキー2025/04/29(火) 14:27:43.66ID:YZWwc7U3
gemma3に比べるとqwen3は日本語がおかしい
バグのせい?
0732名無しさん@ピンキー2025/04/29(火) 14:37:29.68ID:???
thinkモデルは英語や中国語で考える関係上クリエイティブタスクだと駄目駄目という印象だな
0733名無しさん@ピンキー2025/04/29(火) 15:15:47.97ID:???
かと言って調べ物やコーディングとかの真面目用途で役に立ちそうなレベルなんかな?
0734名無しさん@ピンキー2025/04/29(火) 15:18:06.73ID:???
最近silly tavernの版権キャラカードを作るのにgensparkのスーパーエージェントにキャラ情報の収集から作成まで任せっきりなんだけどクレジットがマッハで尽きるのよね
ローカルでそういう事が出来そうなら助かるんやが
0735名無しさん@ピンキー2025/04/29(火) 16:38:00.23ID:???
4B,8B,14B,32B,30B-A3Bのq8試したけど、日本語性能低め
30B-A3Bよりも14Bの方が性能マシに感じた
bakenekoあたりを待つ
0736名無しさん@ピンキー2025/04/29(火) 16:48:52.41ID:???
英語中国語圏で評判良くて日本語だと微妙といういつもqwenやな
0737名無しさん@ピンキー2025/04/29(火) 16:51:46.00ID:???
日本語で追加学習して化ける可能性があるからその辺待ちかなって感じ
ポテンシャルの高さは感じる
0739名無しさん@ピンキー2025/04/29(火) 17:32:47.50ID:???
Qwen3-30B-A3B-Q4_K_M.gguf、ワイ環境やとそもそも日本語で生成してくれないことが多い
0744名無しさん@ピンキー2025/04/29(火) 20:17:16.34ID:???
Qwen3-30B-A3B-Q6_K.ggufが4090でなんとか動作
10token/sくらいだけど
NSFWフィルタが堅い……
0745名無しさん@ピンキー2025/04/29(火) 21:01:37.35ID:pYULu5xV
皆なんでMOEモデルにそんなにこだわるの?
Qwen3-30B-A3Bって、実質3Bだぞ。
メモリ喰いのゴミモデルじゃん。

普通にQwen3-32Bでよくね?
0746名無しさん@ピンキー2025/04/29(火) 21:17:32.08ID:ZgmUW75z
>>744
4060tiでも16tok/secくらい出てるからGPUオフロードいじったらもっと速くなるんちゃう?
0748名無しさん@ピンキー2025/04/29(火) 22:43:01.91ID:???
MOEはロールプレイに使うだけなら恩恵ない気はするな
RP訓練モデルのが確実に賢い

だったらMOEベースでキャラクターのアーキタイプ別エージェントを作ればいいのか?
0749名無しさん@ピンキー2025/04/29(火) 23:12:09.17ID:???
本当にRP特化のMOEなら例えば方言スペシャリストとかも内包してあらゆるキャラクター性を演じることが可能になったりするのかな
0750名無しさん@ピンキー2025/04/30(水) 00:14:14.87ID:???
性格と口調を組み合わせできたら破綻はしづらいモデルができそうだけどどうだろう
こればかりは海外モデルに期待できないから国内のデータを選別してトレーニングするしかないのよな
0751名無しさん@ピンキー2025/04/30(水) 00:54:51.35ID:???
>>740
ありがとう
ワイがDLした人とは違うんで
そちらも試してみるわ
LoRAでグラボ回してるからあと7時間はなんもでけん・・・
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況