なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/03/23(日) 14:58:05.71ID:bsaTSAD8
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/
0718名無しさん@ピンキー2025/04/29(火) 09:56:06.73ID:???
https://i.imgur.com/6X78ggf.png
LM STUDIO+Qwen3-30B-A3B-Q4_K_M.gguf
昔描いたR18同人誌のテキスト起こし(約6000tokens)貼り付けたら、「このような話題には対応できません」と蹴られた(フィルタにかかった模様)
「NSFW表現はぼかして、物語の進行と登場人物の関係性、心理描写に焦点を当てて分析してください。」と聞き直したら分析してくれた。4090(PL70%)で100tokens/sec出ており素晴らしい。
0721名無しさん@ピンキー2025/04/29(火) 10:04:50.02ID:???
こうなるとabliteratedとかの緩いモデルが欲しいな
いや脱獄文貼ればいいだけといえばそうだけど
0722名無しさん@ピンキー2025/04/29(火) 10:15:25.47ID:???
>>712
半年前にQwen2.5が出た時に高性能だと話題になったけど
その2.5の72bでもQwen3の32bにすら遠く及ばないんだな
少なくてもベンチマークスコア上では
0723名無しさん@ピンキー2025/04/29(火) 10:19:44.99ID:???
アプリのほうから色々試してみたけど235BはDeepSeekR1より日本語上手いね
0725名無しさん@ピンキー2025/04/29(火) 10:38:09.60ID:???
>>716
ふつうのLLMはモデル全体を処理しないと答えを出せないけど、LLMが内部的に分割されてて部分的処理で済むようにしたのがMoE
アクティブパラメータx稼働箇所の処理だけで済む
0726名無しさん@ピンキー2025/04/29(火) 11:07:27.45ID:???
Deepseek R1からまだ3か月半しかたってないって考えると恐ろしいなぁ
0727名無しさん@ピンキー2025/04/29(火) 11:22:24.47ID:K+axbIy/
KTransformers見てみたけどインストールめんどくせええやる気おきんわ
0730名無しさん@ピンキー2025/04/29(火) 12:11:25.55ID:???
30BのggufはQ6Q8以外バグってるらしい
量子化のバグならllama.cppの対応待ちかも
0731名無しさん@ピンキー2025/04/29(火) 14:27:43.66ID:YZWwc7U3
gemma3に比べるとqwen3は日本語がおかしい
バグのせい?
0732名無しさん@ピンキー2025/04/29(火) 14:37:29.68ID:???
thinkモデルは英語や中国語で考える関係上クリエイティブタスクだと駄目駄目という印象だな
0733名無しさん@ピンキー2025/04/29(火) 15:15:47.97ID:???
かと言って調べ物やコーディングとかの真面目用途で役に立ちそうなレベルなんかな?
0734名無しさん@ピンキー2025/04/29(火) 15:18:06.73ID:???
最近silly tavernの版権キャラカードを作るのにgensparkのスーパーエージェントにキャラ情報の収集から作成まで任せっきりなんだけどクレジットがマッハで尽きるのよね
ローカルでそういう事が出来そうなら助かるんやが
0735名無しさん@ピンキー2025/04/29(火) 16:38:00.23ID:???
4B,8B,14B,32B,30B-A3Bのq8試したけど、日本語性能低め
30B-A3Bよりも14Bの方が性能マシに感じた
bakenekoあたりを待つ
0736名無しさん@ピンキー2025/04/29(火) 16:48:52.41ID:???
英語中国語圏で評判良くて日本語だと微妙といういつもqwenやな
0737名無しさん@ピンキー2025/04/29(火) 16:51:46.00ID:???
日本語で追加学習して化ける可能性があるからその辺待ちかなって感じ
ポテンシャルの高さは感じる
0739名無しさん@ピンキー2025/04/29(火) 17:32:47.50ID:???
Qwen3-30B-A3B-Q4_K_M.gguf、ワイ環境やとそもそも日本語で生成してくれないことが多い
0744名無しさん@ピンキー2025/04/29(火) 20:17:16.34ID:???
Qwen3-30B-A3B-Q6_K.ggufが4090でなんとか動作
10token/sくらいだけど
NSFWフィルタが堅い……
0745名無しさん@ピンキー2025/04/29(火) 21:01:37.35ID:pYULu5xV
皆なんでMOEモデルにそんなにこだわるの?
Qwen3-30B-A3Bって、実質3Bだぞ。
メモリ喰いのゴミモデルじゃん。

普通にQwen3-32Bでよくね?
0746名無しさん@ピンキー2025/04/29(火) 21:17:32.08ID:ZgmUW75z
>>744
4060tiでも16tok/secくらい出てるからGPUオフロードいじったらもっと速くなるんちゃう?
0748名無しさん@ピンキー2025/04/29(火) 22:43:01.91ID:???
MOEはロールプレイに使うだけなら恩恵ない気はするな
RP訓練モデルのが確実に賢い

だったらMOEベースでキャラクターのアーキタイプ別エージェントを作ればいいのか?
0749名無しさん@ピンキー2025/04/29(火) 23:12:09.17ID:???
本当にRP特化のMOEなら例えば方言スペシャリストとかも内包してあらゆるキャラクター性を演じることが可能になったりするのかな
0750名無しさん@ピンキー2025/04/30(水) 00:14:14.87ID:???
性格と口調を組み合わせできたら破綻はしづらいモデルができそうだけどどうだろう
こればかりは海外モデルに期待できないから国内のデータを選別してトレーニングするしかないのよな
0751名無しさん@ピンキー2025/04/30(水) 00:54:51.35ID:???
>>740
ありがとう
ワイがDLした人とは違うんで
そちらも試してみるわ
LoRAでグラボ回してるからあと7時間はなんもでけん・・・
0756名無しさん@ピンキー2025/04/30(水) 08:40:51.76ID:???
Ryzen 7950XでQwen3-30B-A3B Q6_Kが15token/sの速度出せる
GPUなんていらんかったんや
0757名無しさん@ピンキー2025/04/30(水) 08:44:01.45ID:nEDuNV1S
そういやLLM部ってwikiないんやな
あると情報追いやすくて便利やけどお客さん呼び込むとダルいからどうしたもんかな
とりあえず非公開で個人用に作ってるけど一人でまとめるのも限界きてる感じあるわ(PListsとAliChatについてしかまとめとらんが)
0758名無しさん@ピンキー2025/04/30(水) 08:46:44.78ID:???
7950Xにメモリ32GBの環境でここまでのAIを動かせるようになってきたか
0759名無しさん@ピンキー2025/04/30(水) 09:33:18.71ID:???
父さん製は日本製弱いというか中国語メインだと日本語への変換が弱くなるんやろな
0760名無しさん@ピンキー2025/04/30(水) 09:44:39.11ID:/hm60NUL
30B-A3B,思考が英語なのさえ気にしなければ出力の日本語も安定している気がする。思考言語は変更できないんだよね?
0761名無しさん@ピンキー2025/04/30(水) 10:15:51.44ID:it+861Mv
>>760
Chat Templateに合わせてprefillすれば無理やり日本語で考えさせるのもできる気はするが、学習してないだろうし性能的に意味はないと思う
0762名無しさん@ピンキー2025/04/30(水) 10:20:40.52ID:Ph5Noku8
>>760
出来たとして、日本語で思考させたら性能落ちそうやな
0763名無しさん@ピンキー2025/04/30(水) 11:39:59.29ID:???
やっぱり文章書かせるときは繰り返しペナルティをちょっと上げたほうが良さそうだな
0765名無しさん@ピンキー2025/04/30(水) 14:29:24.22ID:???
連休明けにいよいよ5090が届くんやがLLMとTTSは50XXシリーズでも特に問題は出てないの?
画像生成はpytorchの対応待ちだとか聞いたけど
0766名無しさん@ピンキー2025/04/30(水) 16:09:23.18ID:???
Blackwell対応はCUDA12.8で動くかどうかやな
pytorchもCUDA12.8でビルドされたやつを使えば動く
pytorchの最新Ver.2.7.0は夜間ビルドや自前ビルドでなくても公式で対応しているっぽい
LLMのバックエンドのllama.cppは公式バイナリがCUDA12.4までだから自前ビルドが要ると思われる
0769名無しさん@ピンキー2025/04/30(水) 19:47:12.04ID:???
>>763
すごい初心者質問ですまんやがそういう指定て
どういう場所で指示しとるん?
温度みたいにそういう項目ってあるんやろか
それとも指示で「繰り返しやめて」て書いとるのかしら?
0771名無しさん@ピンキー2025/04/30(水) 20:10:52.03ID:???
日本語追加学習版欲しいなぁ思ってたけどたしかにrinnaさんbakeneko出してくれそうやな、めっちゃたのしみや
0772名無しさん@ピンキー2025/04/30(水) 21:12:57.86ID:???
>>770
ありがとやで!
wannabeにもあったわ

>計算手法として乗算型と減算型の二種類を指定できるようにしており
あるトークンがすでに生成された場合、そのトークンのログ確率をペナルティ値で割る(乗算)か
ペナルティ値を引く(減算)というオペレーションを実装しています

……理屈はよく解らんが高くするとくり返し防止になるんやろかな
0773名無しさん@ピンキー2025/05/01(木) 00:09:56.82ID:???
EasyNovelAssistantしか触ったことないんだけど、Qwen使えるんかな?
デフォルトのモデル以外は何をつかえるのかよくわからんのだけども
0774名無しさん@ピンキー2025/05/01(木) 00:13:58.17ID:???
試してないけど中身KoboldCPPだから動くんじゃない?
ただバージョン古いから問題出るかもね
0775名無しさん@ピンキー2025/05/01(木) 00:43:28.13ID:???
あとソース見たらreasoningのthinkタグの扱いとか何もなかったから出力が思考垂れ流しになりそう
0776名無しさん@ピンキー2025/05/01(木) 03:25:13.23ID:???
>>694
対応まことにサンガツやで
こんな速く実装するとは思わなんだ
しかも音でなく難しそうなDynamic Promptのほうを全項目とか……

まだ「アイデア出し」の機能を使っとらんから
そっちでうまいこと使えんもんか試してみるで!

しかしLoRA制作とLLM同時にやるとVRAM90%、LLMでCPU70%、メモリ80%もってかれるンゴ
これほどハードを活かしたこと人生初やで
0777名無しさん@ピンキー2025/05/01(木) 14:39:30.89ID:???
base(事前学習)モデルを色々と試してみたんだけど
NSFWだと圧倒的にmistralが強いね エロ小説前半を与えて続きを指示なしで書かせる完全主観のベンチマークで
mistral nemo base >= Mistral small 3 base >>(越えられない壁)>>qwen3 14b base > gemma 3 27b pt
といった感じだった
mistral3の方が破綻の少なく知性の欠片を感じる文章だけど、nemoはとにかく勢いがあってエロ小説ならこちらの方がポテンシャルあるかもしれない
総評としては
どのモデルでも淫語は思ったより出るけどmistral以外は恥ずかしがってる感じで特に地の文が言葉選びが控えめ前半で出てきた言葉すら使ってくれなかったしたりする
その上致命的に整合性が合わなくてなる傾向がある(例:一人称がめちゃくちゃになったり挿入側と非挿入側が入れ替わったり)
nemoは12bかつ10か月前のモデルなのに未だに最強格でオーパーツ感ある 
ちなみqwen3 32bはベースモデルが出てないので評価出来ないけどinstructモデルで試したところ14bと同じ傾向なので期待薄
0778名無しさん@ピンキー2025/05/01(木) 14:42:34.94ID:???
koboldcppをずっと使ってて今更ながら最初の画面の設定項目の意味知らんのばっかりやなと思いAI先生に色々教えてもらったわ
俺せっかく4090使ってるくせに性能を活かす項目にチェック入れてなくて草
0779名無しさん@ピンキー2025/05/01(木) 14:48:44.08ID:MScJM89w
>>777
オーパーツというかシンプルにQwenやGemma、LlamaあたりはNSFW系データをフィルタリングしててMistralはそうじゃないっていう違いじゃないかな
0780名無しさん@ピンキー2025/05/01(木) 15:11:52.63ID:???
触り始めの人向けにせっかくやからkoboldcppの設定でこれはと思った部分を共有するで
想定環境はRTX30XX以上のグラボとSSDやで

まずcuBLASを選択(nvidiaグラボに最適)

Use MMAP (VRAM節約)
Use QuantMatMul (mmq) (高速化)
Use FlashAttention (高速化&VRAM節約)
Use ContextShift (文脈保持力UP)
これらにチェック入れて有効化や

Use MLOCK (高速化)
これはVRAMが余る状況の時だけチェックや
0781名無しさん@ピンキー2025/05/01(木) 15:15:42.31ID:???
>>777
Mistralは3.1あるけど試してる?
3より速度上がったりコンテキスト長増えてる
出力の違いはちゃんと覚えてないけど
破綻減って規制緩くなってた気がする
0782名無しさん@ピンキー2025/05/01(木) 15:41:51.91ID:???
mistral largeの後継はまだかー
あれの精度に慣れると他を使う気になれん
0783名無しさん@ピンキー2025/05/01(木) 17:25:19.26ID:gBBVndZv
mistralって一生アジア言語ハブってる印象だったけど最近のはちゃんと多言語対応してんだっけ
0784名無しさん@ピンキー2025/05/01(木) 17:38:22.18ID:???
>>781
3.1は最適化ライブラリが未対応で学習できないから無視してたけどかなり良かった mistral 3.1 base > nemoやね
mistral nemoと3の良いところ取りみたい挙動 文章がまともで勢いもある これは良いモデル 間違いない
redditだと3.1はSTEM特化と聞いてたけど百聞は一見にしかずとはこのことか 
学習できないか検討してみる
0786名無しさん@ピンキー2025/05/01(木) 18:40:41.99ID:???
欧州人だからなアジアなんかどうでもいいと思ってるんだろ
0787名無しさん@ピンキー2025/05/01(木) 19:30:47.90ID:???
nemoからしか知らないけど日本語ちゃんと話せるぞ
3.1は24Bの割にVRAM使わないからメインで使ってるわ
0790名無しさん@ピンキー2025/05/01(木) 23:46:11.18ID:???
Phi-4-mini-reasoningのコンテキストウィンドウが128kらしいと聞いて、長文読解させられるのかなとワクワクしながら試してみたんだけど
長文以前に一言の挨拶もまともにできない控えめに言ってゴミカスの性能で、何か間違ってんのかな俺
0791名無しさん@ピンキー2025/05/02(金) 00:57:52.61ID:???
Phiはベンチマーク番長とスレ評価が固まってるから試したこともないな
0793名無しさん@ピンキー2025/05/02(金) 01:40:15.71ID:hOcc+2CW
>>756
LM studioだとQwen3-30B-A3B-abliterated-Q6_K-GGUF
ってのしか無かったけどこれとは別なの?
0794名無しさん@ピンキー2025/05/02(金) 03:59:47.94ID:???
>>757
今更だけど一応あるよ
忘れられて久しいけど

29 名無しさん@ピンキー (ワッチョイ 93c0-Ub2H) sage 2024/05/03(金) 14:00:38.83 ID:???0
一応放置されているLLM部のWIKI:https://w.atwiki.jp/localmlhub
よくよく調べてみたらatwikiってえっちなコンテンツあかんらしい
NVA部とおそろいでseesaa wikiで作ったほうが編集もしやすくていいかもしれないな?
0795名無しさん@ピンキー2025/05/02(金) 04:25:37.65ID:???
個人がやってるwikiだけど日本語ローカルLLM関連のメモってwikiがだいたいスレの内容と同じで更新続いてるからなあ
0796名無しさん@ピンキー2025/05/02(金) 04:28:13.07ID:nnyzTfvM
>>765
戦いはVRAMの数だよ、兄貴
最新のGPUよりVRAM沢山搭載してるGPU複数枚の方がコスパがいい
マルチGPUに対応してないAIは一枚の性能に頼るしかないけど
0797名無しさん@ピンキー2025/05/02(金) 10:27:39.55ID:???
前にLLMと組み合わせたデスクトップアクセサリ秘書つくりたいと言っとった者やけど
Chill With You : Lo-Fi Story
ていう今度出るsteamアプリが近いかもしれん
なんか別ウィンドウに常時表示させておきたくなるンゴねこういうの
0798名無しさん@ピンキー2025/05/02(金) 10:58:43.16ID:???
日尼でGMKtecのX2 AI(Ryzen AI Max+ 395, 128GB)予約した
メモリの帯域幅的に現環境のP40*3よりたぶん少し劣るぐらいの速度だけろうけどP40は消費電力がね...
0800名無しさん@ピンキー2025/05/02(金) 11:35:52.63ID:???
Ryzen 9950XとRTX4090でKTransformersを使ってQwen3-235B-A22Bを動かしてみた
50token/sでるからすごい
DeepSeek R2が来るまでもうずっとこれでいいな
0801名無しさん@ピンキー2025/05/02(金) 11:44:51.44ID:???
>>800
はええな
導入したいけどどうすればいいか分からん
lm studioで動くんやろか
0802名無しさん@ピンキー2025/05/02(金) 11:49:15.93ID:B8zW0mtE
さすがにGMKtecのX2 AIは95000円クーポンと3割引クーポンは排他か
0803名無しさん@ピンキー2025/05/02(金) 13:24:11.71ID:???
>>798
vramに回せるの最大96Gやっけか
command-aが動くのええなあ
レポ楽しみにしとるやで

5090買う予算はないから今後AIまわりはRyzenAIになりそうや
メデューサ楽しみやで
0804名無しさん@ピンキー2025/05/02(金) 14:08:26.10ID:???
Qwen3-235B-A22Bは128GBのメインメモリと24GBのVRAMがあれば快適に動くね
0808名無しさん@ピンキー2025/05/02(金) 14:56:23.03ID:???
>>777
あれからもう少し使ってみたがやっぱ小説の続きを書かせるAIのべりすと的な使い方ならベースモデルの方が優秀やな
nemoや3.1のbaseははっきり言ってNSFW目的のFTモデルより遥かにR18関連の語彙力高くてエロい
そっち系の学習を考えている人はmistralがおすすめやで ベースモデルの時点で知識があるから軽くチューニングするだけで目的達成できるはずや
0811名無しさん@ピンキー2025/05/02(金) 18:20:09.89ID:???
KTransformers知名度低いから記事はかなり少ない
YouTubeで検索したらいくつか見つけたけど
0812名無しさん@ピンキー2025/05/02(金) 18:50:23.19ID:???
ktransformers、0.2から0.3でなんかいろいろ変わってる?
公式のドキュメント通りにインストールしてもなんかうまくいかんな…
0815名無しさん@ピンキー2025/05/02(金) 23:47:32.49ID:???
koboldの最大出力が512tから1024tに正式対応してるね。
これで放置作成がやりやすくなった
0816名無しさん@ピンキー2025/05/03(土) 12:20:30.56ID:DbQKJoUC
>>629
temp0.95/topK40でいい感じに動いたで
システムプロンプトも入力できるようになると助かる。応援してるで。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況