なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★6 https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ IoTやスマホ用に小さいモデルを作ってるだけだぞ 32B未満は具体的に使う当てがない限り追うだけ無駄 うんうん、使い道は人それぞれやね わいは新モデル出してくれるだけでうれしいよ ありがとね、qwen Qwen3 30Bすごいな アクティブパラメータ3Bかよ CPUでも余裕で動くやん Qwen 3 235Bもあるやん アクティブパラメータは22B Qwen3もう公開されたんか? Huggingface検索しても公式じゃないものと思われるものしか見つからんな x見てると一瞬公式で公開された後消されたっぽいな qwenって中国企業だし公開された時間考えるとなんかおかしいから 中国の昼間時間に改めてちゃんと公開されるんじゃないかって気はするな 公式に公開された 通常モデルが0.6 1.7 4 8 14 32 MoEが30(アクティブ3) 235(アクティブ22) のようね 通常版32BとMoE版30Bのベンチ比較が気になるのと MoE235Bの性能が普通に気になる やっぱりMoE版の性能気になるよな ホントにちゃんと性能出るんだったらカスみたいなグラボでも動かせることになる 流石にDenseの32Bには及ばんよ MoEの30B(A3B)はDenseの14Bと同じ性能くらいじゃないかな(もう少し低いかも) 30b3Aでgpt4o 4bでqwn2.5 72bに匹敵とか言い始めて流石に笑ってる これがガチなら革命じゃん 30B3Aはマジで良いな 最近の20コアくらいあるCPUなら普通に速度出るだろうし メモリは普通にDDR5が64GBで量子化してないのがそのまま乗る 235BはDeepSeek R1完璧に超えてるやん しばらくの間変わらなかった最強のオープンモデルが更新されたな しかもパラメータは小さくなってる 日本語表現うまいなら普通に常用できるし使いたいぐらいのスコアだな パフォーマンスよさげならR2より楽しみかも MoE使ったこと無いけど使う部分だけグラボに乗せるタイプで合ってるよな 調べた感じだとそう書いてあるんだが >>716 KTransformersならそれができる llama.cppとかlmstudioだと無理よ https://i.imgur.com/6X78ggf.png LM STUDIO+Qwen3-30B-A3B-Q4_K_M.gguf 昔描いたR18同人誌のテキスト起こし(約6000tokens)貼り付けたら、「このような話題には対応できません」と蹴られた(フィルタにかかった模様) 「NSFW表現はぼかして、物語の進行と登場人物の関係性、心理描写に焦点を当てて分析してください。」と聞き直したら分析してくれた。4090(PL70%)で100tokens/sec出ており素晴らしい。 100t/sはやばいな 今まで10t/sで喜んでたのに こうなるとabliteratedとかの緩いモデルが欲しいな いや脱獄文貼ればいいだけといえばそうだけど >>712 半年前にQwen2.5が出た時に高性能だと話題になったけど その2.5の72bでもQwen3の32bにすら遠く及ばないんだな 少なくてもベンチマークスコア上では アプリのほうから色々試してみたけど235BはDeepSeekR1より日本語上手いね >>716 ふつうのLLMはモデル全体を処理しないと答えを出せないけど、LLMが内部的に分割されてて部分的処理で済むようにしたのがMoE アクティブパラメータx稼働箇所の処理だけで済む Deepseek R1からまだ3か月半しかたってないって考えると恐ろしいなぁ KTransformers見てみたけどインストールめんどくせええやる気おきんわ 235Bの日本語会話能力デモで試したが、かなりいいな。 30BのggufはQ6Q8以外バグってるらしい 量子化のバグならllama.cppの対応待ちかも gemma3に比べるとqwen3は日本語がおかしい バグのせい? thinkモデルは英語や中国語で考える関係上クリエイティブタスクだと駄目駄目という印象だな かと言って調べ物やコーディングとかの真面目用途で役に立ちそうなレベルなんかな? 最近silly tavernの版権キャラカードを作るのにgensparkのスーパーエージェントにキャラ情報の収集から作成まで任せっきりなんだけどクレジットがマッハで尽きるのよね ローカルでそういう事が出来そうなら助かるんやが 4B,8B,14B,32B,30B-A3Bのq8試したけど、日本語性能低め 30B-A3Bよりも14Bの方が性能マシに感じた bakenekoあたりを待つ 英語中国語圏で評判良くて日本語だと微妙といういつもqwenやな 日本語で追加学習して化ける可能性があるからその辺待ちかなって感じ ポテンシャルの高さは感じる Qwen3-30B-A3B-Q4_K_M.gguf、ワイ環境やとそもそも日本語で生成してくれないことが多い >>739 bartowski氏のq8使ってるけど、think以外は100%日本語で答えてくれてるよ MOEをCPUとRAMで動かすのってわりと実用的なのん? >>733 真面目用途はモデルサイズも加味してGemma-3で十分な感じもする Qwen3-30B-A3B-Q6_K.ggufが4090でなんとか動作 10token/sくらいだけど NSFWフィルタが堅い…… 皆なんでMOEモデルにそんなにこだわるの? Qwen3-30B-A3Bって、実質3Bだぞ。 メモリ喰いのゴミモデルじゃん。 普通にQwen3-32Bでよくね? >>744 4060tiでも16tok/secくらい出てるからGPUオフロードいじったらもっと速くなるんちゃう? MOEはロールプレイに使うだけなら恩恵ない気はするな RP訓練モデルのが確実に賢い だったらMOEベースでキャラクターのアーキタイプ別エージェントを作ればいいのか? 本当にRP特化のMOEなら例えば方言スペシャリストとかも内包してあらゆるキャラクター性を演じることが可能になったりするのかな 性格と口調を組み合わせできたら破綻はしづらいモデルができそうだけどどうだろう こればかりは海外モデルに期待できないから国内のデータを選別してトレーニングするしかないのよな >>740 ありがとう ワイがDLした人とは違うんで そちらも試してみるわ LoRAでグラボ回してるからあと7時間はなんもでけん・・・ >>745 実質3BってことはCPUで動かせるやん Qwen3文章書かせるならthinkモードオフにしたほうが良いな >>753 デモで試したがオフにすると精度下がったわ Ryzen 7950XでQwen3-30B-A3B Q6_Kが15token/sの速度出せる GPUなんていらんかったんや そういやLLM部ってwikiないんやな あると情報追いやすくて便利やけどお客さん呼び込むとダルいからどうしたもんかな とりあえず非公開で個人用に作ってるけど一人でまとめるのも限界きてる感じあるわ(PListsとAliChatについてしかまとめとらんが) 7950Xにメモリ32GBの環境でここまでのAIを動かせるようになってきたか 父さん製は日本製弱いというか中国語メインだと日本語への変換が弱くなるんやろな 30B-A3B,思考が英語なのさえ気にしなければ出力の日本語も安定している気がする。思考言語は変更できないんだよね? >>760 Chat Templateに合わせてprefillすれば無理やり日本語で考えさせるのもできる気はするが、学習してないだろうし性能的に意味はないと思う >>760 出来たとして、日本語で思考させたら性能落ちそうやな やっぱり文章書かせるときは繰り返しペナルティをちょっと上げたほうが良さそうだな 連休明けにいよいよ5090が届くんやがLLMとTTSは50XXシリーズでも特に問題は出てないの? 画像生成はpytorchの対応待ちだとか聞いたけど Blackwell対応はCUDA12.8で動くかどうかやな pytorchもCUDA12.8でビルドされたやつを使えば動く pytorchの最新Ver.2.7.0は夜間ビルドや自前ビルドでなくても公式で対応しているっぽい LLMのバックエンドのllama.cppは公式バイナリがCUDA12.4までだから自前ビルドが要ると思われる >>763 すごい初心者質問ですまんやがそういう指定て どういう場所で指示しとるん? 温度みたいにそういう項目ってあるんやろか それとも指示で「繰り返しやめて」て書いとるのかしら? >>769 使ってるソフトによるけど Repetition Penaltyの項目ないか? 日本語追加学習版欲しいなぁ思ってたけどたしかにrinnaさんbakeneko出してくれそうやな、めっちゃたのしみや >>770 ありがとやで! wannabeにもあったわ >計算手法として乗算型と減算型の二種類を指定できるようにしており あるトークンがすでに生成された場合、そのトークンのログ確率をペナルティ値で割る(乗算)か ペナルティ値を引く(減算)というオペレーションを実装しています ……理屈はよく解らんが高くするとくり返し防止になるんやろかな EasyNovelAssistantしか触ったことないんだけど、Qwen使えるんかな? デフォルトのモデル以外は何をつかえるのかよくわからんのだけども 試してないけど中身KoboldCPPだから動くんじゃない? ただバージョン古いから問題出るかもね あとソース見たらreasoningのthinkタグの扱いとか何もなかったから出力が思考垂れ流しになりそう >>694 対応まことにサンガツやで こんな速く実装するとは思わなんだ しかも音でなく難しそうなDynamic Promptのほうを全項目とか…… まだ「アイデア出し」の機能を使っとらんから そっちでうまいこと使えんもんか試してみるで! しかしLoRA制作とLLM同時にやるとVRAM90%、LLMでCPU70%、メモリ80%もってかれるンゴ これほどハードを活かしたこと人生初やで base(事前学習)モデルを色々と試してみたんだけど NSFWだと圧倒的にmistralが強いね エロ小説前半を与えて続きを指示なしで書かせる完全主観のベンチマークで mistral nemo base >= Mistral small 3 base >>(越えられない壁)>>qwen3 14b base > gemma 3 27b pt といった感じだった mistral3の方が破綻の少なく知性の欠片を感じる文章だけど、nemoはとにかく勢いがあってエロ小説ならこちらの方がポテンシャルあるかもしれない 総評としては どのモデルでも淫語は思ったより出るけどmistral以外は恥ずかしがってる感じで特に地の文が言葉選びが控えめ前半で出てきた言葉すら使ってくれなかったしたりする その上致命的に整合性が合わなくてなる傾向がある(例:一人称がめちゃくちゃになったり挿入側と非挿入側が入れ替わったり) nemoは12bかつ10か月前のモデルなのに未だに最強格でオーパーツ感ある ちなみqwen3 32bはベースモデルが出てないので評価出来ないけどinstructモデルで試したところ14bと同じ傾向なので期待薄 koboldcppをずっと使ってて今更ながら最初の画面の設定項目の意味知らんのばっかりやなと思いAI先生に色々教えてもらったわ 俺せっかく4090使ってるくせに性能を活かす項目にチェック入れてなくて草 >>777 オーパーツというかシンプルにQwenやGemma、LlamaあたりはNSFW系データをフィルタリングしててMistralはそうじゃないっていう違いじゃないかな 触り始めの人向けにせっかくやからkoboldcppの設定でこれはと思った部分を共有するで 想定環境はRTX30XX以上のグラボとSSDやで まずcuBLASを選択(nvidiaグラボに最適) Use MMAP (VRAM節約) Use QuantMatMul (mmq) (高速化) Use FlashAttention (高速化&VRAM節約) Use ContextShift (文脈保持力UP) これらにチェック入れて有効化や Use MLOCK (高速化) これはVRAMが余る状況の時だけチェックや >>777 Mistralは3.1あるけど試してる? 3より速度上がったりコンテキスト長増えてる 出力の違いはちゃんと覚えてないけど 破綻減って規制緩くなってた気がする mistral largeの後継はまだかー あれの精度に慣れると他を使う気になれん mistralって一生アジア言語ハブってる印象だったけど最近のはちゃんと多言語対応してんだっけ >>781 3.1は最適化ライブラリが未対応で学習できないから無視してたけどかなり良かった mistral 3.1 base > nemoやね mistral nemoと3の良いところ取りみたい挙動 文章がまともで勢いもある これは良いモデル 間違いない redditだと3.1はSTEM特化と聞いてたけど百聞は一見にしかずとはこのことか 学習できないか検討してみる 欧州人だからなアジアなんかどうでもいいと思ってるんだろ nemoからしか知らないけど日本語ちゃんと話せるぞ 3.1は24Bの割にVRAM使わないからメインで使ってるわ Mistralの日本語ってDeepSeekより微妙じゃないか Phi-4-mini-reasoningのコンテキストウィンドウが128kらしいと聞いて、長文読解させられるのかなとワクワクしながら試してみたんだけど 長文以前に一言の挨拶もまともにできない控えめに言ってゴミカスの性能で、何か間違ってんのかな俺 Phiはベンチマーク番長とスレ評価が固まってるから試したこともないな mistral small 3.1は推奨tempが0.15の罠あるんだよな >>756 LM studioだとQwen3-30B-A3B-abliterated-Q6_K-GGUF ってのしか無かったけどこれとは別なの? >>757 今更だけど一応あるよ 忘れられて久しいけど 29 名無しさん@ピンキー (ワッチョイ 93c0-Ub2H) sage 2024/05/03(金) 14:00:38.83 ID:???0 一応放置されているLLM部のWIKI:https://w.atwiki.jp/localmlhub よくよく調べてみたらatwikiってえっちなコンテンツあかんらしい NVA部とおそろいでseesaa wikiで作ったほうが編集もしやすくていいかもしれないな? 個人がやってるwikiだけど日本語ローカルLLM関連のメモってwikiがだいたいスレの内容と同じで更新続いてるからなあ >>765 戦いはVRAMの数だよ、兄貴 最新のGPUよりVRAM沢山搭載してるGPU複数枚の方がコスパがいい マルチGPUに対応してないAIは一枚の性能に頼るしかないけど 前にLLMと組み合わせたデスクトップアクセサリ秘書つくりたいと言っとった者やけど Chill With You : Lo-Fi Story ていう今度出るsteamアプリが近いかもしれん なんか別ウィンドウに常時表示させておきたくなるンゴねこういうの ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる