なんJLLM部 避難所 ★10
>>111
正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も >>111
エロ小説書かせたら即申し訳喰らうけど
ある日 とかに修正すればノリノリで書き始める
規制きついモデルだと書き始めても内容が健全よりになってくけど
これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな
ただセリフの整合性が7bモデル並みなんだよなぁ >>120
確かだいたい15tok/s前後だった気がする
ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで
llama-server \
--model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \
--temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU"
>>121
試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ
けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ!!」ってのがあったけどnextはほぼ無い
エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう >>122
120ですありがとう
流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな
でもオフロードしててもそんくらい出るなら確かに魅力的 エロいけるけど率先して使う意味も無さ気な性能なのか ただ可能性は感じるので今後ファインチューニングモデルが出ると化ける可能性は大いにあると思う。 ministral3 8Bが来るらしいね
baseモデルもあって微調整しやすそうだしnemoの後継になることを期待してる >>126
こういうのでいいんだよこういうので
って感じになれるポテンシャルを感じる
追加学習が簡単そうだし >>128
まじかlargeを公開するのは予想外 じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな
アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう >>128
マ?
middleすっとばしていきなりlarge公開?? >>131
extのデモ試したがいい感じやな
specialeってのは何が違うんだろ?こっちはデモないが v3.2かぁ
無印がgpt5と同等、specialeがgemini3proと同等って言ってるけど
モデルの規模は同じなんやね
ファインチューンやっただけっぽいな 色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから
その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ
あとは、もっとちっちゃいモデルで実現してほしいけども
そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから
来年の6月には200b以下で実現してるはずやしな deepmindが発表したnested learningでまた改善するよ mistral large 3は675Bのアクティブ37B前後ってgrok君が言ってる🥺 Ministralは14Bもあるらしいが俺ら的にはこっちが本命かもな これがministral 3じゃね?って言われてるステルスモデルがあるのね
>>129も言ってるやつ
でもこれだと思いっきり真面目用途なのかなあ🥹
OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。
- 汎用マルチモーダルモデル(テキスト/画像入力、テキスト出力)
- 拡張コンテキストタスクにおける一貫性を維持
- タスク間で安定した予測可能な動作
- 競争力のあるコーディングパフォーマンス
本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。 初めて見たときsmallで24bってちょいデカいなと思ったし
largeなんて来たらそんなもんか 外国産でも日本の領土に埋めて掘り起こせば国産とします PLaMo翻訳の中身はちゃんとフルスクラッチだから許してやってくれ 26年度は無償での提供って...
pretrainどんだけかかると思ってんだよ >>138
プンルーやChutesのモデルに仲間入りしてAPIを安く使えるから
高性能なら朗報やぞ >>147
mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず
正直largeを公開した理由はよく分からん mediumを公開してラージは隠しておけば良いのに
もちろん公開してくれるのはうれしいけど動かすの大変すぎ またmac ultra 512GBの株が上がるな 14Bはsmall 3.2と置き換えられるってモデルカードに書いてあるけどホントかなあ largeまでapache 2.0とかやるやん いつもの非商用ライセンスだと思ってた
日本語能力高そうだしありがてえ higgingfaceでVLモデル良いの無いか漁ってるんだけど
生のsafetensorに比べてgguf(Q8)は短文ばっかり出力されるんだけどそういうもん?
○○文字以上とか指示に含めてもまるで守られない
ちなみに今試してるのはQwen3のhuihui
Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視 >>153
ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい
パラメーターミスってるが一番あり得ると思う
あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい 「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる
数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる
まあ文字数なんてカウントしてないんだから忠実には守らないんだけど ライブラリによってデフォルトのパラメータちゃうかったりするからパラメータ見直すんが早いやろな あ、でも賢いLLMなら日本語も数えられるみたいだね
GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね
やっぱそれ以上は性能落ちちゃうのか >>154
うーんそっか
とりあえずパラメーターをsafetensor版とgguf版同一にしても
gguf版が明らかに劣化してるんだよね
gguf版はポーズ指示とかに留まりストーリーがまるでない感じ
コンテキストと生成長はデフォルトより大きくとってるし
他のパラメータも調整したけど差は埋まらないわ
AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった
用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる
このスレでVL使えるモデルでおすすめはあるかい?
もちろんエロに使えるヤツで(真顔) openrouterで触ってるけどエ口小説の続きを書かせると悪くないな 拒否もされない
VL用途だと駄目だわ 拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない DeepseekV3.2、結構エロいけるな
kimi,glmとエロ系行けるデカいモデルが増えて嬉しい >>162
ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた
例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい
これは使えるわ Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな
文脈読んで長く書こう短く書こうってしてるんだろうけど極端 >>159
エロ画像に特化したVLMがないからなあ
JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる
動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ
半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。
LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、
その代わりに、クソ長いプロンプトは受け付けてくれるから。
自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK
頭の悪いLLMほど、細かいプロンプトが必要。
Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから
貯めたクソ長プロンプトをチャッピーに食わせる。
Gemini3がチャッピーより上というがどうなんだろうね >LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ
LLMを始めてみんなが初日に気付く基本やね >>165
JoyCaptionは画像の説明は出来るんだけど
ストーリーは無理だったからHuihuiに流れ着いた
mlabonne/gemma-3-27b-it-abliterated-GGUF
は試したことないから試してみるよサンクス となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは
個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない >>166
GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は) Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ
Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう?
UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな? silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。
magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが… >>172
量子化手法によっては評価データで評価をしながら量子化するってのがあって、
その評価データに日本語がないと日本語の性能下がるってことがありえるやろな
GGUFはどうなんやろ? 評価データ使う方式なのかどうなのかググったけどよくわからんな チャッピーに聞いたわ
GGUFは評価データいらんらしいから日本語性能下がるとか考えなくてよさそうや
https://i.imgur.com/w2pAa23.png >>172
>>176
https://sc-bakushu.hatenablog.com/entry/2024/04/20/050213
imatrix使ってるggufは評価データを使った量子化方法で、こいつは日本語データ使った方が性能上がるって結果がある
UDは日本語含む多言語データでキャリブレーションしてるから多分問題ない >>177
サンガツ
古い情報を広げてしまうところやった imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる 検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや? EVO-X2買った
Qwen3-235B動かせるのは感動する ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ
リリース初期特有の推論関係のバグだと信じたいけど期待外れ…
mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ
この用途だとnemo天下がまだ続きそう 外人もmistral3試して結局qwenに戻ったって言ってる人いるし日本語関係なく微妙な性能なのかもなあ ふう、初めてローカルモデルpcで触ってみたデビュー。
無難にgpt-oss 20。爆速
一歩踏み出して世界が広がった mistralai/Mistral-Large-3-675B-Instruct-2512
これ試せるところないかな? >>182え、そうなの?
LMstudio使ってるけどNSFWモデルなのにお断りされて何だよと思ってたところだわ >>189
有料で良いならopenrouterが確実だけど
公式のLe chatで多分無料で使える Thinking部分まで設定通りのキャラになりきって思考させる方法ってある? >>189
ollamaのcloudモデルはいかがでしょうか?
アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。
open-webuiにモデル登録して使ってます。
Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。
お断りされずそのままのプロンプトでいい感じになりました。
これならお試し程度なら十分できると思います。
このollamaのcloudは無料枠でglm-4.6とかもお試しできます。
(glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました) >>183
おーミニPCだね。3token/sくらい出る?
うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB)
ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう 間違えたGBだった
不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい
人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した VRAM16GBとRAM64GBで動く中で今一番オススメなのはどれかな?
NSFWあり・日本語が得意なモデルで qwen3 nextええど
ワイもメインメモリ64gbやが80bの4qが丁度ええ
nsfwは「できる」程度で得意ではないんやけど qwen3 nextのthinkingモデル使ってみたら
「こんちわー」の返答に3000トークンも使って考えやがったんやが
こっわ
https://i.imgur.com/KOfqbMW.png
https://i.imgur.com/vuoFDOR.png
この辺まだllamacpp側の調整がうまくいってないってことなんやろか Qwen3系ってやっぱ長考癖あるよな
長考してもベンチスコアに悪影響無いからとにかく何が何でもスコア上げようって感じかね いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する
ログは、まず誤字か?スラングか?長音記号が入っているのでフランクか?
子供か?日本語学習者か?...
回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ...
とthinkモデルは気苦労してるんだそうなw(Geminiの解析) 他のモデルでも「こんちわー」だけだとそこそこ長考するね
3000トークンは見たことないけど1000トークンぐらいならある >>185
最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた
やっぱりnemoはオーパーツやな
実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん >>195
IQ3Mで15token/secくらい出てる VRam、Ram制約の中で
・qwen3-vl-235b-a22b(パラメーター数)
・qwen3-vl-reap-145b-a22b(精度)
どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む チャッピーの解禁ってほんとにくるんか?
次情報ってあったんか? >>193
Q3とはいえ、そんな安定して動かせるくらいなんだ 4.6V来たな 106B-A12B?
https://huggingface.co/zai-org/GLM-4.6V
9Bのflashの方がスコア良すぎてちょい眉唾だが >>212
新しいVLモデルか
OCR精度とか画像からのプロンプト抽出能力が気になるな
GGUFが来たら教えてくれ Grok先生のエロパワーにびびって、エロ解禁と発表したが
Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。
チキンGPT openaiは業界のパイオニアで何かと目をつけられやすい上に
他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場
上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった 今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね
新しいバージョン出してくれへんかなぁ
まだ前のバージョンが出てから半年も経ってへんけども チャッピーエロ解禁したら使えるかと思ってたのに有耶無耶になったんか
無料枠すぐ使いきっちまうから、Grok課金するかなぁ googleが出来ないことをやっていかないと負けるから各企業エロ解禁は遅かれ早かれせざるおえないと思うが pornhubあたりが独自llm作りそうじゃない? Geminiにお前自身は解禁するかどうか予想してくれって言ったら
広告主体の企業だから今後もありえんやろな的な回答くれたわw いうてGeminiは文章ならロリ以外は出せるやん
大企業だから一番厳しいと勘違いされてるだけで Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。
基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる >>184
>>190
>>191
どっちもシステムプロンプト空やってんけど、
プロンプトまとめwikiからいろいろコピペしたらいけたわ
初歩的なこと聞いてすまんかったやで Openrouterが自社のサービス利用状況をまとめとるけど
オープンソースモデルの利用の52%の利用目的がロールプレイやって
これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・
https://openrouter.ai/state-of-ai
なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい
これはワイもプログラミングでgihub copilot使用しとるからわかるけど
プログラミングでのAIってめちゃくちゃ長文&複数ファイルをLLMに投げつけるからなぁ
しかもAgentで複数回LLM動作するし なんか変な解釈のような
OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では
それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず
同等レベルまでコストが下がれば違うだろうけど gemmaにエロ画像認識させたいんだけど、良い方法ある?
どうしても拒否される geminiでエロ出せるのは分かるんだけど
出力の最中に!マークが出て中断されるのは回避方法あるの? >>205
マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ
色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ どのソフトで起動してるか知らんがCPUにMoE分配してないでしょそれ
n-cpu-moeとかexpertのオプション調べた方がいいよ ミストラルの新しい奴来たね24Bの奴は今のとこエロも出来てる 3.2 24bがメインウェポンだったからミストの新モデル気になるで devstralのことけ?
これコーディング向けやけどでもまぁエロ出来りゃ何でもええか
大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ
先週公開されたLargeもDeepseekベースみたいやし
新しいモデル作らなくなってしもたんやろか
MixtralでMoEの先駆者的なイメージがあるんやけどね >>44
ありがとう
確かにパラメーターいじって出力を比べたことがなかった >>234
123bはアーキテクチャがministral3だからmedium3ベースじゃねえかな
まあvoxtral 3b出した後もministral 3b出してくれなかったからベースモデルは望み薄だけど antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか? chatGPTの話してもええやろか?
R18小説の企画書を投げて構成を聞こうとしたら
途中まで表示して最後に消えてもうたわ
すごく参考になりそうな意見やったのに
少年、少女、性交、だとアカンのやなー
年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか?
エロ解禁とは何だったのか…… チャッピーがエロ解禁する時は年齢確認をしてからになるよ
それがないってことはまだ対応してないってこと 12月に解禁予定なだけでまだ解禁しとらんからな
コードレッドのせいで解禁しない可能性すらある サンガツやでまだ解禁されとらんようやね
これまでも企画書みせると的確な意見くれとったんで
めちゃ重宝しとったんや
R18はまあ商業展開狙っとらん自己満作品なんやが
……だからこそ編集さんが欲しいってのもあるけどね >>236
試してみたけど、magnum123bと同じくらい日本語エロセンスいいな
やっぱbaseが同じなのかもね Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ?
ああいうのって名前以外にどこ見ればわかるんや そうやで
MoEじゃないモデルのことdenseとかいうで
まぁ「MoEじゃないモデル」とか言われること多いけど
調べるならhuggingfaceの説明に
expertとかMoEとかactive 〜Bって単語がなければdenseや
MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど
denseモデルはたいてい「ワイはdenseやで!」とも「ワイはMoEではないで!」とも書かれへんのよな >>246
はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ
123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね
個人運用は厳しいわ denseのオープンウェイトはプンルーやChutesで安く使う枠
DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが
エロ表現が得意ならそっち方面で開花するかもな VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない
モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる
MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない?設定が悪いだけ? >>249
"dev"=「開発」ってそういう意味…… >>250
Ollamaはllama.cppのn-cpu-moeに相当する機能をたぶん実装してない
LM Studioとkoboldにはある
モデルの管理もしやすいからLM Studio使った方がいいよ NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな
Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です >>250
> MoEであれば大きいサイズでも実用的な速度で動作させることができる
合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く
14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう >>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね
>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな
>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと?16%未満程度しか削減されないとなると思ったより効率よくないなぁ >>256
そうじゃない。OllamaのMoE実装が弱いだけ >>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる 5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ >>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね?
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12〜15tps程度なんだけどこんなもんなのかな?
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど
ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや
だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや
llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや
n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう >>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな?
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる >>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く
あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか
メモリの分際で米みたいなことするなよ >>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう! そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや
つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや
VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや >>260
5070tiでも16tps出るから設定がおかしいやねんやで moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd?オフロードってのもあるらしいね Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど スレチじゃないぞ
メモリの高騰化はこのスレとしても無関心ではいられないだろ 3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで
https://note.com/high_u/n/nfb01f1544511
ここの一番下
VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね >>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど https://arxiv.org/abs/2512.07474
living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる
コレは...ストレートに商売になるのでは?
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか?」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか?」
とかの質問に答えてくれるンゴ?
いやそれよりはよ続き書けよ獏ちゃん先生
個人的には金田一耕助と会話してみたいンゴね >>274
コンテキスト減らせば?
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。 文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる 無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし 追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ(特に外部プロバイダ経由)といった感じで良い印象なかったけど機能するならほぼ必須だなと >>0277
すげー
そういう面白そうな論文ってどうやって見つけるの? chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡 chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも gptは5.2になるし
claudeは4.5になるし
geminiは3proになる コンテキストは長くなるほど速度低下激しくなるし、精度も落ちる
32kぐらいが無難な気がするわ qwen3-vl-235b-a22b-instructでERPさせようと思うと申し訳食らうんだけどシステムプロンプトで回避出来る?もしくは脱獄版あったりする? >>288
Gemini2.5用の脱獄システムプロンプトで通るやつがある
スレに過去貼られたやつ Xみたいな無料でできる奴とかローカルの色んなモデルを英語で遊んでると安っぽい売春婦って言葉が高確率で出て気になる GoogleドライブにAIトレーニングデータをアップロードした開発者が児童性的虐待コンテンツを保存したとしてGoogleアカウントを停止される
https://gigazine.net/news/20251212-developer-ai-data-google-ban/ Qwen next 80bの規制解除版パネーな
エロプロンプト打ち込んでも喜んで書きやがるw
これで文の整合性がmagnum並みなら完璧なんだが Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの?
性能落ちているだろうし普通のQwen next 80bで良くないか ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる VRAM16gbのしょぼグラボだけど
エロいけて英語で評判のいいllmある?
チャット内容を翻訳して使おうと思って Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる 日本語のバリエーションはどんな感じなの?略語やスラングもいけそう? >>293
いや通常のだと100%申し訳喰らうんだわ
解除版も性能差感じないけどやっぱ整合性が。
エロチャ用途なら使えるね >>294
ちなこれね
mradermacher/Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF abliteratedの新バージョンが出たっぽいからそれで活気があるのかも >>298
今のところQ4しか出てないのが難点。Q6とかQ8が来てくれるとそのへん改善されるかもね glm4.6vが106b moeで良さげやなと思ったけど
まだllamacppで対応されとらんのね
PRもglm4.5vの対応のものがいまだに完成しとらんみたいで難航しとるみたい
https://github.com/ggml-org/llama.cpp/pull/16600
画像入力興味出てきて試したいんやけどなぁ >>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな?
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか >>304
aratako先生が出してるデータセットでワンチャン? >>302
GLM4.6Vはツール呼び出し機能が追加されたのがポイントだけど、どう活用するかだなー shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ そらそうだ
モデルにもよるけど3.5bpw切る辺りから急激に性能劣化する
Q4が安定択なのにはそれなりの理由がある >>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや
その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど >>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ >>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ >>314
個人的お気に入りで良ければAratako/Qwen3-30B-A3B-ERP >>314
あと16GB/64GBだったら>>299もありかもしれん モデルを導入すると最初に「あなたは誰ですか?」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。
今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。 >>317
プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ shisa2.1 14Bでreasoningモデル出してくれないかな >>317
そのへんはシステムプロンプトあたりで強制してんでは? >>312
そのTool Callingは何に使えるかなんよな
俺も分からんけど、その機能使えるかちょっと試してるところだわ
今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう LLMの検閲除去ツールheretic
4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた
https://github.com/p-e-w/heretic/pull/60 検閲除去ってロボトミー手術してるようで信用してない >>323
ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと
当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで
LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから
そしてそのあたり多少楽に構築できるようになるのがMCP 右脳の無い左脳だけのLLMで理Vに受かる患者と話してるのが今だろ 東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか >>326
ツールコールの仕組み自体はそんなに詳しくないけど何が出来るかは確認しておきたいんよね
ちょいテストしてみるわ >>329
東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな
今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ >>332
一応ちゃんと二郎名乗るのは管理されてたはず
近所の店は破門されて名前変わってたw
>>333
こんなにあるの!?w メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな
さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな ユーザーはもちろんメーカーも大変やな
マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ
こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか >>324
Pro 6000とかを持ってる人なら大喜びだな
俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ…… Nemotron 3 NanoはMambaを使ってるらしい
Qwen 3 Nextと一緒だね macはまだ値上げしてない?
M5 Studioも興味あったけど、どうなるんだろう Nemotron 3 Nanoはもう試せるの?
NVIDIA製のやつ?
というか知らんかったw 動くまでの実装は完了しとるから上のPRのブランチでビルドすれば動かせるで Nemotron 3 NanoはOpenRouterでfreeで使えるぞ
でもものすごい長考するし出力も暴れるしでチャットするのには苦労しそうな感じだ ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない?」
AI「新しいピザ屋さん!?わくわくするわね〜!ユーザーは何を頼むのかな?今度、週末に行こうよ! 🍕」
これだけのやりとりをするのに8000トークンも思考する
まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど ピザ屋へのお誘いで8000トークンは草
ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ
理解できるようになっても辞めんけどな トークン数≒コンテキスト長だっけ?
そのペースなら一応答で前の記憶どんどん消えてくな リーズニングの部分ってコンテキストには含めてないんとちゃうかな
アプリ側の実装によるとは思うねんけど LM Studioだとリーズニングも含めてたような
アプリによるんだろうね ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする
ただ、小さいモデルの9BFlashが意外とすごい
それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね
OCRはちょっと弱いけど割と日本語も認識する
使う場面によっては実用的かも?
後は新たに追加されたツール呼び出しだな
vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・
Thinking有り無しで結構、得られる情報量が違うから惜しいな
もうちょっと調べてみるけど nVidia から新しいモデル
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16