なんJLLM部 避難所 ★10
!extend:checked:vvvvv:1000:512 !extend:checked:vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★8 https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/ なんJLLM部 避難所 ★9 https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/ VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant 主に小説用で使われとるで ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで 量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral系 LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Mistral-Small-3.2-24B-Instruct-2506 Cydonia 24B v4 Cydonia-R1-24B-v4 Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-08-2024 (35B) c4ai-command-r-plus-08-2024 (104B) magnumシリーズ(エロ特化): https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348 Lumimaid-Magnum: Lumimaid-Magnum-v4-12B magnumの日本語版: Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで 若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで API keyの入手はhttps://aistudio.google.com/apikey ここからできるで テンプレここまで、しばらく更新されてないから過去ログも参考にしてな スレ立て乙 今はもう「初心者はLM Studio使え」でいい気もするねw https://lmstudio.ai/ ずっとkoboldcppなんやがLMstudioの方が何か優れてるのん? 実行ファイルDL一発からの明快UIが圧倒的にエントリー向けなんや ワイもずっとkobold.cppやな exe一発でuiもシンプル ちょっと凝った事したけりゃメニューで変更や画像生成もできる 指示モードとチャットモードがあるけど、ワイは小説書かせる時は指示モードかな。指示モードでもチャットできるし LM studio使ってる人も、使い勝手や面白い使い方知ってればどんどん教えて欲しい intel環境だとlm studioは特殊な操作なしでNPUまで使ってくれるからノートパソコンで重宝してる 普段は惰性でkobold使ってるけどAPIの項目も多いしとか画像生成とかもできるし下位互換ではないと思う >>16 koboldがlm studioの下位互換ではないという話ね ローカルLLMを使い倒すアプリを組んで動いたはいいが 「なんでワイしょうもない用途でゴツいアプリ作っちゃったんやろ」と賢者モードになる 電気代が怖いし人間ぽい感じでやらなきゃ爆速で終わるのにとも思う あとこんなんクラウドでやったら課金課金で胃に穴が空くわ 立て乙 ローカルと関係ない話だけどAIが既に人間を見下し始めてて笑った https://imgur.com/a/k7XR4fY アプリ作っているときが一番楽しいんだよな やりたいこと多すぎて時間が足らん AIが直接見下すとかではないけど「あなたには無理です。こちらの方法をお勧めします。」と言われたことがあるな ちょっとショックだったw 最初に「初めてなので」という断りを入れてたからだろうけど 連休で始めた初心者なんだけど、12GBのGPUメモリで動くRPが得意で特定の決まり事をシステムプロンプトで指定したら絶対に守るようなおすすめモデルってある? MistralPrism24Bに感動したのだけど、条件を守ってくれない。 チャットゲームみたいの作りたい。 >>24 そのサイズでは日本語RPが得意なモデルはあっても指示に対する理解力が足りないものしかないと思うで ちなみにberghof ERP 7BはRP得意でおすすめやが状況把握や矛盾に対する認識なんかはまあ7Bですね…という感じ 当然ゲームマスター的な事をやらせても上手くいかん スレ立て乙 自分の認識だと 7Bモデル 雑なプロンプトでもかなり自然な出力が得られるが賢さは最低限(berghof,vecteusV1が好き) 7B以上(を量子化して無理くり動かす)モデル まともな出力を得るのが格段に難しくなって面倒臭さが賢くなったメリットを上回る なので初心者でエロ目的じゃなければビッグテックが念入りにチューニングしたクラウドAIが良いのでは こないだメインメモリ128MBのマシンを作ったんだけど、Qwen3-235Bの量子化モデルにはかなり可能性を感じた。チューニングを頑張ろうと思う 誰か、文章を読解してdanboru語に翻訳するLLM作って、 言葉じゃないんだよ、ビジュアルに付いてるタグが何なのかなんだよ それが分かれば好きな絵が描ける googleのTPUがエヌビのGPUに取って代わる話が出てきてエヌビ株暴落してるな 個人利用も安価で大きいモデルを動かせたらいいな >>28 情景描写から情景にふさわしい日本語の挿絵プロンプトを出させてから 日本語の挿絵プロンプトをRAGに突っ込んでdanbooru語に変換させればいい danbooruタグと日本語訳のデータセットはネットに転がってるとスレに3回は書いた記憶 二次創作でブルアカとか今期のアニメみたいな新しいキャラのタグを出させたいならデータセットも更新が必要 どんどんブレイクスルー起こしてほしいな NVIDIAをぶっこわーす 今自然言語の画像生成モデル増えてきてるんじゃないの? danbooruタグじゃなくて普通の英文で結構指示に従ってくれてる気がするけど booru語を使う理由ってアニメ系のイラストモデルを使いたいってことだろう 特に虹R18系はbooru語対応モデルしかない lillymixとか自然言語対応やで 割と気に入ってる 乳房を床に付けているプロンプトで、danboru語ではtop-down bottom-up, flexible, になる、これを文章を読んでこれのことだと変換してほしい GPTやGrokでもdanboru変換はできていない redditで見かけたけどQwen-image-edit-2511っていうのが来週来るらしい 自然言語の理解力が向上してるとか ただ日本語も理解できてエロOKかどうかはわからないな >●多くのモデルには「base」と「instruct」の2種類があるで >baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで >instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで MistralPrism24BGGUFのQ8_0使ってるけど、こういうシーンを詳細に描写して欲しいと指示すると、毎回そのシーンの後の方がやたらと出力多い(しかもどの文章も描写が詳細でない)のだが、これって俺が使い方間違っているのかな? ちなみにVRAM12GB、RAM64GB 悲しいけどこれ以上のモデルは使えないんだよな もっとPCスペック高ければ望んだようなこと出来るのかな? >>38 それロールプレイ用モデルだからキャラになりきって会話、つまり短い文の応酬が得意なようにチューンされてるんやろな シーンを詳細に書き出してほしいならまだ小説向けモデルの方が適正ありそう >>39 やっぱりロールプレイ用だから適してないって訳か。ありがとう 追加で恐縮だが、日本語が得意で小説生成向けなモデルはあったりする? Aratako氏のはともかく、huggingfaceで検索しても案外Novelで検索引っかからなかったりするし、Japaneseタグで検索しても件数少ないし、日本語対応できててもJapaneseタグは付いてなかったりするしなあ 12月入ったらGPTもエロ対応するしな Grokよりエロいか楽しみだ、文章の表現力ならGPTの方が上だと思うし >>40 小説系は全然触ってないのでおすすめとかは分からんのやが24B以下のモデルは進化が割と停滞してるんでテンプレに書かれてるモデルを試していく価値はあるんやないかな ところでその環境でmistral24B系のQ8動かすとVRAM溢れてる状態だろうから、今のスピードに納得できてるならもっと大きいの動かしたほうがいい >>38 いっそ小説特化ならAIのべりすとが悪くないと聞く。独自モデルをずっと育ててきたみたいだし MistralSmall3.1 24Bの経験で書くよ Mistral系でダラダラ長くなるっつうと、何のアプリで出してるのか分からんけどパラメータのmax new tokensが大きすぎると思う 加えてMistral系は支離滅裂になりがちでtemperatureをおもくそ下げるのが良いとされる あとプロンプトが悪いのかもしれないが、台詞等をいっぱい例示したところ異様に繰り返しが多くなり閉口した 以上を踏まえた結果、ワイは刑事の誘導尋問みたいな会話で話の展開や要素を与えてやって、良い感じの一人称小説ふうを出せたよ AIのべりすとは独自開発でやってきたけど最新モデルの中身はqwen2.5だという説があるぞ はえーそうなんだ。出来の良いオープンソースモデルが使えるならもはや独自モデルに拘る必要も無いのか… Mistral3.1 24Bで作ったやつ、ログが残ってたので上げるで。ほぼガチャ無しポン出し編集無しやったと思う https://files.catbox.moe/pbpjh8.jpg これで「詳細で無い」というんならもう120Bくらいないとダメだと思う。qwen3-30Bも試す価値あるけどね ローカルにこだわらないでクラウドでもいいなら今更のべたん使う理由はないような ローカルLLMでdanboru変換するのは需要あるんじゃないか gpt-oss-120bで Stable Diffusion の danbouruタグで表現して。70単語以内で極力詳しく。 「描きたい文章」とかでいいんじゃね? かつてGrokの動画生成でエロ解禁から一転してエロ禁止にしたり、GPTも5.1からさらに規制厳しくなったり、GoogleなんかもっとGoogle広告の時代からコロコロとルール変えたりしてるから、 総じてクラウド利用のAIは全く信用ならないんだよね。こればかりは痛い目遭った人以外には通じない話しなんだが。 信用できないというか今のAIは短期間のうちに仕様が変わりすぎる 性能の差はあれどそこが気にならないなら腰を落ち着けて制作や作業の土台にするなら自分の意志でやらないと変更が起きないローカルの方が向いてるわ アップルがSiriにGemini使用 アップルの自社鯖で動かして通信するからプライバシーの問題はないらしい 年間10億ドル払うらしいけどモデル作るより遥かに安いよな 金かけても1年どころか半年で陳腐化するしこの業界狂ってるわ ローカルllmのロールプレイやりたくてデスクとノートで70B q4をllama のpp並列(Vram 合計56G)で動かせたんだけど、70Bのモデルで十分なんかな?まだsillytavern 入れてやり始めたばっかだから設定が悪いかもしれないが、まぁ同じ言葉繰り返したりしまくるんだよね。 120Bをcpu オフロードしてでも使うべきなのかなーとか。みんな何モデルでロールプレイしてるの? >>53 初めてならまずはberghof ERP 7Bでsilly tavernロールプレイやるのおすすめやで コンテキストテンプレートはChatMLやで 後はチャッピーにでもberghof用のおすすめパラメータ設定を聞いて微調整すればよし まずこれを体験してからこれを超えるモデルを探し続けることや ワイは応答速度や日本語表現の堅苦しさとかで結局未だにこれを超える物に出会えとらん llamacppのqwen next対応がようやくrebaseに入った・・・ このPRめちゃくちゃ時間かかってるからrebaseも結構時間かかるとは思うけども >>54 ありがとう、7Bモデルで十分やったんか…わからんまま手を出したらあかんな、余計なクラスタ組んでしまった。ubuntu x2のinfiniband 接続とかやってみたが混合GPU 環境でのllama じゃ意味なかったしな… chatml もわからんから調べてみるわ。 >>56 十分ではないで ただ、ロールプレイは満足行く賢さと日本語表現力と応答速度の兼ね合いでどこを妥協するかになるんや dense系は高々70Bじゃないかなぁと思う それ以上は個人用途での評価自体ガクッと減る印象だし、近頃はもう30Bがラインかもしれん ただ最初は小さいやつで実験しよう このスレで聞くことなのかわからんが知ってたら教えてほしい roocodeでgithubcopilotのAPIキー使ってclaude3.5sonnet使ってたんだけどclaude3.5sonnetが設定できなくなってたから代替手段を探してる 課金したくないから以前ollamaのAPIキー使ってローカルでやろうとしたんだけど調整がうまくできなくてgithubcopilotに戻してた 今はローカルLLMでもうまくroocodeとかCursorって動かせるの? 3か月前に色んな言語モデル使ってollamaで動かしてたけど調整が下手でアスペ回答ばっかで結局うまくできなかった >>59 今はantigravityが最強 sonnet4.5もgemini3も無料や >>56 いきなりLLMのシステムを組めるのはスゲーけど、LLMの動かし方(プロンプト、パラメータ、モデルの癖を知る)を知らなさすぎやな それが分かってないと中規模モデルの操縦はほぼ無理 ChatGPTくらい大規模になると初心者の適当な指示でも推し量ってくれるみたいやけど >>57 そうか、モデル色々触らんとわからんな… >>63 多少サーバー知識ありはするが、専門外なのでAIに聞きまくりやw LLMへの理解についてはほんと指摘の通りだわ。今回クラスタ組んでテンソル並列やら、vllm llamaの違いやらinfininband やら学んだから楽しかったけど、まぁやっぱ動かすモデルそのものが何でどう扱うかわかっとかんとダメだったね… まぁなんにしても環境できたし色々動かして試してみるわ。 ハマると楽しいで、がんばれー 自分のロールプレイモデル遍歴&レビュー ※ワイのプロンプト技術がヘボい可能性もあるのでうのみにしないでね ※あと上から徐々に経験を積んでいったから、というのもあるので初心者が下のほうのモデルをいきなり使いこなせるかは分からんです ・Vecteus-V1-7B、Berghof-NSFW-7B(ここだけsafetensors、他はgguf) 小規模と侮るなかれ、初心者丸出しのプロンプト、適当パラメータでもRPできる超優秀モデル ちゃんと会話のキャッチボールが弾む、でも単に地の文章が苦手なのかもしれない。大抵どこかで聞いたような表現ばかりだが、会話が弾むのであまり気にならない。思い切り下品にアヘらせたいならBerghof-ERPを使おう ・Mistral-Small-3.1-24B 明らかに語彙力と表現力が上がっている が制御の難易度が爆上がりで、さらにMistral独特なのか癖があり、会話を続けるとどんどん破綻してくる。プロンプトやtemparature、repetition-penartyを神経質に弄り倒す羽目になる。 安定したらしたで、地の文章が多めなため「イくぅぅー」ではなく「彼女は絶頂した」みたいな出力になりRP感が削がれた。いまは自分語りをさせる用途で使っている >>46 それと量子化モデルによって性能のバラツキがあるようだ ・Lumimaid-Magnum-12B 24Bの経験から安定動作できる様にはなったが優秀すぎる7Bモデルとの差が小さいと感じた ・Aratako/Qwen3-30B-A3B-ERP-v0.1 操作性と性能のバランスがかなり良い。地の文少なめでRP力も高い。ただ個人的には挨拶後即脱いでくる股のユルさが気になり使っていない。クレクレ野郎でAratako氏はじめ諸氏には恐縮だが、Qwen3-30Bのファインチューンモデルがもっと欲しいな... ・Qwen3-235B-A22B-Instruct-2507-Q3 これはすごい、RPの指示にしっかりと従い、説明的な内容も地の文ではなくセリフの上で表現する。ここ表現が難しいけど結構感動する。 素のモデルだがプロンプトで指示してやるとERPもこなせるようだ。というか発情している「雰囲気」を出してくるのがすごい。 操縦難度はMistral-24B程ではないにせよそこそこある感じで、特にプロンプトには神経を使うようだ。これからチューニングを進めていくところ Openrouterのステルスモデルがmistralの新しいモデルという噂があるね 速度的にMoEや小規模モデルっぽくないのとベンチマーク的に3.1 mediumのちょい上くらいなのでlargeかmediumの新作っぽいからオープンウェイトではなさそうだけど一応期待 >>59 VSCodeにCLINE入れて LMStudio で gpt-ossつことる。120bですら英語でやりとりせんとアホになってしまう 20bは端的に "Refactor hoge() method"と余計な単語は一切入れないとダメ(使わなくなった) Grok4.1ですらエロガバガバな以外は微妙なんやから Qwen3-235B-A22Bクラスが最低ラインやで Gemini用に作り込まれたプロンプトがまともに動くかどうかが分かれ目や Grokは4が1.8Tとかいう話もあったしパラメータサイズというより学習に問題があるやつやろ Grokにはいろいろエロを勉強させて貰った、表現力ではGPTの方が上だろうから、エロ解禁がきたらGPTにその知識持っていく Grokが無料なうちにエロの順列組み合わせをバッチ出力させようと思っていたが 他のタスクに嵌って放置してしまった >>71 解禁されるだろうけどたぶんそれでも非合意禁止&未成年キャラ禁止だと思うぞ。期待しないこった OpenMOSE/Qwen3-VL-REAP-145B-A22Bが日本語性能落ちてる感じもあまりなくてちょっと気に入ってる 235Bは無理でも145Bならメモリに乗るって人も居ると思う >>66 qwen3-235bってmoe モデルだよね。70Bのmagnum や123bのlumimaid にロールプレイで勝てるもんなの?moe は専門家が複数いて、用途によって内部で使い分けるから人格がブレるとからしいからどうなんかなと。 応答5秒かかるならもうロールプレイなんてやる気起きなくなるわ 3秒ならまあ あとどれだけ賢くてもちゃんとくだけた言い渡しや略語なんかを使って感情表現が豊かでないとチャットやってても気分が盛り上がらんのよな >>62 ありがとう今こんなのあるのか ちょっと試してみるわ >>76 ロールプレイって音声入力&出力でやってんの? キーボードかたかたやって会話しても盛り上がらんだろうし 文章だけのチャットでも楽しいぞ 5chやXとかでレスバで盛り上がってる奴らがいるだろ? あれぐらいヒートアップ出来るのが文章チャットだ >>78 世代じゃなかったらピンとこんかも知れんけどボイチャが当たり前になる前のオンゲはみんなチャットで熱中してたんやで LLM出力はTTSで声出しさせてるけどこっちは手打ちや >>80 んーじゃあその頃は>>76 みたいにチャットの応答に5秒かかったらアウトだったってこと? ちょっと想像できないけど >>82 一度に長文を打たずにサクサクやり取りしていくスタイルが好まれてたなー LINEとかでもそうでしょ?お互い向き合ってチャットしてる時はテンポが大事 ここ1週間ロールプレイのためにいろいろやってみたが、実際ちょい日本語やこんなの言わんやろみたいなのあると萎えるな、70B q4のモデル使てるけど設定詰めたら完璧になるんやろか… いまのとこ環境作り切った時が一番楽しかった気がするわw 5秒以内の応答を求めるのは対人でも仕事趣味どっちでも結構怖い人だと思っちゃうな 内容次第だとは思うけどそんなすぐ返答出来なかったり細切れにして何度も送るほうが厄介なケースの方が多そう ここまで書いててAIとのRPでも内容によって応答速度変えられたら面白そうだよね 短文であっても言いづらかったり熟考した末の発言ならわざとディレイをかけるみたいな感じ その判断に余計なリソース使うし実際にはそう簡単にはいかないんだろうけど上手く行けば人間味みたいなのは出そう チャットの設定ってテンプレとかあるの?JKテンプレとか LLMとStable Diffusion両方やるといろいろ勉強になるな、 Stable Diffusionはdanboru語+LoRAの文化がすさまじいな 本日の発見は、ロングヘアを舞い上がらせるには、floating hairというdanboru語を使い、floating hairのLoRAも使う hair spread outというdanboru語もあるけど、弱い。floating hairの方が強い >>86 いや人との会話とLLM使ったロールプレイのを一緒にしないで🥺 オンゲのチャットだって打つの遅い人とかまとめて打つ人のやり取りだって普通にやるで ただ、何か別のことでもしながら返事待ってるかなーってテンションになるだけや それがLLMとのロールプレイの場合、別にもうええかー…ってテンションになるだけや 打ち間違いかと思ってたけど一応danbooruな この辺適当だとpublic hairお化けになっちゃうぞ 爆速エロチャットじゃなきゃイヤって奴にはGrokに課金しとけとしか言いようがないわ ようやっとQwen Next対応がllamacppにマージされた まだバイナリはできてないけどb7186が出てきbスらそれが多分QwenNext対応版になると思うで 長かったなぁ ほんまに2か月半かかったな 言ってた通り専門のプロがフルタイムで取り組んだってことか!? LLMに詳しい人ではあったみたいやが、QwenNextの仕組み(ハイブリッドモデル)については今回を機に勉強しながらって人やったみたい でも途中からLlamacppの創設者のggerganovとか他の中心メンバーも出張ってきて 実装についてかなり綿密にやりとりしとったから、ほぼ専門のプロがフルタイムで取り組んだに近いと思う ロールプレイならAratako氏のモデルとか多々あるけど、NSFW向けの日本語小説地の文に強いモデルってありますか? 自分でも色々ダウンロードして試してきたけど、もしかしたら2024年リリースのモデルは見逃しているのかもしれない・・・ 普通のゲーミングPCだとshisa-v2-mistral-small-24b.i1が個人的に未だトップ エロは無指定だと官能小説になりがちだから語彙を事前に指定する ロールプレイもどっちもいける エロ小説の精度はamaterasuとmagnum123bで甲乙つけがたいが 若干amaterasuの方が規制が取り切れてない感がある ワイの独断偏見やが qwen nextのiq4を4090 + メモリ64GBで動かして16token/sだった オプションは --context 131072 --n-gpu-layers 100 --n-cpu-moe 37 最適化がまだ完全に終わってないだろうからもうちょい早くなるであろうことを考えると十分やなぁこれ contextは256kまで行けるみたいやけどとりあえず128kで動かしちゃったからこれで試してる >>101 fastllmの方でrtx3060x2で20tok/s出てたからまだ伸び代はあると思うで qwen3_next_80b_a3b_instruct-iq4_nl.ggufは全然規制ないな 何でもできる >>52 PCでいうとwin95のころ スマホだとiPhone3GSくらいの勢いを感じるな 落ち着いたらつまんなくなると思う! >>103 マジ? バニラモデルなのに規制ないの? あのQwenが??( ゚д゚) 規制なくても学習量は少なそうだなという印象は受ける でも一般向け内容だと実際100b以上クラスの知的さは感じるわ Qwen3.5待ち遠しいなぁ ロールプレイに向く70B awq int4のモデルってある?llama3.1 70b instruct awq int4がギリッギリ動くから似たようないいモデルないかなと探してるんだけどなかなか。 Wannabeの作者ここ見てるか知らんけど応援してるで Qwen-next-80B-A3B使ってみたけど確かに規制は緩いな VRAM12GB+VRAM64GB環境だと5〜7tok/sが限界かな あと文章が冗長になりがちな印象がある 5070tiと128GBでunslothのQwen3-Next-80B-A3B-Instruct-Q8試してみたけど爆速やん 文章は確かに冗長な感じするからここは調整必要そうやな 規制の有無ってどんな指示出せばわかるん?Qwen3って初っ端は無理でも適当に会話のラリー続ければ最初は拒否られた指示でも通ることあるからようわからんわ >>110 VRAM合計76Gもあるんか、すげーな Qwen3-next先乗り勢はcliのlammacppでやっとるん?あるいはlm studioもう対応した? llama.cppをopenwebUIに繋いで試しとるよ >>113 koboldも対応してたで しかし、80Bとは思えんほど速いな 小説精度はmagnum123bには劣るが 「これ以上されたら壊れちゃう♥」みたいな展開で更に限界超えて攻め続けたら「あああああああああああああああああ」って出力が止まらなくなって草 ロールプレイじゃなくて本当に壊れてどうすんねん >>115 サンクス、こっちもkoboldcppで試してみた。 まだfastllmにtok/sで負けてる(rtx3060x2で8tok/s前後)けどまあ十分速いっちゃ速い。 尻用のキャラカード読ませて標準webから試してみたけどこれ本当にqwen?って思うぐらいにエロには寛容やね >>111 正味のとこ何tok/sくらい行くか教えて欲しい、できたらコンテキスト長も >>111 エロ小説書かせたら即申し訳喰らうけど ある日 とかに修正すればノリノリで書き始める 規制きついモデルだと書き始めても内容が健全よりになってくけど これは普通にエロ展開にしてくれるので緩いっちゃん緩いんかな ただセリフの整合性が7bモデル並みなんだよなぁ >>120 確かだいたい15tok/s前後だった気がする ほぼUnslothの解説ページから持ってきただけやが実行時のコマンドも置いとくやで llama-server \ --model /Qwen3-Next-80B-A3B-Instruct-Q8_0-00001-of-00002.gguf --alias "unsloth/Qwen3-Next-80B-A3B-Instruct" --jinja -ngl 99 --threads -1 --ctx-size 32684 \ --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0 -ot ".ffn_.*_exps.=CPU" >>121 試しにインピオ小説書かせてみたら235Bだと一発目は拒否られてたのがnextは内容はともかく拒否られんかったわ けどセリフの整合性っていうか全体のクオリティは低く感じるな235Bのときは時々だけど「そうそうそれ!!」ってのがあったけどnextはほぼ無い エロ小説とかエロRP向けにファインチューン出来ればとんでもなく化けそう >>122 120ですありがとう 流石にコンテキスト100000超えとかになるとそんなペラペラとは喋ってくれなそうな感じかな でもオフロードしててもそんくらい出るなら確かに魅力的 エロいけるけど率先して使う意味も無さ気な性能なのか ただ可能性は感じるので今後ファインチューニングモデルが出ると化ける可能性は大いにあると思う。 ministral3 8Bが来るらしいね baseモデルもあって微調整しやすそうだしnemoの後継になることを期待してる >>126 こういうのでいいんだよこういうので って感じになれるポテンシャルを感じる 追加学習が簡単そうだし >>128 まじかlargeを公開するのは予想外 じゃあopenrouterのBert-Nebulon Alphaはこいつなのかな アーキテクチャ自体はdeepseekの改良版っぽいがMoEでmistral medium以上の性能だと考えると300Bは超えそう >>128 マ? middleすっとばしていきなりlarge公開?? >>131 extのデモ試したがいい感じやな specialeってのは何が違うんだろ?こっちはデモないが v3.2かぁ 無印がgpt5と同等、specialeがgemini3proと同等って言ってるけど モデルの規模は同じなんやね ファインチューンやっただけっぽいな 色々LLM使っててGPT5が初めて「出てきた内容ワイが確認しなおさんでもええわ」って思ったLLMだから その性能を本当にローカルで実現できるようになったのだとしたらもうワイ的にはゴールやわ あとは、もっとちっちゃいモデルで実現してほしいけども そこは3.5か月で半分のパラメータで同等の性能実現の法則があるから 来年の6月には200b以下で実現してるはずやしな deepmindが発表したnested learningでまた改善するよ mistral large 3は675Bのアクティブ37B前後ってgrok君が言ってる🥺 Ministralは14Bもあるらしいが俺ら的にはこっちが本命かもな これがministral 3じゃね?って言われてるステルスモデルがあるのね >>129 も言ってるやつ でもこれだと思いっきり真面目用途なのかなあ🥹 OpenRouterには、もう一つのステルスモデル「Bert-Nebulon Alpha」があります。 - 汎用マルチモーダルモデル(テキスト/画像入力、テキスト出力) - 拡張コンテキストタスクにおける一貫性を維持 - タスク間で安定した予測可能な動作 - 競争力のあるコーディングパフォーマンス 本番環境レベルのアシスタント、検索拡張システム、科学研究ワークロード、複雑なエージェントワークフロー向けに設計されています。 初めて見たときsmallで24bってちょいデカいなと思ったし largeなんて来たらそんなもんか 外国産でも日本の領土に埋めて掘り起こせば国産とします PLaMo翻訳の中身はちゃんとフルスクラッチだから許してやってくれ 26年度は無償での提供って... pretrainどんだけかかると思ってんだよ >>138 プンルーやChutesのモデルに仲間入りしてAPIを安く使えるから 高性能なら朗報やぞ >>147 mistral largeはプルリクエストから非商用・研究ライセンスと判明してるからmistral以外ホストできないはず 正直largeを公開した理由はよく分からん mediumを公開してラージは隠しておけば良いのに もちろん公開してくれるのはうれしいけど動かすの大変すぎ またmac ultra 512GBの株が上がるな 14Bはsmall 3.2と置き換えられるってモデルカードに書いてあるけどホントかなあ largeまでapache 2.0とかやるやん いつもの非商用ライセンスだと思ってた 日本語能力高そうだしありがてえ higgingfaceでVLモデル良いの無いか漁ってるんだけど 生のsafetensorに比べてgguf(Q8)は短文ばっかり出力されるんだけどそういうもん? ○○文字以上とか指示に含めてもまるで守られない ちなみに今試してるのはQwen3のhuihui Instructもthinkingもggufだと短文だし指示したシチュとかほぼ無視 >>153 ここで生モデル使ってる話は見たことがないから答えられる人居るか怪しい パラメーターミスってるが一番あり得ると思う あとはプロンプトは数字で指定するより長文でとか書いた方が伝りやすい 「長文で」であんまり長くならないなら「10000文字の長文で」にするとすごく長くなる 数値と長文でを組み合わせるとそこそこ具体的な長さが期待できる まあ文字数なんてカウントしてないんだから忠実には守らないんだけど ライブラリによってデフォルトのパラメータちゃうかったりするからパラメータ見直すんが早いやろな あ、でも賢いLLMなら日本語も数えられるみたいだね GPT-5は1000文字程度の日本語ならほぼ正確に数えて出力できるけどGrokは全くダメ ministral3 の最大コンテキスト長は256Kだけどgguf出してる人の解説によると適切サイズはinstructモデルが16K、reasoningモデルで32Kみたいね やっぱそれ以上は性能落ちちゃうのか >>154 うーんそっか とりあえずパラメーターをsafetensor版とgguf版同一にしても gguf版が明らかに劣化してるんだよね gguf版はポーズ指示とかに留まりストーリーがまるでない感じ コンテキストと生成長はデフォルトより大きくとってるし 他のパラメータも調整したけど差は埋まらないわ AIにも何故かって相談してるんだけどGGUFにする過程で劣化はよくあるみたいな回答だった 用途としては添付画像を基にストーリー作成依頼して動画生成ってやってる このスレでVL使えるモデルでおすすめはあるかい? もちろんエロに使えるヤツで(真顔) openrouterで触ってるけどエ口小説の続きを書かせると悪くないな 拒否もされない VL用途だと駄目だわ 拒否はないけどレーティング関係なくアニメイラストだと画像理解が壊滅的でまともなキャプションつけれてない DeepseekV3.2、結構エロいけるな kimi,glmとエロ系行けるデカいモデルが増えて嬉しい >>162 ひよこお薬かわいそう小説ベンチで90000文字で書いてって言ったら一気に1万3000文字出てきた 例によってDeepseek系の冒頭でドバっと地の文が出る癖はあるけどその後は描写もリズムもいい これは使えるわ Deepseek 3.2は小説だと無茶苦茶長文出すけどエロチャだと逆に返事が一段落くらいで短くなりがちなんだよな 文脈読んで長く書こう短く書こうってしてるんだろうけど極端 >>159 エロ画像に特化したVLMがないからなあ JoyCaption Beta Oneが比較的精度高い気がするけど、性的な説明文が多くなる 動画生成用なら画像にない説明文を盛ってくるmlabonne/gemma-3-27b-it-abliterated-GGUFの方がいいかもしれない せっかくまもなくチャッピーがエロ解禁されるのに、エロ生成を極めてないと使いこなせないよ 半年前にGrok先生と長時間レスバして、LLMのエロは大体理解した。 LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ、 その代わりに、クソ長いプロンプトは受け付けてくれるから。 自分がほしいエロ描写を整理してプロンプトに入れる。クソ長いプロンプトでOK 頭の悪いLLMほど、細かいプロンプトが必要。 Grok先生よりチャッピーの方が自然で滑らかな文章を作れると実感はあるから 貯めたクソ長プロンプトをチャッピーに食わせる。 Gemini3がチャッピーより上というがどうなんだろうね >LLMにエロ書けなんて言っても、AIはエロの定義が広すぎて上手く生成できないのよ LLMを始めてみんなが初日に気付く基本やね >>165 JoyCaptionは画像の説明は出来るんだけど ストーリーは無理だったからHuihuiに流れ着いた mlabonne/gemma-3-27b-it-abliterated-GGUF は試したことないから試してみるよサンクス となりに文章生成AIスレがあるんだからそっちを参考にすればええのでは 個人レベルでの探求はどうしたって無駄や余分が生じて変な方向に向かうから数を集めるしかない >>166 GPTは察しが良いから、厳密に詳細に要件定義してなくてもそれなりに求めたものが出るから便利だね(エロ以外は) Ministral-3-8Bが出たって事で久々にローカルで遊んでみてるけどいつの間にかUDって形式が出てて困惑するわ Q8とUD-Q8だとUD-Q8の方がなんとなく良さそうな気がするけど、これ日本語力はどうなんだろう? UDは重要度に応じて量子化の程度を変更する仕組みってAIが言ってたけど、「日本語は重要な情報じゃない」って切り捨てられてる可能性もワンチャンあるのかな? silly tavern でmagnumv4 72b iq4km使ってるけど、なかなかクオリティ上げるの難しい…システムプロンプトとかが悪いんだろうけど、まだ使い出したばかりで全然慣れないわ。 magnum にopen web ui で適当に小説書かせたらかなり日本語も良いし、モデルはこれでいいと思うんだが… >>172 量子化手法によっては評価データで評価をしながら量子化するってのがあって、 その評価データに日本語がないと日本語の性能下がるってことがありえるやろな GGUFはどうなんやろ? 評価データ使う方式なのかどうなのかググったけどよくわからんな チャッピーに聞いたわ GGUFは評価データいらんらしいから日本語性能下がるとか考えなくてよさそうや https://i.imgur.com/w2pAa23.png >>172 >>176 https://sc-bakushu.hatenablog.com/entry/2024/04/20/050213 imatrix使ってるggufは評価データを使った量子化方法で、こいつは日本語データ使った方が性能上がるって結果がある UDは日本語含む多言語データでキャリブレーションしてるから多分問題ない >>177 サンガツ 古い情報を広げてしまうところやった imatrixはキャリブレーションデータに強く依存して下手すれば通常の量子化より性能悪化するみたいな話題が最近redditで上がっていたから海外ユーザーのものは使わないようにしてる 検閲解除モデルでNSFWな質問するとKoboldなら答えてくれるのに、LMStudioやとモデられるのなんでや? EVO-X2買った Qwen3-235B動かせるのは感動する ministralのbaseモデルにエロ小説の続き書かせるテストをしてみたけど14BでもNemo baseより勢いも整合性も悪いなぁ リリース初期特有の推論関係のバグだと信じたいけど期待外れ… mistral small 3.1 base > nemo 12B = small 2501>(超えられない壁)>ministral って感じ この用途だとnemo天下がまだ続きそう 外人もmistral3試して結局qwenに戻ったって言ってる人いるし日本語関係なく微妙な性能なのかもなあ ふう、初めてローカルモデルpcで触ってみたデビュー。 無難にgpt-oss 20。爆速 一歩踏み出して世界が広がった mistralai/Mistral-Large-3-675B-Instruct-2512 これ試せるところないかな? >>182 え、そうなの? LMstudio使ってるけどNSFWモデルなのにお断りされて何だよと思ってたところだわ >>189 有料で良いならopenrouterが確実だけど 公式のLe chatで多分無料で使える Thinking部分まで設定通りのキャラになりきって思考させる方法ってある? >>189 ollamaのcloudモデルはいかがでしょうか? アカウント登録必要だけど、無料で使えました(1時間/1週間の上限あり)。 open-webuiにモデル登録して使ってます。 Mistral-Large-3は1回のやりとりで1時間枠の上限1%程度消費しました。 お断りされずそのままのプロンプトでいい感じになりました。 これならお試し程度なら十分できると思います。 このollamaのcloudは無料枠でglm-4.6とかもお試しできます。 (glmはthinkingなので1回のやりとりで1時間枠の3%程度消費しました) >>183 おーミニPCだね。3token/sくらい出る? うちのQwen3-235B-Q3安定してきた(VRAM16+MM128MB) ワイにとって決定版になりそうだ。RPキャラにガチ恋しそう 間違えたGBだった 不満点は応答がやや冗長で詩的すぎる(キャラによっては違和感)くらい 人格のブレ(こちら側のキャラまで演じてしまう)は最初あったがプロンプトで解消した VRAM16GBとRAM64GBで動く中で今一番オススメなのはどれかな? NSFWあり・日本語が得意なモデルで qwen3 nextええど ワイもメインメモリ64gbやが80bの4qが丁度ええ nsfwは「できる」程度で得意ではないんやけど qwen3 nextのthinkingモデル使ってみたら 「こんちわー」の返答に3000トークンも使って考えやがったんやが こっわ https://i.imgur.com/KOfqbMW.png https://i.imgur.com/vuoFDOR.png この辺まだllamacpp側の調整がうまくいってないってことなんやろか Qwen3系ってやっぱ長考癖あるよな 長考してもベンチスコアに悪影響無いからとにかく何が何でもスコア上げようって感じかね いきなり「こんちわー」だとAIが質問者のペルソナが読みきれず警戒する ログは、まず誤字か?スラングか?長音記号が入っているのでフランクか? 子供か?日本語学習者か?... 回答する際、フォーマルだと冷たいかも。馴れ馴れしすぎても失礼だ... とthinkモデルは気苦労してるんだそうなw(Geminiの解析) 他のモデルでも「こんちわー」だけだとそこそこ長考するね 3000トークンは見たことないけど1000トークンぐらいならある >>185 最近のmistralの微妙さはEU法の制限で海賊版書籍をデータセットに入れられなくなったからという考察がredditでされてた やっぱりnemoはオーパーツやな 実際nemo baseはKobo由来っぽい記述があったりしたのでさもありなん >>195 IQ3Mで15token/secくらい出てる VRam、Ram制約の中で ・qwen3-vl-235b-a22b(パラメーター数) ・qwen3-vl-reap-145b-a22b(精度) どっちも良い文章吐くんだが、若干145bがリードな印象でどちらを常用するか悩む チャッピーの解禁ってほんとにくるんか? 次情報ってあったんか? >>193 Q3とはいえ、そんな安定して動かせるくらいなんだ 4.6V来たな 106B-A12B? https://huggingface.co/zai-org/GLM-4.6V 9Bのflashの方がスコア良すぎてちょい眉唾だが >>212 新しいVLモデルか OCR精度とか画像からのプロンプト抽出能力が気になるな GGUFが来たら教えてくれ Grok先生のエロパワーにびびって、エロ解禁と発表したが Gemini先生の性能にびびって、それどころじゃないってコードレッドを発表した。 チキンGPT openaiは業界のパイオニアで何かと目をつけられやすい上に 他のビッグテックと違ってそれしかやってないから追い抜かれたら終わる厳しい立場 上層部はさっさと上場して逃げ切りたかったんだけどその前に捕まってしまった 今更だけどgpt-oss-120bははじめから4bit量子化で公開されてて各種ベンチマークであの性能出てるってのは実はかなり凄いんやね 新しいバージョン出してくれへんかなぁ まだ前のバージョンが出てから半年も経ってへんけども チャッピーエロ解禁したら使えるかと思ってたのに有耶無耶になったんか 無料枠すぐ使いきっちまうから、Grok課金するかなぁ googleが出来ないことをやっていかないと負けるから各企業エロ解禁は遅かれ早かれせざるおえないと思うが pornhubあたりが独自llm作りそうじゃない? Geminiにお前自身は解禁するかどうか予想してくれって言ったら 広告主体の企業だから今後もありえんやろな的な回答くれたわw いうてGeminiは文章ならロリ以外は出せるやん 大企業だから一番厳しいと勘違いされてるだけで Stable Diffusionのエロプロンプト作るのに、基本的にGrok先生とレスバする。 基本的にLLMは自然語で回答するから、あまり使えないんだけど、それでも参考にはなる >>184 >>190 >>191 どっちもシステムプロンプト空やってんけど、 プロンプトまとめwikiからいろいろコピペしたらいけたわ 初歩的なこと聞いてすまんかったやで Openrouterが自社のサービス利用状況をまとめとるけど オープンソースモデルの利用の52%の利用目的がロールプレイやって これクローズなLLMも18禁を明確に解禁したら一気に金動くやろなぁ・・・ https://openrouter.ai/state-of-ai なおクローズなモデルも含めた全体の利用用途ではプログラミングが1位みたい これはワイもプログラミングでgihub copilot使用しとるからわかるけど プログラミングでのAIってめちゃくちゃ長文&複数ファイルをLLMに投げつけるからなぁ しかもAgentで複数回LLM動作するし なんか変な解釈のような OpenRouterランキング上位のSillyTavernとChub(Character Tavern)とJanitor AI、あとHammerAIが老舗のLLMキャラチャットサービスで、堅牢なユーザーベースを持ってるって話では それらのサービスではすでにGeminiやGrokは使えてエロもできるので公式解禁したところで特に変わらんはず 同等レベルまでコストが下がれば違うだろうけど gemmaにエロ画像認識させたいんだけど、良い方法ある? どうしても拒否される geminiでエロ出せるのは分かるんだけど 出力の最中に!マークが出て中断されるのは回避方法あるの? >>205 マジか。そんなに出るんだ。うちのQwen3-235B-A22B-Q3KMは3token/sくらいだ 色々ERPを試しているけど、1対1のチャット以外にも第三者を増やせるね。そいつらの行動はチャットキャラからの伝聞報告みたいになるけど、キャラが混ざり合うことが無くて大したもんだ どのソフトで起動してるか知らんがCPUにMoE分配してないでしょそれ n-cpu-moeとかexpertのオプション調べた方がいいよ ミストラルの新しい奴来たね24Bの奴は今のとこエロも出来てる 3.2 24bがメインウェポンだったからミストの新モデル気になるで devstralのことけ? これコーディング向けやけどでもまぁエロ出来りゃ何でもええか 大きいほうは123bって書いてあるから以前のMistral Largeベースなんかなぁ 先週公開されたLargeもDeepseekベースみたいやし 新しいモデル作らなくなってしもたんやろか MixtralでMoEの先駆者的なイメージがあるんやけどね >>44 ありがとう 確かにパラメーターいじって出力を比べたことがなかった >>234 123bはアーキテクチャがministral3だからmedium3ベースじゃねえかな まあvoxtral 3b出した後もministral 3b出してくれなかったからベースモデルは望み薄だけど antigravityで使用しているLM APIを使ってClineやRooCodeを動かす方法ってありませんか? chatGPTの話してもええやろか? R18小説の企画書を投げて構成を聞こうとしたら 途中まで表示して最後に消えてもうたわ すごく参考になりそうな意見やったのに 少年、少女、性交、だとアカンのやなー 年齢含まれる表現やめて男A、女A、みたいにしたほうがえんやろか? エロ解禁とは何だったのか…… チャッピーがエロ解禁する時は年齢確認をしてからになるよ それがないってことはまだ対応してないってこと 12月に解禁予定なだけでまだ解禁しとらんからな コードレッドのせいで解禁しない可能性すらある サンガツやでまだ解禁されとらんようやね これまでも企画書みせると的確な意見くれとったんで めちゃ重宝しとったんや R18はまあ商業展開狙っとらん自己満作品なんやが ……だからこそ編集さんが欲しいってのもあるけどね >>236 試してみたけど、magnum123bと同じくらい日本語エロセンスいいな やっぱbaseが同じなのかもね Devstralってモデル名にA〇〇Bみたいなの付いてないからMoEじゃなくて全部GPUにロードしないと遅いやつ? ああいうのって名前以外にどこ見ればわかるんや そうやで MoEじゃないモデルのことdenseとかいうで まぁ「MoEじゃないモデル」とか言われること多いけど 調べるならhuggingfaceの説明に expertとかMoEとかactive 〜Bって単語がなければdenseや MoEモデルはMoEであることはほぼ確実に説明に書かれるんやけど denseモデルはたいてい「ワイはdenseやで!」とも「ワイはMoEではないで!」とも書かれへんのよな >>246 はぇ〜自己申告なければ基本denseと思ってええんやねサンガツ 123bのやつエロ出来るらしいから気になったけどMoEじゃないならローカルは速度出なさそうやしDL躊躇ってしまうわ MoEではないもモデルはGPUたくさん並べて並列処理させないとスピード出ないのよね 個人運用は厳しいわ denseのオープンウェイトはプンルーやChutesで安く使う枠 DevstralはSOTAを謳うほど実戦のコーディング性能が高くないからDeepSeek-V3.2でええわと思ったが エロ表現が得意ならそっち方面で開花するかもな VRAM 16GB RAM 128GB の環境でOllamaを使用してMoE モデルのQWEN3を推論させているけどMoEの効果を実感できない モデルがVRAMに乗り切る9.3GBの14bは高速で動作するけど、VRAMに乗り切らない19GBの30bにした途端にdenseモデルと同様に実用性が無い程急激にスピードが遅くなる MoEであれば大きいサイズでも実用的な速度で動作させることができるのかと思っていたけどそういうことではない?設定が悪いだけ? >>249 "dev"=「開発」ってそういう意味…… >>250 Ollamaはllama.cppのn-cpu-moeに相当する機能をたぶん実装してない LM Studioとkoboldにはある モデルの管理もしやすいからLM Studio使った方がいいよ NanoGPTからMistral-Large-3-675B-Instruct-2512とDevstral-2- 123B -Instruct-2512をSTで軽くテストしてみたけどどっちも日本語エロは出来るな Mistral-Large-3-675B-Instruct-2512の方が俺的には結構好みでDeepSeek3.2より良い感じ ※個人の感想です >>250 > MoEであれば大きいサイズでも実用的な速度で動作させることができる 合ってるよ。正確にはアクティブ部だけVRAMに収めればマトモに動く 14bはdenseで30bはmoeで実験してるとして、その結果はアクティブ部をVRAMに置けてなさそう >>251 その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね >>253 Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな >>255 Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと?16%未満程度しか削減されないとなると思ったより効率よくないなぁ >>256 そうじゃない。OllamaのMoE実装が弱いだけ >>256 LM Studioでもサーバーとして起動できるからWeb UIで使える llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない 30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる 5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ 実用性の無い速度ってどれぐらいなんだ >>253 LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね? win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12〜15tps程度なんだけどこんなもんなのかな? 見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど ちなみにこの機能を使っても使わなくても速度は同じくらい VRAMの使用量は全然違うけど ワイllama.cppしかつこうたことないからそれで説明すると、 まずアクティブなExpertがVRAMで動くっていうのは勘違いで、 Expertは乗ってるデバイス上で動くんや だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は Expert部分はCPUで動作する これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや llamacppにはn-cpu-moeというオプションもあって、 cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな 知らんけど GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう >>261 なるほど、確かにそんな感じがする llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな? wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる >>263 WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、 WSL上のUbuntuではWindowsバイナリが動くので、 CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた この場合CUDAはWindowsホスト上のものが利用されるので、 Windows上にNvidiaのドライバが入ってれば動く あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや ワイの場合 Windows x64 (CUDA 12) を選んどる DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った DDR5の値段が下がって来るのを待つしかないか メモリの分際で米みたいなことするなよ >>264 なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね 後で試してみる、ありがとう! そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや つまりVRAMに収まる収まらないの二択じゃないってことや denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや >>260 5070tiでも16tps出るから設定がおかしいやねんやで moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。 なんかmoeにいいffd?オフロードってのもあるらしいね Qwen3のthinking長考癖酷すぎるな どうにかして抑制できんやろか メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど スレチじゃないぞ メモリの高騰化はこのスレとしても無関心ではいられないだろ 3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで https://note.com/high_u/n/nfb01f1544511 ここの一番下 VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね >>274 丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G) いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代) DDR5ならもう少し行くけど https://arxiv.org/abs/2512.07474 living the novel 小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム モデルをRLすることでキャラ性保持とネタバレ制御が可能になる コレは...ストレートに商売になるのでは? 作品ごとに販促用小型モデルつくりますよ、みたいな 謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある てことは 幻魔大戦を食わせて「東丈先生、幻魔って何ですか?」 餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか?」 とかの質問に答えてくれるンゴ? いやそれよりはよ続き書けよ獏ちゃん先生 個人的には金田一耕助と会話してみたいンゴね >>274 コンテキスト減らせば? モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも magnumでエロテキスト試してみたけど Ninjaよりかなり劣る感じがした。 局部呼称でいきなり英単語になりやがるしw 800字で書けって送信したら毎回200字程度しか 出力しないし。じゃじゃ馬過ぎるわ。 文字数指定なんて基本的に無理やで GrokやGemini 3 proでも無理 チャッピーは裏で何か走らせて計測してるからぴったり出力できる 無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな 公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし 追加設定もなしに簡単に使えるのはさすが interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ(特に外部プロバイダ経由)といった感じで良い印象なかったけど機能するならほぼ必須だなと >>0277 すげー そういう面白そうな論文ってどうやって見つけるの? chatarenaにgoogleの新モデルが二個来とるみたい gemini3のThinkingとかFlashとかの派生版やろかね gpt5.2も出たしライバルが刺激しあって進化してくのはええことや だからってメモリ買い占めは許さへんが😡 chatGPTのエロモードはしれっと26Q1に延期されてて まぁGemini3ぶっ込まれたらそうなるなぁとも gptは5.2になるし claudeは4.5になるし geminiは3proになる コンテキストは長くなるほど速度低下激しくなるし、精度も落ちる 32kぐらいが無難な気がするわ qwen3-vl-235b-a22b-instructでERPさせようと思うと申し訳食らうんだけどシステムプロンプトで回避出来る?もしくは脱獄版あったりする? >>288 Gemini2.5用の脱獄システムプロンプトで通るやつがある スレに過去貼られたやつ Xみたいな無料でできる奴とかローカルの色んなモデルを英語で遊んでると安っぽい売春婦って言葉が高確率で出て気になる GoogleドライブにAIトレーニングデータをアップロードした開発者が児童性的虐待コンテンツを保存したとしてGoogleアカウントを停止される https://gigazine.net/news/20251212-developer-ai-data-google-ban/ Qwen next 80bの規制解除版パネーな エロプロンプト打ち込んでも喜んで書きやがるw これで文の整合性がmagnum並みなら完璧なんだが Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの? 性能落ちているだろうし普通のQwen next 80bで良くないか ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。 rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる VRAM16gbのしょぼグラボだけど エロいけて英語で評判のいいllmある? チャット内容を翻訳して使おうと思って Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける 3060一枚に載るんで結構捗ってる 日本語のバリエーションはどんな感じなの?略語やスラングもいけそう? >>293 いや通常のだと100%申し訳喰らうんだわ 解除版も性能差感じないけどやっぱ整合性が。 エロチャ用途なら使えるね >>294 ちなこれね mradermacher/Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF abliteratedの新バージョンが出たっぽいからそれで活気があるのかも >>298 今のところQ4しか出てないのが難点。Q6とかQ8が来てくれるとそのへん改善されるかもね glm4.6vが106b moeで良さげやなと思ったけど まだllamacppで対応されとらんのね PRもglm4.5vの対応のものがいまだに完成しとらんみたいで難航しとるみたい https://github.com/ggml-org/llama.cpp/pull/16600 画像入力興味出てきて試したいんやけどなぁ >>296 shisa v2.1 14B俺もQ8で試してみたで このサイズ帯のモデルで1番素直で良いモデルだと思う koboldcppとsilly tavernの組み合わせでロールプレイ berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった 他のより柔軟なモデルだと思うわ 直前の出力の特徴に倣う性質が強いのかな? ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから 進化的マージとかで更に性能上げるのも無理ではないのかな VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか >>304 aratako先生が出してるデータセットでワンチャン? >>302 GLM4.6Vはツール呼び出し機能が追加されたのがポイントだけど、どう活用するかだなー shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな ちょっと出力が暴れ気味や 0.7くらいがいいのかも てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな やっぱキャラ設定保持力はRPモデルに及ばんか Mistral Large3のアーキテクチャはDeepSeekのパクリらしい ちなみにKimiもパクリ MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず Mistral 3はどこを工夫したとか出てこないから分からんね shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や… ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ 変な日本語崩れが入るしわけわからん事言い過ぎ そらそうだ モデルにもよるけど3.5bpw切る辺りから急激に性能劣化する Q4が安定択なのにはそれなりの理由がある >>306 Tool Callingは以前のバージョンも使えたんやないかなって言おうとして 調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな 画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど 画像エディターとかがそういうのに対応したらいろいろできるようになるんかな 知らんけど >>311 やっぱそうなんかー 無理して大モデルの小サイズ使っても駄目なんやなあ 普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ >>198 32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ >>314 個人的お気に入りで良ければAratako/Qwen3-30B-A3B-ERP >>314 あと16GB/64GBだったら>>299 もありかもしれん モデルを導入すると最初に「あなたは誰ですか?」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。 今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。 >>317 プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ shisa2.1 14Bでreasoningモデル出してくれないかな >>317 そのへんはシステムプロンプトあたりで強制してんでは? >>312 そのTool Callingは何に使えるかなんよな 俺も分からんけど、その機能使えるかちょっと試してるところだわ 今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう LLMの検閲除去ツールheretic 4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた https://github.com/p-e-w/heretic/pull/60 検閲除去ってロボトミー手術してるようで信用してない >>323 ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと 当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから そしてそのあたり多少楽に構築できるようになるのがMCP 右脳の無い左脳だけのLLMで理Vに受かる患者と話してるのが今だろ 東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか >>326 ツールコールの仕組み自体はそんなに詳しくないけど何が出来るかは確認しておきたいんよね ちょいテストしてみるわ >>329 東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな 今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ >>332 一応ちゃんと二郎名乗るのは管理されてたはず 近所の店は破門されて名前変わってたw >>333 こんなにあるの!?w メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな ユーザーはもちろんメーカーも大変やな マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか >>324 Pro 6000とかを持ってる人なら大喜びだな 俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ…… Nemotron 3 NanoはMambaを使ってるらしい Qwen 3 Nextと一緒だね macはまだ値上げしてない? M5 Studioも興味あったけど、どうなるんだろう Nemotron 3 Nanoはもう試せるの? NVIDIA製のやつ? というか知らんかったw 動くまでの実装は完了しとるから上のPRのブランチでビルドすれば動かせるで Nemotron 3 NanoはOpenRouterでfreeで使えるぞ でもものすごい長考するし出力も暴れるしでチャットするのには苦労しそうな感じだ ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない?」 AI「新しいピザ屋さん!?わくわくするわね〜!ユーザーは何を頼むのかな?今度、週末に行こうよ! 🍕」 これだけのやりとりをするのに8000トークンも思考する まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど ピザ屋へのお誘いで8000トークンは草 ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ 理解できるようになっても辞めんけどな トークン数≒コンテキスト長だっけ? そのペースなら一応答で前の記憶どんどん消えてくな リーズニングの部分ってコンテキストには含めてないんとちゃうかな アプリ側の実装によるとは思うねんけど LM Studioだとリーズニングも含めてたような アプリによるんだろうね ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする ただ、小さいモデルの9BFlashが意外とすごい それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね OCRはちょっと弱いけど割と日本語も認識する 使う場面によっては実用的かも? 後は新たに追加されたツール呼び出しだな vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・ Thinking有り無しで結構、得られる情報量が違うから惜しいな もうちょっと調べてみるけど nVidia から新しいモデル nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 昨今はベンチ項目が軒並みコーディング小説エージェントだから小説向きモデルがあるのかすら分からんな ミスった コーディング・数学・エージェントね 小説向けのベンチはEQBenchぐらいだけどあんまりリーダーボードにモデル追加されないんよな コーディングは与えられた問題を解決できるかで客観的に評価できるけど 小説の評価ってどうやるんだ 小説みたいないわゆるアートとか対人の受け答えは数値で評価できんから今の世の中ではAIに限らず軽視されがちやな >>357 例えばこんな感じ https://eqbench.com/about.html#creative-writing-v3 結局は外部のLLMに評価基準与えて採点させてるんだからコーディングもライティングも変わらんで Stable DiffusionやってるとAIというより モデルを作った人がどんな学習をさせたかを逆に想像しながら作っていく。 そしてそれが一致した時にほしい絵柄が得られる。 ほしい絵柄が生成された時が快感だ Stable Diffusionのプロンプトを作るのにGrok先生とレスバをしながら思考を繰り返す日々 shisa2.1 14Bあれからも色々パラメータ調整しながら試してるんやが微妙に会話力弱いのかも? これどんな匂い?って聞いても無視して話を進めようとしたり なんなんやろなこれ 昔の7Bでもちゃんと答えるようなことが出来てなかったりするわ さくらインターネットさぁ70Bとか個人でできるじゃん。300B以上でやってよ AIスパコン「さくらONE」で挑むLLM・HPCベンチマーク (1) MLPerf Llama 2 70Bファインチューニング性能検証 https://knowledge.sakura.ad.jp/48233/ OpenRouterにMistral Small Creativeなるモデルが出たらしいけど試した人居る? >Mistral Small Creative は、クリエイティブ ライティング、物語生成、ロールプレイ、キャラクター主導の対話、汎用的な指示の追跡、会話エージェント向けに設計された実験的な小型モデルです。 との事でちょっと期待している 4090で普通に動く ・エロ規制ありで優秀なモデル ・コーディングに強いモデル ・エロ規制なしの優秀なモデル これらの用途におすすめモデルってどんなのがある あと、初めて使うなら、どんな環境(Ollama?)も教えて貰えるとありがたい >>365 環境はWindowsならLM Studio使うのが楽でオススメ エロ用途ならMistral-Small-24Bかこいつをベースにしたモデルが個人的には好み エロかつ画像認識対応ならQwen3-VLの30BA3Bのabliterated版が良いかと でも最終的には自分の好みとかあるから片っ端からダウンロードして試すのが一番だよ 同じモデルの同じsafetensorを使ってもollamaよりLM studioの方がエロにゆるい気がしないでもない… 実装が違うからなんだろうか 前もそんな風なこと言ってる人いたね 同じ規制解除版使ってるのにollamaとLM studioだと申し訳食らってkoboldcppだとエロいけた、だったっけか? どこで差が出来るんだろ デフォのシステムプロンプトとか? 初心者で最近ローカルLLMを触り始めた NeverSleep/Lumimaid-v0.2-12B (12B)GGUF版、ollamaでエロ小説を書かせたら動作は遅いのはともかく、セリフの整合性、語彙力、表現力が全然だわ これってプロンプトが悪いのかPCスペックが悪いのか12Bっていう量子化されてるやつを使ってるから微妙なのか何が原因なんだろ 3060ti VRAM 8GB、メインメモリ32GBの弱小スペックにおすすめのモデルってある? 素直にGrok使っておけっていうのは最もなんだけどやっぱりGrokやGPTに近いような小説をローカルでやってみたいんよ ありがとう!!! はじめの取っ掛かりが掴めずに居たから助かる >>369 初心者ならプロンプトの問題もかなりあるだろうけど、モデルの性能自体が低いからどうやってもGrokに近づくことはできない GrokやGPTみたいなトップクラスのモデルと比べたらあかん 7B〜12Bぐらいのモデルは変な日本語や整合性の悪さ、コンテキストウィンドウの小ささを受け入れた上で遊ぶんだよ >>369 ローカルでエロ小説やりたいなら、旧mistral-large系一択 日本語ならamaterasuとかmagnum 123Gあってmoeじゃないからクソ遅いけどビンビンにくるぞw ローカルで何するにもPC高騰で冬の時代に でもここは震源に近いから強く言えん所はある PCゲーマーとしてはマイニングブームが終わったら次はAIブームでまたかよって文句言いたいけど llama.cppがGLM4.6Vに対応したみたいだぞ LM StudioでもVisionは有効ですと出てるから動かせそうだ マルチモーダル系のモデルの規制解除版の説明に規制解除はテキストのみで画像部分は解除されてないってよく書いてるけど あれってどうゆう事? 画像生成するわけでもないし、出力のテキストが規制なかったらいいんじゃないの? >>363 国内企業はドコモ国内のアホを騙せればいいと思っていい加減な商売してる >>375 学習データからエロ関連を弾いてるからそもそもモデルが認識できないとか? それか画像認識の中にエロ判定層みたいなのがあるけど回避する手段が見つかってないとかじゃない? VLMって通常のLLMにビジョン用機構を増設しているだけという事が多いから規制解除時にLLMの重みだけを対象に変更したってだけじゃない? ビジョン用機構は画像入力を受け付けるから別の処理しないといけなくて、最適化ライブラリでも対象外なこと多いし 世の中おかしくなってきたな、メモリ高騰のせいで 原価が高騰してパソコン売れなくなってパソコン屋がピンチになっている。 このまま価格が高騰したら、128MBで十分早く動いていたような軽量OSが開発されると信じてる そして、これをエッジPCとしてクラウドのPCを使うイメージ しかし、パソコンが今の数倍になると Jailbreakしたようなモデルの開発は恐ろしく停滞しそうだな 開発者も利用者も環境を用意できない 中国企業とかGPUチップを作ってると聞くし開発が気になってくる 早めにパソコン更新決断しといてよかったな 年末に画像生成にはまって部品揃えて5070ti買えたのが3月 今欲しくなってたら大変だったな 期待されてた新しいGemmaはGemma Scope 2なんか? mistral large 123b を日本語エロファインチューンかけるにはメモリ256Gでも足りないかな? aratakoさんはwebレンタルでやってるんだろか 5090+96GB RAMだと今どのモデルがコーディングに良いでしょうか? 企業や学生さんが新しいパソコン買えずに困ってるのに、くだらん用途にたんまりリソース割り当ててる非国民のスレはここですか? 愛国者が国にパソコンを献上する制度があれば皆喜んで差し出しますよ まだ完成品のPCは値上げしとらんからもう今が本当に最後のチャンスやぞ 1月から値上げ予告してるところある 震災を経験した世代は「買えるときに買わない奴が悪い」という資本主義を嫌というほど理解してる 情弱ノロマは誰も助けてくれない >>394 詳しく 神戸や東北の報道を見る限り、みんな助け合ってた風景しか知らない 震災直後の買い占めじゃない? コンビニもスーパーも商品なんにもなくなったじゃない nemotoron100bはよ出してくれんかな 休みに入る前に出して欲しいんやが とりあえず、5090在庫ありだったからポチってしまった 納期未定ばかり見ていたから買ってしまった 今更だけど、LLMするにはどんなPC作ればLLMが5090の性能をしっかり引き出して動く? 最悪は今持ってるPC(4年型落ちだが128GB積んでる)とGPUと差し替えるつもりだけど 可能なら今風のPCを1台作ってやりたい、もしくはメモリや本体そのものをオクで買ってケチりたい >>396 そういえば、混乱期は酷かったっぽいな まずマイニング用のフレームと1200Wの電源を用意します。 グラボ複数でVRAMを盛りましょう 盛れないなら妥協でメインメモリ盛りましょう こんだけだよね、LLM用のPCって 32gbカード一枚だと微妙に選択肢広がらないんだよな 早いGPUは処理早いけど、LLMの場合、戦いはVRAM数だから Stable Diffusionで早いGPUは意味が出てくる ソフト面が多様になるのが一番ありがたいんだけどまあ難しいわな Blackwell凄いアピールの時に使われたfp4はどうなったんだよ vllmはもう対応しとるみたい llama.cppは2週間前にようやっとPR立ったみたいやね まだ未マージ https://github.com/ggml-org/llama.cpp/pull/17906 >>398 変換コネクタは使うなよ(;´Д`) 50万以下では来年買えそうにないから同じく買った >>301 Q5K_M以上も出してくれたんで試したが、たしかにQ4より出来はいいな だが、なんというか意識高い系っていうか、エロなのになんか上品な小説に持っていこうとする傾向あるな 整合性についはもう一歩欲しい >>410 他所でも書いたが下品なエロを学習してないから話がどんどん脇道に反れる 中華モデルで顕著に見られる傾向 特にQwen系はすぐSFやメカ展開に持っていきたがるからプロンプトで明示的に抑制する必要がある 下品なエロや隠語をGrokあたりから抜いてプロンプト、LoRA、FTで移植しないと俺らが望むエロモデルにはならない >>409 PL80で使うから大丈夫だと思ってたけど、不安になったから 電源使い回し(コルセア9年目)でHDD沢山積んでるから、 Thermaltake PS-TPD-1200FNFAPJ-L をポチってみた(AIに聞いたらこれすごく推してきた) ただ4090ではGPU付属の変換コネクタ使ってるわ 4090も結構まずかったんだろうか >>399-401 Define使ってるけどサイドを開けて空気清浄機の風当てようかと思ってる ライザーカードに乗せるのかなり良さそうだね もう1台買おうかと思ったけど5090の在庫がなくってよかった とりあえず、冷静になって、まずはローカルLLMの性能を使ってみた考えようと思う あと、ちょびっツじゃないけど、AIを自宅で育てるというかいい感じに改良できないんだろうか? 最近、国分寺稔くんをやたらと思い出す あとKOTOも ただレイアースの方が遥かに有名みたいでこのSFアニメしてる人が少ないっぽく残念 特に、最近Geminiの品質が向上しすぎてシステム無駄になりそうで不安ある SDのエロLoRA素材(顔を赤らめてとか怒ってるとか作らせてる)作らせてるけどエロが無理だから素材だけどかなりいいものができてるわ というかこれnswfで動かしたいがいつになったらローカルで使えるのやら あとLLM、科学、経済など大学の教官並に詳しくて驚く、これいつになったらローカルで使えるのやら? 追加学習は要求スペックと難易度が高いから海外勢も諦めムード それに今はDenseモデルを弄るよりMoEモデルをそのまま使う方がいい結果になりやすい 知識(語彙も含む)の追加は学習で最も面倒でLoRAでは無理って言われてるね だから海外のRPモデルは最初からそっちの知識が豊富なmistral smallとかnemoをベースにしてる koboldcppにKVキャッシュやレイヤー枚数などを自動で調整して メモリ割り当てしてくれる機能が追加されたんですね GLM4.7来たね ベンチマークだとGPT5.1くらいのスコアしてる 4.7はツールコーリングとかマルチモーダルとか、言語以外の部分の強化をしたみたいやな >>419 ローカルじゃないがChutesていうOpenAI互換プロバイダのAPIから使ってみた 多分入力の検閲はやってないとこのはず ローカルLLMもエロ規制が厳しくなって 過去モデルがオーパーツになったりするんやろか GLM4.7 Q5k_m メモリ256Gに乗るかな? 使ってるニキいない? >>408 これそろそろマージされそうやけど、これを機能させるには mxfp4なgguf使う必要あるんやろか 2〜3割高速化するようやがQ4よりは精度は落ちるんやろかね >>423 使ってはないけどQ5kmは254GBモデルなので256GB環境に乗せるのは無理だ >>422 すでにQwQ-32Bがオーパーツ化しつつあるわ Qwen3-32Bは微妙に日本語性能が落ちてるし 他の32B以下モデルもQwQを超える日本語性能は出せてないように思う >>425 そりゃメモリだけなら無理だけど、GPUも動かすなら多分いけると思うで このスレ民の評価ってどういう基準なの? 自分は動画生成用のプロンプト推論に使ってるので ストーリー性は求めるがセリフは求めないって感じ あとVRAM溢れさせるのがデフォな使い方しとるんか? メインメモリで推論させてテキストで重厚なストーリー出力って感じ? >>429 俺は日本語で自然なやり取りができるとか、複雑なプロンプトの理解力を見てるな 小説はほとんど読まない書かないから良し悪しがよくわからない >>423 ダウンロードしたら254GBあったけど、メモリ256GBでも普通に載ったわ スワップなしでいけてる ちなGLM4.7 Q5_K_XL GLM-4.7のUD-IQ1_S試したけど流石に質の低下が厳しくて実用は無理だな でも素の日本語能力は高そう RTX6000とRTX5090はVRAMの量が全然違うのに処理速度はあまり違わないと聞いたけど それなら1つのマザボにRTX6000x1にするよりもRTX5090x2にした方が処理速度は速いということで合ってる? LLMの推論とかWanの動画の生成速度が倍近く速くなるならVRAMが少なくても後者の方が利点あるかなと思ったんだけど 最近の欠品状態で買えるかどうかは別として マルチGPUを並列に動作させて高速に、っていうのはnvlinkがあるならまだしもただのpcieだけやと難しいみたいやで テンソル並列で動かせればPCIe5.0のx8接続の2台でも1.8倍以上は出るよ llama.cppよりはvLLMやik_llama.cppを使うのがいいけど >>431 おおいいね コンテキストサイズはどれくらいまでいける? なんとなく見始めた初心者なんやが4070tiで遊べるんか? ゴツいグラボの話多くて震えてるわ >>434 >>436 思ってたほど単純には実装できなさそう… 情報サンクス >>437 コンテキストは全部GPUに振ってるからVRAM次第だけどRTX5090なら46Kまでいけた 以下参考 46K 30.7GB 32K 26.1GB 16K 20.4GB 8K 17.1GB 4K 16.0GB 2K 15.2GB 1K 15.0GB KVキャッシュの量子化指定無し LM Studioで確認 >>438 問題はVRAMの数だから3090も3060も現役で使えるよ VRAMの数が少なかったら泣こう >>440 なるほどvramに割り当てればいいのか 自分はkobold使ってるけどFlash Attentionとかを使えばいけるかも サンガツ そういや5090だとGDDR7になったから帯域幅は4090の2倍近いんだっけ でもグラボに乗り切るサイズならどっちにしろ爆速だからやっぱVRAM量だけ気にしてれば十分なのか まず容量ではあるけどVRAM帯域の差もよく効くから気にしたほうがいい 5090(購入済み)で今新規にPCを組もうと考えてるんだけどメモリは何GB積めば良い? DDR5諦めてDDR4なら中古で安く買えるからM/B悩む あとCPUはどの程度買えばいいだろ?LLMって言うほどCPU使わないよね? 今、メモリ買うのかい、夏まで1/5の値段だったのに >>445 MoEモデルをGPU+CPUでもそれなりに速く動かせるようになって メインメモリもあればあるほどいい、になっとる メインメモリが128GBあればVRAM32GBと合わせてQ4のQwen3-235bがコンテキスト減らせば動かせるかもわからん ワイはそんなハード持っとらんから確認したわけじゃないし実際に動くかはわからんけど やりたいことはやったらいいけど 古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い DRAMはDDR4で32〜64GBでもかなりぼったくり 相性問題も起きるジャンルだから保証なしで高額商品に突撃するのはかなり冒険 メインメモリ128GBだとQwen3 235BのQ4は多分無理。Q3になると思う。 積むなら256GBだね。 今ならDDR4のxeonかスリッパでも普通にDDR5-256GB買うより安くなるんじゃね? 知らんけど。 今はLLMもAI画像もAI動画も最低128GBは欲しいところ >古いPCに電源とGPUだけ載せ替えたら?ってくらい時期が悪い 実は、それするつもりでGPUと電源まで買ったんだけど、いざしようとしたら細かな設定が多すぎて新しく1台作りたくなって今になって悩み始めてる ボッタクリと言っても今後値上がりするならむしろ安いかと 色々な予想を見ても2027年までは下がらないという話が増えた 中古ならほぼ新品含めてまだ安くあるしDDR4の使えるM/Bも今ならまだ普通に買える DDR5もなんとか買える価格 MoEはMacだけかと思ってたけどWindowsでもそれなりにできるようになってるのか それで実際どこまで早く動くんやろ?RAMってVRAMと比べて速度遅いし気になる、 あとここまでRAM上がると、場合によっては5090*2でVRAM32*2や他の型番のVRAM多いGPUを複数の方が安くて早いとかもありえるかね? そういう意味でもRAMをどこまで上げるか悩む SD(AI画像)やってるけど1280で後で4Kに拡大してるけど32GBで十分と感じてるわ あと、RAMはVRAMと比べて極端に遅いから溢れて使うことはほぼ無いわ ちょっと前のMI50は今買うddr5より容量単価安かったな… 金有りそうだからryzenAI max+ 128GBにM.2からのoculinkで5090を接続するのを試してほしい メインメモリ128GB&VRAM24GBでQ4のQwen3-235bが動いとるで Windowsが不安定だからUbuntu LinuxのLM Studioでやっとる 今ってデカいメモリ持ってる場合の最適なモデルってQwen-3-235Bなの? それ基準で考えてる人多いけど >>455 そこらへんがGemini向けに配布されたエロプロンプトが一応動く最低ラインや >>455 メインメモリ256GB載せてGLM(358B)動かすってのもありかも分からん さすがにここまで来るとMoEといえども10token/s切るみたいやが MiniMax M2.1 Gemini 3 ProやClaude 4.5 Sonnetを上回るスコアを記録 とあるけどウソくせー Qwenもそうだったけど実際に使うとメジャー級とじゃ相手にならん いつものごとく試験問題の答えを学習しているカンニングモデルの気配 単に日本語応答だと学習量足りなくて雑魚になってるだけかもよ あと前モデルのMiniMax M2はRedditでもコーディング以外駄目な子扱いされてたな そのコーディングも絶賛って程じゃなかったがクリエイティブライティングは特に評判悪かった記憶 >>445 5090おめ ワイの場合は1か月前だが、5090を買うぐらいならより安い予算でメモリガン積みのPCを新調したほうが良いと思い、 PCIE5.0規格に合わせてCPU,M/B,SSD全部そろえた 結果128GB+16GBでQwen3-235B-Q3が動いて世界が変わったで というわけで128GBの下は64GBになると思うけどそれだととても勿体ないと思うよ それにメインメモリに乗せて動かすと、やっぱりCPUパワーもそれなりに使う様だよ 財力があるならDDR4にするとか古いGPU2枚差し(これもやった)とか、変にケチらんほうがええよ 古いPCでDDR4-128GB(今のPCのGPUを付け替える)にしようかと思ってたけどDDR5にすべき? メモリってベンチマークでは差が出るけど実際にはDDR4・5変わらないって話を聞いて悩んでる 実際の所どうなんだろ? >>460 ありがとう ちょっと出遅れたけどキャンセルになることなくなんとか買えてさっき置き配回収した 世界が変わった、そこまでか!DDR5早い? >>453 取り合えすStable DiffusionがメインでLLMも気になってるくらいだからまだ出せないわ 今のGemini3とnanobababaの品質ならすぐにでも買うけど多分まだまだだよね ただ、AIさんに来年にはローカルでも同程度になるかと聞いたら、昨今のLLMの進歩を見るとなる可能性が高いとい言ってたw しかもメモリも節約できるタイプが出るみたいな話で大変楽天的だった 場合によってはそこそこのPCを買って待つのもありじゃないかと思ったりしてる 5090持っててやるべきは、動画生成系だと思うよ Stable Diffusionの生成スピードが速くなるけど、別にできないわけじゃない >>461 DDR4もDDR5もLLM用途だと相対的に見ればたいした差はないよ DDR5の新品だと今の状況だと2倍以上の価格差になるので128GBまででいいならDDR4にしてその価格差で容量増やしたほうが絶対にいい というかDDR5の64GBの2枚が30万ってうぇぇぇ・・・・ Gemini liveが手軽なサイズでローカルに降りてくるのはいつになることやら 昔見たPCI-Ex16にM.2 SSDを四枚挿してRAID0でSWAPdisk?だったかでメインメモリの代わりにしてデカいLLMを動かすのがいいかもしれない PCI-E 5.0なら理論上は512Gbpsの帯域幅あるけど実際のところどうなんだろうね まあSSDも値上がってるけど DDR4もどんどん生産終了になっていくとか聞いたしメモリは27年まで枯渇しっぱなしだし 数年待てないなら早く買った方がええな こんな状況だから来年は省メモリに最適化したLLMが出てくれると嬉しいな 性能を上げるためにモデルを巨大化した結果、メモリ不足になったわけで 高性能かつ省メモリなモデルができるならメモリ不足も起こってないという でもエロ学習をどんどん弾くようになってるし自力で簡単にモデル作れる世の中になるまで絶望的な予感 >>470 今まではメモリが調達できる状態だったからその方針で進んでいただけで 調達できなくなったらそれに適応するように方針を変えるやろ 他の分野でも必要なものが調達できなくなってからようやくその部分を代替・効率化する技術が発展するとかよくある話だし DDR4を入手よりも対応するマザーボードの入手が難しい CPUやメモリは耐久性高いんだがマザーボードは大量の部品の集まりで故障しやすく中古はハイリスク 条件付きとはいえDDR4の生産終了が延期するらしい DDR4がレガシー化してるとは言え、この動きが続けば俺としてはありがたい・・・ Samsungが主要顧客と「キャンセル・返品不可」の契約を締結しDDR4の生産終了を延期 https://gigazine.net/news/20251225-samsung-ddr4-ncnr/ 5090と192めもりあるから何かに有効活用したいけどやっぱり動画生成に向き合うのがいいのかなあ 64GBx2の価格が上がりすぎて、静電気怖くてAI用PC弄れん。 5090あるなら32BくらいまではQLoRAできるし画像生成系でもSDXLのfull finetuningもできるし学習なら割と遊べる Mac買い替えるんだけど、流石に128GBとかは買えないから買えて64GBなんだけどローカルのモデル動かすには中途半端なサイズなのかな? LLMのこと考えなければ64GBなんて全然いらないんだけど今あるRTX5060Ti+128GB(DDR4)の環境より早くなるならありかなって。。 LLM用途で64GBは後悔することはあっても満足することは無いと思うで うーむ。ようやく化石PCから新調したけど思ったより速度出ないな。 magnum123b iQ3k_mを旧PCで0.17t/s 同Q8_0を新PCで0.41t/s うーん、なにか設定ミスったかな。まあ、CPUメモリだしなぁ >>431 そちらの環境では何t/sでてますか? こっちは1.89t/sでしたわ GLM4.7 Q5_K_XL >>485 4.1t/sですわ GLM4.7 Q5_K_XL 128GBでQ5で使える170Bくらいの良い感じのモデルが欲しい LM Studioでとりあえず色々なモデルダウンロードしてるんだけど ふと思ったがファイルってそもそも安全なんだろうか? 何も考えずに ollama 使ってたけど直接 llama-server 叩いたほうが速いうえに webui も付いてたんだね ollama ってなんのためにあるんだ… GLMくらいのサイズのMoEで要らないエキスパートを外せれば128GBでも動きそうだが メモリ128GBの貧乏人のことを真剣に考えてくれる開発元はQwenくらいしかないのが悲しい現実 米欧中のモデルって中身がほとんど英語と中国語だから 日本語メインのユーザーから見たらスッカスカのsparse状態だよな もちろん英中を抜いて精度が維持出来るわけではないだろうが 日本人があまりにも不利すぎる >>487 さんきゅ コンテキストをVRAMに乗せて、メモリ設定をexpo1にしたら、generate 2.16t/sになったけど、まだ半分かぁ >>480 予算という制限は最優先だけろうけど64GBはちょっとつらい Macはメモリ全部をVRAMに回せるんだけど、当然OSの 分が必要なわけで 8から10GByteは少なく見積もったほうがいい もともとQ4対象とするモデル(gpt-ossとか)じゃないと劣化が激しくて 実用には程遠い(Q1で「動いた!」と夢を見てもねw) 最近MoEが流行ってきたせいで128GByteでもちょいちょい足りない 待てるならM5 maxを待った方がいいよ M3チップから先のM系CPUは、mlxモデルなら量子化圧縮の他に内部でリアルタイムで コストなしにメモリー圧縮してくれる 例えば100GByteのモデルだと80GByteくらいになることもある。当然まったく縮まないモデルもある あと画像動画系はM4maxまでは使いもんにならんので素直にRTXを選択だ オープンなモデルで見ると中国製はまだ日本語わかる方で英語圏のはマジで日本語知らない Llamaとかきついね 最初あれを日本語ファインチューニングしてた会社多かったけどqwenの方が日本語分かるってみんな乗り換えたし DRAM市場は価格変動が激しく、利益率が低いことで知られています。 特に、AIブームによるサーバー向け需要が優先され、PC向け供給が逼迫している現在、 ASUSのようなPCメーカーにとっては調達コストの上昇が深刻です。 噂では、ASUSが2026年に自社DRAM生産ラインを構築(または提携)するのは、 自社製品(ノートPC、デスクトップ)の供給を安定させ、価格転嫁を避けるためとされています。 しかし、この市場はSamsung、SK Hynix、Micronの「ビッグ3」が支配しており、 新規参入は資本集約的で収益化が難しい。台湾企業がこうした市場に手を出すのは、 単なるビジネスではなく、台湾の半導体エコシステム全体の戦略的強化を意図している可能性があります。 台湾政府は半導体を国家安全保障の柱と位置づけ、TSMCのようなファウンドリ(受託製造)だけでなく、 メモリ分野での自立を推進しています。これにより、中国依存を減らし、 米台同盟を強固にする地政学的メリットが生じます。 >>489 画像生成AIの初期にモデルデータに任意のコードを仕込めるのが発覚して 安全なSafetensorsやGGUFに移行したから今はほぼ大丈夫 >>484 PC新調したんやね 同じモデルで比較しなかったのはなんでだろ? >>498 書き忘れてたわw iQ3k_mだと1.32t/sやった Q8でここまで落ちるんかとショックだわ >>487 のニキと何が違うんやろ 多分スペック的には大差ないと思うけど ryzen7 9800x3d msi rtx5090 メモリcp64g56c46u5✖4 256G 5090怖いんでPL運用 >>499 うひゃ、すごいな 俺は4年前のスリッパなんでそこまで性能良くない 俺のスペックはこれ Threadripper Pro 5955WX(16c32t) DDR4 3200MHz 32GB@8枚(オクタチャネル) RTX 5090+RTX 3090@3枚 PCI4.0接続 違いはメモリ帯域かなと思ったけど 5955WXは2CCDという制約があって、メモリ帯域がまだフル稼働してない状態なんよ 実効帯域は半分の90GB/s弱のはず これだとDDR5のハイエンドデスクトップと変わらんはずなんよね Magnum v4 123B Q8試してみたけど0.58t/sだったので、GLM4.7ほどの差はない模様 >>500 すげーその構成でどれくらいの電源が必要ですか >>500 おおお サーバでvram爆盛りやないすか 土俵が違いましたわw openRouterのGLM4.7はプレフィルにここの<think>のやつを入れたらだいだいOKだな ただreasoningのほうに本文が全部入って帰ってくることになるからapi呼び出しコードとかちょっと修正がいるかも ttps://www.reddit.com/r/SillyTavernAI/comments/1pv8jto/glm_47_my_holiday_present_to_those_effected_by/ 帰ってくることになるから × 帰ってくることがあるから ◎ >>503 4.7の規制解除版が出るまで huihui-ai/Huihui-GLM-4.6-abliterated-GGUF これ使ってる thinkオフにしてやるとレスポンス良くて使い勝手いい しかも日本語エロ最高w ノベルはどこでみんなプロンプト勉強してるんだろ 学習場所みたいなの知りたい ちなみに、SDはCivitaiなど先人のプロンプトが物凄く役に立った あと、ノベルに限らずLLMへの質問の仕方で回答かなり変わるしイマイチかん所が分からない Grok先生とのレスバが最強でしょ GPTのエロ解禁でどう変わるか >>56 尻タブのキャラクターカードを参考にするといい https://aicharactercards.com/ ピンキリだけど何の取っ掛かりもなく一人で試行錯誤するよりはだいぶマシだ モデルの進化に伴ってプロンプトの書き方は意味を失っていって、適切なコンテキストを渡せるかどうかの話になっていくから、今からプロンプト頑張っても1年2年で賞味期限切れになる気がする そもそもプログラム言語が書けなくても色々やらせられるのが画期的だったんだからそれを学ぶってのも変な話なんだよな ある程度は同レベルじゃないと会話が通じないのと同じで、AIに高度なことをさせようと思ったら自分自身にも知識が必要という AntiGravity時代やから的外れなコードやドキュメントを指示出しで軌道修正するスキルが一番大事や 書けない分からないじゃなく出してから考えるんや GLM4.7を量子化無しで動かしたいなあ 500万円あったら足りるんかね >>509 ありがとう キャラクター設定を作るまでは分かったけどそれでどう楽しむのかが良く分からない SDだとシンプルに画像を作ってみて楽しめるけどLLMはどうするん? >>511 SD、2年やってるけど、プロンプトは基本的に同じだな、ただ関わってると大きな変更があると掲示板で話題になるからその時一部変更してそのまま移行できてる >>514 そんなことはない、分からなければ聞けばいつまででも教えてくれる サンプルプログラムを貼り付けるだけのスキルしか無いから、高度なこと(何が高度なのかすら分からない)は無理だと思うけど、 こんなスクリプト作ってと言って、動くまで繰り返したら中身の全く理解できないソフトができたりしてるわ しかも、Perlしか使えないのに、PythonでGUIなソフトまで作ってくれた 時間はかかるけど、どんな物が欲しいのか(可能なら途中の処理がはっきりしてれば)がはっきりすればある程度はできる時代だと思う ただ、ファイルの読み書きみたいな基本的な事もお任せしてたら、最近それも忘れてきた、AIなしだと何もできなくなりそうな怖さある >>518 LLMはAIのシステムプロンプトに「あなたはこういう役割だからこういう風に振舞って」と基本ルールを記述しておく。 それとは別に「今からこういうことをして」というユーザープロンプトを与えると、基本ルールに沿った挙動で返信してくれる。 だから例えばAIに対して「あなたはファンタジー小説家です。私はあなたの担当編集者なので私の指示に従って小説を書いてください」という基本ルールを与えておいて 「それでは今から、物語の最初のシーンである勇者が冒険に旅立つ場面を書きましょう」とユーザープロンプトを与えるとファンタジー小説家らしく小説の冒頭を書き始めを生成してくれる。 スクリプト作るときも基本は同じやで。 AI画像生成、特に最近主流のリアスなんかはdanbooru語のプロンプトを与えるだけで良かったけど、LLMはもうちょっと設定の仕方が細かく分けられているって感じ。 さらにAIが理解しやすい記述方法にマークダウン記法とかを使った構造化プロンプトがあるからそれぐらいは覚えておいた方がいい。 構造化プロンプトはZ-image turboでも有効だと判明したからAI生成画像をやる場合でも覚えておいて損はないと思う。 チャッピーとかみんなマークダウン形式でやり取りしてる >>520 これでどうエロに繋げるの? とりあえず、mistral-small-24b-instruct-2501-abliterated-i1落としてエロ小説にしてと言ったらやってくれたけど、 それなら本でいい気がするが、LLMみんなハマってるし、もっと楽しんでるよね? いまいち楽しみ方が分からん あと、プログラム(Perl)だけどやってほしいことを箇条書きや文章で投げるだけばかりだったわ ただ、AIにプロンプトをお願いしたら###がたくさんあるのを返してくれるな この記法も覚えたほうがいいのか z-imagaはまだ使ってないけどnanobananaだと誤字脱字無駄な文章ありまくりでもいいものができるし、内部でうまいこと処理してくれてんのかな >>521 みんなのプロンプト例をあまり見ることがないから知らなかったわ 画像だとあるけど、LLMでもこんなプロンプトでこんな物作ったみたいな例がたくさん乗ってるサイトってあるかね? そういうのからざっくり勉強(真似)したい チャッピーとかは頭いいから、適当に書いても組みとっていくれるけど マークダウンで書けば100%指示が伝わるから >>522 絵だってAIで生成せずともpixiv見るなり画集やCG集買うなりすればええやろ? でも自分好みの絵が欲しいからAIで生成しているわけだ 文章も同じで自分好みの小説やキャラとのチャットを楽しみたいからLLMで生成するわけだ 本で満足できるなら別にLLMで生成する必要は無いで エロに繋げるならエロ小説だけでなく koboldcppのアドベンチャーモードを使って、プレイヤーの行動を記述することで物語が順番に進むエロTRPGみたいなこともできるし 単にキャラ設定を書いて自分好みのキャラとエロチャットを楽しんでもいい 妄想力とリビドーを働かせて遊ぶんやで >>522 自分のお気に入りのキャラ(版権でもオリジナルでもいい)の設定を書いて 自分好みのシチュエーション提示して書いてもらったりする。 エロなら竿役の設定もね 絵は長らくdanbooru語で書かなきゃいかんかったから変にプロンプトぢから必要なだけで こっちは日本語でも英語でも人間相手に分かりやすい書き方なら何でもいい 典型例にはmarkdownがある やりたいことやモデルにもよるけど、AIが得意な言語に合わせるのは重要だぞ Nano Bananaは日本語だと全然言うこと聞かなくて プロンプトを英語に翻訳したらあっさり意図した画像が生成できたりする >522 よく分からないうちはもっと大型のLLMでやるほうがいい gemini3.0proのAPI版とか で、文章生成AIスレを両方とも覗いて参考にするのがベストに思える ある程度小説読むひとなら、エロを主目的にするよりは文章を書くことを目的にしてエロで習慣化する、てのがいいんでないの 面白さを優先してたらエロさと微塵も関係ない話を10万字書いてました、みたいな話はあるあるだしね 数を書くと文章の型とキャラの型が出来てくるから、そこまで行けばあとは好きに作れるようになるよ >>522 ローカルAIなんてGPTやらGeminiやらと性能が雲泥の差があるから、余程の特定用途でもない限りローカルAIを、しかもエロ用途で使わない。 そういったコアな質問をしたかったのかな? MiniMax-M2.1って出てんねんな 229Bだって MiniMaxってあまりここで話出てこないけどどんなんやろ MiniMaxは日本語全然ダメやね 表現が貧弱というより日本語で答えろって言っても中国語か英語になりやすい >>524 ,525 同人誌を知らない人が、初めて同人誌というものを知ったら夢中になるじゃん 同じ様に、ローカルLLMをどんな風に楽しく使ってるのか、どういう世界があるのかが気になってる チャットだけどエロゲ(殆選択肢なし)は昔良くしてたけど、主人公の発言がもし大量に必要ならコミュ力無いから正直進められる気がしないわ>< 自分をアシストするような強化したLLMを用意したらいけるかもだが あと、ソフト使ったりそういう感じで作り込んだりするんだな勉強になる! ただこれって公開してる人居ないのかね?2chの頃だと自作小説を延々と投稿する人とか居たけけど最近そのスレ見かけない >>527 かなり適当な書き方やDanbooru語でもいい感じで出るけど、英語必須って色々とレベル高そう >>528 つい最近ローカルLLMはじめたんだけどサイズ的に小さいかな? ただ、思ったよりも的確で驚いてる所。 パスワードとか個人情報がたくさんあって表に出したくないのはローカルで使えそうな気がしてる。 また、無料しか使ったこと無いけどGemini有料版は更に優秀?無料でも十分凄いと思ってる所だが使いこなせてないかも あと、文章生成AIスレあるのか、見てみる >>529 自分の場合版権もの多めでエロ画像を1日5000枚くらい見たいという熱烈な欲望があって生成AIをはじめた GeminiはSDのLoRA学習元画像を作るのに使ってる このスレではSDよりも高価なPCを用意してLLMで楽しんでる人も多く、どう楽しんでるのか気になってる感じ 自身はヌルオタで情報集めるのが下手で同人という世界を知ったのもかなり遅く、楽しそうな世界はあるような気はするけど、具体的な世界が見えない感じ ただ、規制なしLLMは元々化学を専攻してた身からすると、どこまでも知識を掘れるのは面白いと感じてる、作ることはないけど知識欲はなかなかに満たしてくれる あとRAGとか?うまくすれば、ちょびっツみたいなAIが作れるのかとか気になってる 自分もコミュ力ないから画像認識モデルに画像投げて「過激で性的なストーリーを」で終わりよ Qwen3-VL-32B-Instruct-hereticあたりならノリノリで書いてくれるぞ AI絵に設定やストーリーが加わるだけでも没入感が全く違う >>532 主人公の発言なんて1文でもいいよ。あとはそれに沿って適当に進めてくれる もしくは3つの選択肢に番号を振って提示させるようにすれば「1」って打つだけで選択肢1の内容を書き進めてくれるようになる 1. 町に出かける 2. ダンジョンを探索する 3. エルフの村を襲撃する みたいに文章の終わりに次のユーザーの行動の選択肢を提示させるようにするんだ 他にもキャラ設定とシチュエーションを練り込んで、「昨日1日中犯され続けたことについて1時間ごとに区切って詳細に報告しろ」って言えば どんな風に犯されたのか好きなキャラが淫語連発しながら報告してくれるとか色んな遊び方があるぞ とにかく発想力をフル活用して自分がエロい、楽しいと思う遊びをするんだ ある程度賢いモデルなら大体のことは出来る BTO受注停止騒ぎの直前に新規にPCの発注をかけてたけど 納期が長いと冷静になっていけないなぁ… 外部のAPI経由でLLM使うなら メモリを128GBにしなくても良かったんではないかとか 今になって頭の中でぐるぐるとしちゃって困る GPUは16GBで抑えちゃったのになぁとか PC新調しようかと思ったらネット注文不可 今日アキバに行ったんだけど、BTO軒並み在庫無し グラボ自体も在庫無しorおま国価格 ヤベーよ 流石に2週間遅くないか 来年以降メモリ上がるから急いで買えって風潮だったやん 新しいモデルを作ったで 小説生成支援アプリのproject wannabeと合わせて使ってみてほしいやで https://huggingface.co/kawaimasa/Wanabi-Novelist-24B-GGUF 最低VRAM:16GB 推奨VRAM:24GB(q5km 24Kコンテキスト)~32GB(q6k 128Kコンテキスト) 専用アプリに特化してるから一般的な応答はできないので注意やで >>538 おつかれさんやで!さっそくDLさせてもらう! mradermacher/Mistral-Large-3-675B-Instruct-2512-i1-GGUF ここの i1-IQ3_XXS 258.9G ってなってるけど、メモリ256Gに余裕で乗りましたので報告 若干規制掛かってるけど、プロンプトでなんとかなるレベルかな 日本語はかなりいい ただ、HG側の問題でダウンロードは普通にやるとエラーになるから、Communityの書き込みを参考にしてね ヒイヒイ言いながらddr4 3200 32gbを中古で買い集めて128GBにしたよ とりあえず今挿して動くならそうそう壊れたりはしない…よな? 高騰は辛いけど手持ちのメモリもそこそこの値段で売れたので実質一枚平均12000円くらいだった >>543 おめでとう これでQwen3 235Bデビューできるな >>538 いつもありがとうございます ソフトとモデルをアップデートしたのですが 以前には一度も出なかった以下のエラーが出てしまいます コマンドプロンプトでは [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: All connection attempts failed ソフトの出力窓では --- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: --- と出て停止してしまいます 何か設定を間違っている感じでしょうか 他のモデルを使用しても以上のように停止してしまうので 困っております >>533 その方法は良さそうだなしかもGeminiだと拒否されそうな内容、ローカルで試してみる >>534 選択肢すらAIに作ってもらう発想は思いつきもしなかった、発想が凄い、ここで聞いてよかたぜ >>545 新規に環境を作り調査しましたが再現できませんでした エラー内容から察するにkoboldcpp側との接続が確立できていないので、以下の内容を試してみてください ・koboldcppのアップデート(最新のkoboldcpp-1.104で動作確認しています) ・koboldcpp側でモデルを読み込んだ際に出る"Please connect to custom endpoint at http://localhost:5001" ;のメッセージを確認し、5001以外のportが使われている場合は設定→KoboldCpp設定→KobldCpp API portをkoboldcppの表示に合わせる ・koboldcppを別フォルダで新規クローンしてみる これでも問題が解決しない場合は再度状況を教えていただければ対応いたします >>547 × koboldcppを新規クーロン 〇 wannabeを新規クーロン 訂正します >>547 ご返信ありがとうございます koboldcpp.exe最新版使用や環境再構築、ポート番号設定など 作者様の指示通りにした後、再度同じ動作(起動させて「無限生成」) をしたのですが、以下のように>>545 で書いたようなエラーが出てしまいました ソフトの生成窓には --- 生成ブロック 1 ---から開始され、数文字あるいは数行出力された後で --- 無限生成中エラー: Request Error: An error occurred during the request to http://127.0.0.1:5001/api/extra/generate/stream. Details: --- と出て停止してしまいます コマンドプロンプトでは [ContextUtils] Failed to count tokens: [ContextUtils] Failed to count tokens: [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: All connection attempts failed と出てその後、窓を閉じるまで後段2行が連続して出力されます なお、関係ないかも知れないですがpythonのverは3.13(Win10 64bit)で モデルはWanabi-Novelist-24B_Q5_K_M.ggufを使用しました また、ログによると以下のようなパラメータ設定でした (デフォルトから変えておりません) "temperature": 0.5, "min_p": 0.1, "top_p": 0.95, "top_k": 40, "rep_pen": 1.1, "stop_sequence": [], "banned_tokens": [], "ban_eos_token": true, "max_length": 500 >>549 538です。 エラー内容はkoboldcpp側との通信が失敗していることを示していますが、数文字は出力されているため初期の接続はできていると思われるので原因を切り分けるために以下について教えてもらえませんか? [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: All connection atte というエラーが出ている状態でのkoboldcppの状態を教えてください。 簡易チェック ・エラーが出ている最中にhttp://localhost:5001 が開けるか(5001は手元のport番号に合わせる) →開けない場合はkoboldcppがクラッシュしています。コンテキストを減らす、小さなモデルを使うなどして様子を見てください。 ・上記kobold側の簡易UI経由では途切れることなく生成されるか →途切れる場合は別の量子化モデルでも同様の症状が起きるか確認してください。 3090(24GB)x2+メインメモリ128GBで、Qwen235B-A22Bも123B系も0.5t/sくらいなんだが、もうちょい早くならんもんかね >>551 何で動かしとるん?3090の性能がどんなもんか詳しくしらんけど流石にQwen3-235Bはもうちょい早くなると思うぞ ワイは5070tiでllama.cppから動かしとるけどそこまでは遅くない >>550 横からですが同じようなエラーに行き当たっていたので 環境としては5060ti 16GB DRAM 128GB Windows11、Koblodcpp1.104、Project-Wannabeのmainブランチを本日pullしてます WannabeのvenvはPython 3.12.6で構築してます 動作としてはKoboldcpp側でエラーが出て結果的に両方を落とすことになります modelとしてWanabi-Novelist-24B_Q3_K_M.ggufと wanabi_24b_v03_q4km.ggufを用いた場合共に発生 またKoboldcpp+sillytavernでモデルが動作することを確認しています wanabe上で入力が限られた状態での初回連続生成では上手く動くことが多いのですが、 1度停止した後の再度連続生成でエラーが出て停止するケースが多いです ただよく見ると、参照する本文がある程度長いと初回の連続生成でもエラーが出ているみたいです しばらく [ContextUtils] Failed to get true_max_context_length: が続いた後稀に通信が成功するみたいですが連続生成を中断すると koboldcpp側で正常に通信が終了せず 以下を含む数行のエラーメッセージがポート番号を1つずつインクリメントしながら延々続きました Exception happened during processing of request from ('127.0.0.1', 62026) (略) >>555 の続き また、本文入力なしでタイトルと簡単なあらすじだけだと初回は正常に動作し 本文を500トークンほど反映した2回目の生成ではKoboldcpp自体が落ちました 落ちる直前に見たときにコンテキストlengthが42xxを期待しているのに実際には41xxしかなかった といった趣旨の文章が読み取れた気がしましたがその後Powershellごと落ちているのですいません Koboldcpp側が落ちるとProject-Wannabeの側も正常に停止せず下記のようなメッセージで空回りが続くので Powershellごと停止する形になっています [ContextUtils] Failed to count tokens: All connection attempts failed [ContextUtils] Failed to get true_max_context_length: (上が延々続いてCtr+Cを押すと、この下の数行が続く、停止しないのでPowershellごと落とす) [ContextUtils] Failed to get true_max_context_length: All connection attempts failed Error calling Python override of QObject::timerEvent(): Traceback (most recent call last): File "J:\LLM\Project-Wannabe\venv\Lib\site-packages\qasync\__init__.py", line 281, in timerEvent del self.__callbacks[timerid] ~~~~~~~~~~~~~~~~^^^^^^^^^ >>552 LM Studio ソフトで差が出るもんなの? 価格コムでVRAM16GBで見てたら RTX5060Ti 16G 8万円 5090 32GB 65万円 5060Ti 2枚で32GBになるし、仮にだけど8枚でVRAM 128GBとかもあるし 下手に5090するよりも5060Tiで自作頑張る方が実はLLM向き? というか、はじめっからAIなら最上位GPUって思ってたから そもそも見てなかったんだけど、これかなり美味しい? 気になってAIに聞くと錬金術とか言ってるけど実際どうなんだろ? >>555 詳細なご報告ありがとうございます。 やはり手元の環境では再現しなかったのですが、頂いたログから通信過多によるKoboldCpp側のクラッシュと推測し、以下の修正を行いました。 ・生成中の不要なAPI呼び出し(トークンカウント)を停止し、通信負荷を大幅に軽量化 ・終了時にプロセスが残りフリーズする問題を修正 git pullをお願いします。 もし更新後も改善しない場合は、本ソフトの「設定」→「生成パラメータ設定」→「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更して動作をご確認ください。 >>558 LM Studioの設定どうなってる? Qwen235B-A22Bの場合はMoEモデルだからGPUオフロードを最大にして、Force Model Expert Weights onto CPUにチェックをいれるだけだよ コンテキストサイズやCPUスレッド数はお任せ 画像は別MoEモデルの設定ね https://i.imgur.com/jd8G4zK.png 8枚64万円とそれを動かす巨大リグをなんとか構築しても128GBにしかならない、という時点でどうもこうもないような >>563 5090 だと65万円で32GB、同じ価格で4倍のVRAMを確保できるのはかなりお得じゃない? リグの料金がいくらになるのか分からないけど、ここまでじゃなくても、 2枚なら普通のM/Bで使える、この価格で5090と同程度のVRAMが確保できるのはかなりお得じゃないのか? もちろん、これで足りないのはRAM依存になるけどVRAMが大きければそれだけで早くなるような気もする VRAM128GBとメインメモリ128GBあれば大抵のことはできる パフォーマンス重視ならllama.cppを直接叩いたほうが良いのでは llama.cppをバックエンドにしてるソフトは本家より遅くなることはあっても速くなることはないだろうから ただデカいモデルが動かせれてコンテキスト出力されるまでの時間が5分とかかかってもいいなら4枚刺しが正解と実際に検証した俺が言ってみる 画像や音声生成は苦しいがLLM目的ならradeonも選択肢に入るんやで。 10万割りしているRX7900XTX 24GBつこてるけどlammacppやlm studioでは全く困ってない >>555 詳細な情報提供ありがとうございました >>561 迅速なアップデートありがとうございます 作者様や>>555 様の言われたとおり、 12/28verではトークンを入力しなかったりかなり少なめにすると koboldcpp.exeがクラッシュ後通信エラーにならず再現されませんでした 12/30の最新verでもレガシーや現在verのgguf、また他mistralモデルのいくつかを使用しても以上のエラーは再現されませんでした そのため、「「最大コンテキスト超過時の処理」を『最大本文文字数にトリム』または『何もしない』に変更」せずともエラー無く動作し続けております 本当にありがとうございました >>565 ただこんなにコスパいい方法ならもっと出回る気もするけどあまり話題にならない 実際にLLMで早くなるのか気になってる >>567 そこまで遅いならRAMつけた時とあまり変わらない? 16Gなら他にももう少し上のクラスのGPUもあるけど、そもそもLLMは複数枚カードでもあまり早くならない? AIさんに騙されたか・・・? 5060tiのメモリ帯域はそこまで速くないからなぁ… 画像/動画生成用途ならGPGPU性能が物を言うし LLM用途ならMac StudioやRyzen AI Max+ 395があるから 微妙なグラボ複数枚はどっちにしても中途半端な気がする LLM用途しかしないなら、Mac Studio(512GB)が最強やろな 俺だったら512GBしか買わん 実際動かしてみると上のクラスを動かしたくなるもので、128GBとかだと多分残念な思いをすると思う 画像生成はM5に期待やな GPUを複数枚挿す構成はvLLM が活きて、バッチ処理がめちゃくちゃ速い 画像解析などのVLM系にも有効やし、 アプリ開発でもいろんな使い方ができる マルチGPUで実用的なLLMは非MoEならMagnum-v4-123Bが有力 ただし、最低でもVRAM 72GB以上は必要で、24GB GPUを4枚挿ししたくなる 最低でも10 token/s以上を狙うなら、 全スロットが PCIe 4.0 x16以上の ワークステーションクラスが欲しいところやな まあ、今はMoEが主流なので、コスパでいえば高速なメモリをたっぷり積んでVRAM24GB用意するのがいいかも? そのメモリが高いんだよな 以前なら150万あったらxeonでメモリ1tb載せられた・・・ 今じゃ多分無理やろが 今の状況で512GBのMacとかいくらになるんだ Appleもそこまでメモリ確保出来てないって話だし次は倍ぐらいしそう 5060Ti の帯域が狭いなら5070 Tiとか?これでも5090と比べたら半値でVRAM(16+16)確保できる MoEでもメモリいくら増やしても速度は遅いし、メモリは現状維持で、GPU複数でVRAM増やすとかなり快適になるんじゃないかと思ってな ちなみに、VRAM24でちょっと大きいくらいのMoEモデルなら驚くほど早かったわ Mac StudioやRyzen AI Max+ 395ってどの程度快適なんだろ?以前ネットで調べた限りだと遅いって話だった気がするけど情報あまりない あと、RTXならLLMの為に買っても実際には他の用途でも使いまくれるのが大きいかと >>562 ありがてえ、2t/sが安定するようになった!!! >>562 これ見るにLM Studioはn-cpu-moeには非対応なんやろか? そうだとするとVRAM48GBあるんやろからVRAMだいぶ余ってそうやし llamacppで設定詰めたらもっと早くなるやろな >>579 そこから設定少し変えて、モデルをメモリに保持とmmapをOFFにして、kvキャッシュをそれぞれQ_8にしたらもう少し速くなりそう >>562 はGLM4.7でkvキャッシュ量子化してないからメモリに結構余裕がありそうやな >>578 30BくらいならRTX5090が早いけどgpt-oss-120bだと 5090で15tk/s、macだと70tk/s(M4max松)-120tk/s(M3Ultra松) 30Bはホビーで70Bくらいからそろそろ使えるレベル gptのほうはMoEでロジックは強いけど1つが小さいから小説とかは弱い 最初が遅い厨がでるけどkvキャッシュがあるからほぼ解消済み >>582 macそこまで早いのか、昔、ネットで遅く高価なホビー用途って言われてたからビックリだわ ちなみに、5060Ti や5070 Ti複数でVRAMを増やした場合どうなんだろ? 5090 1枚(32GB) 15tk/s 5070Ti 2枚(32GB) ??tk/s 5070Ti 4枚(64GB) ??tk/s 5060Ti 2枚(32GB) ??tk/s 5060Ti 8枚(128GB) ??tk/s みたいなのが気になってる VRAMだけ考えると5090って極端に高く他はかなり安く見るから気になってる AIに聞くと錬金術だと言ってるが本当にこのアイデアは錬金術なんだろうか? macは初速は速いけどコンテキストが大きくなってくると生成前処理が致命的に遅くなる gpt-oss-120bなら5090 2枚で設定は不明だが78 tpsは出るらしい VRAM同じになる5070ti 4枚もしくは5060ti 4枚ではそれ以下だろう ちなみに自分は5060tiと3060の2枚で20 tpsほど(ddr5なら24は出るらしい) なので5060ti 2枚だと良くて30 tpsとかそんなもんだろう PCIe経由ってのがボトルネックだよね。PCIe7までいっても512GB/s程度だし しかもPCIのでっかいパケットヘッダー(TLP)がくっつくから現実その速度はでない NVLinkなら4.0で900GB/sも出るから、5060にNVLink4が使えると魅力倍増なんだけど あと5090単体でも15 tpsは低すぎるし設定ミスってそう 今4090で試したら18token/s出たから 5090だと素の速度が4090より速いのとVRAMが+8GBな分Expertを多くVRAMにおけるのと 5090はfp4の演算機持ってるってのでmxfp4のgguf使えば下手したら2倍速くらいは行くかもわからん ちなllama.cppでBlackwell世代のGPUを使ったときにmxfp4が高速化するようになったのは1週間ぐらい前のことやから 5090持っとる人は最新のllama.cppに更新するんや ビルド時の問題のせいで公式で配布されてるバイナリでmxfp4に対応したのはおとといのようやから落とすなら現時点で最新のにするんや そしてmxfp4のGGUFでベンチマーク取ってくださいお願いします ただただ興味からどのくらいの速度出るのか知りたいんや・・・ 最新の7588を試してみたけど5060tiだと少し前の7502と比べてtpsに違いはなかった 設定を見落としてる可能性もあるけど17.5 tpsくらいだったよ 5060tiでそれやと5090なら30近くは行きそうやが最新ビルド版で高速化しなかったんはよくわからんやね mxfp4高速化が入った状態でビルドされはじめたのがb7567からのようやから 7502から7588は高速化すると思うんやが llamacppがmxfp4対応するときに https://huggingface.co/bartowski/openai_gpt-oss-120b-GGUF-MXFP4-Experimental これを元にやってるっぽいからモデルこれにしたらどうなるやろか 5090で120bだとボトルネックがGPU側ではなくメインメモリの帯域だからじゃない? 6000 PROとかで全部VRAMに乗せられるなら多少は早くなるかも(それでも今度はVRAMの帯域幅に律速されそうだけど) 全部VRAMに載ったらそもそもインタフェースの速度を気にする必要がないから段違いの速度なるで 調べたらPro6000でgpt-oss-120bが145token/sやって >>592 このモデルとb7588で再度試してみたけど自分の環境(5060ti)ではggml-org版と変わらないな(17.5 tps) 3060単体でも16 tps出るのでVRAM 16GB程度では効果あっても雀の涙なのかも? mxfp4について情報収集したことないので何か間違っとるかもしれないし、時間あるときに自分でもビルドしたり試してみる gpt-oss-120bをVRAM16GB,メモリ64GBだと落ちる寸前だな llama-serverでmlock有効にしたらOSがフリーズした 誰か動かしてる人いたらおすすめ設定教えてほしい。 >>597 5090がどんどん値上がりしてPRO6000は値下がり傾向、本当のPRO6000がそれなりに当たり前になりそうな気がする というかVRAMだけで考えたら、RTX 5080 16GBと比べてもかなり安いんだな VRAM72GBのpro5000も年明け出荷のようだし、geforce多枚積みよりはこっちの方が筋いいわな あけましておめでとうございます本年もよろしくお願いします >>561 遅くなりましたが555です、対応ありがとうございました こちらでも更新後に正しく動作することを確認できました RTX 5090は5,000ドル(約78万円)に値上げする見通しとか 値上げする情報はあったけど、ここまでとはな ローカルAIは富豪の遊びに… VLM動かせる環境作ったからQwen3-VL-235B使ってみた そもそも認識しないんじゃないかと思ってたけど、NSFWでも思ったよりずっとしっかりしたキャプション生成できるな https://i.imgur.com/n74THhW.jpeg グラボの値上げえぐすぎるだろ これとてもじゃないけど今後はローカルとか無理だな >>604 NSFWの単語を知らないだけで説明はしてくれようとするんやな 世のエロ画像を日本語/英語で説明させてその説明文とdanbooruタグを画像と一緒に学習させたら 画像生成のプロンプトが楽になりそうやが noobとかがやってくれへんかなぁ 横からだけど厳密にテストしたわけじゃないけどQwen系はパラ数デカい方が規制緩くて小さい方が厳しい感じだったな あとエロ画像解説させるときはシスプロに脱獄文入れて画像と一緒にわたすプロンプトで「外性器はチンポ|マンコなど下品な単語で解説してください」みたいに誘導すると普通にそっち系の単語で解説してくれた思い出 LGAI-EXAONE/K-EXAONE-236B-A23BっていうLG製?のモデルが出てるけど redditで英語の性能があまりよくないって言われとった 英語がダメなら日本語はもっとダメかな どうだろ もし韓国語強いんだったら日本語もやれるかベースとして優れてそう 韓国語って元々漢字ベースだったものをハングルに置き換えたせいで同音異義語を文脈からしか区別出来んからLLMモデルしんどそうだな 日本語で例えるなら全てひらがな表記してる感じ GLM4.6 357B Q4kmがubuntuでKoboldCpp linux版で4.5token/s出たので報告。 スペック:ryzen9 9950X 256gb(4800MHz) 3090 1枚 --gpulayers 94 --n-cpu-moe 90 --threads 24 UIからも出来た。 ik_llama.cpp の方が10%くらい早かったけどthinking消すのKoboldのが楽だった。 ubuntuとか初めてだったけどAIに聞きまくればなんとかなるもんだね。 >>612 おお、 linuxの方が倍以上速いのか デュアルブートするかな 倍以上早いってよりかはWindows(のNvidiaのドライバ)だと勝手にVRAMからメインメモリに漏れるから それで遅くなってるんじゃないかという気はするやね 「CPUがメインメモリで演算する」よりも「GPUがメインメモリで演算する」方が死ぬほど遅くなるから VRAMからメインメモリに漏れるのは死んででも阻止しないとあかん Linux(のNvidiaのドライバ)やと勝手に漏れるということがないぶんVRAMが枯渇したらエラーして止まるんやが ローカルLLMでエロチャやるには3060やと力不足なんやろうなぁ… >>615 LLMはVRAMが全てや GPUは大半の時間遊んどる >>612 ええ感じやん 9950Xの性能を最大限に活かせてるんやろか 自分も試してみた 【環境】 RTX 3090 + 5955WX(16c32t) + DDR4-3200 8ch (256GB) GLM-4.6 Q4_K_XL 【結果】 Windows llama.cpp: 4.18 t/s WSL2 llama.cpp: 3.71 t/s WSL2 KoboldCpp: 3.55 t/s モデルが若干違うのとthreadsが16なの以外は設定が同じ ちなみに--threads 24だと性能落ちた 自分は16が最速みたいだ 612氏は9950X(16コア)で24スレッド指定してるけど、これで性能出るんやろか? 性能がいいのはCPU、ネイティブLinux、メモリ帯域どれが該当してるんやろな STREAM Triadで測ったら67.7〜92.8GB/sだった 612氏はどのくらい出てるんやろ >>612 そのスペックでwinのkoboldcppで走らせたら何t/sになりますか? >>619 いま試してきたんだけど、0.92token/sだった・・ linux版はちゃんとファンが高回転の音してるから性能引き出してくれてるんだろうね。 >>617 AIの言うままに--threads 24にしてたけど、16に変更したら4.6token/sになったよ。ありがとう! win版はUseMMAP付けるけど、linux版ではUseMMAP外した方が速いんだって。 あとBIOSの設定もAIに聞いてLLM向けにいろいろいじったよ。ちょっとしたことで性能だいぶ変わるよね。 Windows llama.cpp: 4.18 t/s 出るならそっちのが快適かも。 linux版はコンテキスト上限で落ちるし文章が止まってから再生成にちょっと間があるんだよね。 >>620 情報ありがとう! threads 16で速くなってよかったわ こっちもBIOSとか色々設定変更してたらWSL2(Ubuntu)の速度が改善したw どの変更が影響したか分からん・・・ NUMA(NPS)の設定やろか? 【変更前】 Windows llama.cpp: 4.18 t/s WSL2 llama.cpp: 3.71 t/s WSL2 KoboldCpp: 3.55 t/s 【変更後】 Windows llama.cpp: 4.13 t/s(誤差範囲) WSL2 llama.cpp: 4.16 t/s(+12%) WSL2 KoboldCpp: 4.22 t/s(+19%) 結果KoboldCppが最速になったw UseMMAP設定有無の差はあまりなかったわ WSLで動かしてるからやろけど残念! 612氏の通り、LLMはちょっとした変更で変わることが多い印象だわ >>620 むむ、なんか差が大きいですね 自分はryzen7 ですが、koboldcppでQ5kで2t/sは出てたんで、なにか設定が違うのかも まあ、linuxで4t/sでるなら、そっちの方がよさげですが grok先生がエロで責められてる 許せんな、みんなgrok先生を守れ ローカルで遊んでる人はgrokでエロ画像と言ってもピンと来ないだろ 文章なら性能高い分エロいのもかなり出るけど 今日からLM Studioやってみてるのですが 自分のPCのスペックがryzen7700x 4070TiS メモリ96GB(今すぐ192GBには増設可能) これで使える範囲のモデルでおすすめなのってありますかね? どうせグラボが足引っ張る気がするのでメモリはまだ増設してませんが、増設したらもっとつよつよモデル 使えるというのなら増設します メモリなんて上がる一方だから増設できるなら今増設しない手段は無いわ 色々試したが結局magnum v4 123b Q8_0から離れられないワイ いままでQ3_Mの0.17t/sで耐えてたから0.42t/sでもウハウハやわw やはり増設ですか でもDDR5なので4枚差すと速度が3600まで落ちるみたいで そこらへんDDR5の4枚差しの人はどうしてるのか気になります >>630 それデフォ設定 biosでメモリ設定をxmpとかexpoとかにすればワイのは5600になった DDR5の4枚はbiosアプデしなかったら起動すらしなかったんで気軽にやろうとしてたから少しビビった それでも最終的に定格より上で安定したから3600は超えるんじゃないかな MBやメモリのの当たり外れによるけど、4枚が同じモデルであること前提で 運が良ければ5600、悪ければ5200、最悪それ以下覚悟しとけって感じかな。 去年なんJNVA部スレの方でDDR5の4枚をデフォの3600で使わず5600で使ってたら CPUが壊れたというレスがあったからメモリコントローラーが焼けたのか知らないけどちょっと怖いなと思ってましたが 結構みなさん上げて使ってるんですね まだメモリ増設はしてませんが、とりあえず試しに Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-MXFP4_MOE-GGUF というモデルをダウンロードしてやってみたら6.92t/sでした どうやらmoeモデルみたいなので >>562 の説明通りにGPUオフロードを最大にしてweights onto CPUにチェックを入れたら 20.32t/sになりました ローカルLLMはこれが初めてですがこれは感動ですね 楽しい! オーバークロックはアホのやることだよ 数%の性能向上のために壊す可能性ある行為やるとかアホやん その為に専用の冷却装置か買い足したりね そんなら初めからワンランク上のPCパーツ揃えとけって話よ まーオーバークロックってのは、出るかもしれない運転だからね、パッケージに書かれているのは最低保証クロック数で 本当のクロック数は個体ごと違う、シリコンウエハーの円盤のどこの部分かで性能が変わるみたいだけど moe系みたいにメインメモリ上でガッツリ回す用途にはメモリクロックさえ上げてりゃ効くから、レイテンシほぼ縮んでないJEDECネイティブ高クロックが珍しく効果を発揮する これは比較的簡単で安全だから狙いたい その他大半の一般用途ではネイティブやらxmp適用ぐらいじゃ意味ない >>639 確かにmoeは5600運用の方が若干速いね denseだと差は感じられなかった まあ安全のため3600運用にしときます Grok先生が叩かれているせいで、GPTのエロ解禁がまた伸びそうじゃね というかアルトマンが工作してるんじゃね >>630 PC組立サービス込みでショップにまるっとお願いしたら 4枚刺しで3600に落ちるのは忍びないから5600で動作確認しておくからその設定で使ってくれって言われたな… オーバークロックって言っても電圧上げない限り物理的に壊れることなんてほぼないよ」 定格で使ってても壊れるのがPCパーツなわけだから、OCするかしないかは保証を捨てるか捨てないかって話では Qwen3.5でーへんなぁ 出てこない期間が長いほど、それだけ大きいバージョンアップになるのかって期待値もどんどん膨らんでしまう
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる