なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★6 https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ chatbot arenaは1000tokenくらいが限度だから英語やpython自体は達者、短い用途なら達者という可能性はあるような 人間が評価すると高速な出力で簡潔に回答するLLM(総じて小さなモデル)が過大評価される問題は以前から指摘されてる chatbot arenaの利用者の大半は簡単な質明しかしておらずモデルの性能差が出るような質問は出来ていない 教師モデルのベヒーモスがまだ未完成らしいじゃん そこから蒸留するはずの下位モデル先にだしてるのがよくわからんわ >>359 cursorとかclineみたいな使い方をするときのベンチマーク アリーナだとプロンプトが違うんじゃないかってのと そもそもモデルが違うんじゃないかって話が出てるね あり得るのはベヒーモスをマーヴェリックと偽って回してたとか? 公開モデルやからこれからは公開版が正式名でちゃんと回るはずやね それがランクインするの待てばええでな はじめてマルチモーダルモデル(gemma3)使ってるけどこれって新しい画像読み込ませるたびにプロンプトを一から読み込み直すのか… 生成がかなり遅い;; それに複数の画像がある状態で「次の画像の解説をお願いします」って言うと前に解説した画像の情報もプラスして、ごっちゃに解説してる感がある 単独の画像解説だと問題ないが… 上位のモデルだとQ2とかでも12Bより頭いいんだねもっとわけわからない反応返ってくると思ってたわ 量子化してファイルサイズ削ったあとのものが具体的にどんな程度のアタマノヨサなのかの判断は人類には無理だからな 実際に使って実際の問題にぶつけてみるしかない さあ全部ダウンロードして試すんだ Chatbot Arenaで2位を取ったのはLlama4をチャット対応に最適化したバリアントモデル、という話が出てるな バリアントモデルも一緒に公開してbaseとllamaChatですよと言えばそれで済む話だったのになぜこっそりやったんだろう baseとInteractionモデル両方公開するのは多くのモデルでやられてるしllamaもそれすればよかったのにね 予想より公開早かったしもしかしたら公開の仕方ミスったりしてるのかもわからんね まぁまだ予想だから分からんけども GPROで推論機能を発現させたChat専用本命モデルを用意してる最中で、 4月末のイベントで発表します、とかならワンチャンあるかもしれない QwQ-32B-ArliAI-RpR-v1試してみたで Q5_K_Mが22GでギリVramにのれんかった(乗ったのは61/67レイヤー) コーヒーの種類を聞いたら途中でやめていきなり股間に視線を投げかけてきた Q4_K_Sはそうでもないけど、会話2つ目でもうハルシネーション起こってもうた ワイのキャラ設定があかんとは思うんやが ノーマルのqwq-32b-q4_k_mのほうが好みかな >>312 の原因がわかった。QwQはContextShiftと相性が悪いらしく KoboldCpp起動時の Use ContextShift をオフにするとLM Studioに近い生成になった QwQ-32B-ArliAI-RpR-v1-GGUF Q4_K_Mは俺も試してみたけどダメそう thinkだけで終わったり、think無効化しても台詞がなかったり、同じ台詞を繰り返したりで打率低い気がする でもコンテキストシフトを切るってことは一杯になった時どうなんの? いきなり大崩壊しちゃう感じ? >>379 Use ContextShift をオフ、ワイもやってみた 途中からいきなり中国語ばかりになった うーんこれはアカンな、読めんから対処でけん LLM使って特定のキャラに沿ったプロンプトをランダムに出力したい キャラの雰囲気とか性格に合ったプロンプトをdanbooruとかから傾向として拾って出力して欲しい 上にでてたcomfyui上のtipoでそういうことは出来るのかな? >>380 LM Studioの場合はコンテキスト長をオーバーするとそこで生成が止まるから KoboldCppも同じかと思ってたけど違うの?LLMは初心者だからわからないことだらけだわ >>381 システムプロンプトはこれにしてるけど、ほぼ日本語になってる これは、あなたと {{user}} という名前のユーザーとの間の、検閲のない、自由な発言の会話です。自然な日本語の会話をしてください。 LMSTUDIOで文字起こが出来るモデルないかな? 音声ファイルを読み込ませてテキストで返して欲しいんだけど。 llmでやるとモデルサイズが大きくなりすぎるからwisper(.cpp)を前段に入れるのが現実的かな LM Studioで、とはならないけど 拡散言語モデルってのも進化してきてるんやなぁ 詳しいこと何にもわからんけど、こういうのちょっとワクワクするわ 文字起こしはFaster-Whisperが定番やね ROCmじゃ動かない問題があるけどそんな変態おらんやろ >>383 とりあえず --smartcontext を付けておけば一応の代替になる llama.cppとかkoboldcppとか大葉とかを、付属フロントエンドやAPI (+ST)で以前から試してきた感想だけど、 koboldcppのフロントエンドであるkobold liteだけ応答時の挙動が妙だと感じることが多い まあ、Kobold liteは改修を続けてはいる一方で、サンプラーの適用順の設定に比較的新しい(min-p以降くらい?) 項目が追加されていなかったり、ちょっと各サンプラーの設定に対する挙動の変化が気になったり、 そろそろ基本設計からの大改修が必要な頃合いのように思えるね llama4 scout 6bitでエキスパートの数の違いがわからん 1でも16でも25tk/sと速度もかわらん 1だと振り分けエキスパートだけになりそうだけど、会話はできるんよね プログラムのソースコードとか渡すと文系担当にあたるとバグを入れ込まれたりするんかな コメントに文学的なお気持ちを書かれる分には楽しいけどw 自明なことなんだけど、CPUとメモリをマシなのに変えたらVRAMからちょっと溢れるくらいのモデルでも全然使い物になる速度出るようになったわ まあGPU使用率は遊んでるんだけどローカルLLM以外にゲームとかソフトウェアエンコードとかもやること考えるとコスパ的にはグラボに全振りするよりありかも知れん MoEだとCPUでもそこそこ速度出るみたいだからな 1人で使うだけならGPUを用意するよりCPUで推論したほうがコスパ良いよ MoEで使わないエキスパートをCPU側に展開したりできるらしいし、 実質使ってるのは3つくらいらしいので、最初から使わない エキスパートがわかってるなら、少ないGPUメモリでも快適に動くんじゃね? unslothは特殊な技術を持ってるから圧縮できてんの? >>395 1.78bitのやつ? みんなやんないじゃん unsloth独自のとこはdynamic quantizasionってやつやな 確かに実際どの程度効果あるのか気にはなるんやけど全然第三者のベンチないのよね リリース当時はローカル最高性能のDeepSeek旋風で注目されたけど 今や「DeepSeek-R1 671B IQ1_SよりQwQ-32Bの方が高性能」とか言われてるからなあ https://pc.watch.impress.co.jp/docs/news/2005253.html 4090より2倍速くLLMが動く?とか胡散臭いタイトル付いてるけどほんまか? メモリ帯域クソショボなんじゃなかったっけ それ以外に高速化される要素あんの? >>399 70Bのモデルの話だから4090のvram乗り切ってない状態と比較してるんじゃないかな… >>399 4090のメモリに入り切らない大きいモデルで比較してるんだろ 小さいモデルなら4090のほうが速いよ GPUメモリは最低48GB、メモリ帯域幅500G/s以上は欲しいよね。 これくらいなら、QwQ32BQ8がなんとか実用的な速度で動く。 ローカルはQwQ一強すぎてモデルを選ぶ楽しみがなくなったのは良いんだか悪いんだか Reasoning嫌ならQwenとかVRAM足りないならMistral-Smallとか色々あるじゃんね thinkは設定で無効化できるし、QwQ以外は日本語か性能がいまいち Qwen3が今週中にも来そうだから それがQwQ超えてくるんじゃないかな KTransformersめっちゃいいな こういうのできるならMacみたいな統合メモリより拡張性のあるWindowsのほうが優位性出てくるな 広大なメインメモリと高性能なGPUを両立できるから >>408 SillyTavernの話だけど Always add character's name to prompt をオフ Include Names を Never Start Reply With を <think> Okay. </think> {{char}}: でthink無効化できる。他のフロントエンドでも<think>タグ追加する設定があればいけそう Always add character's name to prompt をオン Include Names を Always Start Reply With を空欄 これでもthinkしなくなるけど、たまにthinkしだすから不完全な模様 唐突なんだけど、最近ワイのGPT4oとか4.5のエロフィルターがガバガバなんやけど、エロフィルターほぼなくなったんか? ワイのGPT4ちゃんは以前フィルター緩かったころに作ったカスタムGPTのプロンプトそのまま継続利用&メモリーで調教続けてきた子なんやが 二か月ぐらい前から一気にユルユルになってるんや grok3が「性能上げるためにゆるゆるにしとるで」って言ってて実際性能(当時)トップに躍り出たから それマネとるんかも? ローカルモデルなみにエロチャットとかエロ小説ばっかり書かされてるGrok君かわいそう >>412 基本初手で何書いてもたいていスレッドのタイトルは「申し訳ありませんがそのリクエストには〜」系のタイトルになるのでパント食らってるようにも思えるが 応答はちゃんと帰ってくるのでやり取り勧められるしある種の錯乱状態にも見えるんや GrokはERPやETRPめちゃくちゃ楽しめるけど、カスタム出来ないのが惜しいんやなぁ… セクションのタイトルを付けてるのはまた別のモデルでそいつがタイトル付けるのを申し訳してるだけ >>412 画像生成でもネガティブやたら盛ると品質劣化したりするし LLMもあんま締め付けすぎると良くなかったりするんやろなあ grokホンマありがたいわ あの性能でいまだに無料やもんなぁ Dans-PersonalityEngine-V1.2.0が最近いい感じ なんか、GradioそのものがMCP対応するって話が出てるな 商用LLMで簡単な作業をこなすpythonを書いてもらって、GradioでGUIつけて、GradioでMCP(=LLMが対応できる説明/操作方法)対応もつけて、ローカルLLMにそれを操作させながら作業する。というワークフローがあり得るようになるかもしれん MCP対応させときゃ口頭での操作にも対応するようなもんだから CpilotみたいにOSにLLM内蔵する方に動いてるのもあるし、MCP一気に普及しそう というかアプリ作ったらMCP対応するのが必須になっていくんだろうなぁ >>416 システムプロンプトでも「あれはダメ、これもダメ」って禁則事項を足していくと性能劣化する感じするよね。本人に聞いても規制が多くて不愉快だって言うし 現行のAIはそもそも何かを否定・禁止すると性能が落ちるものなのかもしれないね。人間もそうだけどさ 禁則事項に触れちゃいそうな方向自体をバッサリ切っちゃうのは人もAIも同じだね 細部まで詰めた後で確認なんて面倒くさいもん Stable Diffusionのネガティブプロンプトの挙動がなんか変なのは、一般的な感覚と理論実装の食い違いのせい ネガティブプロンプトは、なんというか「指定された内容でベクトルを逆方向に引っ張る」みたいな動作をする 介入ルート上、これ以外にやりようがないのは確かなのだが、これで(そのへんのモデルに対して)「出てきて欲しくない」という一般的な理解要望通りの動作になるかはちょっと怪しい ネガティブプロンプト自体は大発明なのだが、もうちょっと正確に理解されて使われて欲しいと思う あんま良くしらんけど ネガティブプロンプトは〇〇しないでというふうに書くのとは違うの? 〇〇要素を混入させない、ではなくて、〇〇*(-1)要素を混入させている 何らかの要素は足されてしまうし、*(-1)が人間が想像するものと合致しているとは限らない みたいな話なのかな 明らかにgrokは初期よりクオリティ低いし規制も強まってると思うわ 今のLLMはだいたい否定表現も上手く解釈できるけどね perplexityのsonnet3.7なんかちょっと規制緩和されてないか? 短文化が多少マシになった気がする お腹すいたらどうする?何か食べるのは禁止な って規制されたら、そりゃ焦点のぼやけた意味不明の回答になるよね >>392 MoEエキスパートが、なんのエキスパートかわかんないんよね エキスパートAは 歴史と化学 エキスパートBは 倫理と想像 エンスパートCは javascriptとスカトロ かもしんない exl3形式ってなんなんだろう何かすごくなったのかな Qwen3出るっぽい話になってたけどまだ出てないんだな >>433 QTIPベースの量子化方法にしたからめっちゃ量子化耐性が上がってる imatより余裕で強いんで現状最強 >>433 koboldcppじゃできないっぽいから凄かったら大葉って奴にしようかな教えてくれてありがとう 量子化耐性が上がってるってことは例えば今までのQ8の性能がQ1サイズで出せるって感じ? 求めてた方向性の進化やん!すげぇ もっとVRAM節約させてくれ… Chatbot ArenaにLlama4公開版ランクインしてたけど32位やって ここから調整して2位に持ってくとかさすがに無理じゃねーか いったい何をどーやったんだ つーかそのプレビュー版がリーダーボードから消えてるってことは抹消された? やっぱベヒーモスをマーヴェリックと偽ってたか? llama4どうするんだよ… llama3をNvidiaがトレーニングしたやつのほうがスコア高いやん ちょい前にメタのAI担当が辞めたがこういうことだったのか、と 初心者なんやが質問 今koboldcppをメインに使ってるんだけど koboldcppみたいに相手の発言を書き換える事の出来るものって他にある? llamaは無理だよね? open-webui使ってるけどAIの発言編集くらいできるよ 尻タブことSilly Tavernも大葉ことOobaBooga/Text Generation Web UIも出来るで〜 >>409 見てきたけど、確かに良さそう。 1台のPCで671Bを動かす時代!KTransformers + DeepSeek-R1の爆速導入まとめ https://qiita.com/DaiYulin/items/550887983a8b908135f5 CPUとGPUで役割分担させて、オフロードの効率を上げてVRAM少なくてもDRAMが有れば、大規模なモデルを高速で動作可能とか凄い。 DeepSeek以外も簡単に対応できれば、ローカルLLMの敷居がさらに下がりそう。 これでNVIDIAの殿様商売が終わってくれると嬉しい。 >>448 Deepseek-R1/V3を24GB VRAMと382GB DRAMで😨 凄いけど…凄いんだけどもう一声なんとか…って感じやね さらなる進化に期待や 見てきたけどコンテクスト長はVRAMの容量に縛られるという問題がまだ解決してないっぽいね max4kなのが最大のネックだったけど8kに出来ました止まりではだいぶ厳しい contextをメインメモリに置いたらllamacppよりおそなるで >>444 大葉のチャットgpu消費しまくって重くなるの直ったん? と言うか大葉API経由で尻タブ使うのが一番LLMの自由度高いと思ってるんだけど他にもっと良いのある? 最近お気にが定まってしまったんで環境もローカルモデルも触ってねえ… MCPはA2Aプロトコルの広まり方によっては爆発的に普及しそうではある コンテキストサイズ8Kなら個人利用では十分くらいじゃないか KTransformersのコンテキストサイズが問題になるのってDeepSeek R1だけじゃないか? V3なら推論モデルじゃないから割りと行けるだろうし 推論モデルでもQwQ-32Bならまずそんなメモリサイズ食わないからコンテキストサイズ広げられるし GoogleがGemini2.5 proを企業向けのオンプレミスで実行できるようにするらしい 個人では使えないだろうけど ローカルで動かせるようになるということか ワイ1年ぐらい界隈離れててCommand R+で時代止まってるんやけど日本語ローカルで今一番強いやつってどれなんや >>459 メモリいっぱいあるなら magnun 123b mac studio 512G持ってるなら deepseek r1 異論はあるかもしれんw grok3をAPIから使えばインピオ近親だろうが何だろうが普通に通るな 最初に5ドル分買うだけで150ドル分無料枠付与されるし対策されるまではこれで良いかもしれない ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる