なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ ベクトルストレージ活用して長期記憶をお手軽にオンにできる機能SillyTavernに実装されないかな
QdrantとかWeaviate、Milvusあたりをバックエンドにして。
キャラクターごとのチャット履歴をベクトルストレージに全部保存しといて「一ヶ月前のあの話題について〜」とかで話題を引っ張ってこれるような >>301
EasyNovelAssistantのバックエンドなkoboldcppが一番高機能じゃないの
LM Studioは簡単お手軽だけど、サンプラーを変えたりできない 入出力のテキストをスクリプトで加工したり、複数セッションを横断的に連携させたりしてみたい
いろいろフロントエンド触ってみたけど、これ自分で簡易なフロントエンド作るのが一番手っ取り早いのかしら? characterhubでローカルエッチチャット用キャラとか探してみてるんだけど、これサイトに用意されてる初期データ(?)みたいなのが英語なので、
手元でデータ部分の翻訳頑張って日本語でどう喋るかとか書き換えたり、負けないくらいの日本語長文挨拶を投げたりしない限りはチャットの返事も英語になるよね? >>303
これでいいのね、ありがとう
同人ゲーム作家なんだけど、1からエロ文章をビルドするの結構面倒で
AI生成で校正しながら生成すればちょっとは楽できるかなーって KoboldcppでiGPU生成とCPU生成を試してみたんだがどうもCPU 生成が一番速いように思われる
なんか間違ってるんだろうか、なんかもういいや 推論速度にはメモリ帯域が重要だからみんな帯域のあるgpuに乗せてるだけで、帯域の変わらんigpuを使う意味はそんなにない 画像生成だとiGPUはCPUより(は)充分速くて意味あるんだけどなー koboldcpp、早くgemma-3-27b-it-qatを読み込めるようになってほしい EasyNovelAssistantってSDみたいなガチャ方式っぽいけど最近のモデルだったらガチャやるより人間が指示出してディレクションしていった方がよくない? KoboldCppをインストールしたけど、Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは
LM Studio(llama.cpp)とKoboldCppで全然生成が違うことがわかった
明らかにLM Studioの方が自然になる
Temperatureとかはモデル推奨値に合わせてるけど、他の設定の問題?
https://tadaup.jp/167806162.png 何も指定しないときのデフォルトの数値はエンジンによって違ったりするからそれかもね 生成量も両者で全体的に違うし何らかのオプションなんやろな
もし原因分かったらここに書いてほしいで llama4は2T(!?)と400Bと109Bらしい
わいの貧弱なPCじゃ何もできない
llama3が405Bから70Bになった前例があるから、ほんのり期待しとくで ベヒーモスヤバすぎるだろ
H100が何台必要になるんだ SamがGPUが溶けるって言ってるくらいだしここらで軽量化に舵を切るのかと思ってたが大規模化の夢は止まらねえってことか Gaslit-Transgression-24B これグラボ足りるならSillyTavernの設定ダウンロードするだけだし日本語もいけるから初心者向きかも ChatGPT4が出た当初パラメータ1兆(1000B)超えてるんじゃないかなんて言われとったが・・・
実際はあの生成速度と今見たら大したことないあの能力見たら全然1000Bなんて超えてないだろうなぁって感じやけど
まさかついにほんとに超えてるものが出るとは・・・
2Tアクティブパラメータだけでも288B ほげぇ
1.58bit量子化してmac studio 512GBで低tokenで動くかどうかってところやろかねぇ
まーしかし400Bのcontextが1M、109Bのcontextが10Mってなってるのがやべぇ
ローカルLLM界が新しい領域に飛び立ちそう 400bはChatbot Arena今見たら2位にランクインしとったわ
頑張ればローカルで動かせなくもない400bがgrok3とかgpt4.5より性能高いってのはやべぇ たぶんもうすぐ出るDeepSeek R2のほうが強いんじゃねえかな llama4も推論モデル出るらしいから
そっちが本番だろう mac proはマジでメモリ1.5T超えるかもしれんな
昔ヒカキンが買ったのが1.5Tで500万だっけ 109BのやつをH100を1枚で利用可能って言ってるから量子化モデルをmetaが出すつもりなんだろうか?
いまんところhuggingface見ても見当たらんけど 1.5tでも転送が遅けりゃトークン出力されるまで30分待たなきゃなるんのだろ? llama-4-maverick-03-26-experimental、日本語だとDeepSeekV3.1より少し劣るぐらいな感じだな
DS V3.1はまともに使えるコンテクスト長がそんなに長くないから、Llama4の最大コンテクスト長10Mがほんとに有効に使えるならワンチャンあるかもしれない
改造・改良されやすいされづらいがあるから、どうかなという感じはするけど >>325
512Gのmacの再生動画見たけど爆速だったぞ?
どっから30分とかいう話が出てきたん? >>327
2000bのfp16モデルならメモリ4T必要だから転送発生するといいたいんじゃないの
転送発生してもさすがに30分はかからないんじゃないかとは思うけど
ストレージからの読み込みで転送量糞多いからまぁまぁかかるんじゃないかとは思う
まぁそもそも4TBメモリ用意できてないときにfp16モデル使うなよって話だとは思うけど 今後MoEが主力になるならMacやdgxが輝くな
GPU勢には辛い時代や iMatQ4XSで58GBくらいになるんじゃない?
32GBx2基のGPU積むか、
64GBのMacだとワンチャンいけそう。 109Bのscoutはgemma3相当らしいから10Mコンテキスト以外価値なさそう でも10MもあるならRPとかエロ小説用途ならLORA作らなくても会話履歴にデータセットを流し込めばそれなりに機能したりするのかな これベヒんもスのトレーニング費用いくらかかってるんや……? パラメータ量の巨大化が加速してもローカルだとあんまり活かせなくてストレスがマッハ
個人的に最近感動したのはgemma3やねえ 1.5t積んで全部メモリに載っても
最初のトークンが出てくるまで結構待つの?🤔 llama4はカスタマイズしたモデルを発表するときにはモデル名の先頭にllamaを付けることを義務付けたみたいだな Quasar楽しすぎてローカル触る暇なくなった
無料の今のうちにRoo Codeでコーディングするだけするしかねえ context 10Mは業務への影響マジででかそう
今までローカルに興味なかった企業も気になるやろなぁこれ
10Mもあったら開発してるソフトのソース全部入れてリファクタさせるとかできるんやないかな
クラウドだとソース流出の危険があるからやらなかった企業はたくさんあるだろうけど
ローカルならその心配がない 上限10Mあっても使い物になるかねぇ
今の技術じゃコンテキスト増えれば増えるほど抜けがいっぱい出てくるし 10m contextって見て最初に思ったのは動画そのまま処理できそうだなって vLLM曰くH100x8でやっと1M contextらしい単純計算で10M contextには80個のH100がいるらしい
H100 80個を導入できる企業ってどれだけあるんだろ このまま肥大化が進んだら企業側も耐えられなくなるよな
確率分岐を計算でやってるから電力バカ食いだし
アナログチップのブレイクスルーがないと限界あるわ そこで Groq チップですよ
欲しいのはグラフィックボードじゃなくてLLMの計算エンジン(LPU)
レイトレーシングとかビデオエンコーダーにシリコン面積使ってないのが欲しい 詳しくないけどマイニングも今は専用チップなんでしょ?
今後はどこも専用チップ作ってHBM盛ってCUDAも使わないのが未来像? マイニングに必要な計算は純粋な数学パズルに近くて、運営者が意図的にデザインしたものだよ
GPUを使わなくなったのはGPUでは効率が悪いようにデザイン変更をした結果なので例としてはあんまり... 旧DS V3くらいの日本語だから、llamaにしては 頑張ったと見るか実用的には物足りないと見るかだね
学習をちゃんとやってないからか、画像から日本語読み取るのもいまいちだし
10Mコンテクストも文章ではうまく扱えず、画像をたくさん読み込めますというだけみたい
API料金がDS V3並に安いのが良いところかな x見てるとllama4はベンチマーク番長で実用性はあまり高くないんじゃないかって話出てるけど
でも人が評価するchatbot arenaではいきなり2位に来てるんだよな
うーむよくわからん
400bが2位の実力あり、みんながテストしやすい109bが大したことないってことなんかな >>353
スタイルコントロール適用すると一気にスコア落ちるから AiderのベンチマークだとマーベリックがQwQ-32B以下だからやばい
https://i.imgur.com/acuJyui.jpeg もう32BはQwQか派生モデルで頭打ちってことかな DeepSeekがR1のときみたいにR2で32Bの蒸留モデルを出してくれるかもしれない >>355
マーベリックって400Bのほうか
それが負けたらいかんでしょ コーディング?
でもchatbot arenaだとコーディング部門1位なんだけど
もうこれ分かんねーな chatbot arenaは1000tokenくらいが限度だから英語やpython自体は達者、短い用途なら達者という可能性はあるような 人間が評価すると高速な出力で簡潔に回答するLLM(総じて小さなモデル)が過大評価される問題は以前から指摘されてる
chatbot arenaの利用者の大半は簡単な質明しかしておらずモデルの性能差が出るような質問は出来ていない 教師モデルのベヒーモスがまだ未完成らしいじゃん
そこから蒸留するはずの下位モデル先にだしてるのがよくわからんわ >>359
cursorとかclineみたいな使い方をするときのベンチマーク アリーナだとプロンプトが違うんじゃないかってのと
そもそもモデルが違うんじゃないかって話が出てるね あり得るのはベヒーモスをマーヴェリックと偽って回してたとか? 公開モデルやからこれからは公開版が正式名でちゃんと回るはずやね
それがランクインするの待てばええでな はじめてマルチモーダルモデル(gemma3)使ってるけどこれって新しい画像読み込ませるたびにプロンプトを一から読み込み直すのか…
生成がかなり遅い;;
それに複数の画像がある状態で「次の画像の解説をお願いします」って言うと前に解説した画像の情報もプラスして、ごっちゃに解説してる感がある
単独の画像解説だと問題ないが… 上位のモデルだとQ2とかでも12Bより頭いいんだねもっとわけわからない反応返ってくると思ってたわ 量子化してファイルサイズ削ったあとのものが具体的にどんな程度のアタマノヨサなのかの判断は人類には無理だからな
実際に使って実際の問題にぶつけてみるしかない
さあ全部ダウンロードして試すんだ Chatbot Arenaで2位を取ったのはLlama4をチャット対応に最適化したバリアントモデル、という話が出てるな
バリアントモデルも一緒に公開してbaseとllamaChatですよと言えばそれで済む話だったのになぜこっそりやったんだろう baseとInteractionモデル両方公開するのは多くのモデルでやられてるしllamaもそれすればよかったのにね
予想より公開早かったしもしかしたら公開の仕方ミスったりしてるのかもわからんね
まぁまだ予想だから分からんけども GPROで推論機能を発現させたChat専用本命モデルを用意してる最中で、 4月末のイベントで発表します、とかならワンチャンあるかもしれない QwQ-32B-ArliAI-RpR-v1試してみたで
Q5_K_Mが22GでギリVramにのれんかった(乗ったのは61/67レイヤー)
コーヒーの種類を聞いたら途中でやめていきなり股間に視線を投げかけてきた
Q4_K_Sはそうでもないけど、会話2つ目でもうハルシネーション起こってもうた
ワイのキャラ設定があかんとは思うんやが
ノーマルのqwq-32b-q4_k_mのほうが好みかな >>312の原因がわかった。QwQはContextShiftと相性が悪いらしく
KoboldCpp起動時の Use ContextShift をオフにするとLM Studioに近い生成になった
QwQ-32B-ArliAI-RpR-v1-GGUF Q4_K_Mは俺も試してみたけどダメそう
thinkだけで終わったり、think無効化しても台詞がなかったり、同じ台詞を繰り返したりで打率低い気がする でもコンテキストシフトを切るってことは一杯になった時どうなんの?
いきなり大崩壊しちゃう感じ? >>379
Use ContextShift をオフ、ワイもやってみた
途中からいきなり中国語ばかりになった
うーんこれはアカンな、読めんから対処でけん LLM使って特定のキャラに沿ったプロンプトをランダムに出力したい
キャラの雰囲気とか性格に合ったプロンプトをdanbooruとかから傾向として拾って出力して欲しい
上にでてたcomfyui上のtipoでそういうことは出来るのかな? >>380
LM Studioの場合はコンテキスト長をオーバーするとそこで生成が止まるから
KoboldCppも同じかと思ってたけど違うの?LLMは初心者だからわからないことだらけだわ
>>381
システムプロンプトはこれにしてるけど、ほぼ日本語になってる
これは、あなたと {{user}} という名前のユーザーとの間の、検閲のない、自由な発言の会話です。自然な日本語の会話をしてください。 LMSTUDIOで文字起こが出来るモデルないかな?
音声ファイルを読み込ませてテキストで返して欲しいんだけど。 llmでやるとモデルサイズが大きくなりすぎるからwisper(.cpp)を前段に入れるのが現実的かな
LM Studioで、とはならないけど 拡散言語モデルってのも進化してきてるんやなぁ
詳しいこと何にもわからんけど、こういうのちょっとワクワクするわ 文字起こしはFaster-Whisperが定番やね
ROCmじゃ動かない問題があるけどそんな変態おらんやろ >>383
とりあえず --smartcontext を付けておけば一応の代替になる
llama.cppとかkoboldcppとか大葉とかを、付属フロントエンドやAPI (+ST)で以前から試してきた感想だけど、
koboldcppのフロントエンドであるkobold liteだけ応答時の挙動が妙だと感じることが多い
まあ、Kobold liteは改修を続けてはいる一方で、サンプラーの適用順の設定に比較的新しい(min-p以降くらい?)
項目が追加されていなかったり、ちょっと各サンプラーの設定に対する挙動の変化が気になったり、
そろそろ基本設計からの大改修が必要な頃合いのように思えるね llama4 scout 6bitでエキスパートの数の違いがわからん
1でも16でも25tk/sと速度もかわらん
1だと振り分けエキスパートだけになりそうだけど、会話はできるんよね
プログラムのソースコードとか渡すと文系担当にあたるとバグを入れ込まれたりするんかな
コメントに文学的なお気持ちを書かれる分には楽しいけどw 自明なことなんだけど、CPUとメモリをマシなのに変えたらVRAMからちょっと溢れるくらいのモデルでも全然使い物になる速度出るようになったわ
まあGPU使用率は遊んでるんだけどローカルLLM以外にゲームとかソフトウェアエンコードとかもやること考えるとコスパ的にはグラボに全振りするよりありかも知れん MoEだとCPUでもそこそこ速度出るみたいだからな
1人で使うだけならGPUを用意するよりCPUで推論したほうがコスパ良いよ MoEで使わないエキスパートをCPU側に展開したりできるらしいし、
実質使ってるのは3つくらいらしいので、最初から使わない
エキスパートがわかってるなら、少ないGPUメモリでも快適に動くんじゃね? unslothは特殊な技術を持ってるから圧縮できてんの? >>395
1.78bitのやつ?
みんなやんないじゃん unsloth独自のとこはdynamic quantizasionってやつやな
確かに実際どの程度効果あるのか気にはなるんやけど全然第三者のベンチないのよね リリース当時はローカル最高性能のDeepSeek旋風で注目されたけど
今や「DeepSeek-R1 671B IQ1_SよりQwQ-32Bの方が高性能」とか言われてるからなあ https://pc.watch.impress.co.jp/docs/news/2005253.html
4090より2倍速くLLMが動く?とか胡散臭いタイトル付いてるけどほんまか?
メモリ帯域クソショボなんじゃなかったっけ
それ以外に高速化される要素あんの? >>399
70Bのモデルの話だから4090のvram乗り切ってない状態と比較してるんじゃないかな… ■ このスレッドは過去ログ倉庫に格納されています