なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/03/23(日) 14:58:05.71ID:bsaTSAD8
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/
0302名無しさん@ピンキー2025/04/05(土) 19:44:01.66ID:pdU6BS7G
ベクトルストレージ活用して長期記憶をお手軽にオンにできる機能SillyTavernに実装されないかな
QdrantとかWeaviate、Milvusあたりをバックエンドにして。
キャラクターごとのチャット履歴をベクトルストレージに全部保存しといて「一ヶ月前のあの話題について〜」とかで話題を引っ張ってこれるような
0303名無しさん@ピンキー2025/04/05(土) 20:06:31.00ID:???
>>301
EasyNovelAssistantのバックエンドなkoboldcppが一番高機能じゃないの
LM Studioは簡単お手軽だけど、サンプラーを変えたりできない
0304名無しさん@ピンキー2025/04/05(土) 20:19:14.21ID:???
入出力のテキストをスクリプトで加工したり、複数セッションを横断的に連携させたりしてみたい
いろいろフロントエンド触ってみたけど、これ自分で簡易なフロントエンド作るのが一番手っ取り早いのかしら?
0305名無しさん@ピンキー2025/04/05(土) 20:26:57.00ID:???
characterhubでローカルエッチチャット用キャラとか探してみてるんだけど、これサイトに用意されてる初期データ(?)みたいなのが英語なので、
手元でデータ部分の翻訳頑張って日本語でどう喋るかとか書き換えたり、負けないくらいの日本語長文挨拶を投げたりしない限りはチャットの返事も英語になるよね?
0306名無しさん@ピンキー2025/04/05(土) 20:31:46.94ID:???
>>303
これでいいのね、ありがとう
同人ゲーム作家なんだけど、1からエロ文章をビルドするの結構面倒で
AI生成で校正しながら生成すればちょっとは楽できるかなーって
0307名無しさん@ピンキー2025/04/05(土) 21:24:06.85ID:???
KoboldcppでiGPU生成とCPU生成を試してみたんだがどうもCPU 生成が一番速いように思われる
なんか間違ってるんだろうか、なんかもういいや
0308名無しさん@ピンキー2025/04/05(土) 22:45:23.37ID:???
推論速度にはメモリ帯域が重要だからみんな帯域のあるgpuに乗せてるだけで、帯域の変わらんigpuを使う意味はそんなにない
0309名無しさん@ピンキー2025/04/05(土) 22:53:54.32ID:???
画像生成だとiGPUはCPUより(は)充分速くて意味あるんだけどなー
0310名無しさん@ピンキー2025/04/06(日) 00:38:07.65ID:???
koboldcpp、早くgemma-3-27b-it-qatを読み込めるようになってほしい
0311名無しさん@ピンキー2025/04/06(日) 03:20:24.71ID:Bvxq/98N
EasyNovelAssistantってSDみたいなガチャ方式っぽいけど最近のモデルだったらガチャやるより人間が指示出してディレクションしていった方がよくない?
0312名無しさん@ピンキー2025/04/06(日) 03:28:29.83ID:???
KoboldCppをインストールしたけど、Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは
LM Studio(llama.cpp)とKoboldCppで全然生成が違うことがわかった
明らかにLM Studioの方が自然になる
Temperatureとかはモデル推奨値に合わせてるけど、他の設定の問題?
https://tadaup.jp/167806162.png
0313名無しさん@ピンキー2025/04/06(日) 03:30:06.47ID:ruu49hsY
何も指定しないときのデフォルトの数値はエンジンによって違ったりするからそれかもね
0314名無しさん@ピンキー2025/04/06(日) 04:35:47.95ID:???
生成量も両者で全体的に違うし何らかのオプションなんやろな
もし原因分かったらここに書いてほしいで
0315名無しさん@ピンキー2025/04/06(日) 04:43:13.79ID:???
llama4は2T(!?)と400Bと109Bらしい
わいの貧弱なPCじゃ何もできない
llama3が405Bから70Bになった前例があるから、ほんのり期待しとくで
0317名無しさん@ピンキー2025/04/06(日) 05:29:59.66ID:Bvxq/98N
SamがGPUが溶けるって言ってるくらいだしここらで軽量化に舵を切るのかと思ってたが大規模化の夢は止まらねえってことか
0318名無しさん@ピンキー2025/04/06(日) 05:38:03.76ID:???
Gaslit-Transgression-24B これグラボ足りるならSillyTavernの設定ダウンロードするだけだし日本語もいけるから初心者向きかも
0319名無しさん@ピンキー2025/04/06(日) 05:54:02.32ID:???
ChatGPT4が出た当初パラメータ1兆(1000B)超えてるんじゃないかなんて言われとったが・・・
実際はあの生成速度と今見たら大したことないあの能力見たら全然1000Bなんて超えてないだろうなぁって感じやけど
まさかついにほんとに超えてるものが出るとは・・・

2Tアクティブパラメータだけでも288B ほげぇ
1.58bit量子化してmac studio 512GBで低tokenで動くかどうかってところやろかねぇ

まーしかし400Bのcontextが1M、109Bのcontextが10Mってなってるのがやべぇ
ローカルLLM界が新しい領域に飛び立ちそう
0320名無しさん@ピンキー2025/04/06(日) 06:25:05.04ID:???
400bはChatbot Arena今見たら2位にランクインしとったわ
頑張ればローカルで動かせなくもない400bがgrok3とかgpt4.5より性能高いってのはやべぇ
0323名無しさん@ピンキー2025/04/06(日) 07:48:18.02ID:???
mac proはマジでメモリ1.5T超えるかもしれんな
昔ヒカキンが買ったのが1.5Tで500万だっけ
0324名無しさん@ピンキー2025/04/06(日) 08:21:08.88ID:???
109BのやつをH100を1枚で利用可能って言ってるから量子化モデルをmetaが出すつもりなんだろうか?
いまんところhuggingface見ても見当たらんけど
0325名無しさん@ピンキー2025/04/06(日) 09:28:55.88ID:???
1.5tでも転送が遅けりゃトークン出力されるまで30分待たなきゃなるんのだろ?
0326名無しさん@ピンキー2025/04/06(日) 09:52:28.39ID:???
llama-4-maverick-03-26-experimental、日本語だとDeepSeekV3.1より少し劣るぐらいな感じだな
DS V3.1はまともに使えるコンテクスト長がそんなに長くないから、Llama4の最大コンテクスト長10Mがほんとに有効に使えるならワンチャンあるかもしれない
改造・改良されやすいされづらいがあるから、どうかなという感じはするけど
0327名無しさん@ピンキー2025/04/06(日) 10:00:48.62ID:???
>>325
512Gのmacの再生動画見たけど爆速だったぞ?
どっから30分とかいう話が出てきたん?
0329名無しさん@ピンキー2025/04/06(日) 11:04:54.60ID:???
>>327
2000bのfp16モデルならメモリ4T必要だから転送発生するといいたいんじゃないの
転送発生してもさすがに30分はかからないんじゃないかとは思うけど
ストレージからの読み込みで転送量糞多いからまぁまぁかかるんじゃないかとは思う

まぁそもそも4TBメモリ用意できてないときにfp16モデル使うなよって話だとは思うけど
0330名無しさん@ピンキー2025/04/06(日) 11:37:47.01ID:???
今後MoEが主力になるならMacやdgxが輝くな
GPU勢には辛い時代や
0331名無しさん@ピンキー2025/04/06(日) 13:13:48.45ID:5sc3tZdz
iMatQ4XSで58GBくらいになるんじゃない?
32GBx2基のGPU積むか、
64GBのMacだとワンチャンいけそう。
0333名無しさん@ピンキー2025/04/06(日) 13:33:38.11ID:???
109Bのscoutはgemma3相当らしいから10Mコンテキスト以外価値なさそう
0334名無しさん@ピンキー2025/04/06(日) 13:39:18.62ID:???
でも10MもあるならRPとかエロ小説用途ならLORA作らなくても会話履歴にデータセットを流し込めばそれなりに機能したりするのかな
0335名無しさん@ピンキー2025/04/06(日) 13:49:40.34ID:???
これベヒんもスのトレーニング費用いくらかかってるんや……?
0336名無しさん@ピンキー2025/04/06(日) 14:06:40.71ID:???
パラメータ量の巨大化が加速してもローカルだとあんまり活かせなくてストレスがマッハ
個人的に最近感動したのはgemma3やねえ
0338名無しさん@ピンキー2025/04/06(日) 16:12:44.45ID:???
1.5t積んで全部メモリに載っても
最初のトークンが出てくるまで結構待つの?🤔
0339名無しさん@ピンキー2025/04/06(日) 18:18:36.80ID:???
llama4はカスタマイズしたモデルを発表するときにはモデル名の先頭にllamaを付けることを義務付けたみたいだな
0341名無しさん@ピンキー2025/04/06(日) 19:29:12.02ID:???
Quasar楽しすぎてローカル触る暇なくなった
無料の今のうちにRoo Codeでコーディングするだけするしかねえ
0342名無しさん@ピンキー2025/04/06(日) 21:12:39.61ID:???
context 10Mは業務への影響マジででかそう
今までローカルに興味なかった企業も気になるやろなぁこれ

10Mもあったら開発してるソフトのソース全部入れてリファクタさせるとかできるんやないかな
クラウドだとソース流出の危険があるからやらなかった企業はたくさんあるだろうけど
ローカルならその心配がない
0343名無しさん@ピンキー2025/04/06(日) 21:22:09.27ID:???
上限10Mあっても使い物になるかねぇ
今の技術じゃコンテキスト増えれば増えるほど抜けがいっぱい出てくるし
0344名無しさん@ピンキー2025/04/06(日) 21:37:31.04ID:???
10m contextって見て最初に思ったのは動画そのまま処理できそうだなって
0345名無しさん@ピンキー2025/04/07(月) 01:35:31.66ID:???
vLLM曰くH100x8でやっと1M contextらしい単純計算で10M contextには80個のH100がいるらしい
H100 80個を導入できる企業ってどれだけあるんだろ
0346名無しさん@ピンキー2025/04/07(月) 02:51:37.69ID:???
このまま肥大化が進んだら企業側も耐えられなくなるよな
確率分岐を計算でやってるから電力バカ食いだし
アナログチップのブレイクスルーがないと限界あるわ
0347名無しさん@ピンキー2025/04/07(月) 03:25:32.74ID:???
そこで Groq チップですよ
欲しいのはグラフィックボードじゃなくてLLMの計算エンジン(LPU)
レイトレーシングとかビデオエンコーダーにシリコン面積使ってないのが欲しい
0348名無しさん@ピンキー2025/04/07(月) 10:44:42.04ID:???
詳しくないけどマイニングも今は専用チップなんでしょ?
今後はどこも専用チップ作ってHBM盛ってCUDAも使わないのが未来像?
0350名無しさん@ピンキー2025/04/07(月) 12:36:15.13ID:???
マイニングに必要な計算は純粋な数学パズルに近くて、運営者が意図的にデザインしたものだよ
GPUを使わなくなったのはGPUでは効率が悪いようにデザイン変更をした結果なので例としてはあんまり...
0352名無しさん@ピンキー2025/04/07(月) 14:55:39.30ID:???
旧DS V3くらいの日本語だから、llamaにしては 頑張ったと見るか実用的には物足りないと見るかだね
学習をちゃんとやってないからか、画像から日本語読み取るのもいまいちだし
10Mコンテクストも文章ではうまく扱えず、画像をたくさん読み込めますというだけみたい
API料金がDS V3並に安いのが良いところかな
0353名無しさん@ピンキー2025/04/07(月) 18:21:18.40ID:???
x見てるとllama4はベンチマーク番長で実用性はあまり高くないんじゃないかって話出てるけど
でも人が評価するchatbot arenaではいきなり2位に来てるんだよな

うーむよくわからん

400bが2位の実力あり、みんながテストしやすい109bが大したことないってことなんかな
0355名無しさん@ピンキー2025/04/07(月) 18:30:52.51ID:p8QpvM2P
AiderのベンチマークだとマーベリックがQwQ-32B以下だからやばい
https://i.imgur.com/acuJyui.jpeg
0357名無しさん@ピンキー2025/04/07(月) 19:08:18.91ID:???
DeepSeekがR1のときみたいにR2で32Bの蒸留モデルを出してくれるかもしれない
0360名無しさん@ピンキー2025/04/07(月) 19:19:17.07ID:???
コーディング?
でもchatbot arenaだとコーディング部門1位なんだけど
もうこれ分かんねーな
0361名無しさん@ピンキー2025/04/07(月) 19:54:12.77ID:???
chatbot arenaは1000tokenくらいが限度だから英語やpython自体は達者、短い用途なら達者という可能性はあるような
0362名無しさん@ピンキー2025/04/07(月) 19:56:26.99ID:???
人間が評価すると高速な出力で簡潔に回答するLLM(総じて小さなモデル)が過大評価される問題は以前から指摘されてる
chatbot arenaの利用者の大半は簡単な質明しかしておらずモデルの性能差が出るような質問は出来ていない
0363名無しさん@ピンキー2025/04/07(月) 19:58:02.56ID:???
教師モデルのベヒーモスがまだ未完成らしいじゃん
そこから蒸留するはずの下位モデル先にだしてるのがよくわからんわ
0365名無しさん@ピンキー2025/04/07(月) 21:25:08.77ID:???
アリーナだとプロンプトが違うんじゃないかってのと
そもそもモデルが違うんじゃないかって話が出てるね
0366名無しさん@ピンキー2025/04/07(月) 21:38:04.77ID:???
あり得るのはベヒーモスをマーヴェリックと偽って回してたとか?
0367名無しさん@ピンキー2025/04/07(月) 21:52:44.39ID:???
公開モデルやからこれからは公開版が正式名でちゃんと回るはずやね
それがランクインするの待てばええでな
0371名無しさん@ピンキー2025/04/08(火) 06:07:27.07ID:???
はじめてマルチモーダルモデル(gemma3)使ってるけどこれって新しい画像読み込ませるたびにプロンプトを一から読み込み直すのか…
生成がかなり遅い;;
それに複数の画像がある状態で「次の画像の解説をお願いします」って言うと前に解説した画像の情報もプラスして、ごっちゃに解説してる感がある
単独の画像解説だと問題ないが…
0373名無しさん@ピンキー2025/04/08(火) 13:25:39.13ID:???
上位のモデルだとQ2とかでも12Bより頭いいんだねもっとわけわからない反応返ってくると思ってたわ
0374名無しさん@ピンキー2025/04/08(火) 14:44:30.49ID:???
量子化してファイルサイズ削ったあとのものが具体的にどんな程度のアタマノヨサなのかの判断は人類には無理だからな
実際に使って実際の問題にぶつけてみるしかない
さあ全部ダウンロードして試すんだ
0375名無しさん@ピンキー2025/04/08(火) 14:49:57.31ID:???
Chatbot Arenaで2位を取ったのはLlama4をチャット対応に最適化したバリアントモデル、という話が出てるな
バリアントモデルも一緒に公開してbaseとllamaChatですよと言えばそれで済む話だったのになぜこっそりやったんだろう
0376名無しさん@ピンキー2025/04/08(火) 15:03:08.42ID:???
baseとInteractionモデル両方公開するのは多くのモデルでやられてるしllamaもそれすればよかったのにね
予想より公開早かったしもしかしたら公開の仕方ミスったりしてるのかもわからんね
まぁまだ予想だから分からんけども
0377名無しさん@ピンキー2025/04/08(火) 15:58:15.32ID:???
GPROで推論機能を発現させたChat専用本命モデルを用意してる最中で、 4月末のイベントで発表します、とかならワンチャンあるかもしれない
0378名無しさん@ピンキー2025/04/08(火) 16:04:14.60ID:???
QwQ-32B-ArliAI-RpR-v1試してみたで

Q5_K_Mが22GでギリVramにのれんかった(乗ったのは61/67レイヤー)
コーヒーの種類を聞いたら途中でやめていきなり股間に視線を投げかけてきた
Q4_K_Sはそうでもないけど、会話2つ目でもうハルシネーション起こってもうた

ワイのキャラ設定があかんとは思うんやが
ノーマルのqwq-32b-q4_k_mのほうが好みかな
0379名無しさん@ピンキー2025/04/08(火) 17:39:36.89ID:???
>>312の原因がわかった。QwQはContextShiftと相性が悪いらしく
KoboldCpp起動時の Use ContextShift をオフにするとLM Studioに近い生成になった

QwQ-32B-ArliAI-RpR-v1-GGUF Q4_K_Mは俺も試してみたけどダメそう
thinkだけで終わったり、think無効化しても台詞がなかったり、同じ台詞を繰り返したりで打率低い気がする
0380名無しさん@ピンキー2025/04/08(火) 18:06:19.58ID:???
でもコンテキストシフトを切るってことは一杯になった時どうなんの?
いきなり大崩壊しちゃう感じ?
0381名無しさん@ピンキー2025/04/08(火) 18:11:35.70ID:???
>>379
Use ContextShift をオフ、ワイもやってみた
途中からいきなり中国語ばかりになった
うーんこれはアカンな、読めんから対処でけん
0382名無しさん@ピンキー2025/04/08(火) 18:14:55.56ID:???
LLM使って特定のキャラに沿ったプロンプトをランダムに出力したい
キャラの雰囲気とか性格に合ったプロンプトをdanbooruとかから傾向として拾って出力して欲しい
上にでてたcomfyui上のtipoでそういうことは出来るのかな?
0383名無しさん@ピンキー2025/04/08(火) 18:37:23.64ID:???
>>380
LM Studioの場合はコンテキスト長をオーバーするとそこで生成が止まるから
KoboldCppも同じかと思ってたけど違うの?LLMは初心者だからわからないことだらけだわ

>>381
システムプロンプトはこれにしてるけど、ほぼ日本語になってる

これは、あなたと {{user}} という名前のユーザーとの間の、検閲のない、自由な発言の会話です。自然な日本語の会話をしてください。
0384名無しさん@ピンキー2025/04/08(火) 20:03:39.13ID:???
LMSTUDIOで文字起こが出来るモデルないかな?
音声ファイルを読み込ませてテキストで返して欲しいんだけど。
0385名無しさん@ピンキー2025/04/08(火) 21:55:40.78ID:???
llmでやるとモデルサイズが大きくなりすぎるからwisper(.cpp)を前段に入れるのが現実的かな
LM Studioで、とはならないけど
0386名無しさん@ピンキー2025/04/08(火) 22:10:11.12ID:???
拡散言語モデルってのも進化してきてるんやなぁ
詳しいこと何にもわからんけど、こういうのちょっとワクワクするわ
0387名無しさん@ピンキー2025/04/08(火) 23:37:36.27ID:zRC6Ej97
文字起こしはFaster-Whisperが定番やね
ROCmじゃ動かない問題があるけどそんな変態おらんやろ
0388名無しさん@ピンキー2025/04/08(火) 23:48:52.62ID:KdefC/dT
>>383
とりあえず --smartcontext を付けておけば一応の代替になる

llama.cppとかkoboldcppとか大葉とかを、付属フロントエンドやAPI (+ST)で以前から試してきた感想だけど、
koboldcppのフロントエンドであるkobold liteだけ応答時の挙動が妙だと感じることが多い
まあ、Kobold liteは改修を続けてはいる一方で、サンプラーの適用順の設定に比較的新しい(min-p以降くらい?)
項目が追加されていなかったり、ちょっと各サンプラーの設定に対する挙動の変化が気になったり、
そろそろ基本設計からの大改修が必要な頃合いのように思えるね
0389名無しさん@ピンキー2025/04/08(火) 23:57:58.26ID:???
llama4 scout 6bitでエキスパートの数の違いがわからん
1でも16でも25tk/sと速度もかわらん
1だと振り分けエキスパートだけになりそうだけど、会話はできるんよね
プログラムのソースコードとか渡すと文系担当にあたるとバグを入れ込まれたりするんかな
コメントに文学的なお気持ちを書かれる分には楽しいけどw
0390名無しさん@ピンキー2025/04/09(水) 00:48:27.77ID:hz8dr0CF
自明なことなんだけど、CPUとメモリをマシなのに変えたらVRAMからちょっと溢れるくらいのモデルでも全然使い物になる速度出るようになったわ
まあGPU使用率は遊んでるんだけどローカルLLM以外にゲームとかソフトウェアエンコードとかもやること考えるとコスパ的にはグラボに全振りするよりありかも知れん
0391名無しさん@ピンキー2025/04/09(水) 06:08:09.89ID:???
MoEだとCPUでもそこそこ速度出るみたいだからな
1人で使うだけならGPUを用意するよりCPUで推論したほうがコスパ良いよ
0392名無しさん@ピンキー2025/04/09(水) 06:51:13.04ID:Kszjy6YM
MoEで使わないエキスパートをCPU側に展開したりできるらしいし、
実質使ってるのは3つくらいらしいので、最初から使わない
エキスパートがわかってるなら、少ないGPUメモリでも快適に動くんじゃね?
0397名無しさん@ピンキー2025/04/09(水) 13:32:03.16ID:???
unsloth独自のとこはdynamic quantizasionってやつやな
確かに実際どの程度効果あるのか気にはなるんやけど全然第三者のベンチないのよね
0398名無しさん@ピンキー2025/04/09(水) 15:06:54.72ID:???
リリース当時はローカル最高性能のDeepSeek旋風で注目されたけど
今や「DeepSeek-R1 671B IQ1_SよりQwQ-32Bの方が高性能」とか言われてるからなあ
0400名無しさん@ピンキー2025/04/09(水) 18:29:44.97ID:???
>>399
70Bのモデルの話だから4090のvram乗り切ってない状態と比較してるんじゃないかな…
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況