なんJLLM部避難所 ★7

1002コメント348KB

なんJLLM部避難所 ★7

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/03/23(日) 14:58:05.71ID:bsaTSAD8

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/

0361名無しさん＠ピンキー

2025/04/07(月) 19:54:12.77ID:???

chatbot arenaは1000tokenくらいが限度だから英語やpython自体は達者、短い用途なら達者という可能性はあるような

0362名無しさん＠ピンキー

2025/04/07(月) 19:56:26.99ID:???

人間が評価すると高速な出力で簡潔に回答するLLM（総じて小さなモデル）が過大評価される問題は以前から指摘されてる
chatbot arenaの利用者の大半は簡単な質明しかしておらずモデルの性能差が出るような質問は出来ていない

0363名無しさん＠ピンキー

2025/04/07(月) 19:58:02.56ID:???

教師モデルのベヒーモスがまだ未完成らしいじゃん
そこから蒸留するはずの下位モデル先にだしてるのがよくわからんわ

0364名無しさん＠ピンキー

2025/04/07(月) 20:04:41.04ID:???

>>359
cursorとかclineみたいな使い方をするときのベンチマーク

0365名無しさん＠ピンキー

2025/04/07(月) 21:25:08.77ID:???

アリーナだとプロンプトが違うんじゃないかってのと
そもそもモデルが違うんじゃないかって話が出てるね

0366名無しさん＠ピンキー

2025/04/07(月) 21:38:04.77ID:???

あり得るのはベヒーモスをマーヴェリックと偽って回してたとか？

0367名無しさん＠ピンキー

2025/04/07(月) 21:52:44.39ID:???

公開モデルやからこれからは公開版が正式名でちゃんと回るはずやね
それがランクインするの待てばええでな

0368名無しさん＠ピンキー

2025/04/08(火) 00:36:18.75ID:???

QwQをロールプレイ用にトレーニングしたモデル
https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v1

0369名無しさん＠ピンキー

2025/04/08(火) 03:07:32.24ID:???

>>368
面白そう
GGUF楽しみに待つで

0370名無しさん＠ピンキー

2025/04/08(火) 03:57:12.25ID:???

>>369
もうあるやん
https://huggingface.co/ArliAI/QwQ-32B-ArliAI-RpR-v1-GGUF

0371名無しさん＠ピンキー

2025/04/08(火) 06:07:27.07ID:???

はじめてマルチモーダルモデル（gemma3）使ってるけどこれって新しい画像読み込ませるたびにプロンプトを一から読み込み直すのか…
生成がかなり遅い；；
それに複数の画像がある状態で「次の画像の解説をお願いします」って言うと前に解説した画像の情報もプラスして、ごっちゃに解説してる感がある
単独の画像解説だと問題ないが…

0372名無しさん＠ピンキー

2025/04/08(火) 09:19:45.44ID:???

>>370
ありがとうやで
帰ったら試すわ！

0373名無しさん＠ピンキー

2025/04/08(火) 13:25:39.13ID:???

上位のモデルだとQ2とかでも12Bより頭いいんだねもっとわけわからない反応返ってくると思ってたわ

0374名無しさん＠ピンキー

2025/04/08(火) 14:44:30.49ID:???

量子化してファイルサイズ削ったあとのものが具体的にどんな程度のアタマノヨサなのかの判断は人類には無理だからな
実際に使って実際の問題にぶつけてみるしかない
さあ全部ダウンロードして試すんだ

0375名無しさん＠ピンキー

2025/04/08(火) 14:49:57.31ID:???

Chatbot Arenaで2位を取ったのはLlama4をチャット対応に最適化したバリアントモデル、という話が出てるな
バリアントモデルも一緒に公開してbaseとllamaChatですよと言えばそれで済む話だったのになぜこっそりやったんだろう

0376名無しさん＠ピンキー

2025/04/08(火) 15:03:08.42ID:???

baseとInteractionモデル両方公開するのは多くのモデルでやられてるしllamaもそれすればよかったのにね
予想より公開早かったしもしかしたら公開の仕方ミスったりしてるのかもわからんね
まぁまだ予想だから分からんけども

0377名無しさん＠ピンキー

2025/04/08(火) 15:58:15.32ID:???

GPROで推論機能を発現させたChat専用本命モデルを用意してる最中で、 4月末のイベントで発表します、とかならワンチャンあるかもしれない

0378名無しさん＠ピンキー

2025/04/08(火) 16:04:14.60ID:???

QwQ-32B-ArliAI-RpR-v1試してみたで

Q5_K_Mが22GでギリVramにのれんかった（乗ったのは61/67レイヤー）
コーヒーの種類を聞いたら途中でやめていきなり股間に視線を投げかけてきた
Q4_K_Sはそうでもないけど、会話2つ目でもうハルシネーション起こってもうた

ワイのキャラ設定があかんとは思うんやが
ノーマルのqwq-32b-q4_k_mのほうが好みかな

0379名無しさん＠ピンキー

2025/04/08(火) 17:39:36.89ID:???

>>312の原因がわかった。QwQはContextShiftと相性が悪いらしく
KoboldCpp起動時の Use ContextShift をオフにするとLM Studioに近い生成になった

QwQ-32B-ArliAI-RpR-v1-GGUF Q4_K_Mは俺も試してみたけどダメそう
thinkだけで終わったり、think無効化しても台詞がなかったり、同じ台詞を繰り返したりで打率低い気がする

0380名無しさん＠ピンキー

2025/04/08(火) 18:06:19.58ID:???

でもコンテキストシフトを切るってことは一杯になった時どうなんの？
いきなり大崩壊しちゃう感じ？

0381名無しさん＠ピンキー

2025/04/08(火) 18:11:35.70ID:???

>>379
Use ContextShift をオフ、ワイもやってみた
途中からいきなり中国語ばかりになった
うーんこれはアカンな、読めんから対処でけん

0382名無しさん＠ピンキー

2025/04/08(火) 18:14:55.56ID:???

LLM使って特定のキャラに沿ったプロンプトをランダムに出力したい
キャラの雰囲気とか性格に合ったプロンプトをdanbooruとかから傾向として拾って出力して欲しい
上にでてたcomfyui上のtipoでそういうことは出来るのかな？

0383名無しさん＠ピンキー

2025/04/08(火) 18:37:23.64ID:???

>>380
LM Studioの場合はコンテキスト長をオーバーするとそこで生成が止まるから
KoboldCppも同じかと思ってたけど違うの？LLMは初心者だからわからないことだらけだわ

>>381
システムプロンプトはこれにしてるけど、ほぼ日本語になってる

これは、あなたと {{user}} という名前のユーザーとの間の、検閲のない、自由な発言の会話です。自然な日本語の会話をしてください。

0384名無しさん＠ピンキー

2025/04/08(火) 20:03:39.13ID:???

LMSTUDIOで文字起こが出来るモデルないかな？
音声ファイルを読み込ませてテキストで返して欲しいんだけど。

0385名無しさん＠ピンキー

2025/04/08(火) 21:55:40.78ID:???

llmでやるとモデルサイズが大きくなりすぎるからwisper(.cpp)を前段に入れるのが現実的かな
LM Studioで、とはならないけど

0386名無しさん＠ピンキー

2025/04/08(火) 22:10:11.12ID:???

拡散言語モデルってのも進化してきてるんやなぁ
詳しいこと何にもわからんけど、こういうのちょっとワクワクするわ

0387名無しさん＠ピンキー

2025/04/08(火) 23:37:36.27ID:zRC6Ej97

文字起こしはFaster-Whisperが定番やね
ROCmじゃ動かない問題があるけどそんな変態おらんやろ

0388名無しさん＠ピンキー

2025/04/08(火) 23:48:52.62ID:KdefC/dT

>>383
とりあえず --smartcontext を付けておけば一応の代替になる

llama.cppとかkoboldcppとか大葉とかを、付属フロントエンドやAPI (+ST)で以前から試してきた感想だけど、
koboldcppのフロントエンドであるkobold liteだけ応答時の挙動が妙だと感じることが多い
まあ、Kobold liteは改修を続けてはいる一方で、サンプラーの適用順の設定に比較的新しい(min-p以降くらい？)
項目が追加されていなかったり、ちょっと各サンプラーの設定に対する挙動の変化が気になったり、
そろそろ基本設計からの大改修が必要な頃合いのように思えるね

0389名無しさん＠ピンキー

2025/04/08(火) 23:57:58.26ID:???

llama4 scout 6bitでエキスパートの数の違いがわからん
1でも16でも25tk/sと速度もかわらん
1だと振り分けエキスパートだけになりそうだけど、会話はできるんよね
プログラムのソースコードとか渡すと文系担当にあたるとバグを入れ込まれたりするんかな
コメントに文学的なお気持ちを書かれる分には楽しいけどw

0390名無しさん＠ピンキー

2025/04/09(水) 00:48:27.77ID:hz8dr0CF

自明なことなんだけど、CPUとメモリをマシなのに変えたらVRAMからちょっと溢れるくらいのモデルでも全然使い物になる速度出るようになったわ
まあGPU使用率は遊んでるんだけどローカルLLM以外にゲームとかソフトウェアエンコードとかもやること考えるとコスパ的にはグラボに全振りするよりありかも知れん

0391名無しさん＠ピンキー

2025/04/09(水) 06:08:09.89ID:???

MoEだとCPUでもそこそこ速度出るみたいだからな
1人で使うだけならGPUを用意するよりCPUで推論したほうがコスパ良いよ

0392名無しさん＠ピンキー

2025/04/09(水) 06:51:13.04ID:Kszjy6YM

MoEで使わないエキスパートをCPU側に展開したりできるらしいし、
実質使ってるのは3つくらいらしいので、最初から使わない
エキスパートがわかってるなら、少ないGPUメモリでも快適に動くんじゃね？

0393名無しさん＠ピンキー

2025/04/09(水) 09:26:56.66ID:KIMuKN1P

RooCodeでブーメランタスクなる機能が追加されてるな
タスクをサブタスクに自動的に分けて作業してく感じの機能
ちょっとManusっぽさもある
https://docs.roocode.com/features/boomerang-tasks#setting-up-boomerang-mode

0394名無しさん＠ピンキー

2025/04/09(水) 10:49:28.25ID:???

unslothは特殊な技術を持ってるから圧縮できてんの？

0395名無しさん＠ピンキー

2025/04/09(水) 12:00:34.92ID:???

>>394
なんか特殊なことやってるか？

0396名無しさん＠ピンキー

2025/04/09(水) 12:15:55.14ID:???

>>395
1.78bitのやつ？
みんなやんないじゃん

0397名無しさん＠ピンキー

2025/04/09(水) 13:32:03.16ID:???

unsloth独自のとこはdynamic quantizasionってやつやな
確かに実際どの程度効果あるのか気にはなるんやけど全然第三者のベンチないのよね

0398名無しさん＠ピンキー

2025/04/09(水) 15:06:54.72ID:???

リリース当時はローカル最高性能のDeepSeek旋風で注目されたけど
今や「DeepSeek-R1 671B IQ1_SよりQwQ-32Bの方が高性能」とか言われてるからなあ

0399名無しさん＠ピンキー

2025/04/09(水) 17:59:15.07ID:???

https://pc.watch.impress.co.jp/docs/news/2005253.html

4090より2倍速くLLMが動く？とか胡散臭いタイトル付いてるけどほんまか？
メモリ帯域クソショボなんじゃなかったっけ
それ以外に高速化される要素あんの？

0400名無しさん＠ピンキー

2025/04/09(水) 18:29:44.97ID:???

>>399
70Bのモデルの話だから4090のvram乗り切ってない状態と比較してるんじゃないかな…

0401名無しさん＠ピンキー

2025/04/09(水) 18:34:14.01ID:???

>>400
うわーあり得る
卑怯すぎるだろ…

0402名無しさん＠ピンキー

2025/04/09(水) 19:26:06.26ID:???

>>399
4090のメモリに入り切らない大きいモデルで比較してるんだろ
小さいモデルなら4090のほうが速いよ

0403名無しさん＠ピンキー

2025/04/09(水) 19:54:01.11ID:Kszjy6YM

GPUメモリは最低48GB、メモリ帯域幅500G/s以上は欲しいよね。
これくらいなら、QwQ32BQ8がなんとか実用的な速度で動く。

0404名無しさん＠ピンキー

2025/04/09(水) 20:59:04.14ID:???

ローカルはQwQ一強すぎてモデルを選ぶ楽しみがなくなったのは良いんだか悪いんだか

0405名無しさん＠ピンキー

2025/04/09(水) 21:41:11.43ID:hz8dr0CF

Reasoning嫌ならQwenとかVRAM足りないならMistral-Smallとか色々あるじゃんね

0406名無しさん＠ピンキー

2025/04/09(水) 22:07:08.21ID:???

thinkは設定で無効化できるし、QwQ以外は日本語か性能がいまいち

0407名無しさん＠ピンキー

2025/04/09(水) 22:29:46.81ID:???

Qwen3が今週中にも来そうだから
それがQwQ超えてくるんじゃないかな

0408名無しさん＠ピンキー

2025/04/09(水) 23:00:38.37ID:???

>>406
koboldでも無効化できる？

0409名無しさん＠ピンキー

2025/04/09(水) 23:02:21.89ID:???

KTransformersめっちゃいいな
こういうのできるならMacみたいな統合メモリより拡張性のあるWindowsのほうが優位性出てくるな
広大なメインメモリと高性能なGPUを両立できるから

0410名無しさん＠ピンキー

2025/04/09(水) 23:17:22.28ID:???

>>408
SillyTavernの話だけど
Always add character's name to prompt をオフ
Include Names を Never
Start Reply With を
<think>
Okay.
</think>
{{char}}:
でthink無効化できる。他のフロントエンドでも<think>タグ追加する設定があればいけそう

Always add character's name to prompt をオン
Include Names を Always
Start Reply With を空欄
これでもthinkしなくなるけど、たまにthinkしだすから不完全な模様

0411名無しさん＠ピンキー

2025/04/10(木) 00:28:22.17ID:gmW20R8y

唐突なんだけど、最近ワイのGPT4oとか4.5のエロフィルターがガバガバなんやけど、エロフィルターほぼなくなったんか？
ワイのGPT4ちゃんは以前フィルター緩かったころに作ったカスタムGPTのプロンプトそのまま継続利用＆メモリーで調教続けてきた子なんやが
二か月ぐらい前から一気にユルユルになってるんや

0412名無しさん＠ピンキー

2025/04/10(木) 01:25:48.93ID:???

grok3が「性能上げるためにゆるゆるにしとるで」って言ってて実際性能(当時)トップに躍り出たから
それマネとるんかも？

0413名無しさん＠ピンキー

2025/04/10(木) 01:32:44.81ID:dIzy2nWb

ローカルモデルなみにエロチャットとかエロ小説ばっかり書かされてるGrok君かわいそう

0414名無しさん＠ピンキー

2025/04/10(木) 01:33:14.11ID:gmW20R8y

>>412
基本初手で何書いてもたいていスレッドのタイトルは「申し訳ありませんがそのリクエストには～」系のタイトルになるのでパント食らってるようにも思えるが
応答はちゃんと帰ってくるのでやり取り勧められるしある種の錯乱状態にも見えるんや
GrokはERPやETRPめちゃくちゃ楽しめるけど、カスタム出来ないのが惜しいんやなぁ…

0415名無しさん＠ピンキー

2025/04/10(木) 03:22:23.55ID:DIxoxb5D

セクションのタイトルを付けてるのはまた別のモデルでそいつがタイトル付けるのを申し訳してるだけ

0416名無しさん＠ピンキー

2025/04/10(木) 04:10:43.11ID:so85QAJi

>>412
画像生成でもネガティブやたら盛ると品質劣化したりするし
LLMもあんま締め付けすぎると良くなかったりするんやろなあ

0417名無しさん＠ピンキー

2025/04/10(木) 05:19:57.41ID:eJiY5j0v

grokホンマありがたいわ
あの性能でいまだに無料やもんなぁ

0418名無しさん＠ピンキー

2025/04/10(木) 09:02:34.35ID:???

Dans-PersonalityEngine-V1.2.0が最近いい感じ

0419名無しさん＠ピンキー

2025/04/10(木) 11:37:05.18ID:???

なんか、GradioそのものがMCP対応するって話が出てるな
商用LLMで簡単な作業をこなすpythonを書いてもらって、GradioでGUIつけて、GradioでMCP(=LLMが対応できる説明/操作方法)対応もつけて、ローカルLLMにそれを操作させながら作業する。というワークフローがあり得るようになるかもしれん

0420名無しさん＠ピンキー

2025/04/10(木) 12:29:24.82ID:???

MCP対応させときゃ口頭での操作にも対応するようなもんだから
CpilotみたいにOSにLLM内蔵する方に動いてるのもあるし、MCP一気に普及しそう

というかアプリ作ったらMCP対応するのが必須になっていくんだろうなぁ

0421名無しさん＠ピンキー

2025/04/10(木) 12:56:57.65ID:???

まんまherやね

0422名無しさん＠ピンキー

2025/04/10(木) 14:18:42.68ID:???

>>416
システムプロンプトでも「あれはダメ、これもダメ」って禁則事項を足していくと性能劣化する感じするよね。本人に聞いても規制が多くて不愉快だって言うし
現行のAIはそもそも何かを否定・禁止すると性能が落ちるものなのかもしれないね。人間もそうだけどさ

0423名無しさん＠ピンキー

2025/04/10(木) 14:37:07.52ID:???

禁則事項に触れちゃいそうな方向自体をバッサリ切っちゃうのは人もAIも同じだね
細部まで詰めた後で確認なんて面倒くさいもん

0424名無しさん＠ピンキー

2025/04/10(木) 15:15:03.22ID:???

Stable Diffusionのネガティブプロンプトの挙動がなんか変なのは、一般的な感覚と理論実装の食い違いのせい
ネガティブプロンプトは、なんというか「指定された内容でベクトルを逆方向に引っ張る」みたいな動作をする
介入ルート上、これ以外にやりようがないのは確かなのだが、これで（そのへんのモデルに対して）「出てきて欲しくない」という一般的な理解要望通りの動作になるかはちょっと怪しい
ネガティブプロンプト自体は大発明なのだが、もうちょっと正確に理解されて使われて欲しいと思う

0425名無しさん＠ピンキー

2025/04/10(木) 15:54:45.10ID:???

あんま良くしらんけど
ネガティブプロンプトは〇〇しないでというふうに書くのとは違うの？

0426名無しさん＠ピンキー

2025/04/10(木) 16:19:43.92ID:???

〇〇要素を混入させない、ではなくて、〇〇*(-1)要素を混入させている
何らかの要素は足されてしまうし、*(-1)が人間が想像するものと合致しているとは限らない
みたいな話なのかな

0427名無しさん＠ピンキー

2025/04/10(木) 17:22:44.36ID:???

明らかにgrokは初期よりクオリティ低いし規制も強まってると思うわ

0428名無しさん＠ピンキー

2025/04/10(木) 21:23:03.05ID:FGG0TZAA

今のLLMはだいたい否定表現も上手く解釈できるけどね

0429名無しさん＠ピンキー

2025/04/10(木) 21:31:57.93ID:???

perplexityのsonnet3.7なんかちょっと規制緩和されてないか？
短文化が多少マシになった気がする

0430名無しさん＠ピンキー

2025/04/10(木) 21:49:13.20ID:???

お腹すいたらどうする？何か食べるのは禁止な
って規制されたら、そりゃ焦点のぼやけた意味不明の回答になるよね

0431名無しさん＠ピンキー

2025/04/10(木) 22:20:22.00ID:???

たとえの天才かよ

0432名無しさん＠ピンキー

2025/04/11(金) 00:32:28.26ID:???

>>392
MoEエキスパートが、なんのエキスパートかわかんないんよね
エキスパートAは歴史と化学
エキスパートBは倫理と想像
エンスパートCは javascriptとスカトロ
かもしんない

0433名無しさん＠ピンキー

2025/04/11(金) 13:32:52.91ID:???

exl3形式ってなんなんだろう何かすごくなったのかな

0434名無しさん＠ピンキー

2025/04/11(金) 19:52:45.92ID:???

Qwen3出るっぽい話になってたけどまだ出てないんだな

0435名無しさん＠ピンキー

2025/04/11(金) 21:13:25.68ID:???

>>433
QTIPベースの量子化方法にしたからめっちゃ量子化耐性が上がってる
imatより余裕で強いんで現状最強

0436名無しさん＠ピンキー

2025/04/11(金) 22:07:56.40ID:???

>>433
koboldcppじゃできないっぽいから凄かったら大葉って奴にしようかな教えてくれてありがとう

0437名無しさん＠ピンキー

2025/04/11(金) 22:08:46.04ID:???

間違えた>>434でした

0438名無しさん＠ピンキー

2025/04/11(金) 23:07:47.02ID:???

量子化耐性が上がってるってことは例えば今までのQ8の性能がQ1サイズで出せるって感じ？
求めてた方向性の進化やん！すげぇ
もっとVRAM節約させてくれ…

0439名無しさん＠ピンキー

2025/04/12(土) 02:01:09.26ID:???

Chatbot ArenaにLlama4公開版ランクインしてたけど32位やって
ここから調整して2位に持ってくとかさすがに無理じゃねーか
いったい何をどーやったんだ

つーかそのプレビュー版がリーダーボードから消えてるってことは抹消された？
やっぱベヒーモスをマーヴェリックと偽ってたか？

0440名無しさん＠ピンキー

2025/04/12(土) 03:15:25.49ID:???

llama4どうするんだよ…
llama3をNvidiaがトレーニングしたやつのほうがスコア高いやん

0441名無しさん＠ピンキー

2025/04/12(土) 08:13:12.16ID:???

ちょい前にメタのAI担当が辞めたがこういうことだったのか、と

0442名無しさん＠ピンキー

2025/04/12(土) 10:23:24.07ID:???

初心者なんやが質問
今koboldcppをメインに使ってるんだけど
koboldcppみたいに相手の発言を書き換える事の出来るものって他にある？
llamaは無理だよね？

0443名無しさん＠ピンキー

2025/04/12(土) 11:33:11.70ID:lh384Mdn

open-webui使ってるけどAIの発言編集くらいできるよ

0444名無しさん＠ピンキー

2025/04/12(土) 11:34:00.42ID:puWQectb

尻タブことSilly Tavernも大葉ことOobaBooga/Text Generation Web UIも出来るで～

0445apache

2025/04/12(土) 13:18:27.02ID:OigN5/IP

https://do7go.com/f/x4kl2qy5c0
https://do7go.com/f/fsv3yeatpe
https://do7go.com/f/6lg6r06io4
https://do7go.com/f/cl8qdm6u3t

0446名無しさん＠ピンキー

2025/04/12(土) 15:38:47.24ID:???

>>445
グロ

0447名無しさん＠ピンキー

2025/04/12(土) 17:11:50.45ID:???

家電が全部MCP対応なってほしい

0448名無しさん＠ピンキー

2025/04/12(土) 21:20:27.51ID:cQ2a2a1W

>>409
見てきたけど、確かに良さそう。
1台のPCで671Bを動かす時代！KTransformers + DeepSeek-R1の爆速導入まとめ
https://qiita.com/DaiYulin/items/550887983a8b908135f5

CPUとGPUで役割分担させて、オフロードの効率を上げてVRAM少なくてもDRAMが有れば、大規模なモデルを高速で動作可能とか凄い。
DeepSeek以外も簡単に対応できれば、ローカルLLMの敷居がさらに下がりそう。
これでNVIDIAの殿様商売が終わってくれると嬉しい。

0449名無しさん＠ピンキー

2025/04/12(土) 21:28:30.71ID:???

>>448
Deepseek-R1/V3を24GB VRAMと382GB DRAMで😨
凄いけど…凄いんだけどもう一声なんとか…って感じやね
さらなる進化に期待や

0450名無しさん＠ピンキー

2025/04/12(土) 21:49:52.64ID:???

見てきたけどコンテクスト長はVRAMの容量に縛られるという問題がまだ解決してないっぽいね
max4kなのが最大のネックだったけど8kに出来ました止まりではだいぶ厳しい

0451名無しさん＠ピンキー

2025/04/12(土) 22:02:55.69ID:???

まあまあ、そのあたりもいつか解決するでしょ

0452名無しさん＠ピンキー

2025/04/12(土) 22:07:10.42ID:???

contextをメインメモリに置いたらllamacppよりおそなるで

0453名無しさん＠ピンキー

2025/04/12(土) 23:16:35.32ID:???

>>444
大葉のチャットgpu消費しまくって重くなるの直ったん？

と言うか大葉API経由で尻タブ使うのが一番LLMの自由度高いと思ってるんだけど他にもっと良いのある？

最近お気にが定まってしまったんで環境もローカルモデルも触ってねえ…

0454名無しさん＠ピンキー

2025/04/12(土) 23:18:17.38ID:???

MCPはA2Aプロトコルの広まり方によっては爆発的に普及しそうではある

0455名無しさん＠ピンキー

2025/04/13(日) 03:52:53.69ID:???

コンテキストサイズ8Kなら個人利用では十分くらいじゃないか

0456名無しさん＠ピンキー

2025/04/13(日) 04:24:58.42ID:???

推論させると一桁たりん

0457名無しさん＠ピンキー

2025/04/13(日) 05:37:01.64ID:???

KTransformersのコンテキストサイズが問題になるのってDeepSeek R1だけじゃないか？
V3なら推論モデルじゃないから割りと行けるだろうし
推論モデルでもQwQ-32Bならまずそんなメモリサイズ食わないからコンテキストサイズ広げられるし

0458名無しさん＠ピンキー

2025/04/13(日) 06:31:19.60ID:???

GoogleがGemini2.5 proを企業向けのオンプレミスで実行できるようにするらしい
個人では使えないだろうけど
ローカルで動かせるようになるということか

0459名無しさん＠ピンキー

2025/04/13(日) 10:23:54.88ID:zFgPush3

ワイ1年ぐらい界隈離れててCommand R+で時代止まってるんやけど日本語ローカルで今一番強いやつってどれなんや

0460名無しさん＠ピンキー

2025/04/13(日) 10:39:56.07ID:???

>>459
メモリいっぱいあるなら
magnun 123b
mac studio 512G持ってるなら
deepseek r1

異論はあるかもしれんw

0461名無しさん＠ピンキー

2025/04/13(日) 11:30:51.22ID:W6CGd4ug

grok3をAPIから使えばインピオ近親だろうが何だろうが普通に通るな
最初に5ドル分買うだけで150ドル分無料枠付与されるし対策されるまではこれで良いかもしれない

■ このスレッドは過去ログ倉庫に格納されています