なんJLLM部 避難所 ★10

!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured

0304名無しさん@ピンキー (ワッチョイ 3b49-r+g0)2025/12/14(日) 13:52:54.88ID:DJ4aKHpm0
phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか

0305名無しさん@ピンキー (ワッチョイ 8748-TY0I)2025/12/14(日) 16:52:28.15ID:3MfiUZIz0
>>304
aratako先生が出してるデータセットでワンチャン?

0306名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/14(日) 18:22:59.55ID:P5aE0iMn0
>>302
GLM4.6Vはツール呼び出し機能が追加されたのがポイントだけど、どう活用するかだなー

0307名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 18:59:24.01ID:FsStLVRy0
shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか

0308名無しさん@ピンキー (ワッチョイ a249-O/3E)2025/12/14(日) 19:46:59.82ID:2D4/hyq50
Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ

0309名無しさん@ピンキー (ワッチョイ 7f69-4eOD)2025/12/14(日) 20:37:45.00ID:s9/KZp9y0
MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね

0310名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 20:49:33.56ID:FsStLVRy0
shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ

0311名無しさん@ピンキー (ワッチョイ 3b49-r+g0)2025/12/14(日) 21:07:13.71ID:DJ4aKHpm0
そらそうだ
モデルにもよるけど3.5bpw切る辺りから急激に性能劣化する
Q4が安定択なのにはそれなりの理由がある

0312名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/14(日) 21:09:16.60ID:1lOcAup10
>>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや

その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど

0313名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 22:49:48.32ID:FsStLVRy0
>>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ

0314名無しさん@ピンキー (ワッチョイ 8765-ucLS)2025/12/15(月) 00:09:36.69ID:Q6uGDeH10
>>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ

0315名無しさん@ピンキー (ワッチョイ 8748-TY0I)2025/12/15(月) 00:58:54.38ID:BlZcCH320
>>314
個人的お気に入りで良ければAratako/Qwen3-30B-A3B-ERP

0316名無しさん@ピンキー (ワッチョイ 8748-TY0I)2025/12/15(月) 01:06:30.17ID:BlZcCH320
>>314
あと16GB/64GBだったら>>299もありかもしれん

0317名無しさん@ピンキー (ワッチョイ fe7c-XfrZ)2025/12/15(月) 03:20:20.61ID:0DupvahM0
モデルを導入すると最初に「あなたは誰ですか?」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。
今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。

0318名無しさん@ピンキー (ワッチョイ a249-O/3E)2025/12/15(月) 04:42:27.77ID:OqS0HGo/0
DGX SparkってConnectX7なのに200Gbps出ないんだな
https://qiita.com/ksasaki/items/bd88ff8c03760856fe6c

0319名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/15(月) 08:23:19.66ID:8iECz84j0
>>317
プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ

0320名無しさん@ピンキー (ワッチョイ 236b-AsBv)2025/12/15(月) 09:06:30.63ID:6meylfc80
shisa2.1 14Bでreasoningモデル出してくれないかな

0321名無しさん@ピンキー (オッペケ Sr97-xeS7)2025/12/15(月) 09:44:03.22ID:ZM85ffzEr
>>308
欧州人なんてそんなもん🙄

0322名無しさん@ピンキー (オッペケ Sr97-xeS7)2025/12/15(月) 09:44:49.76ID:ZM85ffzEr
>>317
そのへんはシステムプロンプトあたりで強制してんでは?

0323名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/15(月) 10:43:30.78ID:v6d1b+2H0
>>312
そのTool Callingは何に使えるかなんよな
俺も分からんけど、その機能使えるかちょっと試してるところだわ

今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう

0324名無しさん@ピンキー (ワッチョイ 03c0-tRx1)2025/12/15(月) 11:53:58.90ID:2HGyGlMo0
LLMの検閲除去ツールheretic
4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた
https://github.com/p-e-w/heretic/pull/60

0325名無しさん@ピンキー (ワッチョイ 874e-7UIs)2025/12/15(月) 12:40:09.96ID:HQ2vyPaJ0
検閲除去ってロボトミー手術してるようで信用してない

0326名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/15(月) 12:41:28.85ID:C9di0Ej00
>>323
ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと
当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで

LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから
そしてそのあたり多少楽に構築できるようになるのがMCP

0327名無しさん@ピンキー (ワッチョイ b7c5-ucLS)2025/12/15(月) 20:29:50.98ID:yxGC13ST0
右脳の無い左脳だけのLLMで理Vに受かる患者と話してるのが今だろ

0328名無しさん@ピンキー (ワッチョイ 636a-xeS7)2025/12/15(月) 20:34:48.16ID:frgQthBq0
東大の研究がパッとしない理由やね

0329名無しさん@ピンキー (ワッチョイ b3c4-CM7m)2025/12/15(月) 21:17:23.37ID:aQGgXWy90
東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか

0330名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/15(月) 21:38:28.53ID:v6d1b+2H0
>>326
ツールコールの仕組み自体はそんなに詳しくないけど何が出来るかは確認しておきたいんよね
ちょいテストしてみるわ

0331名無しさん@ピンキー (ワッチョイ 7fc0-4eOD)2025/12/15(月) 22:08:07.14ID:khnXzz0N0
>>329
東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな
今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ

0332名無しさん@ピンキー (スプープ Sd12-9DM+)2025/12/15(月) 22:11:52.42ID:r0PpTIQWd
>>331
ラーメン二郎みたいで草

0333名無しさん@ピンキー (ワッチョイ 3e27-A5rm)2025/12/15(月) 23:44:51.06ID:yALggCZ00

0334名無しさん@ピンキー (ワッチョイ 524c-HP1u)2025/12/16(火) 01:29:26.24ID:ofDfXD/f0
>>332
一応ちゃんと二郎名乗るのは管理されてたはず
近所の店は破門されて名前変わってたw
>>333
こんなにあるの!?w

0335名無しさん@ピンキー (ワッチョイ b6a0-A5rm)2025/12/16(火) 05:26:33.70ID:pWqdw9bE0
メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな

さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな

0336名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 06:02:34.49ID:1Zg1Wdsu0
ユーザーはもちろんメーカーも大変やな
マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ

こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか

0337名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 07:12:20.72ID:1Zg1Wdsu0
>>324
Pro 6000とかを持ってる人なら大喜びだな
俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ……

0338名無しさん@ピンキー (ワッチョイ b6a0-A5rm)2025/12/16(火) 08:01:56.10ID:pWqdw9bE0
むしろmacを買った方がいいとかある?

0339名無しさん@ピンキー (ワッチョイ 7249-O/3E)2025/12/16(火) 10:33:29.10ID:ky2C0bWe0
Nemotron 3 NanoはMambaを使ってるらしい
Qwen 3 Nextと一緒だね

0340名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/16(火) 12:20:21.50ID:YLOPA8Ta0
moeで100bも公開予定なのか
良さげやな

0341名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/16(火) 12:27:33.80ID:6N5ldNhF0
macはまだ値上げしてない?
M5 Studioも興味あったけど、どうなるんだろう

0342名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/16(火) 12:30:03.97ID:YLOPA8Ta0
llama.cppはすでに動作するレベルのPRが出てて(まだ未マージだけど)
https://github.com/ggml-org/llama.cpp/pull/18058
GGUFもunslothが作成済みで
https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF

nvidia随分と手回しがええな

0343名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/16(火) 12:37:58.89ID:6N5ldNhF0
Nemotron 3 Nanoはもう試せるの?
NVIDIA製のやつ?
というか知らんかったw

0344名無しさん@ピンキー (スプープ Sd12-9DM+)2025/12/16(火) 13:50:22.49ID:iC+YmZrid
>>342
実装完了したら教えてね

0345名無しさん@ピンキー (ワッチョイ 36a9-z5HT)2025/12/16(火) 14:31:15.36ID:YLOPA8Ta0
動くまでの実装は完了しとるから上のPRのブランチでビルドすれば動かせるで

0346名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 14:48:29.52ID:1Zg1Wdsu0
Nemotron 3 NanoはOpenRouterでfreeで使えるぞ
でもものすごい長考するし出力も暴れるしでチャットするのには苦労しそうな感じだ

0347名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 14:57:03.34ID:1Zg1Wdsu0
ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない?」
AI「新しいピザ屋さん!?わくわくするわね〜!ユーザーは何を頼むのかな?今度、週末に行こうよ! 🍕」


これだけのやりとりをするのに8000トークンも思考する
まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど

0348名無しさん@ピンキー (ワッチョイ 87e8-DAEx)2025/12/16(火) 15:20:49.17ID:I8CXFDR50
>>344
コミットされたで(はやい)

0349名無しさん@ピンキー (ワッチョイ 5224-I8Ki)2025/12/16(火) 15:55:55.06ID:hw7FBFqM0
ピザ屋へのお誘いで8000トークンは草
ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ
理解できるようになっても辞めんけどな

0350名無しさん@ピンキー (ワッチョイ 8748-elKO)2025/12/16(火) 15:56:50.50ID:i7w/eNA/0
トークン数≒コンテキスト長だっけ?
そのペースなら一応答で前の記憶どんどん消えてくな

0351名無しさん@ピンキー (ワッチョイ 36a9-z5HT)2025/12/16(火) 17:03:42.93ID:YLOPA8Ta0
リーズニングの部分ってコンテキストには含めてないんとちゃうかな
アプリ側の実装によるとは思うねんけど

0352名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/16(火) 17:47:15.86ID:6N5ldNhF0
LM Studioだとリーズニングも含めてたような
アプリによるんだろうね

0353名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/16(火) 18:01:33.89ID:6N5ldNhF0
ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする
ただ、小さいモデルの9BFlashが意外とすごい
それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね
OCRはちょっと弱いけど割と日本語も認識する
使う場面によっては実用的かも?

後は新たに追加されたツール呼び出しだな
vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・
Thinking有り無しで結構、得られる情報量が違うから惜しいな
もうちょっと調べてみるけど

0354名無しさん@ピンキー (ワッチョイ 87b8-D2pJ)2025/12/16(火) 20:12:41.28ID:+e/A/7mx0
nVidia から新しいモデル
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

新着レスの表示
レスを投稿する