なんJLLM部 避難所 ★10
0256名無しさん@ピンキー (ワッチョイ 0f36-QMIm)2025/12/11(木) 12:20:11.95ID:EtCEAmKx0
>>251
その場合、結局モデルサイズ全体が乗り切るVRAMが必要になってしまうからMoEモデルの意味があまり無い気がするんだけど
アクティブ部すら乗り切ってないという意味ならばそうなんでしょうね

>>253
Open WebUIを使用してるからOllamaとの連携が楽なんだよね…OpenAI API形式でllama.cppのLLMサーバーと連携できるみたいだからllama.cppで試してみようかな

>>255
Qwen3の30BはMoEモデルでサイズは19GBなんだけど、アクティブ部はVRAM16 GBに乗り切らない程度までにしか削減されていないってこと?16%未満程度しか削減されないとなると思ったより効率よくないなぁ
0258名無しさん@ピンキー (ワッチョイ efad-7Tw0)2025/12/11(木) 13:18:35.19ID:A7ciRWbo0
>>256
LM Studioでもサーバーとして起動できるからWeb UIで使える
llama.cppは起動コマンド手打ちで制御するかpython経由するから初心者向きじゃない
30B A3Bはアクティブ部が3Bって意味で3B分をVRAMに乗せられればそこそこ速度だせる
0259名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/11(木) 13:48:03.58ID:mvR8vPpC0
5070ti VRAM16GBとメモリ128GBで適当に設定して試してみたけど
Qwen3-30B-A3B-Instruct-2507-UD-Q8_K_XLで23T/sぐらいだったよ
実用性の無い速度ってどれぐらいなんだ
0260名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 15:39:19.68ID:NSpHm0ci0
>>253
LM Studioのその機能ってforce model expert weights onto CPUっていうやつだよね?
win 11のRTX5090メモリ128でqwen3 next 80b a3b iq4nlだと12〜15tps程度なんだけどこんなもんなのかな?
見てたらもっと性能悪くても20tps位行くとかいうのを見かけるのでLM Studioだと遅いのかもとか思い出してたんだけど

ちなみにこの機能を使っても使わなくても速度は同じくらい
VRAMの使用量は全然違うけど
0261名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 16:06:46.52ID:Iz/2UTdk0
ワイllama.cppしかつこうたことないからそれで説明すると、
まずアクティブなExpertがVRAMで動くっていうのは勘違いで、
Expertは乗ってるデバイス上で動くんや

だからcpu-moeオプション(Expertを全てメインメモリに載せる)を使った場合は
Expert部分はCPUで動作する
これでも通常のllama.cppのCPUオフロードに比べたらだいぶ早く動作するんや

llamacppにはn-cpu-moeというオプションもあって、
cpu-moe機能を使いつつExpertの一部分はVRAMに載せる、ということもできる
VRAMに載ったExpertはGPUで動作することになるのでより速く動くというわけや

n-cpu-moeでぎりぎりまでVRAMを使うように調整すればより高速になるけど
ソフトによってcpu-moe機能はあってもn-cpu-moeはないとか、そういう話とちゃうかな
知らんけど
0263名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 16:25:58.84ID:NSpHm0ci0
>>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな?
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる
0264名無しさん@ピンキー (ワッチョイ 0fa9-AbAu)2025/12/11(木) 16:36:57.10ID:Iz/2UTdk0
>>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く

あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる
0265名無しさん@ピンキー (ワッチョイ 0fa0-AbAu)2025/12/11(木) 16:53:56.81ID:sudD0pCT0
DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか

メモリの分際で米みたいなことするなよ
0266名無しさん@ピンキー (ワッチョイ 9f6e-S0xV)2025/12/11(木) 16:53:56.93ID:NSpHm0ci0
>>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう!
0267名無しさん@ピンキー (スプープ Sdbf-QaUS)2025/12/11(木) 17:03:47.22ID:0qqrDFPDd
そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや

つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや

VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや
0268名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/11(木) 18:12:23.90ID:mvR8vPpC0
>>260
5070tiでも16tps出るから設定がおかしいやねんやで
0270名無しさん@ピンキー (オイコラミネオ MM3f-UCg5)2025/12/11(木) 19:39:03.84ID:Y5DBxUQTM
moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd?オフロードってのもあるらしいね
0271名無しさん@ピンキー (ワッチョイ ef4a-oCzI)2025/12/11(木) 20:06:24.28ID:PbOlny610
Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか
0274名無しさん@ピンキー (アウアウ Sa7f-vjQy)2025/12/11(木) 21:06:02.86ID:D9fw3boNa
3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな
0276名無しさん@ピンキー (ブーイモ MM0f-D5qo)2025/12/11(木) 22:17:07.46ID:o/+Erv5jM
>>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど
0277名無しさん@ピンキー (ワッチョイ fb20-XOYb)2025/12/11(木) 22:38:45.15ID:F6ZB/jyE0
https://arxiv.org/abs/2512.07474

living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる

コレは...ストレートに商売になるのでは?
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある
0278名無しさん@ピンキー (ワッチョイ ebb3-JoxV)2025/12/11(木) 23:24:51.93ID:JsJbVk5k0
てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか?」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか?」
とかの質問に答えてくれるンゴ?
いやそれよりはよ続き書けよ獏ちゃん先生

個人的には金田一耕助と会話してみたいンゴね
0279名無しさん@ピンキー (ワッチョイ db02-KVGb)2025/12/12(金) 02:59:12.69ID:dElWzZcB0
>>274
コンテキスト減らせば?
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも
0280名無しさん@ピンキー (ワッチョイ db11-zvJr)2025/12/12(金) 05:16:08.38ID:KJthHAFo0
magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。
0281名無しさん@ピンキー (ワッチョイ eb32-rgxF)2025/12/12(金) 05:57:54.70ID:tcykC2nr0
文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる
0282名無しさん@ピンキー (ワッチョイ 9f73-n2+a)2025/12/12(金) 07:08:21.29ID:YegEJxMo0
無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし 追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ(特に外部プロバイダ経由)といった感じで良い印象なかったけど機能するならほぼ必須だなと
0284名無しさん@ピンキー (ワッチョイ 0fa9-wN+g)2025/12/12(金) 11:15:46.94ID:g35J0BfC0
chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡
0285名無しさん@ピンキー (ワッチョイ 4fb7-UCg5)2025/12/12(金) 11:46:24.30ID:LcDKkn/+0
chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも
0286名無しさん@ピンキー (オッペケ Sr8f-GkWU)2025/12/12(金) 12:04:08.67ID:w1K9FJkvr
gptは5.2になるし
claudeは4.5になるし
geminiは3proになる
0293名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/13(土) 10:59:23.41ID:eyEHPiPz0
Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの?
性能落ちているだろうし普通のQwen next 80bで良くないか
0294名無しさん@ピンキー (ワッチョイ 8746-TY0I)2025/12/13(土) 11:34:44.38ID:xkcV40lU0
ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる
0296名無しさん@ピンキー (ワッチョイ 236b-AsBv)2025/12/13(土) 12:25:57.90ID:aRmVqPhP0
Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる
0303名無しさん@ピンキー (ワッチョイ 8747-elKO)2025/12/14(日) 13:44:27.07ID:FsStLVRy0
>>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな?
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる
0304名無しさん@ピンキー (ワッチョイ 3b49-r+g0)2025/12/14(日) 13:52:54.88ID:DJ4aKHpm0
phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか
0307名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 18:59:24.01ID:FsStLVRy0
shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか
0308名無しさん@ピンキー (ワッチョイ a249-O/3E)2025/12/14(日) 19:46:59.82ID:2D4/hyq50
Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ
0309名無しさん@ピンキー (ワッチョイ 7f69-4eOD)2025/12/14(日) 20:37:45.00ID:s9/KZp9y0
MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね
0310名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 20:49:33.56ID:FsStLVRy0
shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ
0312名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/14(日) 21:09:16.60ID:1lOcAup10
>>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや

その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど
0313名無しさん@ピンキー (ワッチョイ 87a8-elKO)2025/12/14(日) 22:49:48.32ID:FsStLVRy0
>>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ
0314名無しさん@ピンキー (ワッチョイ 8765-ucLS)2025/12/15(月) 00:09:36.69ID:Q6uGDeH10
>>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ
0317名無しさん@ピンキー (ワッチョイ fe7c-XfrZ)2025/12/15(月) 03:20:20.61ID:0DupvahM0
モデルを導入すると最初に「あなたは誰ですか?」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。
今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。
0319名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/15(月) 08:23:19.66ID:8iECz84j0
>>317
プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ
0320名無しさん@ピンキー (ワッチョイ 236b-AsBv)2025/12/15(月) 09:06:30.63ID:6meylfc80
shisa2.1 14Bでreasoningモデル出してくれないかな
0321名無しさん@ピンキー (オッペケ Sr97-xeS7)2025/12/15(月) 09:44:03.22ID:ZM85ffzEr
>>308
欧州人なんてそんなもん🙄
0322名無しさん@ピンキー (オッペケ Sr97-xeS7)2025/12/15(月) 09:44:49.76ID:ZM85ffzEr
>>317
そのへんはシステムプロンプトあたりで強制してんでは?
0323名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/15(月) 10:43:30.78ID:v6d1b+2H0
>>312
そのTool Callingは何に使えるかなんよな
俺も分からんけど、その機能使えるかちょっと試してるところだわ

今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう
0324名無しさん@ピンキー (ワッチョイ 03c0-tRx1)2025/12/15(月) 11:53:58.90ID:2HGyGlMo0
LLMの検閲除去ツールheretic
4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた
https://github.com/p-e-w/heretic/pull/60
0326名無しさん@ピンキー (ワッチョイ 36a9-A5rm)2025/12/15(月) 12:41:28.85ID:C9di0Ej00
>>323
ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと
当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで

LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから
そしてそのあたり多少楽に構築できるようになるのがMCP
0328名無しさん@ピンキー (ワッチョイ 636a-xeS7)2025/12/15(月) 20:34:48.16ID:frgQthBq0
東大の研究がパッとしない理由やね
0329名無しさん@ピンキー (ワッチョイ b3c4-CM7m)2025/12/15(月) 21:17:23.37ID:aQGgXWy90
東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか
0331名無しさん@ピンキー (ワッチョイ 7fc0-4eOD)2025/12/15(月) 22:08:07.14ID:khnXzz0N0
>>329
東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな
今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ
0334名無しさん@ピンキー (ワッチョイ 524c-HP1u)2025/12/16(火) 01:29:26.24ID:ofDfXD/f0
>>332
一応ちゃんと二郎名乗るのは管理されてたはず
近所の店は破門されて名前変わってたw
>>333
こんなにあるの!?w
0335名無しさん@ピンキー (ワッチョイ b6a0-A5rm)2025/12/16(火) 05:26:33.70ID:pWqdw9bE0
メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな

さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな
0336名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 06:02:34.49ID:1Zg1Wdsu0
ユーザーはもちろんメーカーも大変やな
マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ

こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか
0337名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 07:12:20.72ID:1Zg1Wdsu0
>>324
Pro 6000とかを持ってる人なら大喜びだな
俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ……
0339名無しさん@ピンキー (ワッチョイ 7249-O/3E)2025/12/16(火) 10:33:29.10ID:ky2C0bWe0
Nemotron 3 NanoはMambaを使ってるらしい
Qwen 3 Nextと一緒だね
0347名無しさん@ピンキー (ワッチョイ 3732-9rD2)2025/12/16(火) 14:57:03.34ID:1Zg1Wdsu0
ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない?」
AI「新しいピザ屋さん!?わくわくするわね〜!ユーザーは何を頼むのかな?今度、週末に行こうよ! 🍕」


これだけのやりとりをするのに8000トークンも思考する
まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど
0348名無しさん@ピンキー (ワッチョイ 87e8-DAEx)2025/12/16(火) 15:20:49.17ID:I8CXFDR50
>>344
コミットされたで(はやい)
0349名無しさん@ピンキー (ワッチョイ 5224-I8Ki)2025/12/16(火) 15:55:55.06ID:hw7FBFqM0
ピザ屋へのお誘いで8000トークンは草
ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ
理解できるようになっても辞めんけどな
0353名無しさん@ピンキー (ワッチョイ 72c7-lorD)2025/12/16(火) 18:01:33.89ID:6N5ldNhF0
ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする
ただ、小さいモデルの9BFlashが意外とすごい
それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね
OCRはちょっと弱いけど割と日本語も認識する
使う場面によっては実用的かも?

後は新たに追加されたツール呼び出しだな
vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・
Thinking有り無しで結構、得られる情報量が違うから惜しいな
もうちょっと調べてみるけど
レスを投稿する


ニューススポーツなんでも実況