なんJLLM部 避難所 ★10
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
なんJLLM部 避難所 ★9
https://mercury.bbspink.com/test/read.cgi/onatech/1755924738/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured GLM-4.6V-Flash-なんか微妙だったエロっぽい事はできそうだけど推論していきなり小説っぽいの書かれるただ他の用途なら凄そう >>261
なるほど、確かにそんな感じがする
llama.cpp使うのが一番良さそうかなと思ってるけど、winで使いたい時はwslでコンパイルして使う形でいいのかな?
wslとかdockerだと使えないレベルのオーバーヘッドがあるとかないかなーとか気になってる >>263
WSL上でどう動かすのがいいのかチャッピーに聞いたことあるんやけど、
WSL上のUbuntuではWindowsバイナリが動くので、
CUDAなどの問題を回避したい場合はWindowsバイナリを動かすのが楽でええでって言われた
この場合CUDAはWindowsホスト上のものが利用されるので、
Windows上にNvidiaのドライバが入ってれば動く
あとはgithubのリリースのページからwindows向けのバイナリ落としてきて動かすだけや
ワイの場合
Windows x64 (CUDA 12)
を選んどる DDR4が爆値上げしてるので、完全にPC買い替えの機会を失った
DDR5の値段が下がって来るのを待つしかないか
メモリの分際で米みたいなことするなよ >>264
なるほど、ちゃんと調べてなかったけどコンパイル済みのバイナリあるのね
後で試してみる、ありがとう! そもそもMoEモデルは1トークンごとにアクティブパラメータが入れ替わるんや
VRAMにロードしたエキスパートはGPUが処理してメインメモリにオフロードしたエキスパートはCPUが処理するんや
つまりVRAMに収まる収まらないの二択じゃないってことや
denseモデルだと「モデルがVRAMに入らないから全部メインメモリに置くで」となるんや
VRAMに一部でも置けるMoEモデルが有利なのは「VRAMを載せたぶんだけ使ってくれる」ってとこや >>260
5070tiでも16tps出るから設定がおかしいやねんやで moeはアクティブな部分を都度gpuにram から転送するんやと思ってたわ、違うんか。
なんかmoeにいいffd?オフロードってのもあるらしいね Qwen3のthinking長考癖酷すぎるな
どうにかして抑制できんやろか メモリはOpenAIがアフォみたいな買い占めをしたのが引き金だからあれはあれでなあ。スレチだからこれ以上はやめとくけど スレチじゃないぞ
メモリの高騰化はこのスレとしても無関心ではいられないだろ 3090×2(VRAM48GB)+RAM128GB+LM StudioでQwen3-235B-A22B-Q4_K_XLが
コンテキスト長262Kで3token/sぐらいしか出ないんやが設定おかしいんかな IQ2やけど5070Ti(VRAM 16GB)で8.38tokne/s出たって情報出てきたで
https://note.com/high_u/n/nfb01f1544511
ここの一番下
VRAM3倍あるわけやから設定つめりゃQ4でもこれと同じくらい速度出てもええんとちゃうかなって気はするやね >>274
丁度Geminiちゃんと一緒にQ3と格闘してたけど(5060ti DDR4 128G)
いわくメモリ速度が一番効くからDDR4なら3が限界だってさ(うちはCPUも弱いので2代)
DDR5ならもう少し行くけど https://arxiv.org/abs/2512.07474
living the novel
小説からキャラクターペルソナと作中時間tを基準にしたナレッジグラフを自動作成して小型LLMを訓練するシステム
モデルをRLすることでキャラ性保持とネタバレ制御が可能になる
コレは...ストレートに商売になるのでは?
作品ごとに販促用小型モデルつくりますよ、みたいな
謎の日本語FTモデルを作ってる某会社や某会社が利益を上げ始める可能性ある てことは
幻魔大戦を食わせて「東丈先生、幻魔って何ですか?」
餓狼伝を食わせて「馬場さん、猪木どっちが強いんですか?」
とかの質問に答えてくれるンゴ?
いやそれよりはよ続き書けよ獏ちゃん先生
個人的には金田一耕助と会話してみたいンゴね >>274
コンテキスト減らせば?
モデルによるけど262kやと多分kvキャッシュ10GB超えるんちゃうかな、暗算やけど。15GB位あるかも magnumでエロテキスト試してみたけど
Ninjaよりかなり劣る感じがした。
局部呼称でいきなり英単語になりやがるしw
800字で書けって送信したら毎回200字程度しか
出力しないし。じゃじゃ馬過ぎるわ。 文字数指定なんて基本的に無理やで
GrokやGemini 3 proでも無理
チャッピーは裏で何か走らせて計測してるからぴったり出力できる 無料体験来たからチャッピー使ってみたけど単純なモデル単体の賢さならgeminiの方が上なんだろうけどチャッピーはプロダクトとしての完成度ではずば抜けてる感じやな
公式のチャット経由でも思考内で繰り返しツールコーリングを行うから数学でもweb検索でも自然言語処理でも割と妥当な結果が返ってくるのは強いし 追加設定もなしに簡単に使えるのはさすが
interleave thinking自体は最近のOSSモデルでも対応しつつあるけど推論側とフロント側両方が対応する必要があったりしてツール使用が不安定になってるだけ(特に外部プロバイダ経由)といった感じで良い印象なかったけど機能するならほぼ必須だなと >>0277
すげー
そういう面白そうな論文ってどうやって見つけるの? chatarenaにgoogleの新モデルが二個来とるみたい
gemini3のThinkingとかFlashとかの派生版やろかね
gpt5.2も出たしライバルが刺激しあって進化してくのはええことや
だからってメモリ買い占めは許さへんが😡 chatGPTのエロモードはしれっと26Q1に延期されてて
まぁGemini3ぶっ込まれたらそうなるなぁとも gptは5.2になるし
claudeは4.5になるし
geminiは3proになる コンテキストは長くなるほど速度低下激しくなるし、精度も落ちる
32kぐらいが無難な気がするわ qwen3-vl-235b-a22b-instructでERPさせようと思うと申し訳食らうんだけどシステムプロンプトで回避出来る?もしくは脱獄版あったりする? >>288
Gemini2.5用の脱獄システムプロンプトで通るやつがある
スレに過去貼られたやつ Xみたいな無料でできる奴とかローカルの色んなモデルを英語で遊んでると安っぽい売春婦って言葉が高確率で出て気になる GoogleドライブにAIトレーニングデータをアップロードした開発者が児童性的虐待コンテンツを保存したとしてGoogleアカウントを停止される
https://gigazine.net/news/20251212-developer-ai-data-google-ban/ Qwen next 80bの規制解除版パネーな
エロプロンプト打ち込んでも喜んで書きやがるw
これで文の整合性がmagnum並みなら完璧なんだが Qwen next 80bは元々規制なんてあってないようなものだけど規制解除版もあるの?
性能落ちているだろうし普通のQwen next 80bで良くないか ここ2-3日でなぜかみんなこぞって量子化大会をしてるので単に規制解除版じゃない気もする。
rx7900xtx 24GB+Mem128GB環境で --n-cpu-moe 25 -c 65536で20tok/s出てる VRAM16gbのしょぼグラボだけど
エロいけて英語で評判のいいllmある?
チャット内容を翻訳して使おうと思って Shisa V2.1 14Bサイズの割に思ったよりプロンプトにちゃんと従うし結構賢いしエロもいける
3060一枚に載るんで結構捗ってる 日本語のバリエーションはどんな感じなの?略語やスラングもいけそう? >>293
いや通常のだと100%申し訳喰らうんだわ
解除版も性能差感じないけどやっぱ整合性が。
エロチャ用途なら使えるね >>294
ちなこれね
mradermacher/Huihui-Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF abliteratedの新バージョンが出たっぽいからそれで活気があるのかも >>298
今のところQ4しか出てないのが難点。Q6とかQ8が来てくれるとそのへん改善されるかもね glm4.6vが106b moeで良さげやなと思ったけど
まだllamacppで対応されとらんのね
PRもglm4.5vの対応のものがいまだに完成しとらんみたいで難航しとるみたい
https://github.com/ggml-org/llama.cpp/pull/16600
画像入力興味出てきて試したいんやけどなぁ >>296
shisa v2.1 14B俺もQ8で試してみたで
このサイズ帯のモデルで1番素直で良いモデルだと思う
koboldcppとsilly tavernの組み合わせでロールプレイ
berghof ERPの隠語と喘ぎ声と♡が盛り沢山なドスケベ会話履歴の続きをやらせたらちゃんと♡使いまくって喘ぎまくった
他のより柔軟なモデルだと思うわ
直前の出力の特徴に倣う性質が強いのかな?
ちなみにコンテキスト長は8192、コンテキストテンプレートはChatML、パラメータ設定プリセットはNovelAI(Best Guess)にしてTop Kを100→80に下げてやってる phi-4-14Bベースは何故か日本語向けFTがそれなりに出てるしMS公式がreasoningモデルも出してるから
進化的マージとかで更に性能上げるのも無理ではないのかな
VRAM32GBある人ならQLoRA SFTしてドスケベ語彙覚えさせるのも行けるかもしれない いやデータセットが無いか >>304
aratako先生が出してるデータセットでワンチャン? >>302
GLM4.6Vはツール呼び出し機能が追加されたのがポイントだけど、どう活用するかだなー shisa、温度もNovelAI Best Guessの0.8じゃ高いのかな
ちょっと出力が暴れ気味や
0.7くらいがいいのかも
てか生成をリロールしまくってるとたまに普通の人間キャラなのに「尻尾をぶんぶん振って喜びながら」とか言ってくるな
やっぱキャラ設定保持力はRPモデルに及ばんか Mistral Large3のアーキテクチャはDeepSeekのパクリらしい
ちなみにKimiもパクリ MLAは現状省コストモデル作るなら一番いいからデファクトスタンダードになるのは分かる
あとKimi K2はただパクっただけじゃなくて事後学習でINT4で最適になるようにQATしてるんだけどそのためにだいぶ変なことしてたはず
Mistral 3はどこを工夫したとか出てこないから分からんね shisaの70Bの方もIQ2MならVRAMに乗り切ったんで比較してみたんやが微妙や…
ベースモデルが違うから最適なパラメータ設定も変わるんだろうし一概に言えんけど14BのQ8の方が全然マシだ
変な日本語崩れが入るしわけわからん事言い過ぎ そらそうだ
モデルにもよるけど3.5bpw切る辺りから急激に性能劣化する
Q4が安定択なのにはそれなりの理由がある >>306
Tool Callingは以前のバージョンも使えたんやないかなって言おうとして
調べたら4.6vはtool callで画像のやり取りもできる?ようになった?みたいやな
画像を理解し、ToolCallingの出力に画像に関する内容を含められるようになったようや
その形式に対応したツールが出てこないことにはしばらく何の意味もあらへんけど
画像エディターとかがそういうのに対応したらいろいろできるようになるんかな
知らんけど >>311
やっぱそうなんかー
無理して大モデルの小サイズ使っても駄目なんやなあ
普通にグラボ1枚持ちが使う分にはshisaの14Bはかなり可能性を感じるモデルだわ >>198
32×2×2じゃ駄目なんだろ、予算オーバー以前にモノがねぇよ >>314
個人的お気に入りで良ければAratako/Qwen3-30B-A3B-ERP >>314
あと16GB/64GBだったら>>299もありかもしれん モデルを導入すると最初に「あなたは誰ですか?」って聞くんですけど、shisa v2.1 14Bはちゃんと「shisaです」って言ってきてびっくりした。
今まではたいてい「AIアシスタントです」とか「ChatGPTです」とかのぼんやりか間違った事しか言ってこなかったので。 >>317
プンルーのfreeモデルで試してみたけど大体ちゃんとモデル名が返ってくるぞ shisa2.1 14Bでreasoningモデル出してくれないかな >>317
そのへんはシステムプロンプトあたりで強制してんでは? >>312
そのTool Callingは何に使えるかなんよな
俺も分からんけど、その機能使えるかちょっと試してるところだわ
今は思い浮かばんけどなんかローカルLLMでの利用に応用効きそう LLMの検閲除去ツールheretic
4bit量子化推論&学習重みをLoRAで保存する機能によりVRAM負荷を超絶軽減するプルリクがマージされた
https://github.com/p-e-w/heretic/pull/60 検閲除去ってロボトミー手術してるようで信用してない >>323
ツールコールはLLMを呼び出す側(GUIアプリ)が対応している必要があるのと
当たり前やけど呼び出し先のツールがツールコールに対応している必要あるで
LLMはあくまでツールを呼び出すための各種変数の値を作るだけで、実際に呼び出すのはアプリ側やから
そしてそのあたり多少楽に構築できるようになるのがMCP 右脳の無い左脳だけのLLMで理Vに受かる患者と話してるのが今だろ 東大のスタートアップと名乗る会社の営業を毎週受けている。どんだけあるんだか >>326
ツールコールの仕組み自体はそんなに詳しくないけど何が出来るかは確認しておきたいんよね
ちょいテストしてみるわ >>329
東大松尾研が卒業生とか知人のスタートアップに見境なく名前貸してたらこんなに松尾研あるならバレへんやろって全く関係ないところまで松尾研名乗り始めたっていう話があったな
今研究室のページに本物の松尾研発スタートアップの一覧あるんじゃなかったっけ >>332
一応ちゃんと二郎名乗るのは管理されてたはず
近所の店は破門されて名前変わってたw
>>333
こんなにあるの!?w メモリ爆上げはローカルAI勢にとって高額グラボより問題になってきたな
さすがに5倍くらい高騰してくると、パソコン環境を揃えなおそうと思わないよな ユーザーはもちろんメーカーも大変やな
マザボは売上半分になったらしいしAAAタイトル作ってるゲーム会社もユーザーのPCスペックが上がらなくて困るやろ
こういうことが起こるとAI業界は軽量化・低コスト化技術に注力するようになるんじゃないか >>324
Pro 6000とかを持ってる人なら大喜びだな
俺みたいに5070ti程度じゃ多少軽量化されたところで検閲解除したいモデルには全然届かねえ…… Nemotron 3 NanoはMambaを使ってるらしい
Qwen 3 Nextと一緒だね macはまだ値上げしてない?
M5 Studioも興味あったけど、どうなるんだろう Nemotron 3 Nanoはもう試せるの?
NVIDIA製のやつ?
というか知らんかったw 動くまでの実装は完了しとるから上のPRのブランチでビルドすれば動かせるで Nemotron 3 NanoはOpenRouterでfreeで使えるぞ
でもものすごい長考するし出力も暴れるしでチャットするのには苦労しそうな感じだ ユーザー「AI、今週末に新しく出来たピザ屋さんに行かない?」
AI「新しいピザ屋さん!?わくわくするわね〜!ユーザーは何を頼むのかな?今度、週末に行こうよ! 🍕」
これだけのやりとりをするのに8000トークンも思考する
まあチャットやロールプレイング用のモデルじゃないから仕方ないんだろうけど ピザ屋へのお誘いで8000トークンは草
ローカルLLMやるようになってから人間がいちいち「ありがとう」とか言うせいで莫大な計算力が浪費されてるって話の重大さが理解できるようになったわ
理解できるようになっても辞めんけどな トークン数≒コンテキスト長だっけ?
そのペースなら一応答で前の記憶どんどん消えてくな リーズニングの部分ってコンテキストには含めてないんとちゃうかな
アプリ側の実装によるとは思うねんけど LM Studioだとリーズニングも含めてたような
アプリによるんだろうね ビジョンモデルのGLM4.6V試してるんだけど4.5Vとそんなに違いは感じないような気がする
ただ、小さいモデルの9BFlashが意外とすごい
それなりにオブジェクトを認識しているし、日本語の表現も自然。英語で返してくることも多いけどね
OCRはちょっと弱いけど割と日本語も認識する
使う場面によっては実用的かも?
後は新たに追加されたツール呼び出しだな
vLLMは性能がいいので使ってるんだけどThinkingとツール呼び出しの併用が出来ないっぽい・・・
Thinking有り無しで結構、得られる情報量が違うから惜しいな
もうちょっと調べてみるけど nVidia から新しいモデル
nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16