なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured 尻タブで特定ワードに引っ張られる現象を避けたい場合はキャラカードにその設定を描くより
Lorebookにトリガー設定して書くといいよ
確かキャラごとにLorebookのグループ分けみたいなので来たはずだから
例えば「京都の伝統工芸品が好き」というエントリを作ったらその話題が出るとトリガされて返答時に言及してくれる
んでエントリにはスティッキー、クールダウン、ディレイを設定できるから上手く使おう
スティッキーはn回ターンの間ずっとエントリ(京都云々)が有効になる、n回は設定可能
クールダウンはターン数を設定するとエントリが有効になった後n回ターンエントリが無効になり、スティッキーと併用できる
ディレイは経過ターン数が設定したディレイのターン数になるまでエントリトリガされても有効にならない
例えばチャットをはじめて10ターン後にトリガできるようになるとかにすれば、10ターン以降そのワードが出たら呪いが発生しゲームオーバーとかできる
他にもワードがでたあとトリガされる確率設定とかできるから、30%でトリガされるようにすれば
ディレイで5ターンの間トリガされなくして、ある程度お互い知り合ったところで適当なワードで(京都云々)をトリガさせる、スティッキーで数ターン京都の話をさせるようにして、クールダウンか他の機能でスティッキー後トリガを無効化させる(100ターンとかにする)
同じエントリを作ってディレイ10ターン、クールダウン5ターン、トリガ確率30%にすれば上の動作後に30%ごとに京都の話ガチャができる
他にいい方法あるかもしれんけど参考までに 割と曖昧なトリガーでも機能してくれるんだ?
俺てっきり単語辞書みたいなもんだと思ってた
好物Aというワードをこっちから出したら機能するけど「何が好き?」と聞くと無視されるような感じなのかなって 直前のモデルの返答と今回のユーザーの入力のどちらかに設定したキーワードが含まれてれば設定した内容が送られるって感じだから単語辞書に近い
こちらの入力を工夫して上手いこと誘導する必要がある GLM、モデルはいいけど中国のZ.AIはプライバシーポリシーもまともな内容出てないし
OpenRouterなりで別のプロバイダーのGLM使うのがいいのかねぇ deepseekもだがその辺の中華大型llmはローカルで動かしてなんぼであり公式クラウドは使うもんじゃないと思ってる
まあ個人だとまだGLM4.5/4.6をローカルで動かすのは相当敷居高いというのは認める サードパーティの方も情報管理ガバガバだからその手の情報を扱うならローカルだわな
コスパだけならサードパーティ一択やけど VCからの資金調達目当てで絶対採算取れてないだろって例も見かけるし mradermacher/gpt-oss-120b-i1-GGUF
これって、なんで量子化レベルに関係なくサイズが同じなの?
通常ならiQ3_Mでメモリ64Gにのるんだけど。 >>600
多分>>583絡み。逃亡か作り直しかはしらね Samsung、LLMでも日本を軽く追い抜く。小さくて誇らしいニダ!
gigazine.net/news/20251010-tiny-recursion-model-trm/
しかしGrok4はすんごいんだなw maywell/GLM-4.5-Air-GLM-4.6-Distill
今度は大丈夫かな 前回はggufのみだったけど今回はiQも他が出してくれそうだし繋ぎにはいいかもね >>604
redditで作者が話してるけどアイデアが面白いからやってみたけどあくまで実験モデルで出力壊れるしわざわざダウンロードするもんじゃないってさ 久しぶりに来たけど>>8のまとめがありがたいな
個人的には出力遅くてもいいから理解力特化してるのが欲しい Qwen3-Next-80BとかGLM4.6Airとか普通に個人向けで覇権候補になり得るブツの登場が秒読み段階で楽しみな時期と言えば楽しみな時期よね しかし、80Bとかどういうグラボ使えば動くんやろ…
まさか一般ユーザーでVRAM容量100B超えのグラボを持ってるとか? 個人で中古B100持ってる人いたな
仕事でa100 4つ使った時は 超喜んでたなー
deepseek-r1とか軒並み大きな奴をロードできたし qwen3-nextはどっかの天才がllamacpp対応今頑張ってるから待つんやで qwen3nextもglmもMoEだから割とどうにでもなっちゃう
denseモデルをメインメモリ展開してたらまあまあキツいんだけど 最近はMoEモデルが増えたせいでGPUもだがメインRAM256GBだの384GB積めるXeonかスリッパが欲しくなる問題。デスクトップRyzenの限界近い192GBでもGLM4.5あたりだとQ3ぐらいまでが限界で >>814
Qwen3-Next-80B-A3BはぶっちゃけコアのA3BさえVRAMに収まってりゃそこそこの速度で動く。上の方でlammacppより先にQwen3-Next対応したfastllmで試したニキいるけどA3Bだけ置いてVRAM8GBも使わずに20tok/s出たって言ってたはず デスクトップRyzenでもDDR5なら64GB×4枚で256GB積めなかったけ? MoEのおかげでもうそういう時代じゃないのよ
(MoEをメインメモリも使って高速に動かす方法を編み出したのはktransformersが最初やろうけど) 最近Stable DiffusionやってるけどLLMと違って、画像にどんなタグを付けているか予想しながらじゃないといけないのがつらいな
LLMは言葉でどこまでも詳細にいけるけど、 danbooruのwikiと睨めっこしてる感じかな 例えば、騎乗位にはいろいろ種類があって、名前が詳細についているけど、ほとんどのモデルは騎乗位としかタグ付けされていない。
だからガチャで生成するしかない JNVAスレで聞いてきたらええよ
多分そもそもタグあるだろうし、なかったとして、出すための方法はおそらくもう確立してる
慣れるとすごい楽よdanbooruタグ 因数分解みたいな要領で出せるのも結構あるよね
だいしゅきホールド = hug + leg cross + missionary danbooru語への翻訳をLLMにやらせればいい
danbooru語の辞書はネットに転がってるからRAGで食わせればいい kobold.cppで、overridetensorsを有効にしようとして
koboldcpp\koboldcpp.exe --overridetensors --gpulayers 24
で起動させたら落ちるんだけど、やり方間違ってる?
メモリ64G VRAM12G >>622
DDR5 64GBになると割高過ぎてXeon買った方が良くね?になっちゃうからなあ。 >>631
システムメモリフォールバックなしを優先にしてないよね?
それやって落ちた経験あらあるやり方をAIに聞いた方が早そう >>632
確かにそうだよな
DDR4も2倍近く上がったわ
192GBでGLM4.6の動かんのだっけ? なんか最新のLLMモデル軽くなった?
gpt-oss:120bで久々にローカルLLM入れたけど
5-6token/secが昔のllama:120bとかは限界だったのに
gpt-ossだと普通に思考4-5秒で20~token/secで出力されるし精度がgptと変わらんやん
Mac StudioM1Ultraの128GB環境だけどモデル側でこんな変わるんかって感じ そういやgpt-oss:120bのggufって何であんなにデカいん?
メモリ64Gに乗らないやん >>635
gpt-oss-120bはアクティブ5bだから
moeの仕組みは前からあるけど最近はそれが主流になりつつある ここ最近このスレでmoeのことをわかってない人が急に増えた気がするんやが外でこのスレ紹介されたりしたんやろか
llamacppがcpumoe実装してからモデルがmoeかどうかは個人でLLM動かす人には超重要事項になっとるで 必要なスペックも書かずにglm4.6で個人がここまでのai使える!みたいなの言ってる記事は伸びてたな… >>640
なるほどなー
magnum v4 123bでシコってた頃から随分進化したもんや
gpt-oss abiliteratedがかなり期待外れだったからmagnumとかの生成早くなってるやつがあったらかなり良さそう lammacppのrocm対応が進んで今だとQwen3-coder-30BならradeonでもRX7900XTXなら80tok/sぐらい出るようになったし、MoEの成熟も進んで春先あたりの頃の常識がだいぶ変わったよな 俺が一番シコれる文章を生成してくれるのは
QuantFactory/Berghof-NSFW-7B-GGUF
だけなんだよな
他のモデルは文章こそ滑らかかも知れんけどチンポにズドンとくる文章じゃなくて惜しい もともとガチガチに禁止してなかったもんを解禁とか言い出したときは「キッチリ監視の目を入れて安全に使えるようにした、今までの無法地帯ではない」にしか聞こえない
最近ちょっと固い期間あったとはいえ エロokなのと無検閲は全く違うからな
非同意系は今まで通り無理だろうしopenAIは顧客のチャット履歴精査して中国政府の機密資料を晒上げる程度のプライバシー意識の会社だしエロチャするの怖すぎ >>643
GLM4.5Airがベースのコレとか試してみたら?
huggingface.co/TheDrummer/GLM-Steam-106B-A12B-v1 >>649
逆に履歴提供してる前提でモデル改善オンにしてAIと深い話やOpenAIの横暴についてや正当なコミュニケーションの進展におけるスキンシップの正当性について話してるわ
一番直接的で有効なフィードバックになるからね
チャット履歴提供上等だよ >>651
試したいけどmodelfile化でgguf結合が上手くいってないのかinternal errorになるわ
magnumの時と同じやり方なんだけどな >>653
ModelfileうんぬんってことはOllama?確かまだ未対応やったんちゃうかな?modelcardにあるようにlammacppかその派生(コボちゃんとか)でないと対応してないはず >>654
Ollamaにはまだ対応してないのか
そっちでうごかしてみます、ありがとう lenovoとかGIGABYTEとかがNVIDIA DGXベースのミニスパコン一斉に発表したな。本家革ジャン印のDGXもいよいよか? >>651
横からだが試してみた。回答内容は悪くないけど重いなぁ。Qwen3-Nextが速杉とも言えるが小説支援には良いけど尻とかでチャットに使うには個人的にびみょかった(個人の感想です) DGX Sparkは結局Ryzen AI Maxくらいしかパフォーマンス出なさそうだし微妙だね。
CUDA使えるのとConnect-X付いてるのはいいけどRyzenと比べて価格が倍以上だし
それならMac買うかってなるな 1台買うにしても将来的に増設予定じゃないとイマイチか
connectxが本体 Mac Studio512GBでGLM4.6動かしてみた人いないの >>660
https://x.com/AliDTwitt/status/1977685088285675860
以下GROKによる翻訳
Mac Studio M3 Ultra 512GB RAM 80 GPUでGLM 4.6 8bit(MLX)をローカルで実行中。LM Studioで書くと、380GBのRAMをガッツリ使いながら、たった3.5トークン/秒しか生成しない。壁のペンキが乾くのを見ている気分。
品質ではGPT5 Codex(High think)やSonnet 4.5を上回る。とにかく遅いだけ。
@Zai_org
の素晴らしい仕事、GLM 4.7が大幅に速くなることを期待してる。 >>658
期待してたんだけど、この値段で速度 1/4 かぁ。
DGX Spark GPT OSS 120B: 11.65 tok/sec
M3 max GPT OSS 120B: 41.71 tok/sec >>661
3.5t/sも出るならワイ的には十分実用や VRAMの速度がローエンドGPU以下なんよ
MoEが増えてきた今まじで存在意義ない
この速度でもせめて512GBありゃまだ存在意義あったけど といってもVRAMが300GB/s以下ってことは500GBのDenseモデルを動かすとしたら最大でも0.6トークン/sって事にならんか?
やっぱり帯域不足は痛いで。LPDDRを使う方向性はええと思うんやけど、それなりに高速なチップとクソ広バス幅用意してくれへん事にはなぁ…… もしかするとMoEだとXeonやスリッパのヘキサチャンネルオクタチャンネルDDR5の方がLPDDR5より良くね?って思えて来た MoEモデル前提だとLPDDR5選ぶ理由はないわねえ
70Bあたりのdenseモデルがスカスカだから活かしどころがないのも難点 単一モデルでthink/no thinkモード切り替えみたいにnsfw/sfw切り替えできるようにならんかなー think/no think切り替えとnsfw/sft切り替えは
本質的に同じだからできるんだけど
やってくれる人がいないんだろうねw
一番最初が一番儲かるからがんばってみては? >>667
もともと1gpuじゃ不足気味なジャンルってことでpcieレーン数的に向いてたけどメモリの帯域も恩恵受けだした状況ね ミニPCみたいなナリでオクタチャンネルのメモリ搭載してるMacStudioがやっぱ凄いわ どの時間帯でもOpenRouterからDeepSeek繋がらねえ
何か祭りでもあったんか ryzen395にPCIex8スロットが付いた中華マザーまだー? Antから大型の新モデルLing-1TとRing-1Tが出てる
無料枠が無いから誰か金ある人プンルーで試してみてくれ llamacppのqwen next対応が大体できあがってきたみたいやな
とりあえず動作するところまでは来ていて、今は精度のチューニング中? みたいな段階のようや
まだmainにマージはされとらんからこのprを直接動かす必要ある
https://github.com/ggml-org/llama.cpp/pull/16095 >>675
帰ったらデモ試してみるか
ringとlingって何が違うんだろ lingが通常のモデルでringがlingをベースにした思考モデルっぽい?
他にも103B(MoE)のLing-flash-2.0, Ring-flash-2.0や16B(MoE)のLing-mini-2.0, Ring-mini-2.0のGGUFも出てるね >>676
ええかんじやね。CPU Onlyだった所にCUDAに対応させるコードをAIに書かせた人も出てきて実際もりもり高速に動いとる
あとは精度の問題だけみたいやね。ここはプルキンニキの人力コーディング力に期待や NTTは30B程度で天狗になってるのか、悲しくなるな日本 パラメータ数を誇るのは金のあるとこに任せときゃいい
日本だとソフバンが一番やるのかなあ 実際30B辺りで日本語強くてエロいけるモデル出たらこのスレ的には覇権やろうしなあ
でもどうせ業務向けなんだろうな オープンウェイトでないからパラメータ数は関係ないしAPIすら公開されてないから株価対策以外の何物でもない
本当に独自アーキテクチャなら頑張ってほしいけどね
でも比較対象のモデルがころころ変わってるの面白い 型落ちのqwen2.5としか比較してなかったり、それまでgemma3と比較してたのにファインチューニング性能比較では突然gemma2と比較してたり 富士通の1bit量子化はあれ以来どうなっとるんや
ローエンドGPU(A100)で動く微妙なモデル出して終わりなんか? と思ったらNVIDIAとAIで提携してるし来週の水曜日に1bit量子化のワークフローとか公開するんか
誰でも1bit量子化できるかも、と煽ってるからここから1bit量子化が加速すればいいんだが 日本でエロチューンやってるのaratakoさんだけでしょ
rinnaもエロチューンではないだろうし 専門タスクってのはあるけど
plamoの翻訳は実際に良かったよ
qwenあたりより高速で精度もいい ayaファンに朗報です。嫁モデルが来ました
ernie-4.5-21b-a3b-pt.ggufはRPが良いです。
中国のモデルでa3bなのでロースペgpuでも動きます 691です
abliteratedがまだです
huihuiさんが出してきそうですが 気になったんやが30Bとか140Bとか
そういうのは第三者がほんとにそれだけ語彙力があると言うのは検証できるんやろか
「数字多く書いときゃええやろ、定量的に計測なんてできんし」なのかなと