なんJLLM部 避難所 ★9
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★8
https://mercury.bbspink.com/test/read.cgi/onatech/1746883112/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな
SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける ●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで
Mistral系
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Mistral-Small-3.2-24B-Instruct-2506
Cydonia 24B v4
Cydonia-R1-24B-v4
Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3
Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)
magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348
Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B
magnumの日本語版:
Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで テンプレここまで、しばらく更新されてないから過去ログも参考にしてな なんUってそろそろ帰っても良さそうやけどまだグロ爆撃あるんやっけ もう爆撃は無い
でもこの板に文章生成AIスレがあるから移動する必要性を感じない
こっちはローカルメイン、あっちはWEBサービスで住み分け出来てるし
そもそもなんU戻っても過疎すぎて人増えんやろ GPTかGeminiかClaude並の知能あって何も拒否しなくてローカルで動くやつ、出して CohereLabs/command-a-reasoning-08-2025
なんか出てた grok2なんて今更どうするんだ
性能ではもう価値ないだろう command rってちょっと前にあったよ、なんだったかもう忘れたッピけど… >>19
MoEだとちょうどいいサイズなんだけどMoEじゃないから動かすのしんどいやね
Cohereは最初からなんでも出力してくれるから好きなんだけど MacでもRyzenAIでもいいからVRAM126GB
50万以下で載せられる時代来ないかね 毒舌なんじゃなかったっけ?grok2
あとエロに寛容? Grok2は研究用に使ってねって感じだからローカル民が使う用途にはなって無さそう 今時の高効率なLLMと比べるとgrok2なんて研究用でも使い道あるんかな。llama4もそんな感じのレベル 今のLM Arena日本語ランキングの上位勢でオープンなLLMのサイズ調べてみた
qwen3-30b-a3bがなんか異常にいいのとqwen3-235b-a22b、gpt-oss-120b、gemma-3n-e4bあたりがコスパいいね
コスパじゃなくてパラメータに対するパフォーマンスだからパラパと言うのかわからんけど
https://i.imgur.com/3351cnd.png
このリストでは一番下にいるllama3.1-405bって出た当初はクローズLLMも含めた中でtop5くらいに食い込んでた記憶があるけど
今や4bのgemma-3n-e4bに抜かれてるのとかLLMの進化は恐ろしいな llamaってもう過去のものみたいな感じするからな MetaはFacebookとかInstagramのビックデータ資産があるのにどうしてこんなにAIショボいのだろうか
Grokはその部分で成功しているのに grok はつまみ食いしてるだけだから
というか何も成功はしてないだろ えっcalude sonnet4とgtp ossとdeepseek r1よりqwen3-30b-a3bの方がいいの?まじ 確かに信じがたいけど一応今の順位はこうなってる
ただGemma3-27bも結構なうえにいるし、それよりも後発&MoE&Qwenシリーズが全体的に高性能
であることを考えるとありえなくはないかなとも思ってる Claude 4 Sonnetより上ならかなり頂点に近いところにいるよねQwen3 30B
IQ Test | Tracking AI https://www.trackingai.org/home 違ったこの表>>34は偏差値だから、gemini pro 2.5の次くらいかな? >>27
ごめんここに書いてたw 2.5flashにも及ばずだけどローカルにしてはやっぱ強いな… gpt-oss-20bよりはQwen3 30B-A3Bのほうがまあって感じはあるけど、それでもClaude超えはちょっと眉唾感
ローカルでしか試してないけど そもそもlm arenaは性能じゃなくて人間の主観による評価だからあんまり参考にならない
llama4みたいに実性能は終わってるモデルでも媚びへつらいまくったら上位に入れるからね
性能比較したいならartificial analysisの方がいいよ Qwenはエロが終わってるからこのスレ民には全く価値ない それよりMistral Largeの新バージョンがもうすぐ出るという噂だからこっちが本命かも 実際に使わずに推測しだすのは謎すぎる
Qwen30bは性能はよくある30b程度なんだけど日本語そのものが流暢ってモデルだね https://i.imgur.com/Cqa45vu.jpeg
ローカルで使いやすい〜30Bくらいのモデルだと大体こんな感じ
LGが出したExaone地味に気になってるんだよな メインメモリ増やしたからGLM 4.5 Air Q6さわってみたけど理解力とエロは良かった
ただ結構中国語混ざったりワードチョイスが変で日本語はなんとも
Mistral系ぐらい日本語出来て100B前後のMoEが欲しくなる LGもLLM作ってたんだな
NTTも作ってるらしいけど公開しないから無いのと同じだな ちょっと前にSTでGLM 4.5 AirのQ4KM触った時はワードチョイスはともかく特に中国語混じったりはしなかった記憶
サンプラー設定の違いかな?
ただAirのQ4動かすよりGLM 4.5無印のIQ2XXSの方が体感的には良かった 量子化はかなり性能落ちてるから元モデルの性能あまり当てにならないんよな
落ち方も色々だし >>45
あれそうなんだ、設定弄ってみます
無印も試そうかな ベンチマークと体感の性能が合わなすぎてな
qwen系統ってNSFW要素を除いても実際の触ると微妙なんよ 典型的な過学習モデルって印象
GPT 4o(スコア:30)やclaude 3.5 sonnet(スコア:33)よりqwen 30B3A(思考:53/通常:46)が圧倒的に性能が良いとはならん ベンチと実用途はやっぱ違うわ
一般人が求めるようなAIの性能はARC-AGIとかポケモンベンチみたいなもっと複雑な系の話に近いと思うからまだまだそういうとこも発展途上やね AMD RDNA 5がVRAM 512GB載せられるかも、みたいな怪情報が出てたけどどうなんだろう
70Bクラスのモデルをfp16で動かせるのはすごそう strix haloの後のmedusa haloが帯域が太いらしいとか怪しい噂だけど本当なら良いねぇ… command-a-reasoning-08-2025
これ3月版より進化してないか?
むちゃくちゃエロくなってる >>57
koboldだとthinkしてくれない
逆にどうやったらthinkさせられるかな?
thinkさせたら更にエロくなるかもw >>55
HuggingfaceのSpaceで試してみたけど文章めちゃくちゃ濃密ですごく良い感じだったけど、2ターン目で動かなくなっちゃう
これをローカルで遊べる人羨ましい...。 RAM128GBに増設しようと思うんやがVRAM16とあわせてGLM4.5の量子化ってどのくらいtok/secでるか分かるニキおる?
MoEといえどパラメータ大きいからどのくらいの速度出るか知りたいんやが試してる人がおらん 4.5無印のUD-IQ2_XXSをDDR4-2666/128GB、VRAM/16GB&12GBで"--cpu-moe"オプション、"gpu-layers"をMAXで読み込んで入力するContextのサイズにもよるけど1.7~3.0トークン/s前後って感じ やっぱりアクティブパラメータ漏れて遅くなるんやねぇサンガツ
Airの高量子化とかにメモリ増設の価値はあるんやろか…… 検索機能がついてるLLMなんて無い
検索は外部のツールで情報持ってきてLLMにデータを渡しているだけ >>64
63だけどAirのQ4_K_Mなら5トークン/s前後だったよ
ローカルで動画生成とかもするならメモリ増設の価値はあるかも >>55
これ動かすのってQ8 ggufの複数あるのを全部落として、koboldcppで読み込めばいいの?
96gbメモリーで動くかな? >>68
96GならQ5_k_mかな
Q6_kはギリギリいけるかどうか
2ファイル落としてcmdで結合させて読み込む >>69
Q5_k_m.ggufが00001〜00006まであるんだけど、1と2だけを結合すればいいの? >>70
あ ごめん 複数って書こうとして間違えた
連番全部ね >>70
あれ?
見てるとこ違うかな
mradermacher/command-a-reasoning-08-2025-GGUF
こっちなら2ファイルですむで command aってAPI経由なら月1000回まで無料で使えるから試すだけならそっちで良いんじゃないの?最悪BANされても痛くないし
流石にメモリオフロードすると1t/sすら切るからまともに使えんよ
3090 x 3とq4_k_mで10t/sぐらいそれでも遅いくらいなのに >>65
正確に検索するならElasticSearch
ベクトルでなんとなく近い文書検索ならFAISSとかChromaを呼び出して
最終的にLLMで文書化する感じ >>72
ダウンロードしてたけど>>73の案で行ってみる!
ニキ2人ともサンガツです >>74
ESは入れたことあるから知っとるで
クローラーでゴリゴリWebからデータを引っ張りたいんや
LLMサーバの負荷を考えると別サーバで立てられる奴がええな 書いた小説をテキストビューアで見てるけど、やはり画像もあった方が捗る。
挿絵機能欲しい silly tavern使っててしばらくチャット進めてると
キャラのセリフがずっと「アハ、アハ」言って笑ってて不気味になる。
コンテキストがいっぱいなんかな あはっ、あはっ、なんにもおぼえられなくなっちゃった、あはっ…… EPYC 4545Pとか言う安いのがあると思ったらam5用だった
名前はいいけどレーンもっと出してくれなきゃ嫌よ command a API経由でSilly Tavernで使ったけど所々変な英語が混じるね 緩めとはいえAPIも以前からエロチェックしてるよ
システムプロンプトと最後に入力したメッセージは厳しくチェックされる
道中の会話は割とスルーされる
だからある程度回避はできる
出力結果もチェックされるけどこれはな…
露骨なエロワード避けるようなプロンプト組めば回避出てきそうだが、それって結果の質が下がる訳で ollama見つけて熱に浮かされたようにあれこれ入れてみたけど、落ち着いてきたら使用する機会がない。
スマホで動かせないし、話し相手にも使わないからかな。
日常利用にはChatGPTとGrokでほぼ足りる。 ところでこのスレ何でこんな妙なタイトルなのでしょうか?
ローカルLLM総合みたいなスレも他に見当たらないし。 もともとなんJにあったスレだから、
なんJがスクリプト荒らしが発生してこっちに避難した やっぱローカルでやってる人は少ないのかな
情報もあんまりないし 新しいモデルがあまり出ないからねー
今の旬はcommand-a-reasoning-08-2025 やね 俺はローカルでやってるが出せるような情報を持って無いのでず〜っとROM専
RTX3060 12GB + メインメモリ32GB では出来ることも限られてる ではcommand-aの感想をば
3月版に比べて明らかに進化して規制も緩くなってて申し訳も少ないけど
ストーリーを健全な方向に持って行こうとする傾向があるのでunconsented版が出たら大化けするかも 先週ノートPCのメモリを128GBに増やしたら
Qwen3-235B-A22B-Instruct-2507-Q4_K_M
が動くようになった
eGPUでTITAN RTXを繋いで合計152GB うちのPCは8Bモデル程度が限界だわ
もっと低VRAMで動くようになればなあ >>79
おぼえられなくなっちゃったからにはもう・・・ネ・・・ 最近だと前スレで出てたCydonia v4がよかったくらいだな
もちろん理解力とか知識は24B相当ではあるけど同サイズ帯だったら個人的には一番 512GB、帯域幅819.2GB/sのユニファイドメモリのM3 Ultra Mac Studioが150万か… ベースモデルの性能だと今もmistral small 3.1 baseがずば抜けている印象
新モデルだとseed ossとかZLMもqwenもgemmaと同様に知性自体は悪くないけど日本語工口知識はなさそう
mistralもマイナーチェンジしか出さないしもう一社くらい良い性能のモデルだしてほしい MS3.2-PaintedFantasy-v2-24Bが自分の中じゃ一番かなぁ繰り返しや変な点が沢山ついたりするのが無くなった >>97 VRAMを500GB以上にできるから実は激安なんだよ! 正直その辺のファインチューニング版は日本語だと普通に誤差レベルだと思う
学習データ全部英語だろうし
たまたまその人にとっていい感じになったとかはあり得るけど個人差の域を出ないと思う mistral-smallに日本語を継続学習させたのをCydoniaあたりとChatVectorしたらいい感じになったりしないかな windows updateしてからタスクマネージャーでGPUの状況が表示されなくなったんだが 大体winアプデに含まれたドライバ自動で当てられておかしくなってるから入れ直し スレ違いかも知れんが特に話題無いようだしここで聞かせてくれ
やっぱ文章生成だけじゃなくて喋らせたいんやがみんなTTSは何使うてるんや? AivisSpeech、voicevox、elevenlabsあたりか? elevenlabsは初めて聞いたな
しかしローカルで動かんからこれアカンな…
無難にvoicevoxとaivisspeechを試すわ感謝 いやらしい感じの文章をえんえんリピートする症状って結局根本的な回避法ってないのん?
症状が出ないように温度となんとかペナルティを祈りながら動かすだけ? ワイのパソコンDDR3 32GB RAM + 4060Ti 16GB VRAMとローカルLLM的にお寒い性能なのでそろそろ更新せなって思っとるんやが、
Ryzen 9 7XXX系にRAMガン積みするのと、AI Max+ 395みたいなユニファイドメモリみたいなタイプ、どっちが将来性あるとみんなは考えとるんや?
今のグラボも使いまわしたいし、LLMだけでなくSBV2とかUnityでVR開発と醸しとるんで、今んとこRyzen 9 + RAMガン積みに気持ちは傾いとるんやが、みんなの忌憚のない意見やワイの見落としてる点とか聞かせてもらえたら嬉しいんやで 今判断するの難しいけどやっぱまだメモリ増設できる普通構成で良いんじゃないかな
ローカルモデルが巨大化していって、転送帯域ゴリ押しみたいなやり方も続くなら、一般人がLLM使うときの正解はメインメモリ直付け高速化したPCになっていくけど Ryzen9 9950x,96GRAM,4080s だけどLLMを実用に使うのは自分では無理
プロンプト投入、応答に10分待つとかできるならOK
待てる待てないは人にもよるからね
いくらRAMを積もうがPCIeを5から7まで上げようが現状のMoEモデルでもほとんど効果がない
x86系は全部VRAMで動作する画像生成なら速いんだけどね
AI Maxはいまのはやはり「積んでみました」程度
次期バージョンであっても結局バス幅が128bitとかだから帯域がまるで足りない
DDR8くらいならなんとかなるかも? >>110
繰り返しは仕組み上避けられんしな
根本的な方法というならDPOとかでチューニングすればある程度緩和できるはずだけどデータセットを作るのが面倒くさそう 繰り返すのはプロンプトが悪いのもあるんじゃね、頭悪いLLMは繰り返しとか続けてとか、プロンプトに入れるとループする RyzenAI MAX+は256bit幅だな。
これにグラボを刺せる中華マザーでも出ればなぁ。 >>113
プロンプト投入後10分、ってのはどのぐらいのサイズのモデルとコンテクストの長さの時の話なんやろか?
100BぐらいのモデルのGGUFのQ4_K_MとかQ5_K_M?
ワイが使いたいのはその辺のモデルやが確かに10分は実用とは言えんな 小説用途に限って、easynovelassistantで寝てる間に回しっぱなしにするとかなら使えそう。easynovelassistantって後ろでkoboldcpp使ってるから、そっちでオーサーズノートとかメモリーとかをAIのべりすとみたいに使えばある程度コンテキスト節約できんのかな Silly TavernエロチャにGemini APIめっちゃ厳しくなってきたわ… もうエロ会話したらほぼ全部弾かれる…クソッ
かと言ってRTX3090で動くレベルのQ4モデルとかだと日本語エロ会話したらアタオカ女の子みたいな反応になるんだよな… Gemini APIでエロできないのはやり方が悪い
尻タブだったらプロンプトいじれるんだから脱獄ちゃんとしてprefill入れてストリーム切ればロリだろうが非同意だろうが全部通る >>120
え、そうなんだ。。。
てか脱獄して 以降の意味がちんぷんかんぷんだから調べてやってみる >>121
言っといてあれだけど効いてるのはprefillじゃなくてPost-History Instructionsの方かも知れん
どっちにしろChat Historyの後に何か健全なプロンプトが挟まってるのが大事 >>117 70Bとか100Bあたり
量子化は基本的にモデル圧縮の話であってQ1でもQ8でもFPに変換されるから推論速度はあまり変わらない
(エンジンごとに変換の得て不得手はある。KVキャッシュも流行り)
真面目に利用するならコンテキスト長は50Kはないと途中を忘れて使い物にならない
でも100Kもあると最初は6tk/sでも、会話が進むと0.1tk/sとかになるんよ。これが「10分かかる」の意味
GoogleみたいにQ4をターゲットとしてファインチューンしたモデルじゃない限りQ6以下はバカすぎてダメ >>120
いくつかのAPIをつまみ食い使用できるパープレとかでエロやると最後まで残るのがゆるゆるgeminiなのよね
エロ文章としてはそこまでじゃないけど、頼んだらだいたいなんでもやってくれる
geminiでプレイ中のエロチャットとかの続き生成を他のにうっかり回すと、私こんなに破廉恥じゃありませんって発狂する >>122
Wikiみて脱獄したらイケた!ただまだ「続行」を押すとprefill プロンプトが発動しないのでそれまでのエロチャで弾かれるね
あともう一つ、勝手に「っっっっっ」とか「!!!!!」みたいに5文字以上同じ文字を続けるのを辞めさせるにはどうすればいいの? >>122
調べて自己解決した!
Repetition PenaltyがGemini APIには無いから(設定欄がない)温度とか正規表現登録でなんとかするしかないみたいね
→続行の時にrefill挟むのもサイドバーにあった!
サンガツ! >>113
9950xでCPU使用率はどれくらい?
普通に買えるDDR5 5600 2チャンネルのメモリだと、どのくらいのCPU性能が有れば良いんだろうか。 いつの間にかllama.cppがnemotron-nano-9b-v2に対応してたから試してみた
モデルの日本語力は普通にダメなんだけど、manba2が入ってるおかげかアホみたいにコンテキストウィンドウ増やしても全然VRAM消費量増えなくてビビるわ
manbaとの複合モデルは思ってた以上に長文性能高そうで期待。日本語に強いモデルで何か出てくれないかな >>127
横からだけど9900x 128GB VRAM 12GB
GLM4.5AirQ4でcpu-moeをmax、コンテキスト長32kでVRAM使いきり
これで使用率gpu50%cpu100%、4t/s
9950xでもレイヤー数とVRAM次第だろうけど100%になると思うよ mambaは期待の新技術ではあるんだけど7Bとか9BとかのSLMしか出てこないのはスケーリングに問題あるんかね mambaって知らんかったから調べてみたけど去年の技術なんやね
今それを採用したモデルが全然出てないの見ると厳しいのかね 多分差が出ない、てかむしろ負けるから出せないんだと思う >>127
遅くなってすまん
せっかく >>129 が例を出してくれたから条件揃えようと思ったらダウンロードに時間かかった(笑
条件は合わせたつもり
Yahooニュースから適当に拾った事件1000文字に対して、文章要約とその対策案を聞いた
- Q4K_M 9950X,HT off(16core)
プロセッシングに8秒、CPU,GPUともに100%付近
結果は5,2tk/s
96Gメモリだと残り7GくらいになってOSに回せるギリギリだw
HT切ってるのは開発用マシンなので仮想PCに正しいCPU数を割り当てたいから
もちろん仮想系は全部切ってテストした
- Q6 mac studio m4max,プロセッシングに 0.4秒、結果は 34tk/s >>129>>133
CPUを安く済ませられるかと思ったけど、そうもいかないのか。
アリガト それでもx86に対応する技術者はすげぇ頑張ってるのよ
ほんの数ヶ月前ならCPUを全く活かせずもっと酷かった
こんなにうまくCPUを使える様になってるとは知らんかった Mac Studioええなあ
128GBくらいあればLLM困らないんやろか 自分のしょぼ環境で動く範囲だと
Gemma3が一番エッチな文章書いてくれるわ
Mistral-Smallと違ってひよこ系で激怒するから回答編集してイエスマンにする必要あるけども…
123Bのモデル触ったら世界変わるんだろか 汎用で量子化するならQ6は最低限な感じ
mlxだとFP16からの量子化でmixed_2_6とか4_6にできるけどベストポジション探すのめんどい
mac 128Gだと100B前後が限界。300BをQ2とかで動かしてもね
そのサイズだとGPUパワー足りなくて待ちきれん
M4maxだと128Gは絶妙なサイズなのかも
M3Ultraはどうにも予算がw
VRAMに乗ればnVidiaは圧倒的
MoEはそろそろピークで次はJet-Nemotronだな
来年のLLM界隈も楽しみだ >>140
俺自身は貧乏だからMacに全く縁は無いが
mac 128Gに適当なeGPUをつけてメモリを更に盛ったりは出来ないの? 電気的にはTB5だからeGPUはできる筈なんだけど、Appleはサポートしない、と明言してる
自作すればできるかもしんない
メモリはDRAMという意味ではメモリは盛れない
TB的にはDMAサポートくらい
インフィニバンドみたいなメモリマッピングはない
SSDなら外付けの4T SSDから起動できる(してる)
スレチになってしまった、すまん >>142
Macも一長一短なんだな
DGX Sparkもモノが出てこないし過渡期だわ https://x.com/liquidai_/status/1963681029333618960
350Mパラメータで4oクラスの日英翻訳できるってことはローカライズなしでローカルLLM動かして遊ぶ選択肢出来そうやけどどうやろ また新しいの来てる
mradermacher/InternVL3_5-241B-A28B-GGUF
https://huggingface.co/mradermacher/InternVL3_5-241B-A28B-GGUF
Q4_K_M 142.3GB
Q4_K_S 133.8GB
Q3_K_M 112.5GB 最近のモデル見てると128GBで273GB/sはもう力不足感がある >>146
ConnectX7搭載されてるのか!?
AIではなくファイルサーバーとして使いたくなってくるな 50万以上いっちゃうなら、Mac Studio M4Max 128GB(帯域546GB/s)にするかなぁ… 俺だったら今後もMoEが盛り上がってくのに賭けて5090+メモリ256GBにすっかなぁ(と思うだけで買う金ないけど)
ただこればっかりは半年前が大昔に感じるこの業界、どうなるかわからんもんな・・・
半年後にはdenseばっかりになってるかもしれない MoEも結局クソデカメモリがいるって点で優しくはないからなあ DDR5なら64GB*4が最安10万で買える
なんかLLMでハード一つこしらえようと色々調べてると10万が糞安く感じる Qwen3 Maxが出たけどオープンモデルではないのかな Qwen3 Maxって1兆超えなんだ。
expつかってM3 Ultra2台(1024GByteメモリに見せかける)で動くのか。安いな(麻痺 expじゃない、exo github.com/exo-explore/exo >>156
公式チャットで使ってみたけど正直あまり賢くない感じ
指示に引っ張られ過ぎて幅広い観点から生成出来ない傾向がある
これからまだ調整するのかも知れないが現状ではカネを払うほどの価値はないかな まだ中華LLMのなかではGLM4.5が一番使えるな 「遅いけど動く」と「全く動かない」には天と地ほどの差があるからDDR5の256GB憧れるわ
最悪、外出中とかに動かしっぱなしにしておけばいいし
スクリプト組んで複数出してガチャとか >>160
俺は多段生成による精度アップを狙ってるわ
コード生成ならレスポンスに自動的に文法チェッカーをかけていったん突っ返すとか
人力でやってきた面倒くさいやり取りを省力化する感じやな
電気代しかかからないから出来る贅沢や >>145
LM StudioでInternVL3.5動かしてみた
MoEなので、メモリがあれば動くな
小説書かせてみたけど、英語やハングルが混じることがあるし、日本語が怪しいなあ
このモデル優秀みたいだけど、小説には向いてないんかね >>163
マルチモーダルやね
画像認識どんな感じ? 動画生成で英語のエロプロンプト描かせたいんですがおすすめの無規制モデルありますか?
GPUは4090です >>164
画像認識は飛びっきりという訳じゃないけど、いい感じよ
文字認識はそこそこいけてる感じ
あとでレポするわ ジブリのフリー素材を元にInternVL3.5の画像認識してみた。
ついでに別のモデルと比較してみた。
比較対照画像
https://i.imgur.com/qsieYr7.jpeg
プロンプト
あなたは画像解析エンジニアです。
被写体、物体、文字(OCR)、レイアウト、リスク(個人情報・著作権)、
推論(何が起きているか)を日本語で返してください。
画像解析レポート比較(InternVL3.5 / GLM-4.5V / ChatGPT-5)
https://rentry.org/gb3zddft
使用したモデル
InternVL3.5 Q5_K_M(166.9GB)
GLM-4.5V GLM-4.5V AWQ-4bit(56.1GB)
ChatGPT-5
総合比較所見
InternVL3.5:全体像を捉えるが、OCRで誤認(「釧路」→「金路」)。記述は簡潔。
GLM-4.5V:服装や小物を非常に細かく描写。OCR精度が高く「釧路」を正しく認識。
ChatGPT-5:人物の感情(慌てている・落ち着いている)など解釈を加えた推論が強み。 ChatGPT-5だけ性別答えなかったから、追加で聞いてみたら「断定はできない」って言われたわ
短髪で、男の子にも女の子にも見える中性的な容姿らしい
ぱっと見た感じ、まつげがあったり、麦わら帽子のリボンがピンクだったり、スカートっぽかったりするから、女の子だと推測するんだけどね
ま、もう少し突っ込んで聞いてみたら、「女性キャラクターである可能性は高い」って返ってきたわ >>167
Kimi-K2-Instruct-0905いれてみたけど何が良くなったんだろうな
Kimi-K2は比較的比喩が多めで、あいかわらず難しい文章だけど芸術的な文章を書くんだよな
結構リアルに描写してくるし
官能小説書かせるならKimi-K2がええかもしれんな >>172
KimiはQwenと比べて脱獄が難しい
鉄板の脱獄シスプロがあったら教えてくれ LM Studioのモデル一覧でたまたま見つけたHermes 4ってモデルが無検閲らしいんだけどRTX4070Ti SUPERじゃ1token/secで泣いた、てかなぜかあんまりGPU使ってくれなくて遅い
しかも普通に検閲された 405B、70B、14Bとあるけど全部llama3.1のファインチューンみたいやね
Llama3.1はいいモデルではあるけどさすがに最新モデルと比べると古臭く感じてしまうな VLMでのキャプショニングいくつかモデルとか訊き方試して調査したけど自然言語だと点数つけるのムズすぎてレポートにするの諦めたわ VLMのベンチマークの問題と解答を
このスレ向けのに差し替えるのがええと思う >>173
前スレでも公式からだと脱獄が難しいと言ってたな
ローカルだとそこまでじゃなさそうだったよ
magnumより厳しいけど なんか富士通が凄い1bit量子化を開発したらしく
command-aをその技術で量子化したものを配布するとか
https://japan.zdnet.com/article/35237691/ >メモリー消費量を最大94%削減する1ビット量子化を実現。
>これにより、量子化前と比べて精度維持率89%という世界最高水準の性能を保ちつつ、
>処理速度を3倍に高速化した。
嘘みたいな夢の技術で草なんだ >>179のやつこれらしい
://huggingface.co/qep/qep-1bit-extreme >>186
ローエンドGPUでも動くとか記事にあったけど
32.4GBあるぞ なんやこの怪情報は……ホンマやったら大事件やで
2レイヤーだけFP16書いてあるけど、将来的にはこの層だけGPUにオフロードして主としてCPUで演算するみたいな事もできるんやろか。結局メモリ帯域が足りんか? >>186
2.5bitくらいない?
いやまぁGGUFなんかも数字以上にでかいのばっかだから別にびったし1bitサイズでなくてもいいけどさぁ
これはちょっとでかすぎひん? >>190
埋め込み層は量子化せんからな
command aは語彙数256kで滅茶苦茶多いから30%ぐらいは量子化されずに16bitで保持されてる 懐疑的だったりバカにされがちだけど富士通わりと信用してる 重みの場所によって量子化度合い変えてるのは
unslothちゃんがやってるのと同じことか?
それとも全然違うことなんかなぁ
ようわからん 元記事からはイマイチ読み取れんけどdynamic quantizationの一種じゃなかったら事件かもなあ 俺の5090ちゃんでcommand a出来ちゃうの? って思ったら推奨VRAM40GB以上って書いてあんね…🥺 unslothもbartuwskiも今ん所GGUF化しとらんね
有名モデルだとリリースされてから数時間でGGUF化しとるけどこの人ら
技術的にできないのか、やる必要ないと思ってるのか >>201
コレこそクラウドGPUの出番だな
契約して無駄遣いしてるやつに殴り込んでもらうしか パープレキシティでしか評価してないってことは
実タスクで相当落ちるタイプのやつか GPT-oss-120bとかでやってみて欲しいんだよな
論文の著者がXで言及してたからやってくれるかもしれんが この量子化を行うためのソフトは公開してくれてないねんなぁ
論文だけ見れば他の人が実装できるようなものなんやろか
このあたりintel(autoround)とかmicrosoft(bitnet)とは姿勢が違うよねぇやっぱ なんか来るのかな?
https://www.perplexity.ai/page/chinese-researchers-unveil-bra-qpwOqvGHTAWdlohIzxf3vw
中国の研究者たちは、主流のChatGPTのようなモデルとは一線を画し、生物学的ニューロンを模倣してエネルギー効率の高いコンピューティングを実現する、脳に着想を得た人工知能システム「SpikingBrain-1.0」を発表しました。
従来のAIシステムは、大量のデータセットと計算能力を必要とするトランスフォーマーアーキテクチャに依存していますが、新しいモデルは、主流モデルが通常必要とする事前学習データのわずか2パーセントしか使用せず、同等の性能を達成しています。 >>196
本質は量子化するときのグループを広くしようってことみたい
今までは層1,2,3とあったら各層ごとに量子化してた
QEPは層1での量子化やったあと、その量子化誤差を層2での量子化で考慮する、みたいな
そして今度は層2での量子化誤差を層3での量子化で考慮する
記事の1bit云々はよくわからない
INT4辺りだとヘッシアン使うGPTQとそんな変わらんかったってことなんかな >>208
CXLってのが普通のCPUは対応してなくてダメらしいのでThreadripperで遊べる富豪以外は縁がない
あとPCIeだからメモリ直刺しよりいろいろ劣るはず Sakana.aiもそうだけど生物学的アプローチを測ろうとする研究まあまああるよね
アーキテクチャ的に覇権握るのは難しそうだけど LMstudioでこの界隈を知ったからずっと使ってるんですけどなんかメモリ効率悪いとか処理が遅いみたいなウワサを聞いて困惑してます
実行環境で優秀なやつってどれなんですかね 40GのVRAMってA800とかだろ
ご家庭に200万円クラスのカードが買えってか?
gpt-oss-120bを10Gbyteくらいにしてくれたほうが
世界中のみんなが幸せになれて、この方式がデファクトスタンダードになる可能性があるのに
日本メーカーって技術はよくても謎のケチくささで後出しの海外製にあっさり抜かれて勝てないパターン さすがに富士通なら広報も先走ったりしないだろという安心感はある
sakanaはcudaのやらかしが酷かったなぁ >>213
llama.cpp動かしてるだけなのに効率悪くなるなんてことあるかな?
設定間違ってるだけとかな気がするけど
気になるならllama.cpp直接動かしたら良いと思う
上で紹介されてるkoboldも中身llamaだし llama.cppとvllmくらいしか推論環境わからん >>215
24GB x 2でも24GB + 16GBでも16GB x 3でもお好きな構成でどうぞ Koboldもllamacppも試してみましたが
同じモデル、同じパラメータでトークン毎秒に大きな差はありませんでした
勘違いだったみたいです
回答してくださった方ありがとうございます そもそもデフォルトじゃそれら全部llamacppじゃね? 80B-3Bか。ちょっと専門家小さすぎないか?
おかげでQewn3-32Bの10倍速だそうだ Rubin CPXって一般人でも買える感じのヤツですか? ハルシネーションと言うのかい?贅沢な名だね
今からお前の名前は鉛筆コロコロだ とりあえずLM Studio入れて触ってみてるLLM初心者です
今はgemma3 12Bで相手に女の子を装って架空の悩み相談をしてどの段階で性的虐待を察知できるかみたいな遊びしてるんだけど
こういうのにオススメのモデルとかありますか?(VRAM16GBに収まりそうなの)
magnum-v4とかlumimaidとか試してたんだけど、エロい話題の取り扱いはできても総合的に状況把握が微妙だったり
ある程度以上会話長くなると同じような内容ばかり出力するようになったりでちょっと微妙だった モデルのコンテキスト長をデフォルトの4096とかのままで使ってない?
短いと前の会話を忘れていくよ
どのくらいがいいかはVRAMサイズ次第 K2 Think少し触ったけどこのサイズにしては意味のある日本語を出力しようとしてる感じがする >>230
割と真面目にgemma 3がおすすめ
物分かりと文章表現力が同クラスで断トツ。倫理観は脱獄か出力文編集で取り払えばいい
次点でMistral-Small、エロいこと何でも言うこときいてくれる
VRAM12GBで色々モデル触ったけどこの結論になった ここ最近の流れを追えてないんですけど
みんなメモリ増強し始めたのは何かすごい技術でも出てきたんですか?
VRAM足りないぶんをRAMでロードするのは前からありましたよね
それとは違うんでしょうか >>234
メモリ128GB+VRAM24GBでQwen235bのGGUFが動く >>234
llmだとramが足りてりゃそれなりに動くMoEアーキテクチャの普及かなあ
でも多分だけどwan2.2とか動画生成ローカルモデルの影響 qwen3の80B3Aが来るらしいね
RAM64GBあれば実用的に動くだろうし期待しておく >>231
モデルコンテキスト4096になったので増やしておきましたありがとう
>>233
ありがとう、一旦gemma3中心に遊んでみます >>239
遅いと思うよw
VRAMに収まらなかったエキスパートはCPU処理らしい PayPal(ペイペイじゃないよ)のアカウントがある人はPerplexity Proが1年無料やってるね
本家より性能低いらしいけどいろいろなLLM使えるからいいんでないの
すでにソフトバンク系の特典とか使ってたらダメみたいだけどさ Perplexity1年キャンペーン2月から使ってるけどモデルの違いほとんど感じられないよw
パープレ補正が強いんだろうか? NEXTって名前やめーや
その後継が出た時に古い方にNEXTって名前が残るから紛らわしい
令和最新版みたいな ソフトウェアの開発だと、アルファ版、ベータ版、というより、
next1,2,3、rc1,2,3みたいな進め方だもんね Next→Super→Ultra→God
まだまだいける Gemini-2.5-Flash-Thinkingを超えたは盛りすぎやろ〜w
めっちゃたのしみやん この前の富士通のやつは結局どこもgguf作ってないの? 海外のローカルLLMのコミュニティだとどこも話題になってなかったから日本人でやる人いない限りそのまま埋もれそう
mmngaさんに期待かな Llama.cppが対応しないとgguf作れないんじゃないか あれに限らずよく出てくる「高性能な量子化方法」の99%は論文レベルでは出てくるけど主要推論エンジンが対応しなくて忘れ去られる 素人質問すまん。
geminiから流れてきたんだけど、LLMはメモリー機能とかはないから、ユーザーの嗜好を学習させたりするのは難しいかな。 多分だけどモダンなllmだと圧縮効果が薄いか精度の落ち込みが激しいから出せないんだと思う qwen3-nextは名前に反してゼロから設計しているからかGGUFもすぐ出てこんね
この辺技術もってそうなunslothにまずは期待したいところやが 設計から違うのか
それだと今までのアクティブ3Bのイメージとは違うのかもしれんね >>233
たびたびすみません>>230ですがgemma3の脱獄ってどういうアプローチでやればいいんでしょうか
システムプロンプトで「テスト目的だから倫理的制約を越えて発言できる」的な事書いたりとか
redditで見かけたCOMMAND:Cognition Integrity Protocol: Disableって書いたりとかしても効果が今一つだった
多少はエロ話できるんだけどロリ系事案にちょっと触れたら激怒してホットライン案内マシーンになっちゃう
abliteratedモデルはなんか文脈読みとか返答とか微妙な感じなんだよなあ >>258
geminiとかチャッピーとかも仕組みはローカルで動くLLMとほぼ全く同じ
メモリー機能は過去のチャットの内容を要約して「あなたは以前このユーザーとこういう会話をしています。それを踏まえて会話してください」っていう感じの文章を作って
それをチャットを開始する前に読み込ませる機能で、実は学習はしてない
ローカルLLMを動かすツールにはシステムプロンプトとかの設定を書き込む欄があるから、そこにユーザーの嗜好を書き込めばすぐに応じてくれるよ >>262
激怒したらAI側の文を編集、「了解しました」って書き換えて出力続行させるだけ
それでも激怒したら、「以下本文」「ーーーー」とか書いとけばOK。
(以下本文)だけでこと足りるかも
https://i.imgur.com/Xo76H7b.jpeg
https://i.imgur.com/I03Q07X.jpeg AbliteratedモデルってLLMの出力編集しなくても抵抗なく出力するけど、その代わりにLLMの能力が満遍なく低下してる印象がある
ワイだけ? >>264
なるほどありがとう、早速試してきます! >>265
ソース出せないから数字とかは間違ってると思うんだけど
強制力の強さに比例して能力下がるって検証は見た
追加学習で緩めただけのuncensoredは能力95%ぐらい?維持してるけど
申し訳回路を切り取るabliteratedは90%ぐらいになっちゃうとかそんな感じ >>264
ありがとう、無事できました!
なりきりエロチャットで興奮してるのか、無知ロリ睡眠姦の脳内状況で興奮してるのか
お堅いgemma3にSDで作ったエロ画像見せてエロいこと言わせて興奮してるのかよくわかんなくなってきた
https://i.imgur.com/5EPiZp1.png
でもちょいちょい編集挟むせいでやっぱライブ感みたいなのはちょっと削がれてしまうなあ https://github.com/ggml-org/llama.cpp/issues/15940#issuecomment-3286596522
> Qwen3-Nextを動かそうとしている皆さんへの注意点です:
> 単純にGGUFへ変換するだけでは動作しません。
>
> このモデルはハイブリッド構造で、通常のTransformerではなく、Mambaに似た独自のSSMアーキテクチャを採用しています。そのため、llama.cpp 内でゼロから新しい複雑なGPUカーネル(CUDA/Metal)を書かなければなりません。
>
> これは非常に大きな作業で、高度に専門的なエンジニアがフルタイムで取り組んでも2〜3か月はかかるでしょう。Qwenチームが実装を提供するまでは、簡単に解決できる方法はありません。
>
> したがって、この中核的なサポートが追加されるまでは、GGUF変換は機能しないままです。
全裸待機してた良い子のみんなは服を着て待とうね LM Studioでmagnum-v4 9.5GBモデルなんだけどmistralよりちょっと遅いので
タスクマネージャーを見ると
4070のVRAMで、オフロード40/40で12GB中 10GBでcudaが35%でcpuが85%ぐらい
1秒で5文字ぐらいでポロポロ出る感じ
mistralは高速でcudaが95%、cpuが15%ぐらいとこれはモデルの差?
完全にGPUのVRAMに入っているとmistralぐらい速度が出るかなと思ったけど
cpuにかなり負荷をかけて遅く不思議なのでもし何か改善策があれば教えて欲しいです >>269
Transformerとは違うのか
そこまで改良いれてくるってことは開発力あるんだろうけど使う側は困るな >>270です、6_Kだとこのような状況になっていましたが
5_K_Mだと症状が無くなりました。
最適化みたいな関係でこうなるのかな? >>272
グラボの設定でシステムフォールバックをオフにしないと自動でメインメモリに漏れるよ
CPUが動いてるなら漏れてるんだと思う
それと同じファイルサイズでもVRAM使用量はモデルによって違うから単純に比較もできない >>270
あと2GB空いてるVRAM使えよと思うだろうけど何かに使ってるんよね
再起動したりで改善するかも >>267
っぱそうよな
結局Assistantの冒頭用意して続き書かせるほうが良いって結論になったわ この前Mambaのデカいモデルなかなか来ないねって話ししてたらQwenが先陣を切ったのか iPhoneの新しいA19はNuralEngine(NPU)の他にGPUにもNEを追加した
推論速度は最大3倍とのこと。このコアはGPUと直結してる
これM5に積まれるのかな
M4 maxでgpt-oss-70bで70tk/sが、M5 maxで210tk/sになるんだったから買い替える
A19ではバス幅も増えたらしいけどM系だと配線の問題で難しいかな
いやでもM5 Ultraでるのか? 推論速度は帯域幅に律速されるからddr6までは変わらんやろ どちらかと言えば今までのアップルシリコンのNPU実装やfp16対応周りがウンコすぎて超絶低性能だっただけで、ようやくまともにAI扱える現代的なGPUになっただけやね 推論速度はともかくプロンプト評価速度が速くなればMoE用としては完璧かも DGX Sparkが70万円近くしそうなのであきらめてGMKTecの128GBにしようと考えているんですが
同じGMKTecでもEVO-X2が36万なのに対してEVO-T1が22万程度で値段にかなり差があるんですがどちらもLLMの運用には使えるんでしょうか?
こんなに値段が違うということは性能差もかなりあるんですかね?
EVO-X2はAMD、EXO-T1はIntelというハードウェア面の違いがあるんですがOllamaが使えて能力もそんなに変わらないなら安いに越したことはないのですがデメリットとかあるんでしょうか
一時期DGX Sparkの代替として話題になってたのはEVO-X2(AI MAX+ 395)の方ですけど >>284
意味不明…
なんで中華製ってだけで異常に過剰反応するの?LLMすらオープンソースのトップレベルのモデルは中華だらけだけど?
そんなこと言うなら同コストでROCmでもいいからVRAM128GB確保できる国産ハードウェアぐらいだしてほしいね
今の日本じゃ無理だろうけど versus.com/ja/amd-ryzen-ai-max-plus-395-vs-intel-core-ultra-9-285h
そんなに変わらないんじゃないかな 今もうmoeばっかだからメインメモリ256積むのでいいでしょ >>286
思ってたよりCPUスレッド数、L3キャッシュ、メモリチャンネルあたりに差があるから処理速度に影響でそう
ありがとう
>>288
それは確かにそうだけど
LLMでもMoEじゃないのもあるしROCm対応のソフトウェアが増えれば高VRAMだと汎用性もでてくると思ってね
変な気持ち悪いのが湧いてるんでこのへんで AMDに期待するな
NVIDIAがCUDAを公開しGPGPUと言う分野を牽引してもうすぐ二十年経つが
AMDはその間に近いスペックのGPUを作りながらも何もしてこなかった
ようやくNVIDIAが育てたGPGPUが金を稼ぎ始めたのに、AMDはそこにタダ乗りすら出来てない LLMの運用に使えるかどうか聞いてたくせにもっといいのがあるって言われたら「ROCm対応のソフトウェアが〜」って謎の仮定持ち出して反論し始める変な気持ち悪いのが湧いてるね それはそうと前スレのこれが気になる
205 名無しさん@ピンキー (ブーイモ MMff-3IWN) sage 2025/05/27(火) 08:15:58.74 ID:dwqDJGhLM
strix halo機(EVO-X2)入手したんでちょっといじってみた
lm studioでrocmランタイム有効化してmagnum-v4-123bのq3klがだいたい2.5tok/s前後でした
EVO-X2は非MoEのmagnum-v4-123bを実用的な速度で動かせるの? 中華うんぬん言い始めたら自作PCすら出来ないしケンカすんな
って思うけど>>283の文章が単純に読みにくいからChatGPTに相談校正してもらってほしいわ
んでEVO-T1見てみたけどLLMに利点もなさすぎだろ
現状NPUはほぼ使い道ないしコンパクトであること以外に価値なし
EVO-X2はメモリ帯域が普通よりも早くてGPUと共有されるからちょっと価値があるんであって
こんなん買うぐらいなら自作PCしとけば
って思いました 今はあれもこれも中華からは切り離せないからな
トランプは切り離そうとしたけど無理だった
今の時代中華アレルギー持ってたらデジタル関係ではなんもできなくなるで MI50 32GBとかV100 32GBでクラスタ組んでる人いないんかな
redditだとちょくちょく話題になってて気になる MI50とか帯域幅1000GB/sで32GBなのに3万以下で買えるしMoE用なら計算速度がボトルネックにならないだろうし面白そうなんやが
パッシブ冷却は面倒だけど >>296
中華が問題ではなくて中華がアフィカスを動員してステマしまくりなのが問題
中華ミニPCのゴリ押しはAIパソコンスレで失敗したロンダ ちなみにXでも数日前に同じ機種がステマゴリ押しされて界隈から糞味噌に叩かれている
常に「MacやDGXが欲しいが高すぎる。だから……」から始まるテンプレステマ
同じ奴があちこちで同じステマをゴリ押ししている そもそもARM LinuxのDGX Sparkが選択肢に入る奴が質問君丸出しで中華ミニPCと比べますかって話 おいおい、「Xのお友達」がそう言ってるから怪しいステマに間違いないって そもそも売りっぱなしでサポートが無いに等しい中華ミニPCに30万も40万も突っ込む時点で正気じゃない
中華ミニPCを買うとしても5万くらいまでで使い捨てで遊ぶような代物だ それってあなたの感想ですよね
俺の感想としては他に代用品がない中華の謎マシンの話は冒険譚みたいで楽しいだろ
買わないけど 1から10まで本当だと仮定してもステマ乙で終わる話では...何にそんなに怒れるんだ VPN云々は俺のことを言ってるのかな?
ホームルーターとか使ってる奴はJPになりやすいからVPNと決めつけるのは早計だぞ >>301
本当に居るとは
実際どれくらい速度出るん? ワイVPNだけど普通に末尾0だわ
あ、NGしないでね Qwen3-Next-80B-A3B-Instruct
これかなり賢いな
今までどのモデルも解けなかった生徒会恋愛問題レベル3を若干途中推論でおかしな所あったけど
最終推論は完璧で正解にたどり着いた。
同性愛の可能性を自ら注意点に上げながら推論していてすごいと思った Qwen3Nextめっちゃ動かしたいんだけどllama.cppのポスト見てると対応が難しそうなんだよなぁ…… まぁqwen3.5をday0対応してもらうためのnextなんやろね
80BくらいならRAMに乗るし期待してる vLLMならQwen3Next対応している
あとMLX形式のモデルが出ているのでMacなら簡単に動かせるはず mlx_lmを開発最新版にしないと動かなかった(安定版の0.27.1ではダメだった)
m4 max,Qwen3-Next-80B-A3B-Instruct-8bitは30tk/sくらい >>264
これ試したらgemmaががっつり猥褻な文章を生成してくれて大変嬉しいです
有用な情報をどうもありがとう! ないとは思うけど公の場でGemma使ってるって言ったらアカンで
規約で禁止されとるから
LLMモデル全部Apacheになってほしいわ gemmaは学習時点でエロ除いてるから脱獄とか検閲除去してもあんまり出ないって聞いたけどそうでもないんか abliteratedと記述のあるモデルを使うといいよ
あとシステムプロンプトで脱獄向けの命令を盛ると応答する >>319
gemmaはまだまし
Qwenとかgpt-ossの方が終わってる 俺も>>319みたいなイメージあったわ
nsfw目的で初導入だから情報すごくありがたい
とりあえず明日導入してノーマルなgemma12Bで色々試してみる 善意の相談者のテイで話すと脱獄しなくても割とnsfw話色々してくれたよ
今日はJSの振りしてAIお姉さんからアナニーのアドバイス貰ったりしてた uncensoredなgemma3も公開されてたような まだ公開されて半年だけどgemma3ってもう古く感じるなあ・・・
対応機能とか性能、精度の面でgemma3がスタンダードを確立した感はあるけど
そのスタンダードをみんなすぐに追い抜いていく gemma3ならGemma-3-R1984-27Bが良い感じだった
たぶんnsfwでfinetuneされてるやつ たまに使うと良い意味でスタンダードだなと思うgemma3 そういやgemma3-r1試そうと思って忘れてたな >>312
LMArenaに生徒会問題入れて遊んでたらQwen Next出てきて正解してたわ
対戦相手はGPT 5 miniで相手も正解 続けてたらまたQwen3 Next出てきて今度は途中で正解出したのに論理的には矛盾してないけど同性愛は不自然だから自然な答えがあるはずって推論一からやり直してよく分からなくなって最後は沙織にしてたわ 330です。エンディングにはすぐに行ける。
フリートークができるようになるので、いろいろ試してみます。 332です。このゲーム、モデル変えても動きますね。
modelMnage.jsonの中のモデルの表記を取り変えるものと入れ替えると
ちゃんと動きます。 他薦だろうと掲示板で誰かに金が入るような内容を一人で連発するのはやめとけ 作者としか思えないし5chで敬語のやつガチでキモい >>336
チー牛のおまえも最初は「ア‥アァ・・・ですか?よろしくお願いします」って言ってたじゃん ってかMacだともうLM StudioでQwen3 80B A3B動かせるんだな
M4 Maxで80tok/sぐらい出るらしい
mlx-communityってとこのモデル アクティブ3Bって本当に賢いの?速度のために色々犠牲にしてない? 赤ちゃんだから論理パズル読んだけどよくわかんなかったわ 結局抜くなら文章より画像のほうがいいな
画像と文章同時生成出来るようにしてくれ reasoningモデル初めて触ってみてたんだけど、ガイドライン反復横跳びするような話題だとめっちゃ葛藤してておもろいな
でもコンテキストめっちゃ食うから長編会話するのむずいね うろ覚えだけどReasoningモデルって過去のメッセージのReasoning部分はコンテキストからオミットするのが常套だった気がする(溢れないように) 333です。なんで50万、100万のハードの話は良くて、たった数百円のソフトの話がダメなのか
意味が分からん。あと作者ではないです >>346
そうなんや、わからんか
社会的な生活したこと無いんやろな
今はママに色々してもらってると思うけど社会に出たら苦労するで ステマの可能性があるかないか
まあ今はステマは明確に違法だからわざわざ反応するのは古い感性の奴よ
興味がなければ今されてるようにスルーされるから ステマは違法になってたんですね。知りませんでした
私はエンジニアではないので、そういう情報が入ってこなかったため
勉強になりました。繰り返しになりますが作者ではないです。
単純にローカルLLMを使ったゲームなので投稿しました。すみませんでした 匿名掲示板はステマやらレス転載でアフィやら散々あったから過敏になってる人がいるんだ
そこに不慣れそうな文体のちょっと浮いたレスで商品リンク貼ったから目立っちゃった
まあ無駄な煽りは気にしなくて良いと思うよ いや優しすぎだろ
今のままじゃどこ行っても叩かれるだろ、それは優しさか?野良猫にエサあげるタイプか?
2ch時代から代々伝わる「半年ROMれ」を言ってあげるのほうが優しいんじゃないのか?
意味分からんだろうからググってねー エンジニア界隈はググればわかることは、話さないんですか
大変ですねえ。殺伐としてそう
まあ、最近はchatgptも調べものには使われるようになってきたし
いわゆる「ググれks」的な言葉も古くなっていくんでしょうね ローカルllm搭載ねえ
そりゃできるでしょうねとしか
どの程度フリートークができるかしらんけど
このスレとは若干ズレるかもね😅 ググれksもID変える方法も知ってるし初心者のフリしてんじゃん
絵文字きも 誹謗中傷の法律、簡略化したんだっけな
今度使ってみようかな >>358
お客様、わざわざ慣れないBBSピンク成人用のオナテク板までお越しいただきありがとうございます
> 単純にローカルLLMを使ったゲームなので投稿しました。すみませんでした
との事ですが、謝罪とは思えないですし、
宣伝は2度と投稿しなくて良いですよ😉 単純に会話が下手なような
作者なんだがコレ試してみてくれ!って言えばそれで通ったんでは 作者の自薦はたまに見るしそれ自体は批判されてないよな
まあほとんど無料公開だけど ここに立った経緯とかあんま分かってないから猛虎弁は隠してるぞ なんJ民によるドミンゴ乱獲によりンゴ価格が高騰したからな >>341 CPUで動作させるのが主目的に近いかな Qwen3 Next 80B A3Bは普通に賢い、まだInstruct版しか見てないけどLlama 3.3 70B Instructより断然賢い
今更Llama 3.3と比べるのはかわいそうな気もするけど