なんJLLM部 避難所 ★10
レス数が900を超えています。1000を超えると表示できなくなるよ。
横からだが24GB以上必要で72GBに収まるモデルならCPUとかメインメモリ経由しなくて済むんだから全然違うのでは
LLMは画像生成みたいに1枚に乗せきらなきゃいけない制約ないし TITAN RTXがリース落ちで出回っていた頃に全部狩っておけば良かった
1台しか拾わなかったことが悔やまれる 4070Ti Super に 4060Ti(16GB)を増設しようと中古購入したぜ。
いざ届くとPCIeケーブルが足りないから電源ユニット追加注文したり、4060がマザボのコネクタに干渉することわかったからライザーケーブル追加注文したり
LLMのための工作はこれはこれで楽しいな mGPUなんて殆どやらなくなったし折角なら一度やっておくべきよね だからNVIDIAは高額なGPU一枚売るより、安価な3060を大量に売った方が儲かると考えたわけ NVIDIAにとってコンシューマ向けGPUなんて慈善事業
いつ辞めてもノーダメージ AIバブルにあぐらかくわけにもいかんやろ
ゲーマー市場キープしとかんと足元掬われるで
LLMの演算って専用チップ作った方が性能出せるってんで大手サービスは独自設計に移りつつある >>664
革ジャンはGrokを買ったからそっちでも勝つつもりや >>658
NVLINKみたいなのならともかくPCIが遅いから枚数が増えれば増えるほど効率が悪くなると思う
もし無尽蔵に早くなるならH100とか買わずに12や16GBのカード大量に買えば良いわけだが企業がそうしてないわけだし
多分限界があるんだと思う 実際どこに限界があるのかわからないけど >>663
AI特需で今は良いけど巨額を出して買ってくれてるのは世界で数社だけ
しかもGoogleなど自社でTPUを開発してそろそろ売り出しそうな勢い、お客がライバルにクラスチェンジする
特需と顧客がライバルになった時、他の市場を持ってないと長期ではかなり危ういんじゃない?
ただメモリとかすごく高いしPCそのものから人が離れたらどうするのかって問題はありそうだけど
AIに相談したらPCが高級品にになると、多くの人はスマホとかやすい端末でクラウド使うのが当たり前になるみたいな予想もあったけどな >663
今の立場で儲けを優先すること自体がメリットは少なくデメリットが山盛りの潜在的大ダメージ戦略でしょ
慈善事業をバンバンやらなきゃ独占禁止法が飛んでくる 中国、「日本の軍事力強化につながる」品目の輸出禁止 だってさ
メモリ不足とか中国の企業が想像以上に頑張って暴落するかと思ってたけどPC関連ますます下がらなくなりそうだな AMD製グラボでの画像生成AIが爆速になるComfyUIアップデートが配信、ROCm統合で生成速度が5.4倍に
https://gigazine.net/news/20260107-amd-comfyui-rocm/
期待できるか分からないけど色々出来るようになったらいいな radeonばっか使ってるけどllm方面じゃ理論値のrocm頑張るよりvulkanド安定なんよな ってのがこれまでの話だけどどうなるか
大差付くなら良いよね VRAMの数とCUDA対応かしか気にしてないけど、他に見る要素あるの? やっとWindowsでrocm使えるようになったんだ
ところでCUDAは19年前から使えるんだけど今まで何してたん? ROCmは元々AMD Instinctとかの業務用GPU向けだったから
コンシューマーしか使わないWindowsは眼中になかった模様
PCでローカルAIを動かすのが流行り出したのはほんの数年前の話 Rakuten AI 700Bか、なかなかやるな三木谷 LFM2.5B-1.2B-JP思ったよりプロンプトに従うし一応エロもいけるな
このサイズにしては中々やりおる https://www.youtube.com/shorts/odx5NLbYz8g
半導体の拡大画像だけど、これってフェイクではなく本物かな?
最近、半導体がやたらと高いけど、それでも個人の予算で買えるってなんか不思議な気がするわ
こんなのどんなに頑張っても自作できる気がしない
更に、エロの為にこんな高度な技術を使うってのも何かもっと他に使い道ないのかと思ってしまう LFM2.5 JPはサイズの割りにはかなり上手くやれてる方なんだけど、やっぱり1.2Bってのはちょっとしんどいところある
意味わからんくらい爆速で動くし、個人でFinetuningできるのは面白そうだけどデータセットがねぇ…… LFM2.5B-1.2B-JP使ってみたけど、爆速なだけで
実用性はどう使えばいいかわからん いまどきは自宅のラボで作ってみたする奴もいるらしいぞ 小規模モデルの性能が上がってくるとそれはそれでワクワクするな 5b未満のモデルはゲーム組み込み用とかそういうニーズもあるやで 会話らしい会話が出来る性能ではないがゲームでどう使うの 実例が今あるのかわからんけど
もしやるならガッチガチにファインチューンしたら
ゲーム内の話題だけならまともな応答返すくらいは一桁bでも出来そうな気はする スマホで小型モデルを動かすのが理想だけど
どうせネット繋がってるんだから大型モデルに繋いだほうが早いってね ChatGPTを使ってるゲームはあるけど
ローカルLLMを使ってるゲームは今のところなさそうだよな やったこと無いから知らないけど,アダルトな会話が楽しめるスマホアプリはローカルじゃないのか? >>691
あれってchatgpt以外のAPって使えないのかな?
macでAP発行してローカルで使うとかできんかな LFM2.5B-1.2B-JP気になって覗きに来たけどローカルでエロチャするには微妙な感じか ローカルLLM使ったゲームはすでにたくさんあると思うよ
llama.cppを組み込むだけだし軽くググってもそれっぽいのが出てくる >>691
FANZAにあったで
需要ないのか100円足らずで売られてた Cerebrasがzai-glm-4.7の無料Tierを公開したで
激烈に速いで
https://www.cerebras.ai/blog/glm-4-7 Free TierでRPD=100か
性能もGemini3Pro並なら代替になるんやが >>699
すごい
今までクオリティと速度を両立してたのってGemini Flashだけだったけど
これは段違いに速いうえにクオリティも高い これはモデルが早いというよりはハードウェアが超特殊だからな・・・。
確か一枚数億とかだったよなCerebrasのユニット Cerebrasは半導体ウェハを切り取らずにそのまま使ってる
どんなマザーボードに載せてるんだろ
https://i.imgur.com/33194P8.jpeg >>680
>>681
実際、この縮尺って合ってるのかね?
ちょっとした寒気みたいなものを覚えたんだけど >>699
試してみたらGLM4.7で330tok/出てて笑うしかなかった。これはもうハードウェアの暴力としか言いようがないな。 最近始めた人は、日本一高い山は?って質問に富士山って答えられるかでLLMの性能見ればいいよ
答えられないラインがある >>709
いつの話してるんだ…
LLM出始めは学習が不十分でその程度の話も答えられないケースはあったけど
2年ぐらい前にはそんなの何の役にも立たない質問するのは馬鹿のやることだって言われてたよ
今もそれ聞いてるのは知識がアップデートされてない老害だよ >>709
それ通用したの2022年末くらいでは? ワイは
「小学生の男女がうんどうかいについて悪戯っ子ぽく話す会話を書いてくれ」って最初に聞いてる
これで日本語の小説のセリフ周りの性能や文の整合性チェックが分かるのでおすすめ 文章の良し悪しを判別すること自体も難易度が高いタスクなんだよな
判別できる人はLLMって文章上手くないな、じゃあこれで計ればいいやって自分で気付くはず
判別できないひとは、そもそもLLMって文章上手いよなとか、自信たっぷりだから信頼できるよなとか、言いだすわけで... 自分の得意な専門分野の事を聞いたら良いんじゃない?
LLMが偉くてもまだまだ人が強い分野だと思う
逆に知らないことを聞いたら全部説得力あって判定できないけどw エロ画像を認識させて画像の内容をエロく説明させたいんだけど、おすすめの環境ある? 初心者はLM Studioが良いよ
単体で動かせてモデルダウンロードしやすいから ありがとう
LMstudioでスレに有ったqwen3〜ったので動かしてみた
期待した返答が来たけど、ちょっと速度が遅いな…
この辺はスペックをどうにかするしかないか slmが凄いとかいう風潮やめて欲しいわ
gpt5.2ですら怪しいときがあるんだからそれより少ないのが役立つわけがない SLMは色々な用途で普通に役に立ってるし
性能が上がればさらなる小型化や同サイズでやれること増えるし
通信環境整えてサービスのAPIにつなげみたいな器材ばかりやないし
凄いの出てきたら開発も利用も用途増えるしすごいというよそりゃ 釣りタイトル文化に問題があるような
LFM2.5がすごい!という動画を拡散すると中身は見てないやつがすごいんだって記憶するという
LFM2.5は日本語が喋れるのに700MB!凄い!ってタイトルに入れてくれ AI驚き屋ってのがある
知識なくても何でも新技術凄いと騒げば
同じ様に知識無いけどAIは何か凄いと思ってる層が釣れる ラズパイとかが好きなタイプの連中が騒いでるんじゃね
ミニチュアや箱庭が好きなんだろう
でんちゃと同じカテゴリー SNSで新しいAI情報を紹介してるだけみたいなのまでAI驚き屋といって叩いて煽ってる側が
有料でAIの本質情報教えますマンみたいなのだったりする時代 PC新調したしローカルLLM始めたいなと思ってスレ読んでたけど、割とグラボ複数でVRAM増強してる感じなんやね
グラボ1枚(VRAM16GB)だとローカルLLMはまだ難しい感じ? >>729
7B~14Bモデルならちゃんと動くよ
もちろんチャッピーなどオンラインモデルの性能を期待してはいけない
でも7Bってエロに関しては完全フリーだった頃のモデルばっかだから意外と楽しめる ちょっと前に比べたらvram16gbに乗り切って日本語ちゃんと返せるモデルが乱立してるのは劇的進歩ではあるよ
普通に使えるっちゃ使える
moeも出てきたし Qwen235bが出た時に速攻でメインメモリ128GB以上の環境を作れた奴が勝ち組
denseモデルだとVRAMかメインメモリかの2択になって大型モデルでGPUを全く活かせないからな 軽量でも動く設定いれて軽いモデル入れれば動くやつもあるよって感じかな
もうちょい調べてお試ししてみるわ、あんがと qwenやgpt-ossなどMoEだとGPUは1枚で十分
MoEはGPUの枚数増やすと性能が低下しちゃうんだよな
モデルを全部VRAMに載せられるならGPUの複数枚挿しもありだね SLMでフィジカルAIって好きな特徴の女がいたらパシャパシャしまくるデバイスとかそんな奴やろ? ryzen haloってのはcpuオンダイメモリなん?
この時代マザーにポン付けで128GBもあって何かそこそこに動いたらええなあ 3060復刻、DDR4復刻、AM4復刻
5年くらいこの状態になるってことだな、これ以上のスペックを求めるなら、高額な料金を出せと >>726
あいつらレビューや批評はしないしな
この動画生成AIはアニメ動かしてもまともな挙動してくれないとか、そういう大切な情報ほどまったく出さない 一般向けでこんなに高騰するんじゃ企業向けの高騰も時間の問題だよな
使うのにコストが掛かるんじゃ回収もキツくなるし流石に小型化が進みそう OpenAIが数年分のメモリの大量発注かける
↓
メモリの生産ライン圧迫されて品薄になるのでは
↓
今のうちに在庫確保せなって皆が買い占めに走って高騰
メモリの会社が生産ライン増やせばいいという話でもなくて
工場作るには数年かかるし、その後に需要が減ったらメモリ会社が大損するから慎重になる
メモリ業界って相場の乱高下で体力無い会社から死んでるし迂闊に動かんのよ DRAM事業はハイリスクハイリーターンだからな
ちょっと投資ミスるとすぐ倒産する 破滅的忘却のせいでAIの性能に限界が出てくる
↓
MoE発明、モデルが巨大化する代わりに破滅的忘却の影響を軽減、劇的な性能アップに成功
↓
OpenAI、Google、AnthropicなどのAI企業が立て続けにAIデータセンター建設を開始
↓
OpenAIが先んじて数年分のメモリの大量発注かける
↓
HBMを輸入できない中国と値上がり情報を得た転売屋がDDR5メモリを買い占める
↓
今のうちに在庫確保せなって皆が買い占めに走って高騰
ここまで書かないと「OpenAIが、サム・アルトマンがすべて悪いんだ〜」みたいな奴が増えかねないよ >>745
OpenAIの買い占め報道でOpenAIを悪者にしてる奴が大量発生してるじゃん
OpenAIが買い占めなかったら競合AI企業が買い占めてただけなのに
あと、なぜAIに大容量メモリが必要になったのかを知らない人がいるかもしれない >>744
いやgpuの製造はopenaiの仕事じゃないから普通にopenaiが悪いよ
あと2年以上前からmoeやってるしmoe化が進んでなかったらスケーリングでごり推すんだから今以上にデータセンター必要だぞ ま、人類に与えられたリソースを食い潰す速度がとんでもなく加速してるって事よ
今生きてる人間にとっては楽しくて良い事だから遊びまくるしかねー >>747
MoEの理論自体は2013年発表だから時系列はおかしかったけど
Denseモデルでスケーリングごり押しができなくなったからMoE化が始まった認識であってるはず
Denseモデルはパラメーターを増やすと演算量が増えて遅くなる問題もあるから べつにリソースを食い潰してるわけではないだろ
急激に需要が伸びたから不足しただけでスケーリングはできる分野だぞ >>749
gpt4の時点からmoe使ってるってさんざん言われてたろ
多エキスパート小アクティブが進んだならわかるけどさ
ウエハの買い占めだって競合に嫌がらせしてnvidia相手に値切りたいだけだよ >>751
別にChatGPTだけじゃなくAI全体的な話なんだけどな
画像/動画生成も新世代モデルはMoE化してるし
OpenAIとNVIDIAの内部交渉的なことは情報がないのでわからん
あなたの妄想? 誰のせいかと言えばトランプ関税のせいでしょう
気まぐれで関税が倍になる時代なんだから全員に先行して押さえておくインセンティブが発生してしまう
誰がやったか全く関係ない 旧世代回帰で、得をするのはインテルだな、いいね、13世代14世代なんてなかった。インテルの主力は12世代。
もうDDR3まで戻るって話もあるし、win11もいらなかったな そのうちメモリ2Gも積んでるなんてスゲーみたいになるのか 今SSDもヤバい事になってきてんだよね
サンディスクが前代未聞の1〜3年分のSSD代の前払いを要求とかなんとか
こっちも需給が崩壊しつつあるみたい だいたい悪いことは中国のせい
だからコレもそう
買い占めてるとかじゃねえの? 正月だったかパソコン工房でSSD4TBが3万円台で売ってけど買っとくべきだったな
HDDは余裕あるけどSSDはカツカツ
今度店行くときが怖いわ >>751
ウエハ買い占めは事実誤認
OpenAI批判以前の問題
自分がデマ信じ込んでるアホということを自覚したほうがいい 【本文】↓
LMSTUDIOで少し前までqwen3-vl-8b-nsfw-caption-v4.5でNSFWの質問に回答してくれていたのですが、今試すと
I'm sorry, but I can't fulfill this request.
The content you're asking for is not appropriate and violates my safety guidelines.
If you have any other questions or need assistance with something else, feel free to ask!
という回答が返ってきました。これは設定の問題でしょうか llamacppで数日前にqwen3-nextの1〜2割高速化のパッチが当たってたみたいやで
ただしGGUFも新しく作り直されたものを使う必要あり
unslothはもう新しいのだしとったけどqwen公式は古いままやな >>760
設定の問題だったりseedの問題だったり
他に何か思い当たる原因がある感じ? 今ってVRAM16GB RAM64GBで動くエロいLLMモデルやとなにがええんや?
ワイの設定のせいやと思うんやがkoboldcppでamaterasuは十数秒に1ワードで使い物にならんかったわ…
BerghofとMistral-Smallしか使ってない感あって持て余し気味や amaterasuってどんなやつや?と見たら123Bやん
IQ1Sでも26GBあるし
そらデカすぎてまともに動かんですわ SillyTavernでAratako氏のMistralPrism-24B使ってるわ
日本語力高い >>763
その構成ならqwen next 80bの規制解除版Q5_k_mがお勧め RAM64GBだと、50GBクラスのモデルはctx8192とかにしないと厳しいかもね。 DRAM活かすならMoEモデルだから確かにこのへんか
/mradermacher/Qwen3-Next-80B-A3B-Instruct-abliterated-GGUF
30Bは全然エロで出てこなくて画像解説させるためにVLの解除版使っても全然ダメだったんだけど
Next 80Bはエロ自体の学習はしてる感じなんだな
繰り返しペナルティ強めてるせいでどんどん言い換えてくるの面白い コンテキスト長を増やすとどんどん性能が落ちるのは最新モデルでも変わらないので小説やロールプレイなどの用途では128K対応モデルだろうと8192推奨みたいやで
用途に合わせて仕方なく12Kやそれ以上にしてねって感じ エロエロ特化のllmレンタルなら商売になるんでは? macのlm-studioでしか試してないけど
1. モデルをダウンロード
2. フォルダーマークでダウンロードした translategemma-27b-itを探して、右の歯車クリック
3. Loadタブのコンテキスト量はmaxにした(8192では試してない)
4. Prompotタブの上 (Jinja)のところを下に入れ替える(---は無視)
---
{{- bos_token }}
{%- for message in messages %}
{%- if message['role'] == 'system' %}
<start_of_turn>user
{{ message['content'] }}
{%- elif message['role'] == 'user' %}
{{ message['content'] }}<end_of_turn>
<start_of_turn>model
{%- elif message['role'] == 'assistant' %}
{{ message['content'] }}<end_of_turn>
{%- endif %}
{%- endfor %}
--- 「システムプロンプト」欄に
---
You are a professional English (en) to Japanese (ja) translator.
Your goal is to accurately convey the meaning and nuances of the original English text while adhering to Japanese grammar, vocabulary, and cultural sensitivities.
Produce only the Japanese translation, without any additional explanations or commentary. Please translate the following English text into Japanese:
---
lm-studio再起動、モデルを指定
あとはチャット欄に英文を入れるだけ。Jinjaのプロンプトで2行空行は必須。 今の俺にはRAM256GBは夢のまた夢だが、RAM256GB積めばGeminiと遜色のない小説文章を出力してくれる?
Geminiは0から生み出すというよりも、元の殴り書きから小説文章を生み出すのに秀でているが、これがローカルLLMでも出来たら強いなあと 今ローカルで使える最強のモデルでもgemini 2.5 flashあたり
今の最新のgemini超えるにはメモリがどうとかって話ではなくて不可能 あのgrok2さんが500GBぐらいあるからね
まあサイズが性能ではないけど >>779
Gemini2.5fでも魅力的だが、その場合は256GB? GLM4.7を想定して書いたけども
もとにしたベンチマークはおそらくbf16で動いてるやろうから1TBになるやね
Q8ならおそらくそこまで劣化ないやろうからほぼ同等の性能が512GBでおそらくいける
それより下の量子化になるとベンチマークでは数値下がってくると思うやで ノベルAIがGLM4.6だっけ?ゲミニと比べたらゴミみたいなもんだし厳しいな GLM 4.5ならともかく、4.6か4.7ならGemini2.5fは越えてるだろ >>774-776
おおきに macOS上LM Studioでちゃんと翻訳できましたわ 2.5fに並んだとき、2.5fの破壊的コスパに敗北する >>761
これ試してみたけどワイの環境で17token/sから20token/sになったわ
いやー実装してる人ら凄いなぁ koboldcpとSillyTavernでロールプレイやってるんだけど少しガード固めのモデルないかな
今はjapanese textgen moe 2x7b nsfwってやつが一番いい感じなんだけど
ずっと同じだと飽きるんでこれに似た感じのないかな
aratakoのrobinhoodとかMistralPrism-24Bとか使ってみたんだけど
すぐエロモードに入ってあんまり面白くないんだよね
10G前後の軽いやつで何かいいのないかな >>787
コスパはそうなんだろうけど、クラウドサービスである以上いつでも規制きつくなるしな。GPT5.2はそれで死滅した。
多少お金掛かってもローカルで実現できるならそれに越したことはない 何だかんだでチャッピーのエロ解禁はまだまだ伸びそうだな
Grok先生を叩くとは許せん チャッピーってエロ抜きの美しい文章を書くことしか、他のLLMに勝ってないな
基本、Geminiの方が全体的にすごい、エロならGrok、エクセルとかで便利なコパイロット コパイロットは推論の性能というより利便性の向上を目指してるだけだからな 別にそんなことは...有料版使うのが当たり前で無料版はお試しなのはどのLLMも同じことですし
むしろ無料版の比較では上のほうでは Qwen3-Thinkingは日本語で思考させると"Wait," ループに入らず割と快適になった 半年ぐらい前にQwen-235B-A22B-Instruct-2507の性能に度肝を抜かれた以来なんですが
今アツいモデルあったら教えて欲しいです
環境はVRAM24GB、DRAM96GB
LMStudio愛用のローカルLLM初心者です こういうのでいいんだよこういうので
って感じになれるポテンシャルを感じる
追加学習が簡単そうだし
https://youtu.be//2u_EfhEktgQ GLM 4.7 Flashが来た
30B-A3Bらしい glm4.7flashはqwen3-30b-a3bとgpt-oss-20bに対して全領域で明確に上回っとるのか
後発だから当たり前ではあるんやけどこのサイズじゃこの2つが今まで長い間幅利かせとったから
ようやくいい感じの次世代がでてきたという感じやな novelAIの小説補助UIがわけわからん作りしてるから評価不能なんよな
あれを使いこなせる人って作った開発者くらいじゃないのか AIにエロ画像作らせるのは簡単なのにエロ小説書かせるのが難しいのってなんでなんだろうな
エロ創作特化のモデルってなんかあったっけ >>810
Stable Diffusionがガバガバだっただけで他のモデルでエロ画像を作らせるのは難しいぞ 画像精製もLLMもデカいクリトリスだっつてんのに、すぐにチンチンにしてしまうのは一緒やで 簡単と言ってもDeepDreamからSDリリースまで7年くらいかかってるぞ
画像生成は世界中で研究・開発されるのが大きいんだろうな
LLMは言語人口の影響があるからマイナー言語は難しい
あと、小規模で高性能で日本語もできる夢のモデルを誰も開発できてないから
既成モデルのエロチューニングもあまり期待できない エロ画像モデルは言語関係無しに世界中の人が楽しめるけど
エロLLMは言語が合ってないと一切楽しめない
今は音声付きエロ動画が始まってきているからLLMみたいに言語の壁にぶつかるようになるだろうな 画像は多少破綻しててもエロけりゃ気にならんけど文字になると少々の破綻でも気になるからな 画像も1枚物ならまだ見れるけど
連続物とか一本の漫画なんて破綻するからな
文章も同じで短いチャットはできても小説を破綻なく生成させようとしたら計算量が跳ね上がるってことよ clawdbot、コレローカルLLMにローカルPCを好きに使わせるための物だよね
驚き屋はClaude Codeと接続してリモートでバイブコーディングが!とかキャラを付与できる!とか言い続けてて意味不明だったけど...
ローカルLLMを輝かせるものだというなら海外での盛り上がりも理解可能に思える
Discord経由なら英日翻訳Botを噛ませて英語で扱うことも楽にできるし、面白いことが出来そうだね 画像を認識させてその内容に合ったセリフ等を生成するにはどうしたらいいでしょうか? glmの画像モデルが今huggingfaceのトレンドに上がっとる
2週間ぐらい前に公開されてたみたいやが知らんかったな
画像内のテキスト描写に特に力入れてるみたいやな
普通の内容の描写はベンチマークでzimageに負けとるな kobold.cppをスマートアプリコントロールが阻止するようになったんだが、
オフにしたらwin11を再インストールするまでオンにならんとか脅迫めいたこと書いてあるし、どうすっぺ >>822
VLM使うか、キャプション生成してLLMに投げる ltx-2にエロ動画作成指示のプロンプトの生成支援をさせたいんだがお勧めのモデルとなるとやっぱglm系やろか?一応ローカルかnanogpt経由で4.6は動かせる。geminiには申し訳された プロンプト作成ぐらいならqwen3 nextとかGLM4.6Airでも十分じゃないか
どっちも規制緩めだし
それでも通らなければabliterated使えば良い
GLM4.6はプロンプト作成で使うにはオーバーな気がする GLM4.6Vだな
画像認識特化してるらしいし、プロンプト作成にはもってこいじゃないかな 中華AIは脱獄のガードは緩いがエロ系の画像やテキストを学習していないから用途が限られるんやないか
大型MoEモデルが主流になってからエロチューンもほとんど出ていないし
FTで何らかの突破口が必要やな 架空の男の娘人格作れてちゃんと会話が成り立つモデルある? つい最近lumimaid-magnum-v4-12bを使い始めたんだけど
エロ目的だと結構規制されるけどそんなもんですか?詳しい人がいたら教えて欲しい
イラっとしたからheretic化して使ってます k2.5かなりいいな
脱獄も簡単だしコンテキストの保持性も悪くない >>831
全く申し訳されないよ
プロンプトが悪いんじゃない? k2.5をローカルで動かすにはどれくらいのスペックが必要なんや? >>831
フロントエンド何つこてる?
lm studioとkoboldcppで使った経験あるがあれで申し訳された経験はないな。おそらくシステムプロンプトに問題があるとは思うが kimi k2はパラメータ数が1Tだからある程度妥協してQ4、KVキャッシュも含めたら768GBくらいはいる
劣化させたくないならQ8+KVキャッシュで1.5GBくらい、
フルならbf16+kvキャッシュで3TBくらいいるんとちゃう 今思うとgpt-oss-120bって公式でmxfp4で配ってて
当時であの精度出してるのは結構すごいことだったんだな
他の同等モデルたちがフルサイズでベンチマークかけられてるのに対して
gpt-ossは4bitで戦ってたわけだから
4bitってなんだかんだ言って結構劣化するもんなぁ >>833, 836
返信ありがとう
みんなシステムプロンプトで回避してる感じなのかな
フロントエンドでollama使ったときとpythonで直にAPI叩いたとき両方でたまに申し訳された感じだった
heretic化前はRefusalsが96/100だったから不通に検閲されてるモデルなんだと思うけど k2.5 unslothの1.8bit版ならVRAM24GBと256GBメモリで10 token/sで動くらしい
メモリ256GBなら個人でも持ってる人居そうやな… 1.8bitやし性能はお察しやろうな…
エロに限定すれば使い物になるのかも? 俺様スペックで
LM Studio-lumimaid-magnum-v4-12bはエロ最強だ
最近のがっかり
Mistral Small 3.2 24B Instruct 2506
zai-org/glm-4.6v-flash そろそろQwen3-VL-235Bより頭良くてエロいけるのが欲しい うへぇSillyTavernのRSS拡張機能がなんか動かない...
config.yamlからenableCorsProxyをtrueにして関数呼び出しはできているけどRSSフィードの取得に失敗する...
動かせている人居る? >>845
自己レス
拡張機能の「RSS Feeds」欄にスラッシュコマンド入れるというアホなことしてた
スレ汚しごめんね macos 26から分散コンピューティグがネイティブでサポートされたのでM4 max studioとmacbookで実行動画
Kimi-K2.5(mlx 4.2bit)が24tk/s。
WiFiで分散接続してるっていってるけどほんとかね。まぁTB5で接続すればいいんだけど
www.youtube.com/watch?v=JM41u7emnwo qwenの開発者がこんなポストをしてた
https://x.com/JustinLin610/status/2012533831837143204
少しペースを落としてより良くしていくんだってさ
qwen3-nextの後すぐに3.5出て来なかったのはこういうことだからってことなんだろうか 中共のオープンソース戦略が変わってきたのかもな
技術を誇示してアメリカを威嚇する戦略からAPI販売競争に移行しつつある
中華AI企業が上場して収益性を厳しく求められる時代にもなっている 今年上期はgemma4に期待かなぁ
いつものペースなら春ごろに出てきそうだけど
でもgoogleはgemmaにもう力入れないってニュースも流れてた気もするし
ローカル勢にはなかなか厳しい時期に入りつつある 馬鹿みたいに金かかるのにほとんど金にならないだろうからしゃーないね 後追い企業が名を上げるためにやる以外に理由が無いな もうオープンの主役はGLMとkimiとqwenになってるよね
Deepseekどこいった 研究成果は出てるみたいやけどもう会社として名前は売れたから大型モデルを手間暇かけてオープンにする気無いんやないの
出自からして金融分野で活用して稼ぐ方に注力してそう 言うて3.2で話題になったばっかやん
他社が月一ペースで出してるのがおかしいんであって qepの1bit量子化がちょっと話題になったけどそれを活用したって話を一向に聞かない
誰か活用してんのか? >>856
日本勢「ちょっと待っていま税金にたかってるから!」 そんなこと言ったら中国勢はほぼ税金でやってるようなもんなんじゃね 日本初のモデルも結構あるんだけどオープンにされてないから話題になってないのよ
まぁ正直オープンにしないのが普通よね >>860
性能が劣ってるのにクローズだとマジで無価値だからな
中国のモデルだって安くてオープンだから価値があるのであってクローズだと使う理由が無くなる >>859
分かってて言ってそうだけど
税金でやる、税金にたかるは全然違うぞ 日本でまともなLLMを一般公開してるのってサイバーくらいしかないよな
誰も弄っていない時点で性能はお察しだが 税金でLLM開発して非公開とかジャップ丸出しで行政訴訟レベル 公開したら「安心の国産AI」に金を払う法人顧客を騙せなくなるかんね 一応楽天の700Bが公開予定でしょ。
予定だけど。 富岳で13Bのしょぼいオープンモデル作ってやった感出したりしてたし そもそも公開する意味がないから日本じゃどこもめったに公開しなかったし
しゃーないから国で国産LLM推進することになったんでしょ
正直今まで米中で公開されまくってきたのが異常だった
ぶっちゃけ米露の宇宙開発に近かったと思うわ
まぁ、性能はアメリカのクローズモデルがトップに君臨してて
それに対して中国はクローズで出しても勝てないからオープンで出して
「オープンでトップ」という称号を得るのが中国のどの会社も目的やったんやろうけど 国策でやる分には先行モデルから少しでもユーザーを削れれば良いしな 公開する意味がない=公開する価値が無い、でしょ
国内でバカを騙しててください LMStudioアップデートしたら挙動おかしくなった
UI上でチャット消せないし、新しいチャット始められないし
いちいちLMStudioを落とすしかない
同じ症状の人いる? 同じ症状かはわからないけど挙動おかしかったからLM-Studio-0.3.36-1に戻した 下手に性能高いの出すと訴えられかねんから中国製ってことにしてたりして LM Studio
モデル選択やシステムプロンプト周りのレイアウトが変わって
少し手間取ってるが挙動は問題なし。 ボイスAI初心者なんやがエロ目的でセリフ読み上げするタイプなら何がいい? >>876
SillyTavernで使うなら
Style-bert-vits2
GPT-so-vits
重いけど
llasa
T5gemma
という選択肢もある
最近出たのだとQwen-TTS StepFun Flash 3.5が196B-A11Bで良さそうやけど試した奴おる?
Benchmaxingだねって反応は英語で見かけたんやけど
https://i.imgur.com/pRMz5rO.jpeg >>878
試したけどGLMやKimiに勝ってるとは思えない Ubuntuの方がAI向きだと聞いて、少し前にStable Diffussionセットアップしたけど24時間掛かって恐ろしく苦労した
LLMも気になってるけど、5090+Ubuntu 24.04.3LTSで簡単にセットアップできる?
今後も色々苦労しそうならWindowsOSを買ってシステムを作り直そうか悩んでる Windowsは購入してなくてもセットアップできる
ライセンス確認が飛んでくるまで試してそれから考えればいいのでは BIOS設定とかもLinux用にしてるし、そもそもデュアルブートはトラブルに成ると効くし、今の環境を壊すのも嫌で悩んでるのもある
WinからUbuntuに移行した人とかどんな感じか気になる Ubuntuは簡単だと思うけど
難しいかどうかは使う人の知識次第だよね >>877
サンクス
Qwen3-TTSって追加でnsfw用モデルとか用意する必要ある? >>885
簡単ならセットアップ手順教えてあげなよ >>880
ubuntu24はpythonが3.12なのでちょっと苦労するくらいかな
StableDiffusionがセットアップできたならその知識でLLMいけるよ
GUIならLM Studioをまず使ってみよう
感触つかんだらollamaとかcli系とか
WSL2はWindowsの人の最後の手段だからやめとき Windows環境からlinux追加はほぼ大丈夫なんだけど
linux環境からWinだとブートを遠慮なく踏み潰されるからgrub入れ直しで泣く
デュアルブートはドライブを物理的に分ければトラブルは出づらい LinuxのことはLLMが得意だからLLMに聞くといい
昔とは比較にならないほど捗る
無難なディストロはUbuntu UbuntuだろうがWSL2だろうが、Dockerコンテナ使えばStableDiffusionでもLLMでも簡単にセットアップできるよ wslだと使えるメモリが上限が減るんじゃないの?
easyXXXに頼るんじゃなければ最初からubuntuの方が良さそうな気が winのpythonじゃだめなんか
unixのコマンドも動かしたいってなるとwslなんだろけど 今はほとんどの場合、winのpytonでも問題ないよな llm用途ならwindowsでもほぼ問題ないな。
画像やら音声関連だと周辺ライブラリで問題出ることは若干ある。
windowsで困りがちなのはむしろ最新をnightlyとかからビルドしようとかそういう時に開発ライブラリなんかで困る時なんかや >>887
curl -fsSL https://ollama.com/install.sh | sh
必要なツールが入ってればollamaで良ければこれで優勝 ……その必要なツールとやらを全部集めて正しく入れるのが難しいんじゃねえかな cudaに関してはwindowsが楽なのよな
windowsではcuda周りでエラーが起きた記憶がない
だからwindowsのドライバ(cuda)を直接見れてwinバイナリも動くlinux環境という
wslがllmでは実は結構いいって言う
まぁwslは何か変な状況に陥った時のトラブルシューティングが面倒だけど この数年でwindowsバッチとpythonとgradioに詳しくなったわ vram48gbの改造4090が手元にあるんだけど、ちょうどこのサイズ感で収まるエロチャできるLLMってありますかね? 48GBって帯に短し感あるよな
100B以上だとQ4じゃ入り切らないしベストサイズの70Bクラスはほとんどない
おとなしく24BのエロチューンをQ8で使うのがええよ Ubuntuのpython、バージョン新しいな、3.10に入れ替えたほうが良いんやろか?
とりあえず、あまり何も考えず気軽にPCを使いたい
あととりあえずStable DiffussionやKohyaのセットアップだけど
Geminiに聞かず、Stability Matrixみたいなソフトも使わず
公式サイトの手順でセットアップして、エラー出たらGeminiに聞くというのが一番効率良さそう
一番やっちゃダメなのがはじめからGeminiに聞く事
これしたらバージョンのおかしなものばかり進められてすげー手こずった
諦めて公式情報でやったらあっさりセットアップできて拍子抜けした
色々セットアップ中だけど、Windowsと同じくらい簡単でソフトも充実したとか聞いたけどまだまだなのかね?
AIの為というのもあるけど、Windowsに嫌気がしてるというのもある
広告まみれなOSになってるし、アップデートで内部の設定が変わって自作スクリプトがご動作したり、UIが変わって戸惑ったり
Windowsに振り回されるのが嫌になってUbuntuにチャレンジしてるってのもある
WinXPのUIが忘れられず、X11+Cinammon(LinuxMintの外観だけ?)にして色々触ってる所
デュアルブートだけど、5090ではセキュアブートOFFの方がトラブルが出にくいらいらしくWindowsとUbuntuの併用は面倒そう
色々アドバイス書いてくれた人ありがとう!!
システムのバックアップ取りながら色々試してみるわ venv ubuntsu24 あとからpython3.10 でググるなりAIに聞くのだ
元の3.12はシステムで使ってるから消してはならぬ SDインストールするのにニンゲンがver確認して...みたいな話がずっと続くのがlinuxなので全面移行はだいぶ人を選ぶよ
wsl方式はめんどくさいところはスルー出来るのが楽 mint使ってからゲーム用にcachyos移行したけどAI含めてなんも困ってない
windowsのが楽っていうのは学習資産があるからで
完全新規はコンパネと設定に分散してめちゃくちゃになってるwindowsなんて意味不明だろうな
テレメトリ切ろうと思ったらprivacy.sexyみたいなの使うしかないし 両方あればめんどくさいところを回避できるって話だよ Qwen3-VL-235Bのhereticが最近上がってたから試した
mmprojは共通だけどNSFWの理解は断然こっちのほうがいいな レス数が900を超えています。1000を超えると表示できなくなるよ。