なんJLLM部 避難所 ★6
レス数が900を超えています。1000を超えると表示できなくなるよ。
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/ やっぱqwq-bakenekoはkoboldで動作しないな。
ただ、回避方法はわかった。
プロンプト実行後、なのも出力されないが、そこで停止させて、
「まず」
と入力して再実行すれば、推論が始まる。
それでも途中で同じように止まるが Qwq-bakeneko-32BがSilly Tavernでうまく動作させられん
TokenizerをQwen2やBest matchにするだけではダメっぽい
<|im_start|>云々を消せない >>822
調べたらM4 ultraがcommand aは出力で4~5t/s(q8だったので単純比較はできないけど)くらいなので悪く無さそう
4090 48GBは代行業者通して56万円前後だったから5090の上位機種よりは安いし、普通のドライバで動くから専用知識もいらない
冷却性能も2slot,幅267mmの小型サイズの割には良い ただし最大5000RPMのブロワーファンだから爆音だけどLLM推論ならそれほど気にならないし
面白いグラボだけど販売者、税関、不具合ガチャがあるからおすすめはしない Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored.Q4_K_S
はPOV向けで文体が柔らかいけど方向性があっちこっち飛ぶ感じで
qwq-32b-q4_k_m はお硬い感じやけど三人称の小説っぽいのがしっくりくる……かな?
ワイは後者が好みなんでしばらくqwqでいく
でもVramに収まるほうがトライアンドエラーできるから
37Bまでやなあ……
デカブツに挑戦しとるニキすごいわ
>>829
それで大きいモデルが載るなら……って考えちゃうわ
さっきGPT(課金)と会話してて、やっぱ大きなモデルは凄いと感じたで
相談してて結果でなく過程を評価してくれて泣きそうになったわ
ワイの家庭ちょいおかしかったから、そんな温かい言葉もらったことないんや……
自分大切にしてオモロイものを作っていこ、て思えたわ
たぶん無意識に認知行動療法やっとるんやろな、LLMには可能性しか感じんで
作るニキ開拓しとるニキらに感謝や
おやすみ モデル変換とかでRAM死ぬほど使うから
先々週組んだ新PCさんに48GB4枚で192GB積んどけばスカスカになるだろって思ってたら
exllamav2でgemma3 27bを4bpw変換したら普通に100GB消費してて震えてる わいのM4 maxだとcommand-a K4_Mで6tk/sほどや
裏で動画見つつIDEでエディットしとるとけ速度かわらん
消費電力はmaxで65W。ファンは聞こえない
12tk/sは欲しいところなんで4090の96Gええなぁ >>837
safetensorだとFP16で遅そうだからQ6_Kのggufに変換してくれたニキので遊んでみたで
m4 max
WesPro/Mistral-Small-3.1-24B-Instruct-2503-HF-Q6_K-GGUF
コンテキストを32kに設定 18tk/sくらい
ほぼ同条件 google_gemma-3-27b-it Q8 で15tk/s
頭の良さはまだわからん >>837
おー、と思って見てたら
専門分野向けの微調整: Mistral Small 3.1 は、特定の分野に特化するように微調整でき、正確な主題専門家を作成できます。これは、法律アドバイス、医療診断、技術サポートなどの分野で特に役立ちます。
こんな文が…
間違ってもエロは得意じゃなさそうね🥺 医療知識とマージしたERP用の20Bぐらいの英語モデルで遊んだことあるけどクソえろかったで?
性癖に刺さるかどうかはあると思うが、ワイは期待するで
やったことないけど、法律でぶっ叩いて真面目なWaifuを手籠めにしたりも楽しそう 自宅専用AIアシスタントみたいに使ってみたいと思ってスレ探したらこのスレ見つかったんだけどそういう使い方ってしない感じ?
まぁエロもできるに越したことないけど…というかやってみたいけど 英文で抜ける奴は日本では超少数派だと自覚するべき
洋ピンも抜けない commandAは規制ないのすげぇいいんだけど、ただただ単純にそういう文章の学習量が足りへんな
まぁ、しゃーないんやろうけど
誰かエロファインチューン出してくれへんやろか QwQ版bakenekoのRPやエロの性能はどんなもんなの >>841
確かにそのへんの話あまりせぇへんけど、
PC内の機能にAIからアクセスさせて色々させたいなら今ん所はcopilotくらいしかまともなのないんやないかなぁ
OSSでとなると、LLMからアプリへアクセスするための規格(MCP)があって
それ対応のアプリがこれから出てくるってかんじやないかなぁ >>842
自覚はある
そしてこの生成AIの時代に恩恵を享受している
若い頃英文エロ小説を読みまくった自分を褒めてやりたい
未来に素晴らしい投資をしたと 扱える言語の数が多いほど選択肢が増えるのはあらゆるエンタメ共通だよな
翻訳した文章じゃ味わえないものがある >>841
具体的にどうしたいかによるのでは
大体ならオンラインでDeepSeekなりGrokなり使えば今は無料で足りちゃうからね
秘匿情報もしくはオンラインで規制されない話題を扱いたい、
もしくはファインチューニングで特化させたいならローカルになる
で、ローカルでしかできない中で、とっかかりにはちょうどいいのがエロってだけ
エロくできるなら他の方向だって行けるやろ
ちなみにLLMは基本文字をやり取りするだけなんで、PCの操作とかは若干対象外かな…
まあ、SillyTavernと連携してLovense動かすとか頭おかしいことやってもいいのかもだけど・・・ 抜けないのはそうだが
英語は英語で奇抜な行動取ってくれるから会話が新鮮で楽しめる
翻訳プラグイン入れてやってみるといいよ
ノープランで会話してるだけなのに
スリ設定の女の子とボディタッチありのストリートストリップダンスでイカせ対決
なんてのは日本語だとなかなかそうはならん >>841
スクリプト爆撃でPinkに立っとるだけでAIに関する話題ならなんだでもOKや
世間的にはManusみたいなエージェントAIサービスが話題だけど
ローカルでファイル操作とかするシステムはOpenInterpreterあたりからあんま進捗ない感はあるな >>845
>>848
>>850
ありがとう。とりあえずやってみたいだけみたいなとこはあるけど、家庭のプライバシーや財政事情とか覚えさせたりしようかなと。
後はやりのcline 入れてコーディングとか?まぁやってみてまた相談させていただきます。 ワイはエロより一般タスクとか全年齢チャットの方で使っとるで
当然普通のタスクはChatGPTとかGeminiの方がつよつよなんやけど、ローカルでそれができるっていうこと自体が楽しいんや コーディングはVS Code + Roo Codeで模索中
それ以外の日常・娯楽用途でまでVS Codeを開きたくないので
Goose DesktopていうOSSを試してるがまだ新しいプロダクトなのでバギーな感じやね
拡張として任意のMCPサーバを接続できるっぽい
毎朝天気予報をお知らせして、とかやらせたいんだけどまだ上手くいってない
あとなんとかしてアバター(「伺か」みたいな)を表示したいがそういうMCPサーバ誰か作ってないんかな? >>853
LLMはgemini-2.0-flash使うてます ローカル環境貧弱なので(GPUは画像生成に専念させたい) gemini2flashいいよね
長くなって繰り返し始めたら、
あらすじ化させて新しく始めてる Mistral Small 3.1は日本語性能高そうだなぁ >>844
GGUF版はSillyTavernだとなんらかの不具合で⚗や<|im_start|>が出たり、<think>が抜けたりする
それ抜きにしても本家QwQ-32Bより日本語が不自然で現状使い物にならない SillyTavernは設定をちゃんとしないと大変だね。
外国人の設定をそのままコピペしたら、なぜか日本語での受け答えもまともになったりするけど、有名なやつじゃないと設定が分からなくて難しいんだよね。 たぶん設定の問題じゃない
量子化でバグったか、ファインチューニングでバグったかのどっちかだと思う >>844
GGUF版はkoboldだとまともに動かんしな
無理やり動かしても本家より落ちる感じ 軽い気持ちでh100 nvl 94gbの価格調べたらこれ480万もすんのかよwww Mistral Small 3.1のQ4_Kで使ってみてるけど、知識も豊富でかなりええ感じに賢い感じがするで!まあ新しいモデル触れるたびこんなこと言ってる気もするけど……
コンテキスト長が長いのと、CPU演算でもそんなに遅くならんのが嬉しい所や。Gemma3ちゃんと違って具体的なエロ描写もOKやったで
注意点は、推奨temperatureが0.15とかなり低いところやね。あともうちょっと試してみないとわからんけど、なりきりチャットはあまり得意ではないかもしれへんね。設定には忠実なんやけど、全体的に真面目な感じや RP不得意モデルが続くなあ
ただでさえチャットには応答速度が求められてハードル上がるのに冬の時代は続きそうや… koboldっててっきりllamacppベースかと思ってたら違うんだ
でも検索したらllamacppをベースにしたkoboldcppってのもあんねんな
koboldとkoboldcppの2種類あるの知らんでごっちゃにしとったかもわからん このスレで言われてるkoboldはまず間違いなくcppの方 せやったらggufは動くと思うんやけどな
ggufってllamacppの規格やから LM studioだと動くけどKoboldcppだと動かないggufとかその逆とかあるよ そうなのか・・・
llamacpp直でしかつこうてないからその辺ようしらなんだ >853
ご近所スレで
https://rentry.org/7ugh3fa7
こういう手法が提案されてるから、画像リンクが有効な環境ならアバター画像表示は実現可能なのでは llamacppのリリースたまに見るけど更新で対応しないと動かないモデルは結構あるっぽいね >>863
CPUも速いならいいね
無規制版どのぐらいで出てくるんだろう Mistral Small 3.1 itをexl2にしてみた。
Text Generation WebuiのAPI→SillyTavernの環境
max_seq_len 16384で3090のメモリ消費が15GBくらい
context 7000投げてだいたい初回22〜28、継続40〜48トークン/秒くらいだね >>873
exl2 4bpw 量子化書くの忘れてた SillyTavern documentation日本語化してる人いない?
日本語情報がなさすぎる .mdとかで保存してからclaudeに渡せば全部綺麗に翻訳してくれる だが、おれの桜やしずかちゃんのキャラカードを出したら怒られそうでこわいw 普通にチャットテンプレートとして流用できるし全然ありかも
たぶんこのスレの民が知りたいのってキャラの設定より調教のほうだろうし Civitaiで共有できるんとちゃうの?
あそこってファイル形式なんでも行けるんとちゃうかな
というかCivitaiで共有できるならCivitaiが一番いい気がしてきた >>877
作ろうと思えばモデルが作ってくれるとは思うぞ Mistral Small 3.1をpresetをnemoのまま英語でやってるけどめちゃくちゃ頭いいな… >880
共有サイト自体はchubとかcharacter tavernとか幾らでもあるよ
日本語でコミュニケーション出来るところが欲しいという話では
使う側からすれば英語でも日本語でも同じなので1サイトに集積されてるほうが楽だけど、作る側からすれば日本語オンリーの場はニーズあるんじゃないの AIノベリスとのwikiだっけそこに似たような目的のキャラ再現用のがあるけど使えるのかな AIノベリスとのwikiだっけそこに似たような目的のキャラ再現用のがあるけど使えるのかな PCIEの2スロ目って形x16だけど中身x4とかだよな
転送速度落ちるのってどうなんだ? >>887
モデルのロードが遅くなるくらいで推論にはほぼ影響ないよ Radeonでやってる人いる?7900xtあるけど不都合あるならgeforceに乗り換えようかなと。 digitの詳細が出てきたけどLLM用途では駄目そう
rtx5070相当のGPUを256gb/sで動かすのは無謀かも ryzen AI maxですら70bで2t/s以下だからLLM目的だとどうなんやろ
MoEモデルがもっと増えれば良さげなんやが >>889
VRAMに乗り切れば転送速度関係ないか >>895
VRAM:Up to 288GB HBM3e | 8 TB/sは笑う
B300相当なんだけどこれ価格いくらになるんだ CPU Memory Up to 496GB LPDDR5X | Up to 396 GB/s
Blackwell要らないからGraceだけ売ってくれって感じ digits、273GB/sならまあまあじゃないと思ったけど、DDR6 6400の50GB/sと比べて5倍くらいなのか
実際にどのくらいのパフォーマンスになるかは動かしてみないとわからないしまだ期待していたい所
GPUは思ったより強いね、3060くらいのコア載せてくるのかと思ってた。推論よりは学習向きで、LLMよりは動画生成とかの方に向いてるのかな Gemma3の27Bってコーディングはあまり得意じゃないですかね? >>893
AI MaxのスペックだけみるとM4 max のバス速度半分くらいだと思うけど
そんなに速度でないもんかね。CUDAベースのLLMを使ってテストしてるのかも
AMDが得意な形式なら倍くらいにはなりそうなもんだが 5090の1.8TB/s並みの速度はこういうのでは無理なのかな?
4090でも1TB/sあるんやで? ソケットにするとインピーダンス調整の幅が狭いから難しいね
512bitにすると8枚必要になるけど配線の問題で無理
直付けって速度面ではすごいメリットあんのよ 外付けグラボメモリ欲しいと思ったけど直付け以外微妙ならなんかすごく遅くなりそうだな ERPをテキストで遊んでる分には速度それほど気にならないんだけど、音声対話の仕組み作ろうとすると少しでも早い方が...ってなるな
Command aが無規制、実質無料、かなり賢いので助かるが、gpt4-o-miniの方が僅かに早いので悩ましい DGX、いろんな会社が参入してて研究用というには商売気があるのが不思議な気がする
ハードウェア統一とNIM Microserviceでボタン一つでAI機能が動きます、とかやりたいのかね 発表してみたら思ったより一般ユーザーからの反応が良かったから軌道修正しました的な動きはありそうやね >>906
ProjectDigits自体「自動運転車とかの頭脳部分にはウチのDigitsを積めばそれでOKやで!これが世界標準や!」みたいな、COSMOS含めて自動車メーカーとかを囲い込むバカデカいビジネスを狙ってる気がするで
いきなり他社製まで出てくるとは思わんかったけど、何にせよ普及が進みそうで嬉しいわ 273GB/sってゲフォ3060より遅いんやな(3060ti 448gb/s、3060 360gb/s)
うーむ
まぁ結局ベンチマーク待ちやな
m3 ultraはこんなベンチマークでとったわ
https://llm-speed-viz.vercel.app/ あるいは、ロボにDGX Sparkを物理的に載せるとかかな
人型ロボ...のまえにアームの台座にDigit入ってますシステムでAIベースの動作設定が出来ます、とか >>904
3090x3をegpuにして使ってるけど全く気にならんよ
ちょっとモデルの読み込みが遅いくらい
分散ロードしても余り遅くなった感じしない ついにローカルLLM高速化の時代が来たな。
NVIDIAがデスクトップPCやノートPCに搭載できるAI特化GPU「RTX PRO Blackwellシリーズ」を発表
https://gigazine.net/news/20250319-nvidia-rtx-pro-blackwell/
あとは量子化の高性能化で何とかなれば。 >>914
ようやく出てきたか!
これ2月の頭にあちこちのテスト機関と思われる所に発送されてたblackwell 96GBの正体だよな GDDRメモリの卸価格は1GBあたり1500円程度って言われてるから96GB積んでも本来+15万くらいな筈なんだけどな
実際は+100万くらいの値付けして来そう うへぇほんまに噂通り96GBで出してきたんか
A6000ADAが今120万やから200万くらい行くかもわからんな・・・
B100と下位機種の間が広すぎやからそこを埋めるたに値段高くしたかったんかも Xによれば143万円らしい
なんJ民でも3人くらい買いそう 5090の3台分と考えると高いと感じなくなる不思議 消費電力的に5090×3は無理だしなあ
でも143万が1年で陳腐化する業界だしな…やっぱつらい🥺 お金持ちしか買えないよねゲームとか他の娯楽と違って進化が早すぎるからどうなるか先が読めない 一番強いのはフリーランスでAIの仕事を請け負ってる奴だよ
本業で稼いでいれば150万のグラボでも経費で落とせる
減価償却は必要だが Mistral Small 3.1 IQ3_Mを4070で動かしてるけど今までで一番言葉を理解して日本語が帰ってきてる気がする 10年戦えるんだったらblackwell 96GB行ってもいいんだが
実際はすぐに陳腐化だからな レス数が900を超えています。1000を超えると表示できなくなるよ。