なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ ゲーミングPCの強めのが既にありますって人しか気軽に出来ないから、割合で言えば商用LLMのひとのほうがずっと多いのでは ローカルでやる理由
・技術的興味
・一般AIの度重なる仕様変更にウンザリしている
・エロ文章をサーバーに送信したくない極度のシャイボーイ
逆にこういう理由が無いなら質も速さも安さも手軽さもローカルを選ぶ理由はないと思う そもそも日本語性能に焦点を当てたLLMを開発できる会社って日本だとサイバーエージェントぐらいしかないんだよなぁ…
合成データにしろthinking用データセットを用意して日本語ファインチューニングしてくれるだけでも感謝するしかない >>500
PFNかあるやん
サイバーエージェントと違ってゼロから開発してるぞ 基礎モデル作ってるのはありがたいけど現状三周遅れくらいしてるから
素直に海外の強いモデルにFTしたのを出してくれる方が一ユーザーとしてはありがたい ゼロから作られてもどうせショボいんだから金と人員の無駄なんだよな
こういうオープンソースをパクって行ってほしい ローカルは完全無規制がザラだから、プロンプトエンジニアリングの沼を避けて通れるのは強みだと思うわ
文章の質は限度があるけどめんどくさくないのがいい
ローカルでも規制あるやつはまぁうん karakuriとかsakana aiとか結果出してる企業がいる中でサイバーエージェントじゃね… まあやってないよりはマシかと
necやNTTみたいなゴミを作ってクローズにしてるよりは ちゃんと公開してくれるだけありがたいわな
DeepSeek-R1-Distill-Qwen-14B/32Bをベースに日本語データで追加学習を行ったLLMを公開いたしました。今後もモデル公開や産学連携を通じて国内の自然言語処理技術の発展に貢献してまいります。
https://x.com/CyberAgent_PR/status/1883783524836413468? Calm3あの時期のモデルの中じゃかなり日本語良かった記憶があるが… ローカル最近触り始めたんやけどキャラAとBの口調を覚えさせて二人に会話させるのって難しいんか?
何度教えても口調が入れ替わったりして完璧に会話してくれへん >>512
全然いけるんでモデルいいの使った方がいい
モデルゲーっす >>512
チャットならsillytavernとかのチャット専用に作られたやつ使うといいよ
小説なら指示の書き方工夫するとかだけどモデル自体がバカなら無理だったりもする R1 qwen 32b jpの量子化版も作ってくれてる人が居るね
試してみよう
>512
silly tavernで2キャラ作って会話させればいける...とか? サイバーエージェントまじでいいわ
日本企業でこの形で公開してくれるとこそうない
お給料発生してるわけで、元とろうとするのが普通やし >>513-515
色々サンガツやsilly tavernってのも調べてみるで
あとモデルはcalm3-22b-RP-v2-Q5_K_M.ggufっていうの使っとるんやけど駄目やったんかな DeepSeekがアメリカ中国でアプリストア1位!とか見たから確認したら71位だったわ 32b jp、いいっすね
Silly Tavern Staging + pixibot weep prompt v4
+ noass extension
の構成でthinkが日本語ですらすら読めるから初心者GMが語ってくれてる感ある やっぱQwenの性格めっちゃ出てる気がする
マグナムさんの方が使いやすい >>519
ワイの知らんワードずらずら言うやん
LLMそこそこ触ってる気してたけど浅かったわ
pixibot……noass……なんて? えーと
Silly Tavern Staging
最新機能のテスト版。β版とかnightly版みたいなもん
Pixibot weep Prompt
https://pixibots.neocities.org/prompts/weep
コレ。DeepSeek R1 ReasonerをSilly Tavernで使うときのプリセットで、一貫性を保つように調整してあるみたい。
noass extension
Weep promptと併用が求められているSTの拡張機能。R1 ReasonerはSystemプロンプトの扱いが特殊なので全てのAPI応答をUserプロンプトとして送信するように強制変更する。 >>517
calm3ならモデルがバカすぎるってことはないと思う
sillytavernでイチコロやね >>522
サンガツ
R1はだいぶ特殊なんやね
SillyTavernでうまく動かんと思ってたけど色々やる必要あるのか >>523
サンガツや!sillytavernっての使ってみるで! Deepseek 日本語追加版って3090で動くかな?
Silly Tavernってネット配信でチャットからの入力には対応してないよね? 初心者なんだけどLightChatAssistantの
iQ4XS と Q4KM ってどういう違いがあるの? >526
出来る
VRAMが24GBあれば32bのQ4_K_L版(ファイルサイズ20GBくらい)がVRAMフルロード出来てそこそこ速度でるかもしれない
4080 16GB環境だとQ4_K_Lは2.2token/s程度だから動作速度がわかると今後の参考になるかも
面倒なのはパスしてとりあえず動かしたいって場合は
>417 >470を参考にして、
ollama run hf.co/bluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf:Q4_K_M
とやるだけでDLして実行してお話をはじめられる >528
生のモデルを量子化して小さくするときの手法の違い
KがついてるのはK quantでベーシックな手法。分かんなかったらコレ
iがついてるのはimatrixで、lora的にサンプルを食わせながら量子化するらしい
何を食わせたのかが大事になるけど、必ずしも書いてなかったりドキュメントの隅にあったりする
ChatGPTくんやPerplexくんのほうが詳しいからそっちに聞くのがオススメ deepseekなら7900xtxでも実用的に使えるのか? deepseekはh100を5万台持ってるんだっけ?
じゃあまたnvdaの株価上がる余地があるってことか >529
サンガツ!ollamaは入れてる!
deepseek r1 2bのQ4_K_L版って出てる?探したけどollama版のQ4 KMしか見つからんかった。。。 MoEモデルの特徴として大規模な通信速度が無くてもパフォーマンスが出るっていうのがある
NVLinkみたいな高速な通信が必要なくなりそう >>534
つまりゲーム向けのGPUを並列化するだけで良いってことか 何らかの方法でGPU直通の超高速通信ができないとGPU間のメモリやり取りで亀が寝てるような速度になる。 >>536
llamaとかだとそうなるんたけどな
MoEモデルのDeepSeekだと高速通信いらんみたいだ >533
すまん、32b jpはQ4_K_Mだけだね
abliterated 32bのQ4_K_Lをメインにしてるからごっちゃになっしまった MoEの場合はモデルサイズの割にアクティブパラメータが少ないから(deepseek V3やR1の場合671Bのパラ数に対して37Bを選択)
動かすためだけならGPUレス構成の方がコスパ良いとは聞く
reddit見てるとzen4 32コア epycとddr5 384GBでQ4が2±0.5 t/sだからかなり微妙だけど >>538
サンガツ!とりあえず試したけどやっぱ実用にならない遅さだったw
今AIチャットキャラでネット接続対応してるのを探してて、deepseek APIが安いから使いたいけど、AI tuber Kitっての見つけたけどDeepseekに対応してないんだよね
皆、なんかいい知らないですか? DeepSeekの32Bってllama70Bより高性能なの? やってみた
ollamaは問題ない速度だったけど
ST挟むと16GBじゃかなり遅いね
諦めようかと思ったら表示されたわ
あと何故か最後のあたりに同じ文が繰り返される
オススメの書式設定ある? Slliy Tavern自体をそんなに知らないので上の方で書いたPixibots Weep V4 prompt (+noass)を信頼してる >>530
gpt君に聞いたらKの方は
>例えば、32ビット浮動小数点から8ビット整数への変換
って言ってたから機械疎い俺でも理解できた、メモリ節約の方法なのね
Iの方はなんか演算式自体を弄って効率化を図る感じで元の性質が失われるリスクがKよりは高いって感じか 信頼してる=任せっきり状態なのでchatgptでオナニースレとかのほうが詳しい人と遭遇し易いかも
>540
出たばかりだし特殊だしで正式対応してるものは少ないのでは
OpenAI互換設定で接続すれば動くは動くはず
個人的にはSteamのDigital Mateがすき
開発中華でユーザーも中華圏のひとが多いから 勢いづいてほしいところ SillyTavernのキャラクターに設定を詰め込みまくってトークン数を4000使ったとする
自分のペルソナにも2000使ってて
モデルのContextを8192で設定してた場合
やり取りの履歴や世界観の記憶は残りの2192トークンしか使えないって認識であってますか?
これさらにLorebookで世界観の設定に2000トークン使ってたらなんにも残らないのでは……?
最近ローカルでSillyTavernやりはじめたけどContextとResponseのバランスがぜんぜん掴めん
長く会話続けたいなら不要な設定は削ぎ落としたほうがいいのか Silly TavernにDeepSeek APIでいけたけど、ネット接続って出来ないんだね できる方法ある?
今日の気温聞いたら27℃です!とか言われたw >>546
lorebookは関連性のある話題が出た時だけ読み込む設定があるからそれ使えばもうちょい増える
長く会話続けたいなら不要な設定を削るしかない
減らしきれない場合は流れを要約して挿入してくれる拡張機能を使ったり、設定をトークン数的に有利な英語で記述したりするのも手 キャラ設定とペルソナ合わせて1000token以下にしてるわ >>545
今ちょっと見てたけどDigital MateはDeepSeek API経由とかで話できるのかな?Youtubeではoobaboogaとかに繋げてる人はいた
自分はアバターにネット情報も参照して欲しいんだよね… ジェミニにSillyTavernは日本語化出来ますかって聞いたら出来ませんって返ってきたけど
普通に設定からできて草ジェミカスさぁ… Digital Mate買ったけど声がwindows TTSのおばさん声しか出せない…
VITS APIダウンロードしたけど声の選び方分からない。。。むずいなこれ
>>545 R1の32BQ4で健全もやってみたけど
同じ様な言葉を繰り返すだけで
会話にならず…
やり方がまずいのか
ロールプレイ向きではないのか >550
API経由で会話させるだけなら、
deepseekに$3課金してAPI有効化
ChatGPT APIプラグイン導入
設定でAPI Base URLをdeepseek側が指定してるURLに、APIをDeepseekのAPIKeyに
test押す、update listボタン押す、モデルでchatかreasonerを選択、 GPT Temperatureで0.5〜0.7を指定
でとりあえず動くはず
今現在DSのAPIサービスが死んでるので細部の確認は出来てない
ウェブ検索を参照させるのはどうやるか分からんな
音声はSteam workshopからTTSカテゴリのFast-vitsいれてvits_modeカテゴリのアイテムを片端からクリックするのが簡単 >>554
アプリ再起動してollamaで動くようにしたんだけど、2枚目画像の再生ボタン押してもしゃべってくれない。。。
1枚目画像でダウンロードした音声モデルってどこで設定すればいいの?
s://i.imgur.com/z7IWMss.png
s://i.imgur.com/RvpEQ0Y.png LM Studioでcyberagentの日本語deepseek R1を使っているのですが
思考プロセス?thinking...って無効にできたりしますか? >>556
無効っていうのはどういうこと?
表示しないだけならできるけど 空の〈think〉〈/think〉を先に与えて続きから推論させれば飛ばせる事が多い >>555
音声朗読エンジンのところでfast-vitsを選択する >>554
自己解決 Fast Vitsにしたらやっと声出た!
これ自分で作った音声モデルも使えそうね
ダンス機能メチャ気に入ったw >>559
最後にここだけ教えて
キャラクター初期設定を日本語訳して突っ込んで、アプリ再起動しても2枚目みたいに英語から始まって、呪文みたいにアルファベット復唱し始めるんだけど、この英語から始まるのをなくすのってどうやればいいの?
s://i.imgur.com/h2c3WSz.png
s://i.imgur.com/HR9FWbC.png そういうキャラの再現度はやっぱりローカルよりオンラインモデルが強いな >562
正式対応プラグインを待つ。
あるいはAPIリクエストの送受信を捕まえて内容を修正する。ChatGPTくんに
API PROXY サーバープログラムを書いて。ユーザーからAPIリクエストを受けたらlocalhost:5001に転送して、APIレスポンスを受けたら正規表現を使って<think>タグに挟まれた部分を削除した内容をユーザーに返して
って言うとだいたい動くものを作ってくれるのでlocalhost:5001の部分を目標のURLにする AItuber kitは最新版はdeepseekに対応してるよ。
deepseekとcohereはエロいの多少平気だから、
エロaituberを作って時々遊んでる >> 566追記
VRMはすっぽんぽんの嫁をVroid studioで作った >>532
たったの5万台で出来ることが分かって暴落してるんや deepseekの推論はファーウェイのAscend 910Cを使ってるって話だけど
それが本当ならdeepseekに関してはもう完全にnvidiaの関与ゼロじゃない? 4090で動く(140gbあるのでメインメモリも128以上必要) 24GBに収まる超絶量子化かと思ったらなにそれぇ😨 >>565
あっ、言い忘れてたんだけどDeepSeekが落ちてたのでollamaにdeepseek落としてやったんだけど、ollamaだからなのかな?
でももうちょっとdeepseek対応まで様子見してみる!
いいの教えてくれてサンガツ! 96GBメモリが4万円くらいだから5090と合わせて50万で行ける可能性ある >>529
完全に横からやがサンガツ
32bいじってみたくてもがいとったんや
https://i.imgur.com/qPWG7wh.jpeg
https://i.imgur.com/YPkALeK.jpeg
vram16メインメモリ64でも動いてくれた
えちえちな文章書かせるの楽しみや🥰 いけんじゃーんってダウンロードしたら、メインメモリ100Gちょっとしかなかったんで動かせなかったわ
残念 Gigabyte MZ73-LM0(EPYC 2スロのMB)、EPYC 9115 x2, DDR5 768GBのCPU推論構成でフルR1動かして6-8token/s出るらしい。
100万円コースみたいだけど。 >>580
メモリさえあればCPUでその速度出せるのか
GPU買うよりコスパいいな EPYC 9115でその速度出せるのか
Threadripperの上のグレードならもっと速そうだな ollamaで試したけどさすがに時間かかるねこれは
テスト こんにちは と言っただけでとんでもない長文を吐きながら長考してくれている 残念なことに長考した内容に引っ張られて『テストメッセージへの適切な対応例:』のリストを出してきて
求めていた挨拶『こんにちは』を返してくれなかった ほんまCPU推論で速度出るようなってほしいわ
調子に乗るなよ革ジャン😡 EPYC 9115って最大メモリ帯域480GB/sか
まあまあええやん >>568
5万台でたったのって言われたらソフトバンクの立つ瀬がなくない?
4000台とかでキャッキャとプレス出してるのに メモリーバンドだけ太くてもね
CPUコアだけでみたら32個で、x86のベクトル演算器って何個あるんだっけ?
40TOPSくらい出るか?
40TOPSならノートPC(ARM)のNEのほうが速そう >>564
キャラ設定が公式と違う脳内同人仕様なのでこれでいいのです >>589
AVX2かAVX512が使える
何基積んでるかはCPUによる webで使えるdeepseekは普通に賢い
ただエロには使えない
攻撃されてるからかapi発行ページが開けない
ローカル用に小さくしたモデルは……微妙 2スロットだとインターリンクが足をひっぱるぞ
1チャンネルあたりせいぜい64GB/sくらいじゃなかったか?
PCIe5よりはずっとマシでネットワークサーバーとしては十分だけどAI用とするには厳しすぎる 中国のモバゲーのAIが1億人のプレイヤーと日々騙しだまされの駆け引きで訓練してめっちゃ進化してる
そのうちゲームとかVR方面でも今回みたいなショックが起こるのは間違いないと思う 速度を完全に無視してしまえばR1 fp16 1.5TB
をNVMeに展開して動かすのも可能、って話もあるな >>571
試してみたけど、日本語は確かに堪能なんだが一回の返答までに5分とかかかるのが厳しいわ
なにより18禁展開にしたらエラー吐いちゃうからエロ的には実用性に乏しい
容量140GB近いのもキツいけど、もう少し取り回しよくてエロに使えればいいんだけどなぁ ■ このスレッドは過去ログ倉庫に格納されています