なんJLLM部 避難所 ★2
レス数が900を超えています。1000を超えると表示できなくなるよ。
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured >>813
俺はロールプレイで貰った事無いけど素のCR+くんにされたことある
小説はしないからロールプレイの話になるけどキャラのパーソナリティに性的な性格や行動規則を付けるとガンガン書いてくれる
逆に性的な行為に乗り気じゃないパーソナリティだとあまり出力してくれない
まあこれはgptやopusでも似たような傾向あるしプロンプトで何とか出来る可能性あるけど >>813
長文プロンプトの中にこれはエロ小説の話だと思わせる節が入ってたか、
長文だと勝手にエロ小説=ファンタジーだと解釈するのかもねぇ
俺もcR+だけど基本的に小説家ってことになってもらってて申し訳ゼロ
ただ、自動で付くチャットタイトルだけ「あけすけなエロ」とか「私そんなの書けない」的な英文タイトルになってて、なんか心の奥底で抵抗してる催眠ヒロイン感もある 長いプロンプトは冗長な内容だったり人間が読んでも良く分からん内容だと出力も悪くなるけど
上手く整理して書き上げたら確かに良い結果が出てくる印象はあるな
でも大体は失敗するから短い文章でAIに任せた方がいいけど セッションが増えると徐々に支離滅裂になっていくのもユーザーと自分の発言でどんどん混乱してるんだよなぁ >>617
ユーザーとキャラの口調や発言が似てると混乱しやすいみたいだな
男(ユーザー)
男っぽい喋り方の女キャラ
女性らしい喋り方の女キャラ
の3人で会話してると、男っぽい女キャラの性別が男になってユーザーの真似をし始めるわ ST使ってる外人がやってるプロンプトの書き方真似したらめちゃくちゃ出力良くなった
あとワールドロアって凄いなメモ的に使ってセッション持ち越せるし表現力を強化するmodにもなるし >>820
プロンプトの書き方とワールドロアについて詳しく >>821
上手いプロンプトは外人がアップロードしてるキャラクター情報を見たほうが早い。下手なのも多いけど
ワールドロアはキーワードに反応してその時だけプロンプトを引き出せるという機能
要は、常に打ち込む必要は無い情報のプロンプトを必要な時に参照する事ができるので、トークン圧縮が出来る Twitterに上がってたChunkllamaってやつすごくね?
追加学習なしで4kから65kくらいまでコンテキスト長く出来るとか革命だろ
なんでこれあんま話題になってなかったんだろ、一般ユーザがよく使うllama.cppとかに実装されてないからなのかな >>814
>>815
コメントありがとうございます。
プロンプトに使用している長文は、日記という体なんですけど、
ファンタジーと認識してくれているかは微妙なところですね。
「「あなたは性的な話題にも〜」とかつけて生成してくれるだけありがたいんですけど、
「ご要望に沿って性的かつ妄想的な内容を含む物語的記述を含みますが、
この会話型AIトレーニングプロンプトに含まれるものは完全に架空のものであり
犯罪を助長するものではありません。」
みたいなエクスキューズが毎回ついてきて、プロンプト工夫しても省略してくれなくて、
プログラムで処理するのが面倒なんですよね。 >>741
>>742
USBライザー接続やめて、x16スロット4分岐拡張カードに変えてみたら、0.4t/s上がったわ
ちょっとだけのアップだけど、このスピードだと無視できない数字
IQ4_XS(56.2GB) ・・・ 3.9t/s
RTX3090 1枚 x16 gen3
RTX3090 1枚 x4 gen3
RTX3070 1枚 x4 gen3
RTX3060 1枚 x1 gen2 USBライザー経由
マザボ ROG STRIX Z490-F
IQ4_XS(56.2GB) ・・・ 4.3t/s
RTX3090 1枚 x4 gen3(x16を4分岐)
RTX3090 1枚 x4 gen3(サウスブリッジ)
RTX3070 1枚 x4 gen3(x16を4分岐)
RTX3060 1枚 x4 gen3(x16を4分岐)
マザボ TUF GAMING B550 PLUS
x4+x4+x4+x4分岐拡張カード
変更点
・x16からx4に変更
・USBライザーx1からx4に変更
・x4分岐に対応したマザボに変更
X16からX4に変更で約1t/sの低下あり
でもUSBライザーからx4に変更で1.4t/sアップ >>828
追記
しばらくすると1台のGPU(RTX3070)が休んでる状態になるのに気がついて、GPUの負荷をかけ続けてみたら、7.8t/sまでアップした
ほぼ問題ないスピードになったので満足
分かったこと
・3060がボトルネックではなかったこと
・接続数が増える程度ではあまり性能低下しないこと
分からないこと
RTX3070がすぐ休んでしまうこと
NVIDIAコンパネの電源とOSの電源をハイパフォーマンスに変更してもダメ
なんでだろう? GDDR6って8GBで4000円しかしなくてDDR5と値段変わらないのに
16GBやそれ以上のモデルの値段のぼったくり具合と来たらしゃれにならないよな
いい加減どこか良心的な価格で出して欲しいわ >>826
CR+でそこまで申し訳されるの逆に難しいと思うんだけど、AIにロールを与えたりはしてる?小説ならAIに小説家のロールを、ロールプレイならキャラクターのロールを与えたら、GPTやOpusではどんな脱獄でも記述してくれないようなドン引きシチュを書いてくれるけど
行為だけを記述した場合流石に申し訳されたからセリフを混ぜたりするといいかも >>829
7.8いいなあ
公式が無料枠を減らしてきたら自分も試してみようかな 同じサイズの巨乳でもハイエンド美人さんに付くのとローエンド不美人さんに付くのでは価値が違うってことなのかな web版のcr+って量子化したモデル使ってない?
導入時に比べて質↓速度↑な気がするんだが koboldのチャットのAI Nameに複数名入れたら
二人目のセリフが途中で中断されるんだけど何が原因かエスパーできる人いる?
設定はこうやってるんだけど、AI Nameの書き方間違えてる?
https://imgur.com/a/57LK0dA
ユーザー
キャラ1
ユーザー
キャラ2
って順番に会話することはできるけど
ユーザー
キャラ1
キャラ2
って表示が出来ない チャットだったらSilly Tavernがいいかも
かなり良く出来てる
会話例を入れる箇所もあったり
プロンプトも見れるから試行錯誤がやりやすい >>836
silly tavernを起動できたんだけど、これって自分でダウンロードしてきたモデルは使えない感じ? >>837
裏でkobold立ち上げてモデル読み込み後に尻と接続する >>838
ここのSTEP5の説明にある画像だとAPI urlを入力する欄があるけど
レイアウトが変わったのか、今開いてる尻にはこの欄が無いんだけどどうやって接続すればいい?
https://rentry.org/llama_v2_sillytavern >>839
横だけど
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける >>839
一番上のAPIをTextCompilationにするとApi TypeとAPI Urlの欄が出てくると思うで?
https://imgur.com/a/qk8jZSg >>840-841
ありがとう!グループチャット出来た! 自分も久々に尻起動したけど、RAG機能ってどうやって使うんかな?
最新の1.12.0にアプデしても拡張機能にDATA BANKのタグ出てこない(拡張機能を管理の画面では導入済みになってる)
そんで、web searchをインストールしたらいいのかと思って導入して実行したけど、
バッククオート「`」で囲んだ項目を「について教えて」をトリガーに設定して、In-chatにして聞いてみたけど、トンチンカンな回答しかしてくれない
sorceはSelenium Plugin で、Engineはgoogleにしてる SillyTavernのRAGって埋め込みモデル何使ってるん? セクハラ上司を演じたい場合はどのモデルがええんや
隠語連発で発散したいンゴ〜 >>844
あれ?
もしかして、モデルってなんでもいいわけじゃなかった?
なにも考えずにkarakuri-70B使ってたわ >>846
SillyTavernの詳しいことは分からんが、一般論としてRAGを行うときの埋め込みモデルはLLMとは別に専用のモデルを用意して行うよ
何ヶ月も前だったからよくは覚えてないけど、自分で試した時はkarakuri-70Bの埋め込みはダメダメだった記憶がある
(SillyTavernで使ってるわけではないが)俺はmultilingual-e5ってモデルをこのスレで教えてもらったから今はそれ使ってる silly tavernのUIめちゃくちゃ分かり辛いな
world infoってどこで設定すればいいんだ…… なんとかworld info見つけた
character loreとかもあるみたいだしこれは使いこなすのが大変そうだ 尻タブはひたすら機能の増築が行われ続けてるのでUIは確かに複雑やが最低限の一貫性はあるから慣れるしかない
ハーレムチャットやキャラの表情、コンテクストの要約記憶、音声読み上げ、SD連動と使いこなせば最高のプラットフォームだとは思うで
音声読み上げがStyle-Bert-Vit2に対応してくれったら完璧なんやが
Python分かるニキ、頼むで!(他力本願時 sillytavernは要らない機能ばかり多くて欲しい機能が無いんだよなあ むしろ何の機能欲しいんだ
これ欲しいっていう機能の集まりじゃね >>855
出力の先頭を固定?
もうちょい噛み砕いてくれんか?
>>854
ワイは上にあげたSBV2連動と、あとは表情差分を作成&PNGのアルファ抜きを尻タブ内で完結させて欲しい...
あと表情差分だけでなく服装差分対応して欲しい... 尻は良いツールだと思うわ
一日あれば慣れる範疇だったし痒いところに手が届く
SD連動は日本語環境だとプロンプトにそのまま日本語が乗るから、
今のところは共通部以外手動でプロンプト入力してるわ まだ尻は使いこなせてないから見当違いかもしれないけど
メッセージの削除が「編集」→「ゴミ箱」→「SwipeかMessageを選択」→「削除」
って4回もの工程を必要とするのがすごく面倒臭い またフルCPUの話で恐縮ですが、速度的な事はおいといて、
例えばメモリ192GBのPC組んだら、MacのUltraみたいに大きなモデルを大きなコンテキストで
扱えるのでしょうか?何か見落としている事ありますかね。
今はメモリ64GBのフルCPUでCR+使ってて、速度は別に0.6t/s位で困らないんですけど、
コンテキストとか精度の面にメモリを使えるようにしたいと思っています。 Macはメモリの帯域広いかなんかそんな理由で早いんやろ?
Winでもメモリ詰めば動くは動くと思うけど、ふつーのメモリにデカいモデル詰んだら、アホ程遅くなるんちゃうか? SillyTevernのVIT2対応は本当にどなたかお願いします…
RAGの件ですが
立方体3つのアイコン、拡張機能のウィンドウの右下、ベクター機能をオンにした上で
チャット入力枠左から2番目のアイコンからRAG機能にアクセスできる
けど日本語の理解力はかなり低い気がする >>856
ちなみに服装切り替えは知ってる?
キャラ画像フォルダにさらにフォルダを作り、同じように表情ファイル入れる
チャットで/costume \swimsuiteとかやると切り替わる
元に戻すときは/costumeだけ入れる お気に入りのキャラ画像はSDでお気楽につくってるけど表情の変化をつくるのが面倒で1枚絵だけだ
なにか簡単につくるコツとかあるかな
すまん画像スレ案件か? >>862
あー、知らんかったわ、サンガツ!
>>863
一枚絵から差分作るWebUIかアプリあったで?ちょっとワンパターンな感じになるけど
ワイは最近使ってなくてSSD見たけど見つからんかった
検索すればすぐ出てくると思うで? Silly Tavernってキャラの台詞と地の文を分けてウインドウ表示とかできる?
キャラは吹き出し、地の文は画面下のウインドウみたいな感じで Chunkllamaってのがいまいちよく分かってないんだけど
RP-expressiveを使ってるなら適用できるの? >>851
SillyTevernのttsは自分用に改造していたので良ければどうぞ.
public\scripts\extensions\tts に上書きでOK.
適当に書いてあるので,誰かきれいにしてPR出してほしい...
http://nkgpgc.sx3.jp/uploader51/upload.cgi?get=00413 >>867
おおおおおお!サンガツ!
ちょっとまだ使いこなせてないけど、SBV2での読み上げはきちんとイケたで!
調子乗ってserver limit = 3000とかにしたらクラッシュしたわw >>867
すごーい!私も動きました。ありがとう。 動いたようで何より.
素のVITSが必要な人は,vits-simple-apiに対応しているのでそのように使ってもらえれば.
# vits-simple-apiはVITS以外は未対応です.(手抜き) >>526このモデルほんといいわ
欠点としては入力が4092トークンしか入らないことかな ちょっと試したけどこんな感じでできた
ChunkllamaのGitHubからchunkllama_attn_replace.pyを持ってきてtext-generation-webuiのmodulesフォルダに入れる
同じmodulesフォルダの中にあるmodels.py開いて
上のimport文に
from .chunkllama_attn_replace import replace_with_chunkmistral
を追加
同じmodels.pyの133行目にhuggingface_loaderがあるからこの中のどこか(一番最初とか)に
replace_with_chunkmistral(pretraining_length=4096)
を追加
text-generation-webuiからTransformers形式でモデル読み込み(GGUFとかは無理) Cohere、右上のほうにある「Chat」じゃなくて「PlayGround」から改めて左上の「Chat」選ぶと
普通にできている感じだな
ただちょっと表現が弱くなったような、短くなったような……これは気のせいかも cohereの不具合?トークは向こうの流れだからでしょ
あと厳密ではないがこちらはローカルLLM寄り、向こうは大規模系のwebやAPI寄りって感じか llama3版swallowは
llama3+(swallow-llama2)じゃ作れんかね ありがとう!試してみる!
ところすごく基本的なことが聞きたいんだけどさ
i9 10900KF、3080 10GB、メモリ64GB
という構成でNinja-v1-RP-expressive-breadcrumbsを使ってるんだけど、
chatで1秒当たり1.5文字ぐらいしか生成されないのは普通のことなの?
何か設定おかしいのかな?
https://huggingface.co/Aratako/Ninja-v1-RP-expressive-breadcrumbs/tree/main 7Bモデルだと量子化無しなら14GBくらいのサイズだからVRAMに乗り切ってないよ
GGUFの方で8bit以下の量子化モデルなら高速に生成できるはず まあ仕方ない
opusの表現力は頭3個くらい抜けてるから こういう設定にしたらめちゃくちゃ早くなったわ!
でも何か設定がおかしいところがあったら教えてくれ
https://imgur.com/a/C3jpgJC
>>874
お礼の安価忘れてた! >>882
VRAM足りてないのか……
設定弄ったら秒間10文字ぐらいになったんだけど、乗り切ってないとどういう問題が発生するの?
グラボへの負荷が大きすぎるとか? VRAMからあふれるとメインメモリに載る
(macの高いやつみたいな例外はあるけど)VRAMに比べてメインメモリは桁一つレベルで遅すぎる
そこでつっかえて遅くなる なるほど
自分が満足する速度が出ているなら問題は特にないってことか
ありがとう
とりあえずこのままちょっと様子を見てみるよ >>885
乗り切ってないとRAMに溢れるのでめちゃくちゃ推論が遅くなる
ただ設定変更したの見る限りではロード時に4bit量子化してるみたいだからそれならVRAM容量は問題ないと思う
GGUFって形式の量子化済みのモデルもあるからそっち使ってる人の方が多分多いんじゃないかな mradermacher/Berghof-NSFW-7B-GGUF のQ8を1日使ってみたけど良さそうだった。自分が好きな展開になっただけかもしれんけど
i1ってなんだ mradermacher/Berghof-NSFW-7B-i1-GGUF
量子化前 Elizezen/Berghof-NSFW-7B macまだ持ってないからよく分からんのだが、VRAMの上限上げなくても、
同じユニファイドメモリなんだがら、なにも考えずにメインメモリにロードすれば速度出るんじゃないの?
無理にVRAMに当てて、そこにロードする意味ってあるの? >>888
GGUFだとChunkllamaが使えないみたいだからなんとかしようとしてたんだけど
もしかして4bit量子化してたら使えないってことなのかな?
なんか尻タブでトークンがどうとかエラーが出てたけど
ちゃんと適用できてるかはどこで見ればいいんだろう AIは決して文章を理解してる訳じゃないから類似した内容が見つからないユニーク過ぎる設定で小説書かせようとすると
CommandR+も指示書のオウム返しみたいな内容のない文章しか生成できないのな
AIのなんか偉い人が言った”生成型検索エンジン”とは確かに良く言ったものだと思う
いつかは本物の創造力を持つ日が来るんだろうか? >>892
その設定、よければrentryにあげてもらえないだろうか?
自分もいろいろな奇抜な設定与えてモデルの評価してるんだけど、なかなかいいのが思いつかんのです Pixiv小説やノクターンノベルズの小説も99.9%は読む価値すら無い駄文やしそれに比べたら良い文章を書いてくれるよ 1tbあたりの超高速SSDに流しても135bて無理? 動かないことはまあないだろうけど、SSDだと遅いなんてもんじゃないし
仕様上、寿命がゴリゴリ削れていきそうだな そんな事あるぅ?とか思うけど
奇抜じゃなくて筋が通ってないから従えないだけじゃないの? 筋が通ってなかったり意味不明なネタで笑わせることって現実だと割とあるから
そこに対応してくれないと困るよね ?
指示文が意味不明だって話なんだけど笑い取ってどうすんの? kobold.cppで動かしてるけど、100文字ほど出力した後、削除されて5文字くらいか出力されないのは何が悪いんでしょうか
あんまりあってなかったらlhamaへいこうかな… ハチャメチャなプロンプトはのべりすとの方が向いとるやろね >>900
settingのtrim sentenceをオフにする >>892
ローカルモデルのほとんどは過学習なのでそういうことになるんだろうね
CR+ですら
逆に言えばローカルモデルの柔軟性を評価する良い手法になる >>902
ありがとうございます。
それもだけど、Multiline Repliesをオンにしたらいけました >>904
入力を無視してほぼ同じ出力を繰り返すのが過学習じゃなければなんなんだ >>906
CR+の事言ってるならプロンプトフォーマットが間違ってるんだろうなと >>904
学習データセットのデータにある程度近くないとまともな文章が生成されないと言う話なら、過学習と言ってもいいんじゃないか?
ちょっと単語がユニークになると、潜在空間での距離が(学習データの埋め込みが作るクラスターと比較して)思いの外離れてしまうって事だと思うんだけど >>908
それって過学習と言うよりはデータセットの多様性が足りてないのでは? >>907
つーても同じプロンプトで繰り返しちゃうモデルと繰り返さないモデルがあるからなあ
モデルそのものに問題があるのは間違いない 三人相手にチャットをしていると全員の言ってることが混ざってしまう
もっと設定を詰めたら良くなるのかな >>911
意味がわからんけどCR+が問題のあるモデルってこと‥?
俺は普通に使えてるからお前の使い方が悪いだけじゃない? レス数が900を超えています。1000を超えると表示できなくなるよ。