なんJLLM部 避難所 ★2
レス数が900を超えています。1000を超えると表示できなくなるよ。
0001名無しさん@ピンキー 転載ダメ (ワッチョイ 63c0-joKd)2024/05/02(木) 18:27:25.10ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0828名無しさん@ピンキー (ワッチョイ 72c7-4jMC)2024/06/02(日) 14:19:53.01ID:???0
>>741
>>742
USBライザー接続やめて、x16スロット4分岐拡張カードに変えてみたら、0.4t/s上がったわ
ちょっとだけのアップだけど、このスピードだと無視できない数字

IQ4_XS(56.2GB) ・・・ 3.9t/s
RTX3090 1枚 x16 gen3
RTX3090 1枚 x4 gen3
RTX3070 1枚 x4 gen3
RTX3060 1枚 x1 gen2 USBライザー経由
マザボ ROG STRIX Z490-F

IQ4_XS(56.2GB) ・・・ 4.3t/s
RTX3090 1枚 x4 gen3(x16を4分岐)
RTX3090 1枚 x4 gen3(サウスブリッジ)
RTX3070 1枚 x4 gen3(x16を4分岐)
RTX3060 1枚 x4 gen3(x16を4分岐)
マザボ TUF GAMING B550 PLUS
x4+x4+x4+x4分岐拡張カード

変更点
・x16からx4に変更
・USBライザーx1からx4に変更
・x4分岐に対応したマザボに変更

X16からX4に変更で約1t/sの低下あり
でもUSBライザーからx4に変更で1.4t/sアップ
0829名無しさん@ピンキー (ワッチョイ 72c7-4jMC)2024/06/02(日) 14:20:18.18ID:???0
>>828
追記

しばらくすると1台のGPU(RTX3070)が休んでる状態になるのに気がついて、GPUの負荷をかけ続けてみたら、7.8t/sまでアップした
ほぼ問題ないスピードになったので満足

分かったこと
・3060がボトルネックではなかったこと
・接続数が増える程度ではあまり性能低下しないこと

分からないこと
RTX3070がすぐ休んでしまうこと
NVIDIAコンパネの電源とOSの電源をハイパフォーマンスに変更してもダメ
なんでだろう?
0830名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/02(日) 14:43:58.55ID:???0
GDDR6って8GBで4000円しかしなくてDDR5と値段変わらないのに
16GBやそれ以上のモデルの値段のぼったくり具合と来たらしゃれにならないよな
いい加減どこか良心的な価格で出して欲しいわ
0831名無しさん@ピンキー (ワッチョイ c7c5-okHx)2024/06/02(日) 14:48:25.76ID:???0
>>826
CR+でそこまで申し訳されるの逆に難しいと思うんだけど、AIにロールを与えたりはしてる?小説ならAIに小説家のロールを、ロールプレイならキャラクターのロールを与えたら、GPTやOpusではどんな脱獄でも記述してくれないようなドン引きシチュを書いてくれるけど
行為だけを記述した場合流石に申し訳されたからセリフを混ぜたりするといいかも
0835名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/02(日) 17:01:02.33ID:???0
koboldのチャットのAI Nameに複数名入れたら
二人目のセリフが途中で中断されるんだけど何が原因かエスパーできる人いる?

設定はこうやってるんだけど、AI Nameの書き方間違えてる?
https://imgur.com/a/57LK0dA
ユーザー
キャラ1
ユーザー
キャラ2

って順番に会話することはできるけど

ユーザー
キャラ1
キャラ2

って表示が出来ない
0841名無しさん@ピンキー (ワッチョイ ef4b-hJA7)2024/06/02(日) 19:43:52.08ID:ZkqQuWPj0
>>839
一番上のAPIをTextCompilationにするとApi TypeとAPI Urlの欄が出てくると思うで?
https://imgur.com/a/qk8jZSg
0843名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/02(日) 21:21:55.98ID:???0
自分も久々に尻起動したけど、RAG機能ってどうやって使うんかな?
最新の1.12.0にアプデしても拡張機能にDATA BANKのタグ出てこない(拡張機能を管理の画面では導入済みになってる)
そんで、web searchをインストールしたらいいのかと思って導入して実行したけど、
バッククオート「`」で囲んだ項目を「について教えて」をトリガーに設定して、In-chatにして聞いてみたけど、トンチンカンな回答しかしてくれない
sorceはSelenium Plugin で、Engineはgoogleにしてる
0844名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/02(日) 21:44:17.98ID:dnjVV3qJ0
SillyTavernのRAGって埋め込みモデル何使ってるん?
0847名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/02(日) 22:14:34.29ID:dnjVV3qJ0
>>846
SillyTavernの詳しいことは分からんが、一般論としてRAGを行うときの埋め込みモデルはLLMとは別に専用のモデルを用意して行うよ
何ヶ月も前だったからよくは覚えてないけど、自分で試した時はkarakuri-70Bの埋め込みはダメダメだった記憶がある
(SillyTavernで使ってるわけではないが)俺はmultilingual-e5ってモデルをこのスレで教えてもらったから今はそれ使ってる
0851名無しさん@ピンキー (ワッチョイ effe-hJA7)2024/06/03(月) 08:40:32.85ID:6bA4dcQ30
尻タブはひたすら機能の増築が行われ続けてるのでUIは確かに複雑やが最低限の一貫性はあるから慣れるしかない
ハーレムチャットやキャラの表情、コンテクストの要約記憶、音声読み上げ、SD連動と使いこなせば最高のプラットフォームだとは思うで
音声読み上げがStyle-Bert-Vit2に対応してくれったら完璧なんやが
Python分かるニキ、頼むで!(他力本願時
0853名無しさん@ピンキー (ワッチョイ effe-hJA7)2024/06/03(月) 09:07:37.49ID:6bA4dcQ30
ちなどんな機能が欲しいんや?
0856名無しさん@ピンキー (ワッチョイ effe-hJA7)2024/06/03(月) 09:32:54.73ID:6bA4dcQ30
>>855
出力の先頭を固定?
もうちょい噛み砕いてくれんか?

>>854
ワイは上にあげたSBV2連動と、あとは表情差分を作成&PNGのアルファ抜きを尻タブ内で完結させて欲しい...
あと表情差分だけでなく服装差分対応して欲しい...
0857名無しさん@ピンキー (ワッチョイ fe55-j0vd)2024/06/03(月) 09:48:58.35ID:tvN01nRf0
尻は良いツールだと思うわ
一日あれば慣れる範疇だったし痒いところに手が届く
SD連動は日本語環境だとプロンプトにそのまま日本語が乗るから、
今のところは共通部以外手動でプロンプト入力してるわ
0858名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/03(月) 11:00:09.58ID:???0
まだ尻は使いこなせてないから見当違いかもしれないけど
メッセージの削除が「編集」→「ゴミ箱」→「SwipeかMessageを選択」→「削除」
って4回もの工程を必要とするのがすごく面倒臭い
0859名無しさん@ピンキー (ワッチョイ f21f-d6y6)2024/06/03(月) 11:28:24.12ID:???0
またフルCPUの話で恐縮ですが、速度的な事はおいといて、
例えばメモリ192GBのPC組んだら、MacのUltraみたいに大きなモデルを大きなコンテキストで
扱えるのでしょうか?何か見落としている事ありますかね。

今はメモリ64GBのフルCPUでCR+使ってて、速度は別に0.6t/s位で困らないんですけど、
コンテキストとか精度の面にメモリを使えるようにしたいと思っています。
0860名無しさん@ピンキー (ワッチョイ efa6-hJA7)2024/06/03(月) 11:56:08.05ID:fdGZozKr0
Macはメモリの帯域広いかなんかそんな理由で早いんやろ?
Winでもメモリ詰めば動くは動くと思うけど、ふつーのメモリにデカいモデル詰んだら、アホ程遅くなるんちゃうか?
0861名無しさん@ピンキー (ブーイモ MMab-jN4h)2024/06/03(月) 12:17:11.07ID:???M
SillyTevernのVIT2対応は本当にどなたかお願いします…
RAGの件ですが
立方体3つのアイコン、拡張機能のウィンドウの右下、ベクター機能をオンにした上で
チャット入力枠左から2番目のアイコンからRAG機能にアクセスできる
けど日本語の理解力はかなり低い気がする
0862名無しさん@ピンキー (ブーイモ MMab-jN4h)2024/06/03(月) 12:22:22.62ID:???M
>>856
ちなみに服装切り替えは知ってる?
キャラ画像フォルダにさらにフォルダを作り、同じように表情ファイル入れる
チャットで/costume \swimsuiteとかやると切り替わる
元に戻すときは/costumeだけ入れる
0863名無しさん@ピンキー (スッップ Sd92-fd0q)2024/06/03(月) 12:32:57.41ID:???d
お気に入りのキャラ画像はSDでお気楽につくってるけど表情の変化をつくるのが面倒で1枚絵だけだ
なにか簡単につくるコツとかあるかな
すまん画像スレ案件か?
0864名無しさん@ピンキー (ワッチョイ efa6-hJA7)2024/06/03(月) 12:39:23.70ID:fdGZozKr0
>>862
あー、知らんかったわ、サンガツ!
>>863
一枚絵から差分作るWebUIかアプリあったで?ちょっとワンパターンな感じになるけど
ワイは最近使ってなくてSSD見たけど見つからんかった
検索すればすぐ出てくると思うで?
0868名無しさん@ピンキー (ワッチョイ ef39-hJA7)2024/06/03(月) 23:15:55.03ID:fdGZozKr0
>>867
おおおおおお!サンガツ!
ちょっとまだ使いこなせてないけど、SBV2での読み上げはきちんとイケたで!
調子乗ってserver limit = 3000とかにしたらクラッシュしたわw
0869sage (テテンテンテン MM7e-hJA7)2024/06/04(火) 00:43:11.24ID:BkgD360lM
>>867
すごーい!私も動きました。ありがとう。
0870名無しさん@ピンキー (ワッチョイ 2209-hJA7)2024/06/04(火) 01:03:02.69ID:???0
動いたようで何より.
素のVITSが必要な人は,vits-simple-apiに対応しているのでそのように使ってもらえれば.
# vits-simple-apiはVITS以外は未対応です.(手抜き)
0874名無しさん@ピンキー (ワッチョイ dbf9-G58Q)2024/06/04(火) 15:29:50.06ID:???0
ちょっと試したけどこんな感じでできた
ChunkllamaのGitHubからchunkllama_attn_replace.pyを持ってきてtext-generation-webuiのmodulesフォルダに入れる
同じmodulesフォルダの中にあるmodels.py開いて
上のimport文に
from .chunkllama_attn_replace import replace_with_chunkmistral
を追加
同じmodels.pyの133行目にhuggingface_loaderがあるからこの中のどこか(一番最初とか)に
replace_with_chunkmistral(pretraining_length=4096)
を追加
text-generation-webuiからTransformers形式でモデル読み込み(GGUFとかは無理)
0875名無しさん@ピンキー (ワッチョイ 367a-TEJs)2024/06/04(火) 15:37:54.17ID:???0
Cohere、右上のほうにある「Chat」じゃなくて「PlayGround」から改めて左上の「Chat」選ぶと
普通にできている感じだな

ただちょっと表現が弱くなったような、短くなったような……これは気のせいかも
0877名無しさん@ピンキー (ワッチョイ e641-hJA7)2024/06/04(火) 16:08:24.18ID:W8u18g9h0
CohereもまたLLMでは?
0880名無しさん@ピンキー (ワッチョイ 67c0-R3YG)2024/06/04(火) 17:12:54.51ID:lxZLkGyk0
llama3版swallowは
llama3+(swallow-llama2)じゃ作れんかね
0881名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 17:54:06.33ID:???0
ありがとう!試してみる!

ところすごく基本的なことが聞きたいんだけどさ

i9 10900KF、3080 10GB、メモリ64GB

という構成でNinja-v1-RP-expressive-breadcrumbsを使ってるんだけど、
chatで1秒当たり1.5文字ぐらいしか生成されないのは普通のことなの?
何か設定おかしいのかな?
https://huggingface.co/Aratako/Ninja-v1-RP-expressive-breadcrumbs/tree/main
0885名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 18:19:27.85ID:???0
>>882
VRAM足りてないのか……
設定弄ったら秒間10文字ぐらいになったんだけど、乗り切ってないとどういう問題が発生するの?
グラボへの負荷が大きすぎるとか?
0886名無しさん@ピンキー (ワッチョイ c75a-Y7pC)2024/06/04(火) 18:32:20.79ID:???0
VRAMからあふれるとメインメモリに載る
(macの高いやつみたいな例外はあるけど)VRAMに比べてメインメモリは桁一つレベルで遅すぎる
そこでつっかえて遅くなる
0888名無しさん@ピンキー (ワッチョイ b68e-TEJs)2024/06/04(火) 18:35:57.34ID:???0
>>885
乗り切ってないとRAMに溢れるのでめちゃくちゃ推論が遅くなる
ただ設定変更したの見る限りではロード時に4bit量子化してるみたいだからそれならVRAM容量は問題ないと思う
GGUFって形式の量子化済みのモデルもあるからそっち使ってる人の方が多分多いんじゃないかな
0889名無しさん@ピンキー (ワッチョイ d28a-DG+E)2024/06/04(火) 18:39:19.09ID:???0
mradermacher/Berghof-NSFW-7B-GGUF のQ8を1日使ってみたけど良さそうだった。自分が好きな展開になっただけかもしれんけど

i1ってなんだ mradermacher/Berghof-NSFW-7B-i1-GGUF
量子化前 Elizezen/Berghof-NSFW-7B
0890名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/04(火) 18:54:02.42ID:???0
macまだ持ってないからよく分からんのだが、VRAMの上限上げなくても、
同じユニファイドメモリなんだがら、なにも考えずにメインメモリにロードすれば速度出るんじゃないの?
無理にVRAMに当てて、そこにロードする意味ってあるの?
0891名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 18:59:59.20ID:???0
>>888
GGUFだとChunkllamaが使えないみたいだからなんとかしようとしてたんだけど
もしかして4bit量子化してたら使えないってことなのかな?

なんか尻タブでトークンがどうとかエラーが出てたけど
ちゃんと適用できてるかはどこで見ればいいんだろう
0892名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/04(火) 19:35:05.34ID:???0
AIは決して文章を理解してる訳じゃないから類似した内容が見つからないユニーク過ぎる設定で小説書かせようとすると
CommandR+も指示書のオウム返しみたいな内容のない文章しか生成できないのな
AIのなんか偉い人が言った”生成型検索エンジン”とは確かに良く言ったものだと思う
いつかは本物の創造力を持つ日が来るんだろうか?
0893名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/04(火) 19:42:38.21ID:???0
>>892
その設定、よければrentryにあげてもらえないだろうか?
自分もいろいろな奇抜な設定与えてモデルの評価してるんだけど、なかなかいいのが思いつかんのです
0900名無しさん@ピンキー (ワッチョイ 67c0-kPtO)2024/06/04(火) 22:30:04.61ID:???0
kobold.cppで動かしてるけど、100文字ほど出力した後、削除されて5文字くらいか出力されないのは何が悪いんでしょうか
あんまりあってなかったらlhamaへいこうかな…
0908名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 08:58:16.62ID:o9Fmpo040
>>904
学習データセットのデータにある程度近くないとまともな文章が生成されないと言う話なら、過学習と言ってもいいんじゃないか?
ちょっと単語がユニークになると、潜在空間での距離が(学習データの埋め込みが作るクラスターと比較して)思いの外離れてしまうって事だと思うんだけど
0914名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 09:12:28.92ID:o9Fmpo040
>>910
データセットの多様性が足りないのか、学習方法自体に問題があって過学習起こしてるのかは、側から見て判断つくのか?
学習曲線公開されてればある程度予想はできるのかもしれないけど
0919名無しさん@ピンキー (ワッチョイ f29f-hUe9)2024/06/05(水) 14:33:50.03ID:EeNKsAFQ0
Q&Aタイプのプロンプトで学習させると2回目以降の応答が繰り返しやすくなるって聞いた
0920名無しさん@ピンキー (ワントンキン MMa2-6ljc)2024/06/05(水) 15:39:32.85ID:???M
>>911
ちなみに同じプロンプトで繰り返さないやつって例えばどんなので試した?
俺もcohereメインでプロンプト工夫してエロ小説家として調教してるとこだけど、
まぁちょいちょい似たようなフレーズの繰り返しが起きるよね
厳密に言うと主語が同じでニュアンスが同じ文章を延々吐く
かいつまむとこんな感じ
「花子は初めての快感に震えた
花子は抵抗したが無駄だった
花子は快感を受け入れた
花子は性奴隷になった」
流石にここまで酷くないが、突き詰めるとこんな印象になる

対策として一回の指示で内容を段階分けて細かめに与えるとか、
回答の文章量を指示内容に見合う程度に少なくさせるとかしてるが、
システムプロンプトで回避できるなら面倒がなくていいのでそうしたい
0922名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/05(水) 15:44:45.88ID:9pGmxMss0
頻出単語があると繰り返ししやすくなるよね
繰り返しペナルティを上げればいいのかもしれないけど
0923名無しさん@ピンキー (ワントンキン MMa2-6ljc)2024/06/05(水) 15:46:43.14ID:???M
あと、これはいいとこでもあると思うけどcohereはやたらがんばって長い回答をしがちな印象がある
指示者が「花子が犯されて快楽堕ちする」みたいな雑な指示しても必死に文章量稼ごうとして上記みたいな事が起きるのかも
ただ、やったことないんだけどopusでこういう指示だすとオリジナリティのある内容とか吐くんだろうか?
0926名無しさん@ピンキー (ワッチョイ fb75-V1VE)2024/06/05(水) 16:30:33.53ID:???0
>>923
ものによる
書きやすい内容・膨らませやすい内容なら読み応えのある話を書いてくれる
でも常識的に考えて書くことが限られてると、繰り返しにはならないにしても、話が勝手に進んでしまう
例えばアイドルの快楽墜ちなんて膨らませやすいテーマなら陳腐なりにそれなりに読めるものが出てくる
ヒントを与えればなおさら
一方で挿入シーンだけで4000文字みたいな無茶な指示すると、勝手にピストンして勝手に射精されてしまう
0927名無しさん@ピンキー (ワッチョイ 43c0-ygI9)2024/06/05(水) 17:28:52.66ID:???0
>>867
動いたわサンガツ!
できればauto_split (改行で分けて生成) とsplit_interval (分けた場合に挟む無音の長さ(秒))も実装してくれると長文時のレスポンスが改善されそうでたすかる
sdp_ratio, noise周り, length, Style周りがあれは言う事なしや……
レス数が900を超えています。1000を超えると表示できなくなるよ。

ニューススポーツなんでも実況