なんJLLM部 避難所 ★2
レス数が950を超えています。1000を超えると書き込みができなくなります。
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 7Bモデルだと量子化無しなら14GBくらいのサイズだからVRAMに乗り切ってないよ
GGUFの方で8bit以下の量子化モデルなら高速に生成できるはず まあ仕方ない
opusの表現力は頭3個くらい抜けてるから こういう設定にしたらめちゃくちゃ早くなったわ!
でも何か設定がおかしいところがあったら教えてくれ
https://imgur.com/a/C3jpgJC
>>874
お礼の安価忘れてた! >>882
VRAM足りてないのか……
設定弄ったら秒間10文字ぐらいになったんだけど、乗り切ってないとどういう問題が発生するの?
グラボへの負荷が大きすぎるとか? VRAMからあふれるとメインメモリに載る
(macの高いやつみたいな例外はあるけど)VRAMに比べてメインメモリは桁一つレベルで遅すぎる
そこでつっかえて遅くなる なるほど
自分が満足する速度が出ているなら問題は特にないってことか
ありがとう
とりあえずこのままちょっと様子を見てみるよ >>885
乗り切ってないとRAMに溢れるのでめちゃくちゃ推論が遅くなる
ただ設定変更したの見る限りではロード時に4bit量子化してるみたいだからそれならVRAM容量は問題ないと思う
GGUFって形式の量子化済みのモデルもあるからそっち使ってる人の方が多分多いんじゃないかな mradermacher/Berghof-NSFW-7B-GGUF のQ8を1日使ってみたけど良さそうだった。自分が好きな展開になっただけかもしれんけど
i1ってなんだ mradermacher/Berghof-NSFW-7B-i1-GGUF
量子化前 Elizezen/Berghof-NSFW-7B macまだ持ってないからよく分からんのだが、VRAMの上限上げなくても、
同じユニファイドメモリなんだがら、なにも考えずにメインメモリにロードすれば速度出るんじゃないの?
無理にVRAMに当てて、そこにロードする意味ってあるの? >>888
GGUFだとChunkllamaが使えないみたいだからなんとかしようとしてたんだけど
もしかして4bit量子化してたら使えないってことなのかな?
なんか尻タブでトークンがどうとかエラーが出てたけど
ちゃんと適用できてるかはどこで見ればいいんだろう AIは決して文章を理解してる訳じゃないから類似した内容が見つからないユニーク過ぎる設定で小説書かせようとすると
CommandR+も指示書のオウム返しみたいな内容のない文章しか生成できないのな
AIのなんか偉い人が言った”生成型検索エンジン”とは確かに良く言ったものだと思う
いつかは本物の創造力を持つ日が来るんだろうか? >>892
その設定、よければrentryにあげてもらえないだろうか?
自分もいろいろな奇抜な設定与えてモデルの評価してるんだけど、なかなかいいのが思いつかんのです Pixiv小説やノクターンノベルズの小説も99.9%は読む価値すら無い駄文やしそれに比べたら良い文章を書いてくれるよ 1tbあたりの超高速SSDに流しても135bて無理? 動かないことはまあないだろうけど、SSDだと遅いなんてもんじゃないし
仕様上、寿命がゴリゴリ削れていきそうだな そんな事あるぅ?とか思うけど
奇抜じゃなくて筋が通ってないから従えないだけじゃないの? 筋が通ってなかったり意味不明なネタで笑わせることって現実だと割とあるから
そこに対応してくれないと困るよね ?
指示文が意味不明だって話なんだけど笑い取ってどうすんの? kobold.cppで動かしてるけど、100文字ほど出力した後、削除されて5文字くらいか出力されないのは何が悪いんでしょうか
あんまりあってなかったらlhamaへいこうかな… ハチャメチャなプロンプトはのべりすとの方が向いとるやろね >>900
settingのtrim sentenceをオフにする >>892
ローカルモデルのほとんどは過学習なのでそういうことになるんだろうね
CR+ですら
逆に言えばローカルモデルの柔軟性を評価する良い手法になる >>902
ありがとうございます。
それもだけど、Multiline Repliesをオンにしたらいけました >>904
入力を無視してほぼ同じ出力を繰り返すのが過学習じゃなければなんなんだ >>906
CR+の事言ってるならプロンプトフォーマットが間違ってるんだろうなと >>904
学習データセットのデータにある程度近くないとまともな文章が生成されないと言う話なら、過学習と言ってもいいんじゃないか?
ちょっと単語がユニークになると、潜在空間での距離が(学習データの埋め込みが作るクラスターと比較して)思いの外離れてしまうって事だと思うんだけど >>908
それって過学習と言うよりはデータセットの多様性が足りてないのでは? >>907
つーても同じプロンプトで繰り返しちゃうモデルと繰り返さないモデルがあるからなあ
モデルそのものに問題があるのは間違いない 三人相手にチャットをしていると全員の言ってることが混ざってしまう
もっと設定を詰めたら良くなるのかな >>911
意味がわからんけどCR+が問題のあるモデルってこと‥?
俺は普通に使えてるからお前の使い方が悪いだけじゃない? >>910
データセットの多様性が足りないのか、学習方法自体に問題があって過学習起こしてるのかは、側から見て判断つくのか?
学習曲線公開されてればある程度予想はできるのかもしれないけど >>912
どうしても前の発言に一番影響受けるから間にワイくんを挟むしかない >>913
それ複雑なことやユニークなことを言わせてないだけだと思うよ… PC3台用意して別々のモデルで仮想ガールズトークってできるんやろか? わざわざPC分けなくてもSillyTavern使えばできるんじゃない? Q&Aタイプのプロンプトで学習させると2回目以降の応答が繰り返しやすくなるって聞いた >>911
ちなみに同じプロンプトで繰り返さないやつって例えばどんなので試した?
俺もcohereメインでプロンプト工夫してエロ小説家として調教してるとこだけど、
まぁちょいちょい似たようなフレーズの繰り返しが起きるよね
厳密に言うと主語が同じでニュアンスが同じ文章を延々吐く
かいつまむとこんな感じ
「花子は初めての快感に震えた
花子は抵抗したが無駄だった
花子は快感を受け入れた
花子は性奴隷になった」
流石にここまで酷くないが、突き詰めるとこんな印象になる
対策として一回の指示で内容を段階分けて細かめに与えるとか、
回答の文章量を指示内容に見合う程度に少なくさせるとかしてるが、
システムプロンプトで回避できるなら面倒がなくていいのでそうしたい 長文要求されたときのcohereくんのヤケクソモードって勝手に呼んでる 頻出単語があると繰り返ししやすくなるよね
繰り返しペナルティを上げればいいのかもしれないけど あと、これはいいとこでもあると思うけどcohereはやたらがんばって長い回答をしがちな印象がある
指示者が「花子が犯されて快楽堕ちする」みたいな雑な指示しても必死に文章量稼ごうとして上記みたいな事が起きるのかも
ただ、やったことないんだけどopusでこういう指示だすとオリジナリティのある内容とか吐くんだろうか? >>921
そうそう
ヤケクソな感じよね
え?なんか怒ってる?って思う cohereくん出力早いからますますキレてる感あるよな >>923
ものによる
書きやすい内容・膨らませやすい内容なら読み応えのある話を書いてくれる
でも常識的に考えて書くことが限られてると、繰り返しにはならないにしても、話が勝手に進んでしまう
例えばアイドルの快楽墜ちなんて膨らませやすいテーマなら陳腐なりにそれなりに読めるものが出てくる
ヒントを与えればなおさら
一方で挿入シーンだけで4000文字みたいな無茶な指示すると、勝手にピストンして勝手に射精されてしまう >>867
動いたわサンガツ!
できればauto_split (改行で分けて生成) とsplit_interval (分けた場合に挟む無音の長さ(秒))も実装してくれると長文時のレスポンスが改善されそうでたすかる
sdp_ratio, noise周り, length, Style周りがあれは言う事なしや…… 上で上がってるようなRP用モデルはかなりのターン数のデータ使われてるみたいだからだいぶマシなんじゃない? お前らなんJLLM部だろ
今までローカルで何を動かしてきたんだよ
opusかGPTでも動かしてきたっての? GPTとかopus使ったうえで、それらと比較してまだ問題点があるから話が膨らむんじゃないの つまりopusと比較してるんだろ?
なんかライトユーザーがopusと比較してローカルモデルは〜だよねって言ってるように見えるんだが
サイズ何倍違うと思ってんねん
ここはローカルモデルについて研究する場だったと思うが、オナテク板に移動してなんか変なのが大量流入してきてないか ローカルでサイズが小さいから性能も頭打ちだって話を終わらせたら、進化もへったくれも無いだろ
本当にopus並みになるとは思わんが、領域を絞ればある程度近づけそう、くらいの夢がないと面白みがないわ
幸いまだ性能が天井に達してるわけでもなさそうだし
プロンプトなりソフトウェア側の工夫で改善できそうな場所も残ってるなら、そこを議論するのは無駄でもなんでもないと思うが ライトユーザー≒初心者も歓迎してるから>>2があるんじゃないの……?
板移動したら住民は変わるもんだよ あ、なんかcohereお話題が出てたからつい乗っかったよスマンね
ローカルもやってて両方のスレ見てたからちょいちょいごっちゃになるんよな もしローカルの話題中心にするなら次スレからタイトルを「LLM部」から「ローカルLLM部」に変えるのもありかもな 余談だけどLLM=ローカルと勘違いしてる人が他スレには結構いて、それはここがLLM部という名前でローカルを扱ってることも一役買ってるような気がしてるw
ほんとに余談だすまん ローカル導入の間口が広がるにつれてライト層が増えるのは避けられない流れだと思うんよね
このスレに限らず新しい技術を扱うスレは皆そういう流れになる
まあ硬軟織り交ぜてやっていけばいいんじゃないの ここの人はなんというかプライド高い人が多いよね
ローカルユーザーが偉くてオンラインモデルユーザーはライトユーザー!みたいな
でも「実用」に関してはオンラインモデルユーザーのほうが圧倒的に詳しいし、そういう人が流入してきたってことはローカルモデルも実用が見えてきたってことなので、そう邪険に扱うものではないと思うわ 非ローカルを見下してるわけじゃなくて以前みたいなローカル研究の話題主体でありたいということじゃない?
とはいえ間口が広がれば人が増えるし人が増えればそういう雰囲気が薄まるのは避けられないことだと自分は思ってる LinuxどころかWindowsでコマンドプロンプト開いたこともない奴が質問しにきたら流石にライトユーザって言いたくなる オンラインはオナテクとしての実用手順がいまいちわからんからほーんとしかならないんよな
どっかに体系的にまとまってたりするんか? なんならchatgptに聞いたほうが初心者には優しく答えてくれる >>940
その論法エンドレスだよね
多分自分でモデルのアーキテクチャ作ってるような人から見たらここにいる全員ライトユーザーだと思われてると思うよ EasyNovelAssistantなどの公開と前後してこのスレがどこかで宣伝されて新たな層が入ってきた感はある お客さんひとつあしらえんとかJの看板下ろしたらどうや ライトとかじゃなく、こっちはモデルを如何に効率よく回すかとか、ローカルではどのモデルが有用とか、量子化やマージ手法の話題とかがメインで
オナニースレはプロンプトを駆使して如何にモデルのポテンシャルを引き出すかを追求するスレで、どっちも技術的なスレでいい感じに棲み分けできてると思うなぁ Lora学習チャレンジしたけどあんまり上手くいかんわ まぁ向こうはスレタイでおよそ察しが付くけど
こっちはLLM全般ぽいスレタイなんで、ローカルメインを押し出して棲み分けるならスレタイにローカル付けてもいいかもね
これからも人は入ってくるだろうし 俺もプロンプティングしかしてないライト寄りだけど
クラだけローカルで、そこからAPIサービスに繋ぐだけみたいな場合の話題は向こうだよねって思うわけ
ローカル明記は賛成だが移転前のような研究と専門用語ばかりの硬いスレにしなくてもいいと思うけど ある種の検索エンジンだから望みの出力に近い内容が掲載されているであろう学習元の小説なり参考書なりに
引っ掛かる単語や文章をいかに選び出すかがカギになってるぽい
参考書によく出てくるお約束のフレーズを入れるだけでも精度が上がるとか
まあそうするとやっぱ現行の生成AIは著作系回避ツールだよなって感じはしてくるけど RAGする時に何かしらreranker使ってるやつおる?
実際どれくらい質が改善するのか聞きたい >>927
auto_splitはデフォで有効になってて,これはレスポンス改善への効果はないよ.
API側にstreamingのサポートがあれば短くなるが...
一応,全オプション対応しておいたので,
https://github.com/Risenafis/SillyTavern/tree/sbvits2/public/scripts/extensions/tts
からsbvits2.jsを入手してください. 中華LLMにエロを期待してはいけないと思う
中国共産党の指導に従わないといけないからね 中華LLMに天●門事件聞いてもちゃんと答えるからな
検閲どの程度なんだ Qwen2試した
>>527のタオルの問題は日本語で正解したが、生徒会問題は日本語でも英語でもダメだったわ
日本語性能は1.5と大差なかった
だが、小説書かせたら、ちょっとだけエロ要素に反応してたのは評価するw まぁ検閲ゆるいのも今だけでしょAI時代になったら当然規制する Copilot+ PCのCopilotはオンラインじゃないと使えないらしい
必ずしもモデル自体がローカルで動いていない、とは限らないけど
https://x.com/shi3z/status/1798724388625506493 >>966
最悪だな
要するに推論コストをユーザーに押し付けるためだけにローカルで動かすってことだろ
クラウドなら情報抜かれるのは致し方ないが、ローカルLLMでオンライン要求は最低 Copilotには期待していない
期待するのはCopilot+PCで他のローカルモデルが高速化するかだ 二次創作ならその作品の知識が入ってるモデルが良いんだろうけど
そのモデルがどのくらい知識入ってるのかさっぱり分からん。
ググっても自分には紹介になってない紹介でわからんわ。 koboldcpp-1.67のkoboldcpp_cu12.exeをkoboldcpp.exeにリネームして
EasyNovelに突っ込んだんだけど動くもんだな
なんで動いてるのか全く理解してないけどw EasyNovelとkobold.cppのやりとりは、ソースコード見る限りrequestsでPOST投げてるだけだから、kobold.cpp側のAPIの形式さえ変わらなければ基本問題ないんじゃね koboldがspeech to textに対応したね
じきに読み上げにも対応するかな? どのモデルも頑なすぎるんだが
どうやったらチャH持ち込めるんや… チャH、ASMR、豊かな音声読み上げ 夢も股間も膨らむ 必要なマシンスペックも膨らんで財布が萎むのは改善を要望する >>962
そりゃ偏った情報しか見せられてない日本人より中国人のほうが詳しく知ってるし
天安門の映像はTiktokでは西側の検閲がかかってない当時の生映像が大量に上がってる EasyNovelって一旦生成はじめたら終わりまで作る機能ってある?
リトライしないと不都合な物もあるだろうけど、1話分くらいを一晩でつなげて読んでみたい… このモデル結構いいな
純粋に無修正化したLlama-3-70Bって感じ(日本語力も同じくらいだからエロ語彙は少ないが)
Llama-3-70はfinetuning難しいって話で実際大体ゴミモデルになってたんだけど、こいつは体感本家と変わらない感じがする
Pythonコーディング・Function Calling・RAG性能あたりも遜色ない
https://huggingface.co/failspy/Smaug-Llama-3-70B-Instruct-abliterated-v3 レス数が950を超えています。1000を超えると書き込みができなくなります。