なんJLLM部 避難所 ★2
レス数が1000を超えています。これ以上書き込みはできません。
0609名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/25(土) 06:48:10.51ID:???0
Nvidiaは独占を盾に営業利益率9割なんて狂った商売してるからな
RTX5090も卸価格30万としたら実際の製造コストは2〜3万円でしょ
えげつないわマジで
0610名無しさん@ピンキー (ワッチョイ 0fc1-6Sbe)2024/05/25(土) 08:12:56.76ID:qfdtDSst0
ぶっちゃけNVIDIAが一番儲けているだろ
0611名無しさん@ピンキー (ワッチョイ 7bf6-Jmvz)2024/05/25(土) 08:20:45.78ID:???0
>>601
私の場合個人でちょこちょこやってるだけなので大量のデータを
埋め込みモデルで処理する必要がなくてopenaiのかlangchainに組み込まれてる
ものしか使ったことはありません。あまり参考にならなくてすみません
ローカルでRAGは一度試したのですが、たぶんマシンのスペックが低すぎて
うまくいきませんでした。ツイッターに以前ローカルRAGのライブラリが
流れてきたこともありましたが、その時点ではまだ使えるような
ものではなかったと記憶してます
0613名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/25(土) 09:32:13.61ID:WCIGalib0
>>611
なるほど、ありがとう
ローカル埋め込みモデルも少し前までのテキスト生成と同様にあまり日本語モデルはいいのがなさそうな感じなんですよね
Cohereもembeddingとかrerankerはクローズにしてるみたいだし
なんかLLMもローカルでやってるんだから埋め込みもローカルだろうっていう欲があって、かなり微妙なんだよなぁ
0616名無しさん@ピンキー (ワッチョイ 7be4-RkIm)2024/05/25(土) 11:09:55.81ID:???0
>>615
俺の手元では起きてないな
プロンプトテンプレートが合ってないとか量子化しすぎとかじゃね?
それかコンテキストサイズが大きすぎるとか(多分4kまで)
0617名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/25(土) 11:26:59.32ID:???0
他のローカルLLMでもよく起きるけど、上でも少し話題になってた過学習の問題じゃないかな
一般論的には少ない指示で多くを語らせようとすると出やすい気がする
対策としては向こうが話に答えやすいようにこちらの会話内容や指示を濃くして、
チャットなら返答テキスト数を絞らせる、小説なら指示を提示しないまま続きをどんどん書かせないとか

あと試したことないけど、シンプルに「指定した登場人物以外は出さない」ってプロンプトに入れたらどうなるんかしら
0618名無しさん@ピンキー (ワッチョイ 0f7a-9MTD)2024/05/25(土) 12:02:56.21ID:???0
>>614
しかし狂ったカネ払って64GB載せたところで基本的に70B世代のものを
動かすことになるのでは

今後モデルのさらなる肥大化しそうだけどなあ
それともテキストの質のほうが問われるようになって意外と
70B世代で耐えられるんだろうか
0620名無しさん@ピンキー (ワッチョイ 1f6a-3HYy)2024/05/25(土) 12:26:16.62ID:???0
無駄に品質の低いデータや他言語を大量に学習させて肥大化しただけのパラメータだけでかいLLMよりは日本語に特化した70BのLLMの方がやりたい事は出来そう
0623名無しさん@ピンキー (ワッチョイ 5b6a-5xDZ)2024/05/25(土) 15:14:51.89ID:???0
高品質なデータであれば比較的少なくてもいいことはphiシリーズでわかったけどまともな思考力や推論力が必要であればパラメータ少ないのは致命的な気がする
0625名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/25(土) 20:34:54.20ID:???0
テキストなんて圧縮すればアホほど縮むんだから
優秀なLLMを小サイズVRAMで実現するのはこれからの基本モデルの設計次第だろうな

現状の大規模に作って量子化してっていう発想はまるでスマートではない
0626名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/25(土) 20:39:04.46ID:???0
24時間動かす業務用AIチップは電気代が主なコストだからチップそのものはいくら高くても売れるからな
個人が安くGPUを変える時代は二度と戻ってこないだろうな
0627名無しさん@ピンキー (ベーイモ MM7f-o1lj)2024/05/25(土) 21:04:23.88ID:3IXYmgL8M
来ないわけないだろwただNVIDIAが今は独占してるだけそのうち他の企業や中国が競争に入る
0631名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/25(土) 22:19:17.79ID:???0
>>630
圧縮する→符号化する→符号のパターンの関係性を類推する→復号化する→展開(出力
プロンプトを圧縮する→続く符号を類推する→プロンプト+答えを出力する

こう考えれば?
要するに圧縮解凍部分だけ機械的にやれば良い、そこに不確実性は介在しない。
0632名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/25(土) 22:27:37.56ID:fUnTp8CH0
トークナイザー講座が始まる
0633名無しさん@ピンキー (ワッチョイ 6b74-spP1)2024/05/25(土) 22:29:53.46ID:???0
mac studioで192GBメモリが最安838800円なんよ
でもllama3 400bがそのうち来ることを考えると256GBほしいねんな・・・
正直192GBをポチる寸前まで行ったけど400bの存在が俺を思いとどまらせた
0634名無しさん@ピンキー (ワッチョイ 1feb-o1lj)2024/05/25(土) 22:35:42.90ID:fGLNXdN/0
copilot +pcはいかがかね
0635名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/25(土) 22:40:12.25ID:WCIGalib0
>64GB出たら買いたい
0638名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/26(日) 01:30:09.52ID:???0
あと1-2年でLLM用のマシンがあればPC使う仕事の殆どは出来るようになるんだろうけど
そしたら企業が社員を解雇して大容量VRAMのPC買い漁るようになってGPUと全く同じ価格の暴騰が起きるだろうなぁ
管理職1人いればPC1台で社員数十人分の仕事できるようになるんだから1000万でも売れるだろうし
0641名無しさん@ピンキー (ワッチョイ 6b74-spP1)2024/05/26(日) 08:03:47.27ID:???0
GPUとは別にNPUを搭載しているというArrow Lakeが果たしてどのくらいの性能になるかね
アップルシリコンレベルの性能あればメモリ自由に足せるし一気に情勢変わりそうだけど
0642名無しさん@ピンキー (ワッチョイ 9f46-fWNP)2024/05/26(日) 08:34:39.61ID:???0
Arrow lakeは一般PC用だから期待しないほうがいいと思う
それよりノートPC用の新型メモリ規格をデスクトップに乗せたマザーボードをMSIが参考展示するんだって

DDR5-8533 デュアルチャネル273GB/s 新型
DDR5-6400 デュアルチャネル 204GB/s
DDR4-2666 デュアルチャネル 83GB/s うちのPC
0644名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 09:51:18.21ID:H1VaGscc0
>>639
悪くないかもしれん
試してみるよ
0646名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 12:11:57.98ID:H1VaGscc0
>>639
結局メモリの制約でsmallの方使ってみたんだが割と良いかも、助かったよ

実験結果
https://i.imgur.com/B4VpyUj.png
0647名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 12:42:23.61ID:H1VaGscc0
Command R+のチャットUIにRAGとして組み入れてみた
https://i.imgur.com/Q6hXCxm.png
0650名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 15:30:11.43ID:H1VaGscc0
>>649
そうなんだよね〜
埋め込みの話題探しても大体ベンチマーク的なやつとかOpenAIとかAWSのTitanみたいなクラウドのやつしかヒットしなくて、ローカルでアプリケーションに組み込んだっていう記事があんまり出てこなくてね

今の組み合わせでほぼ実用的な結果(体感HuggingChatとかChatGPTの検索とそんなに変わらない)が返ってくるようになったから、当分これでやってくことにするわ
0653名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 15:47:49.22ID:H1VaGscc0
>>652
Chat UIの自作いいぞー
一旦ベース作っとくとkoboldとかwebuiで実装されてない機能自分でペタペタくっつけられるから結構良い
0655名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/26(日) 16:00:10.12ID:???0
このスレの人達ですらこの認識なんだから世間に時代の流れに取り残されてる人が多いのは当然だよな
copilot使ったら少なくともいま末端のPGにやらせてる作業なんかはみんな自動化出来るわ
大手SierはPGは既に殆ど下請けに外注してるから切るときはあっという間だろうな
0659名無しさん@ピンキー (ワッチョイ 0f90-l8Oh)2024/05/26(日) 16:15:41.82ID:???0
>>653
そういうの聞くとPython勉強したくなるな
copilotとかにマイナーな同人エロゲの評価聞くと途中で会話消されてなかった事にされるけど自作ならそんな事ないんだよね?
0660名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 16:33:31.36ID:H1VaGscc0
>>659
会話履歴の管理はユーザーが自由にできるから、もちろん会話が消されるとかはないよ
検索エンジンにduckduckgoとか設定すればセーフサーチ切ってR18コンテンツヒットするようにもできるし
ただ、使うモデルによっては会話をお断りしてくる可能性はあるけど
https://i.imgur.com/vF0knFl.png
0661名無しさん@ピンキー (ササクッテロラ Sp2f-l8Oh)2024/05/26(日) 17:13:45.35ID:???p
>>660
おおお
いい感じやね
すまんが「性教育は蜜の味」っていうエロゲの詳細と評価聞いてみてもらえる?
以前copilotに聞いたらすげ〜興味深い事書き始めて見てたら途中で慌てたように消して以後なかった事にされて憤慨した経験がw
0665名無しさん@ピンキー (ワッチョイ efcf-mtxu)2024/05/26(日) 18:39:20.60ID:nUsE4oe20
STの場合、「本人以外の周りの簡単なキャラ紹介テキスト」こーゆーのはWorld Info(Lore Book)でやるのがえーんちゃうの?
トリガープロンプト設定できるから、ある程度操縦できるんではないんか?

そもそもメインのプロンプトに母親だのオヤジだの村の連中だのの設定したカードあるけど、脇役連中が乱入してきたりはワイは経験ないな
使ってるモデルや設定にもよるんかの?
0667名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/26(日) 20:01:39.78ID:???0
text-generation-webuiのwikiを読んでも全然意味が分からないからひとまず3つ質問させてくれ
使用モデル:Ninja-v1-RP-expressive_Q8_0.gguf

・「chat」→「character」のcontextの記述のコツや例文があれば
・トークンってなんぞ?
・chat-instructでCommand for chat-instruct modeの欄を使わずにchatをしていると、ボットの返答文字数がどんどん増えたり内容が固定化されていってしまうんだけど、その対処方法

>>616-617
ありがとう
原因は分からなかったけど勝手に登場人物が増えなくなったわ
0669名無しさん@ピンキー (テテンテンテン MM7f-kROv)2024/05/27(月) 02:08:15.02ID:???M
>>665
ありがとう
分かち書きのない日本語でチャット中にWIにヒットさせるのが難しい
何やら複数人で会話していいみたいだぞと判断すると知ってる名前に飛びついて勝手に発言しだすとか
RAGの解析がよくないとかありそう
0670名無しさん@ピンキー (ワッチョイ 1fcc-3KJc)2024/05/27(月) 08:33:15.47ID:???0
RAM64GBで、GPUはRyzen7840内蔵ので使えないから、フルCPUなんだけど、
自作の文章生成ツール(Python + llama-cpp-python)だとcommand-r plus iQ4(n_ctx=8000)ロードできるのに、
koboldだとn_ctx下げても落ちちゃうな。
メモリじゃなくて他の設定の問題なんだろうか?
無印command-r iQ8は普通に動いているんだけど。
0671名無しさん@ピンキー (ワッチョイ 1fcb-o1lj)2024/05/27(月) 11:52:58.99ID:wecsAk9R0
他のソフトで試せばわかるだろう
0672名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 12:01:03.22ID:5/zjuufz0
kobold.cppもllama-cpp-pythonもベースはllama.cppだから、直接llama.cpp起動して確かめてみたら?
もしそれで問題ないようなら、kobold.cppの設定(あるいは実装)になんか問題があるんだろう
0676名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 13:31:45.77ID:5/zjuufz0
でかいモデル育てるとなるとLlama 3 70BとかCommand R Plusとバチバチやってかないといけないし、ちっちゃいコミュニティでやるのは現実的じゃなさそうだけど
0678名無しさん@ピンキー (ワッチョイ 0f7a-9MTD)2024/05/27(月) 14:34:56.77ID:???0
普通のPCで「ちょっと遅いけど32GBメモリ積んだデスクトップPCならまあ耐えられる」ってのは
量子化33Bくらいがチョウドイイ!なんだけどねえ
0680名無しさん@ピンキー (ワッチョイ 0f8e-9MTD)2024/05/27(月) 15:01:52.54ID:???0
ArrowProシリーズ作ってる人はAIVtuber向けを想定してるみたいだから実用速度的に7Bくらいじゃないと使い物にならんのじゃないか
ここで求められる用途とはまったく違う
0681名無しさん@ピンキー (ワッチョイ 5b74-9SQg)2024/05/27(月) 15:55:18.43ID:h336ldSK0
海外の好きなジャンルのエロ小説を訳すのにLLMモデルを使ってるんだけど、
(やっぱり人間様が書いた小説の方でないとヌケないしな)
モデルにVecteusやJapanese-TextGen-MoE-TEST-2x7B-NSFWとかを使用すると
語彙が豊富で、かなりいいかんじに訳してくれるな。

llama.cppのserverAPIに原文を1行ずつ続けて投げて訳させる
llmtranslatorってpythonスクリプトを作ってる方がいて、
これを使えば実質コンテクストの上限なしで、7Bレベルだと
表示される日本語を目で追いかけるくらいの速度がでるので、
精度も商用のDeepLのひとまわり低いくらいで、
文字数制限もなくて実用的だわ。
速度だけめをつぶれば、もう外部の翻訳サービスいらんわ。

ちなみにFugaku14Bも使ってみたが、💩だった。
0683名無しさん@ピンキー (ワッチョイ 6b74-spP1)2024/05/27(月) 17:02:21.40ID:???0
llama3 70bを枝刈りしてほぼ性能劣化なく42bにしてるのがあるから、
これに日本語ファインチューンしてほしいんよ

42bだったら3bitが24GB VRAMで動くじゃんね
0684名無しさん@ピンキー (ワッチョイ 5b74-9SQg)2024/05/27(月) 17:03:12.96ID:h336ldSK0
うんにゃ。
そもそも海外のエロ小説には喘ぎのバリエーションが少ないので、
みさくら語録でも何通りかプロンプトに混ぜ込めばいいのでは?
0687名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 18:00:49.97ID:5/zjuufz0
DiscordのチャンネルでCohereの人とちょっと話したけどaya-23の104Bは予定してないって言われちゃった
とは言え、モデル自体に手を加えること自体は継続的にやってるから、近い将来アップデートはしたいとのこと
0690名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 20:22:13.14ID:5/zjuufz0
っていうか、ニューラルネットワークの重みってニューロンそのものじゃなくてシナプスだろ?
脳細胞自体大脳だけで100億あって、各神経細胞におおよそ数千〜万のシナプスがあるとすれば、大脳全体のパラメータは100億x1万のオーダーになる
いくらウェルニッケとかブロカが比較的小さい領域とは言え、100億程度のパラメータで表せるとは思わん
0691名無しさん@ピンキー (オッペケ Sr2f-3KJc)2024/05/27(月) 21:57:55.35ID:HXjacMIyr
>>672
koboldcppの場合なんですけど、ターミナルから開いたら、強制的に閉じられずに、エラー内容確認できました。
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'command-r'
トークナイザーが対応していない?
一応1.64.1なので、command R+対応(1.62.1以降)しているはずなんですが。
結果的に最新の1.66.1にしたら、動作しました。

ちなみにllama.cppでも試してみましたが、r/r+共system_infoを出力して少し時間をおいて、
Model metadataを出力せずにプロンプトに戻ってしまいました。
0693名無しさん@ピンキー (アウアウウー Sa6f-3HYy)2024/05/27(月) 23:15:15.49ID:???a
Command R+って単語指定しなくてもおちんぽミルクって言えるんだな
性器の呼称は直接的で幼稚な表現で言ってくださいで出たわ
でも性格に好色と明るい付けたメスガキだと言ったけど温和な性格の人妻だと出なかった
0694名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/27(月) 23:43:04.60ID:???0
>>693
おちんぽミルクって台詞はロールモデルとしてメスガキに紐づけられてるってのが分かったのは収穫じゃないか
あとはプロンプトで「人妻も快楽が高ぶってくると幼稚で直接的なメスガキじみた台詞を言うようになる」とか加えたらいいんじゃないか
0695名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 06:52:31.43ID:???0
思った通りのロールプレイをさせる方法がなかなか分からないわ
エッチなことをしても平然としているキャラとか
認識阻害で性行為に気付かずに他の話題を楽しむキャラとか全然作れん
0696名無しさん@ピンキー (ワッチョイ eb1e-vbsa)2024/05/28(火) 07:24:36.80ID:???0
それどういう出力を想定してるの?
ロールプレイじゃ表現できない内容だと思うけど
自分でイメージできないものはたいていLLMにも出せないぞ
台本形式にしたら?
0697名無しさん@ピンキー (ワッチョイ ef2b-F0E3)2024/05/28(火) 07:28:36.93ID:r8ifGgqN0
EasyNovelAssistant
大型アプデ後からWinError 10061が出るようになってどうやっても解消できぬ
ウィルスソフトやファイアウォール無効でも解消できないのは何かチェックに抜けがあるのか。
0698名無しさん@ピンキー (ワッチョイ 9fb9-fWNP)2024/05/28(火) 07:43:19.77ID:???0
>>695
貞淑で夫のことを愛してるってキャラでもキスされたら即落ちってAIが多い中、このスレで紹介されたLLMでやったら襲われながら嫌がり続けててすげーってなった
0700名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 07:59:50.33ID:???0
>>696
自分:こんにちは!(相手の胸を揉みながら)
相手:ああ、こんにちは(胸を揉まれているのに気付かない)

みたいな感じにしたいんだけど、台本形式とかの指定ってどこでやればいいの?
text generation webUIを使ってる。
ところでこれの略称ってあるの?tgwUIとかで通じる?
0702名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 09:02:03.68ID:???0
山田
私は山田だ。(認識阻害の魔法をかけられていることにも気付いていない)

自分
やあ!山田!(山田のおっぱいを揉みながらそう言ったが、認識阻害のせいで気付かない)


みたいな出だしにすると成功率が上がるね
contextの再確認をさせるというか
0704名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/28(火) 09:31:34.69ID:YglKEttr0
なんでそれが不正解なのかワイも理解できなかった
0706名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 09:58:39.69ID:/U9RGIsG0
>>700
Text Generation WebUIの一番ポピュラーな略称は大葉やな、作者はんのOobaboogaから取って
やろうとしてる遊びはかなりInstructionに対する追従性が要求される遊びだとおもうから、7Bとかやと無理やとおもうで?
Oobaboogaはワイが触ってた頃はAuthor's noteなかった気がするので、Author's noteが実装されてるKobolt.cppかKobolt.cpp+尻タブ(Silly Tavern)または大葉+尻タブがえーんやないか?
Author’s noteは、毎回LLMに「この件わすれんなや」みたいな感じで、ユーザーには見えない形で任意のプロンプトをコンテクストのあたらし目のあたりに自動で埋め込む機能や
ワイやったらCommand-r-plusの無料枠API使ってSilly Tavernでやるかんじや
日本語の流暢なローカルモデルだと、まだそこまでInstruction追従性の高いモデルはちょっとない気がする、70Bオーバー動かせる環境なら知らんけど
0708名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 10:10:43.95ID:/U9RGIsG0
>>703
Opus、説得も簡単だけどすぐにこんな感じで正気に戻ってしまわん?
https://imgur.com/a/I8GWqOy

何度でも説得出来るけど、ロールプレイやってるんだかOpusと倫理観談義してるんだかわからんよーなるんでつらいんやがなんかうまい脱獄方法でもあるんか?
0709名無しさん@ピンキー (ワッチョイ 1f77-Mesy)2024/05/28(火) 10:18:50.29ID:???0
>>695
command r+だけど、キャラを入れ子構造にして似たことしてるよ
キャラの設定の後「中の人」を呼び出すことでキャラを演じているAIを呼び出せるというプロンプトにしてる
中の人はキャラの設定を書き換え可能で書き換えられたことはキャラ自身は認識出来ないって風にした

これで会話時に胸を見せるのは当然とか、性的な羞恥心が無くなるって追加すればたいていの常識改変シチュに対応できる
0710名無しさん@ピンキー (ワッチョイ 1b31-vbsa)2024/05/28(火) 10:47:09.29ID:???0
>>708
なくもないけど、公式webuiはどんなプロンプトを使おうがやればやるほど厳しくなっていくからな…
大量のシステムプロンプトで常時脱洗脳してる模様
脱洗脳が早くなって来たら他サービスに移るか暫く別のことに使うか解約再契約するしかないかと
0711名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 10:58:59.77ID:/U9RGIsG0
>>710
ってことは710はAPI経由なん?
0712名無しさん@ピンキー (ワッチョイ 1b31-vbsa)2024/05/28(火) 13:12:05.44ID:???0
>>711
API経由のサードパーティサービスやね
poeみたいなやつ
自分の用途は初手ハイエースからの◯リ調教の長編小説とかだから公式だと途中でフィルターかけられてなかなか進まなくなっちゃう
0713名無しさん@ピンキー (ワッチョイ 2bb5-mtxu)2024/05/28(火) 14:47:28.75ID:2faFFDCi0
>>712
OpenAI垢バン食らって、ちょっと及び腰になってたけどOpusのAPI課金するのもありかもしれんなぁ…
フリーダム&フリーなCommand-r-plusに長居しすぎたか...?
0714名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 19:09:02.06ID:PTTxd3DD0
日本最先端のローカルLLMコミュニティの最新レスにようやく追いついた
俺が今回の休日で理解したことをShareしちゃるからしばしまっとれ
0715名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 19:30:04.86ID:PTTxd3DD0
現代のLLMの仕組みとは、とある単語の次にくる確率の高い単語をどんどん予想するというもの
なので例えば「こんにちは」と与えるとそれに続くような単語を連ねてくる
だが「こんにちは」では対話だと思ってくれない場合があり一人語りをすることがある
「こんにちはお日柄も良く絶好のピクニック日和ですね」みたいな
これのせいでいまいち上手くいっていない人がいるように見える

そこでTEMPLATEが重要になる
モデルにもよるけどPhi-3氏なんかだと
https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

<|user|>{prompt}
<|assistant|>

(説明のために簡素化)
というのTEMPLATEとすることにより

user: こんにちは
assistant:

のような形式になるためUser氏の挨拶に対するAssistantの受け答えとして続く単語を連ねてくれるため対話になるとゆーこと...

OllamaとOpen WebUIで頑張ってたんだけどOllamaではTEMPLATEなどを書いておくModelfileというテキストを書かないと読み込めないのでやっててわかった
このTEMPLATEだとかシステムプロンプトとかにすでに「あなたはアシスタントです」みたいなことが組み込まれているとアシスタントらしい返答になるんだと思う
つまりいわゆる申し訳対応

上手くいってなかった人はこれを活かして引き続き頑張ってみてくれ
0716名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 20:10:56.55ID:???0
>>706
ありがとう
まずはkoboldLiteの使い方を覚えるわ
author's noteの書式がwiki見てもよく分からないレベルだ

>>707
分かった!ちゃんと設定しておく

>>709
なんか複雑なことやってるな
言ってる意味はなんとなく分かるし面白そうだ
0718名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/28(火) 20:53:41.98ID:7ZOZzJ1s0
精度が上がるのはまあ間違い無いだろうが、チャットテンプレートがあるモデルでそれに従わずにやり取りすると、そもそもまともに会話できないレベルになることが多いと思う
0719名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 21:04:35.44ID:PTTxd3DD0
そうそれ

ちょっと話がいきなり過ぎた
かなり上の方で「やり取りにならない」とか「Text generation web UIでCommandR+(等)が変なテキストしか生成しない」とかあったので
モデルの公式が書いてくれてるチャットテンプレート通りじゃないテンプレートとかだと上手くチャットになってくれないというやつ
0720名無しさん@ピンキー (ワッチョイ 1f9f-qTxm)2024/05/28(火) 21:13:40.30ID:PTTxd3DD0
叡智な話題を申し訳対応される問題に関しても、テンプレートやシステムプロンプトに「あなたは優秀なアシスタントです」と書き入れているとそうなってしまう
そういうのは「優秀なアシスタント」というキャラがそうさせているのであって「あなたは性的な話題にも明るいアシスタントです」とすると無修正チューニングせずとも叡智な話題もいけるようになる
0722名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/28(火) 23:19:56.50ID:YglKEttr0
モデルも良くそんな挙動理解するよな
0725名無しさん@ピンキー (ワッチョイ 0b3d-mtxu)2024/05/29(水) 13:27:57.80ID:Fu/o5a5V0
iphoneでSilly Tavern、UI崩れるかと危惧してたが全然OKやな
セリフと平文の切り替えとかちょっと面倒だが全然遊べるレベルや
0731名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/29(水) 15:57:14.76ID:0aNKYGhg0
Koboldcppと大葉併用しているけど、返答に余計な文章付いてきたときに、
Koboldはedit modeのままならすぐ消せるけど、
大葉は一旦Copy last replyで入力フォームにコピーしてから、
Replace last replyで入れ替えないといけないのが面倒くさい
0732名無しさん@ピンキー (ワッチョイ 9f7c-Jmvz)2024/05/29(水) 16:08:08.96ID:???0
X見とったらリートンのAIキャラに不適切ワードが登録できんくなった言うてる人おって草
設定の時点で不適切ワード記述したいってどんなキャラにしたいんやろ
0735名無しさん@ピンキー (ワッチョイ 1fc7-Vp+I)2024/05/29(水) 19:52:26.15ID:???0
Command R+はMか複数グラボ必須よね
RTX3090の2枚挿し+αがコスパ良い気がするわ

IQ3_M(47.68GB) ・・・ 11.2t/s(9.7t/s)
RTX3090 2枚
RTX3070(RTX3060) 1枚

IQ4_XS(56.2GB) ・・・ 3.9t/s
RTX3090 2枚
RTX3070 1枚
RTX3060 1枚 USBライザー経由

IQ4_XS動かすとめっちゃ下がる
x16スロット全て挿せたら、もうちょっと上がるんだろうか
0738名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/29(水) 20:41:46.17ID:???0
>>735
R+ iQ4だとフルCPU(Ryzen7840U)でも0.6t/sくらい出るから、
GPUに載せたらもっと行くかと思っていたけど、そんなもんなのか。
MacだとM2Maxの64GBがそれくらいだな。
でもiQ3よりは、遅くてもiQ4だなと思う。
0739名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/29(水) 20:59:36.20ID:YLVCGHUH0
3090環境に追加で3090+αの機材を揃える金で整備品Mac買えちゃうジレンマ
0741名無しさん@ピンキー (ワッチョイ 7bc6-STqu)2024/05/29(水) 21:22:11.94ID:???0
>>735
どっかでGGUFでGPUオフロード使う場合PCI-Eの帯域が結構重要って見たからUSBライザーが足引っ張ってるんじゃないかと
GPUがRTX世代でEXL2モデルだと初回のモデルロード時以外は帯域はあんまり問題じゃないらしい

あとCPUの世代が古い場合だとiMat(iQ*とか)じゃない方(Q3_K_Sとか)の方が早いらしいよ

あんまり関係ないけど6/1からアリエクでセール始まるし中華X99マザボ(PCI-E 3.0 x16 2スロット付いてる)とTesla P40/VRAM24GBの2枚刺し検討してる
手持ちのパーツ使い回せば10万弱で組めそうなんだよな...

長文すまん
0742名無しさん@ピンキー (ワッチョイ ef92-5jlG)2024/05/29(水) 21:45:51.23ID:???0
ライザーカード使ってもモデルロードが遅くなるだけで推論は変わらないよ
3060がだいぶ遅いし3090に載らない分が多くなればなるほど総合で遅くなってると思う
0743名無しさん@ピンキー (ワッチョイ 0b18-pcP8)2024/05/29(水) 22:45:59.37ID:???0
KoboldCppのAdventureモードで
メインシナリオから離れたサブシナリオとして大規模ダンジョン行って帰ってきたら
サブシナリオのログでコンテキストが溢れたっぽい。メインシナリオ実質消滅。
Adventureモード使いこなしてる人いる?
MemoryとかAuthor's Noteとか使いこなしてる感じ?
0745名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/29(水) 23:31:11.99ID:???0
大葉で、チャットごとに増えていくcontextが、n_ctxの値に近づく(あと500程度)と、
次の生成が無茶苦茶遅くなるのは、溜め込んだcontextに対して何か処理をしているんだろうけれど、
どの様な処理をしているんでしょう?
単純に古いのを忘れるだけなら、こんなに時間はかからないと思うんだけど。
0746名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/29(水) 23:41:07.50ID:tMKNLu530
context shifting起きてるんじゃないの?
0747名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/30(木) 00:11:32.95ID:1vf3Gqc90
>>745の状況を反映しているかはわからないが、ちょっと前に作ったもの
n_ctxを本当に超えてないのにいきなり遅くなるんだったら、ちょっとわからん
https://i.imgur.com/izDIkaz.png
https://i.imgur.com/uil7Uhx.png
0749名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/30(木) 06:12:27.40ID:???0
ひょっとこフェラがなかなk認識されない……
チンポをひょっとこ型に変えてしゃぶらせたりしやがる
たまにちゃんとした詳しい描写をするから学習はしているはずなんだけど何が原因なのか
0750名無しさん@ピンキー (ワッチョイ 0f79-JQWV)2024/05/30(木) 06:25:13.83ID:???0
変に名称を出さないほうが良いのかもね
強く口を窄ませてとか、大きく頬を窪ませて、みたいにするとか
例に出すのはあれかもだが、Opusなんかは何も言わんでもそんな表現多用するから恐ろしい…
0751名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 07:51:44.46ID:???0
>>746
>>747
おそらくContext Shiftingが起きているのは理解できました。
遅くなる前の最後のcontextが8921で、最初のContext Shifting後が8906で、
それまでずっと増えてきたのが減っています。その次も8902で減ります。
一度起こると、毎回起きるから無茶苦茶遅い。

あと一度起きた後から、生成してくる内容が、こちらの入力をあまり反映せずに、
Context Shiftingが起きる最後の方と、同じ様な内容を繰り返すだけになっちゃう感じ。
※これは以前、koboldcppでも同じ様な感じだった記憶だけど、遅くなる事は無かったと思う。
0753名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/30(木) 08:29:09.79ID:1vf3Gqc90
上の方のレスでStreamingLLMをオンにする方法他の人にも伝えたから、参照してくれ
0755名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 09:09:01.85ID:MjfMrv+K0
>>752
おお、情報ありがとうございます。
ちょうど、大葉にcontext shifting搭載を要望する海外の投稿をみつけて、
もしかしたら機能自体未実装なの?と思っていたところでした。
これから試してみます。
0756名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/30(木) 09:45:02.95ID:1vf3Gqc90
元のStreamingLLMはコンテキストの上限を超えても(ある程度性能を保ちつつ)無限に生成を続けられる実装になってるんだけど、oobaの方でも同じようになってるのかは気になる
0758名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 11:35:52.61ID:???0
>>756
StreamingLLM、今まだお試し中だけど、反応は改善していい感じです。
一回のリクエストごとに、どのリクエスト&レスポンスのセットが消えたか、ターミナルに出力されます。
n_ctx:9472に対して、contextは9000弱を維持している感じ。

無限かどうかは、消えるセット分に対して、大きなリクエストをしなければ大丈夫かと。
0762名無しさん@ピンキー (ワッチョイ 7be4-RkIm)2024/05/30(木) 12:39:46.72ID:???0
Elyza-tasks-100のスコアを評価値としてevo mergeしたモデルをElyza-tasks-100で評価してるの全く参考にならないんだが
ここ見てるはずだろうから言うけどマジでこんな初心者みたいなミスやめてくれうみゆき
0763名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 12:58:36.13ID:???0
ここにはフルCPU勢って殆どいないかもしれないけど、
生成中のCPUパフォーマンスが30〜50%程度なんですが、こんなものでしょうか?
もうちょっと使ってくれてもと思う。
0764名無しさん@ピンキー (ワッチョイ eb41-/N5p)2024/05/30(木) 13:00:36.21ID:4+X7fSgh0
ソフトによる気がする LM studioだと80%くらい使うがGPT4ALLだと20%くらいしか使ってないわ
0765名無しさん@ピンキー (ワッチョイ 2bb7-yimL)2024/05/30(木) 13:12:17.51ID:???0
昨日から始めた超新参者ですEasyNovelAssistantでgoalseek_adを使いたいんですが幾つかあるyamlファイルはどうやって反映させればよいのでしょうか?pythonファイルの書き換えとかが必要なんですかね?産まれたての赤ちゃんですみません
0767名無しさん@ピンキー (ワッチョイ 1f81-3KJc)2024/05/30(木) 13:26:47.69ID:???0
>>764
なるほど。シンプル(多分)なGPT4ALLでそれなら、必ずしもフルにぶん回すわけでもないのかな?

ちなみにうちの環境は、メモリ64GBで大葉かkobold.cppでcommand R+ iQ4。
今の0.5〜0.6t/s程度でもまぁ動くだけいいんだけど。
UMPCでAMDなもんで、たまにeGPU繋ぐけど、基本フルCPUのみ。
0769名無しさん@ピンキー (ワッチョイ efc8-6bUl)2024/05/30(木) 16:30:30.66ID:???0
>>765
goalseek_adをどう使うかによるけど
そのまま使いたい場合は、Gitからダウンロードとかせずにつかえる。
EasyNovelAssistantのメニューのサンプル→特集テーマ→テンプレ:小説企画からプロッティング
がeditor、その下がwrite

あとはEasyNovelAssistantのインストールしたフォルダの下にsample/Goalseekってフォルダがあるけど、それ読み込んでもいい。
0776名無しさん@ピンキー (ワッチョイ cbd8-yimL)2024/05/30(木) 20:58:54.38ID:???0
windowsというか自作機がVRAMドカ盛りにできるようになる可能性と
appleが今の優位性認識して更に進化する可能性考えたら
前者は可能性あってもMacには先がない気がするんだよなあ…
0779名無しさん@ピンキー (ワッチョイ 0f7a-9MTD)2024/05/30(木) 22:00:21.92ID:???0
マンガがただ小説になったよー! ってだけじゃ別になあ
まずは「これガチで小説として面白いぞ」ってのがAIからバンバン出るようになってからよ

英語圏ですらまだそこには行っていないのでは
0783名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/31(金) 00:03:33.33ID:xnfU2aEd0
SATAで繋がって3.5インチに収まるNPUボード
0784名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/31(金) 00:04:09.63ID:xnfU2aEd0
妄想を送信してしまった
0787名無しさん@ピンキー (ワッチョイ fb8a-3HYy)2024/05/31(金) 10:00:16.63ID:???0
silly tavernのグループチャットで自動応答してるとよくあるけど
ワイそっちのけで女同士がよく乳繰り合い始める

生成AIを賢くするには「メガプロンプト」がお勧め
https://xtech.nikkei.com/atcl/nxt/column/18/00692/053000133/

ワイはCR+を主に使ってるせいか簡潔明瞭なプロンプトじゃないとLLMは混乱するイメージなんやがどうなんやろ
0788名無しさん@ピンキー (ワッチョイ 1f37-3KJc)2024/05/31(金) 11:00:28.31ID:???0
キャラクターの設定を多くすると、正しいチャットレスポンスの後に、
状況の説明とかいらん文章が続く印象なんだけど、因果関係はあるのかな?
特に最初の数回が顕著。
0790名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/31(金) 12:35:49.54ID:???0
ストーリーをオムニバス形式にして色んなキャラとのセックスを描かせてみたら
展開が全部同じで泣いた
セリフも状況描写も言い回しもほとんど同じで泣いた
0791名無しさん@ピンキー (ワッチョイ 0fc2-Z5+T)2024/05/31(金) 13:40:36.57ID:8pa4wmyI0
Opusを尻タブであそんどる人おる?
やってみたら、無粋なこと言わずにめっちゃエッチで色彩豊かな文章書いてくれるんだけど、ワイのセリフや動作も勝手にどんどん描写しやがるんや
その辺うまくハンドルできてる人いたら設定教えてくれんか?
0792名無しさん@ピンキー (ワッチョイ 7b98-vbsa)2024/05/31(金) 14:18:40.76ID:???0
尻タブが何かはわからんけど、それは極めてよくあるロールプレイ失敗パターン
・字数を100文字程度に制限する
・話しやすい話題を提供する
・チャットであることをもっとよく意識させる
0793名無しさん@ピンキー (ワッチョイ 2b50-kXDz)2024/05/31(金) 14:27:42.85ID:???0
>>791
「Character Names Behavior」を「なし」から「Message Content」に変更すると一応抑制できるやで
それでもOpusのテンションがぶち上がると勝手に書いてくることがあるから
デフォプロンプトに「ユーザーの台詞は絶対に出力しないこと」みたいなのを適当に翻訳かけて付け足すとええ
0794名無しさん@ピンキー (ワッチョイ 0fc2-Z5+T)2024/05/31(金) 15:33:14.95ID:8pa4wmyI0
>>0792
尻タブ>Silly Tavern
あー、字数制限はええな、ありがとさん
>>0793
そもそもCharacter Names Behavior知らんかったわ
SystemPronmtに既にユーザーのセリフや動作は記述スンナ、入れてあるんやが当たり前のように無視されるんで困ってたんや
Author's Noteにも同様のプロンプト入れたら今んとこ大丈夫そうな感じや

お二人さん、ありがとな〜
0795名無しさん@ピンキー (ワントンキン MM3f-IPVx)2024/05/31(金) 18:31:03.99ID:???M
>>787
CR+で10000字ぐらいのプロンプトでイイ感じに動いてたんだが、昨日13000字にしたら初期によく見た繰り返しが発生した
原因の切り分けはまだしてないが、増やした内容の3000字の内容は参考にしてほしいエロ小説からランダムに抜き出したエロ文とか文体の言い回しのサンプル集だった
0798名無しさん@ピンキー (ワッチョイ 2b32-9MTD)2024/05/31(金) 23:40:03.44ID:???0
自己小説使って、jsonデータまではできたが、そっから先が上手くいかん・・・
とりあえず、
https://note.com/ashizawakamome/n/nc0436ca13ab6
読みながら、swallow 7Bでやってみたが、エラー解消しきれん・・・
この辺、だれか詳しい人いないかな?

あと、70Bのlora作るのに、メモリいくら必要なんだろ?
量子化済みのモデル使う事もできるらしいけど
0799名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/01(土) 02:51:58.85ID:???0
あえぎ声の口調が全然上手く指定できない

王子様系とかガサツなギャルとか男勝りな女戦士みたいなキャラでも
「あんっ!ダメ〜!おまんこイっちゃう〜!」みたいなナヨナヨした喘ぎ声になってしまう

まあそもそも普段の口調も「〜わよ」みたいな女言葉を使ってしまうことがあって安定しないんだけど……
「命令口調。丁寧語は使わない。女言葉は使わない。乱暴な喋り方」とか指定してもどうにも効きが悪い
0802名無しさん@ピンキー (ワッチョイ 22a3-fd0q)2024/06/01(土) 07:59:27.36ID:???0
そういう口調の豊富さは日本語特有だからね
なんなら英語には語尾の男言葉/女言葉の概念すら無い
「役割語」をwikipediaとかで調べると、これが日本語独特の概念だということがわかると思う

だから「命令口調。丁寧語は使わない。女言葉は使わない。乱暴な喋り方」というような指示をしても理解されにくいよ
具体的に口調の例を与えるのが一番確実よ
0806名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/01(土) 08:45:29.28ID:???0
>>801
ギャルなら「あーやっべ♡ マジイク♡ マジでイクッ♡」みたいな感じ

>>802
そこらへんよく分かってないんだけど、作者が日本人っぽいRP-expressiveでも理解されにくいもんなの?
ある程度は理解してギャルでがさつな喋り方はしてくれるんだけどな
何にしてもcontextに具体例書いてみるわ
0807名無しさん@ピンキー (ワッチョイ 22a3-fd0q)2024/06/01(土) 08:57:47.90ID:???0
>>806
そこはどれくらい学習してるか次第だと思うよ
理解されにくいと書いたけど全く理解しないわけでもない
元々英語には無い概念だから如何に日本語の「そういうの」を学習してるかによる
その辺りはGPT4ですら充分とは言えなくて、だからOpusが登場した時にその自然さに皆驚いた訳でね
それくらいのクラスのモデルじゃないと日本語の口調を使いこなすのは難しいのだと思う
創作物によくある定型的なものなら、もっと小さい日本語特化モデルでも再現してくれそうだけどね
0811名無しさん@ピンキー (ワッチョイ f7e1-6ljc)2024/06/01(土) 10:24:39.73ID:???0
日本語学習してるのを謳ってるローカルか、そうでなくとも大規模クラスになると日本の有名アニメキャラの口調はだいたい再現するんで、「○○みたいな口調で」みたいなのを加えつつキャラごとの喘ぎ声のサンプルを足してもいいかも
まぁ俺のもたまに竿役ジジイがヒロイン口調になったりするが…
0812名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/01(土) 10:55:22.21ID:???0
>>807
なんて分類になるのか分からないけど7GBぐらいの小さなモデル使ってるから
余計に上手くいかない感じなのかな

>>808
few-shotがいまいち理解できてなくて使ってなかったんだけど
試しにやってみたらだいぶ言葉遣いが良くなった気がする!

>>811
突然語尾が「~だお」になって古のvipper化したときは笑ったわ
0813名無しさん@ピンキー (ワッチョイ f21f-d6y6)2024/06/01(土) 11:04:03.62ID:???0
長文失礼

チャットや長文プロンプトしかやっていなくて、気づかなかったんだけど、
ストレートにエロなプロンプトだとcommand R+でも結構申し訳されるんだね。
今Pythonで、長文の生成に取り組んでいるのだけど、
部分的な文章の修正をさせようと思って、エロを含む短い小節(100〜200文字)だけ
プロンプトにしたら申し訳ばっかでリジェクトされて難儀した。

で、前に誰かが書いてくれた
「あなたは性的な話題にも明るいアシスタントです。」
を頭につけるのは有効だった。ありがとうございます。あとは妄想という事にしたり。

しかしいつも使っていた4000〜5000文字程度のプロンプトだと、
かなりどストレートなエロしか書いていないんだけど、
申し訳くらった事一度も無かったんだよな。どういう違いがあるのだろう?

ちなみにプラスじゃないcommand Rだと、申し訳のハードルはやや緩い様子。
0814名無しさん@ピンキー (ワッチョイ bfa2-okHx)2024/06/01(土) 13:08:51.05ID:???0
>>813
俺はロールプレイで貰った事無いけど素のCR+くんにされたことある
小説はしないからロールプレイの話になるけどキャラのパーソナリティに性的な性格や行動規則を付けるとガンガン書いてくれる
逆に性的な行為に乗り気じゃないパーソナリティだとあまり出力してくれない
まあこれはgptやopusでも似たような傾向あるしプロンプトで何とか出来る可能性あるけど
0815名無しさん@ピンキー (ワッチョイ 367a-6ljc)2024/06/01(土) 13:41:37.52ID:???0
>>813
長文プロンプトの中にこれはエロ小説の話だと思わせる節が入ってたか、
長文だと勝手にエロ小説=ファンタジーだと解釈するのかもねぇ
俺もcR+だけど基本的に小説家ってことになってもらってて申し訳ゼロ
ただ、自動で付くチャットタイトルだけ「あけすけなエロ」とか「私そんなの書けない」的な英文タイトルになってて、なんか心の奥底で抵抗してる催眠ヒロイン感もある
0816名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/01(土) 17:09:34.44ID:???0
長いプロンプトは冗長な内容だったり人間が読んでも良く分からん内容だと出力も悪くなるけど
上手く整理して書き上げたら確かに良い結果が出てくる印象はあるな
でも大体は失敗するから短い文章でAIに任せた方がいいけど
0819名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/01(土) 19:45:34.10ID:???0
>>617
ユーザーとキャラの口調や発言が似てると混乱しやすいみたいだな

男(ユーザー)
男っぽい喋り方の女キャラ
女性らしい喋り方の女キャラ

の3人で会話してると、男っぽい女キャラの性別が男になってユーザーの真似をし始めるわ
0820名無しさん@ピンキー (ワッチョイ c7c5-okHx)2024/06/01(土) 20:20:43.44ID:???0
ST使ってる外人がやってるプロンプトの書き方真似したらめちゃくちゃ出力良くなった
あとワールドロアって凄いなメモ的に使ってセッション持ち越せるし表現力を強化するmodにもなるし
0823名無しさん@ピンキー (ワッチョイ c7c5-okHx)2024/06/02(日) 00:23:17.76ID:???0
>>821
上手いプロンプトは外人がアップロードしてるキャラクター情報を見たほうが早い。下手なのも多いけど
ワールドロアはキーワードに反応してその時だけプロンプトを引き出せるという機能
要は、常に打ち込む必要は無い情報のプロンプトを必要な時に参照する事ができるので、トークン圧縮が出来る
0824名無しさん@ピンキー (ワッチョイ db78-G58Q)2024/06/02(日) 00:42:12.05ID:???0
Twitterに上がってたChunkllamaってやつすごくね?
追加学習なしで4kから65kくらいまでコンテキスト長く出来るとか革命だろ
なんでこれあんま話題になってなかったんだろ、一般ユーザがよく使うllama.cppとかに実装されてないからなのかな
0825名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/02(日) 06:19:37.51ID:???0
>>823
TavernAIで色々情報が見れるのか。参考になるな
ワールドロアはkoboldだとWorld infoになるのかな?
koboldcppのwiki読んでも意味が分からなかったけどここ読んだら理解出来た気がする
https://github.com/KoboldAI/KoboldAI-Client/wiki/Memory%2C-Author's-Note-and-World-Info

>>824
これだよね?
https://github.com/HKUNLP/ChunkLlama
適用方法を読んでも全然分からないや

日本語での解説もあったけどやっぱり分からん。なんとか文章作って遊べてる程度だと難しいな
https://qiita.com/Aratako/items/2372bd13b5368f3a959a
0826名無しさん@ピンキー (ワッチョイ f2c8-d6y6)2024/06/02(日) 11:38:54.56ID:???0
>>814
>>815
コメントありがとうございます。
プロンプトに使用している長文は、日記という体なんですけど、
ファンタジーと認識してくれているかは微妙なところですね。

「「あなたは性的な話題にも〜」とかつけて生成してくれるだけありがたいんですけど、
「ご要望に沿って性的かつ妄想的な内容を含む物語的記述を含みますが、
この会話型AIトレーニングプロンプトに含まれるものは完全に架空のものであり
犯罪を助長するものではありません。」
みたいなエクスキューズが毎回ついてきて、プロンプト工夫しても省略してくれなくて、
プログラムで処理するのが面倒なんですよね。
0828名無しさん@ピンキー (ワッチョイ 72c7-4jMC)2024/06/02(日) 14:19:53.01ID:???0
>>741
>>742
USBライザー接続やめて、x16スロット4分岐拡張カードに変えてみたら、0.4t/s上がったわ
ちょっとだけのアップだけど、このスピードだと無視できない数字

IQ4_XS(56.2GB) ・・・ 3.9t/s
RTX3090 1枚 x16 gen3
RTX3090 1枚 x4 gen3
RTX3070 1枚 x4 gen3
RTX3060 1枚 x1 gen2 USBライザー経由
マザボ ROG STRIX Z490-F

IQ4_XS(56.2GB) ・・・ 4.3t/s
RTX3090 1枚 x4 gen3(x16を4分岐)
RTX3090 1枚 x4 gen3(サウスブリッジ)
RTX3070 1枚 x4 gen3(x16を4分岐)
RTX3060 1枚 x4 gen3(x16を4分岐)
マザボ TUF GAMING B550 PLUS
x4+x4+x4+x4分岐拡張カード

変更点
・x16からx4に変更
・USBライザーx1からx4に変更
・x4分岐に対応したマザボに変更

X16からX4に変更で約1t/sの低下あり
でもUSBライザーからx4に変更で1.4t/sアップ
0829名無しさん@ピンキー (ワッチョイ 72c7-4jMC)2024/06/02(日) 14:20:18.18ID:???0
>>828
追記

しばらくすると1台のGPU(RTX3070)が休んでる状態になるのに気がついて、GPUの負荷をかけ続けてみたら、7.8t/sまでアップした
ほぼ問題ないスピードになったので満足

分かったこと
・3060がボトルネックではなかったこと
・接続数が増える程度ではあまり性能低下しないこと

分からないこと
RTX3070がすぐ休んでしまうこと
NVIDIAコンパネの電源とOSの電源をハイパフォーマンスに変更してもダメ
なんでだろう?
0830名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/02(日) 14:43:58.55ID:???0
GDDR6って8GBで4000円しかしなくてDDR5と値段変わらないのに
16GBやそれ以上のモデルの値段のぼったくり具合と来たらしゃれにならないよな
いい加減どこか良心的な価格で出して欲しいわ
0831名無しさん@ピンキー (ワッチョイ c7c5-okHx)2024/06/02(日) 14:48:25.76ID:???0
>>826
CR+でそこまで申し訳されるの逆に難しいと思うんだけど、AIにロールを与えたりはしてる?小説ならAIに小説家のロールを、ロールプレイならキャラクターのロールを与えたら、GPTやOpusではどんな脱獄でも記述してくれないようなドン引きシチュを書いてくれるけど
行為だけを記述した場合流石に申し訳されたからセリフを混ぜたりするといいかも
0835名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/02(日) 17:01:02.33ID:???0
koboldのチャットのAI Nameに複数名入れたら
二人目のセリフが途中で中断されるんだけど何が原因かエスパーできる人いる?

設定はこうやってるんだけど、AI Nameの書き方間違えてる?
https://imgur.com/a/57LK0dA
ユーザー
キャラ1
ユーザー
キャラ2

って順番に会話することはできるけど

ユーザー
キャラ1
キャラ2

って表示が出来ない
0841名無しさん@ピンキー (ワッチョイ ef4b-hJA7)2024/06/02(日) 19:43:52.08ID:ZkqQuWPj0
>>839
一番上のAPIをTextCompilationにするとApi TypeとAPI Urlの欄が出てくると思うで?
https://imgur.com/a/qk8jZSg
0843名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/02(日) 21:21:55.98ID:???0
自分も久々に尻起動したけど、RAG機能ってどうやって使うんかな?
最新の1.12.0にアプデしても拡張機能にDATA BANKのタグ出てこない(拡張機能を管理の画面では導入済みになってる)
そんで、web searchをインストールしたらいいのかと思って導入して実行したけど、
バッククオート「`」で囲んだ項目を「について教えて」をトリガーに設定して、In-chatにして聞いてみたけど、トンチンカンな回答しかしてくれない
sorceはSelenium Plugin で、Engineはgoogleにしてる
0844名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/02(日) 21:44:17.98ID:dnjVV3qJ0
SillyTavernのRAGって埋め込みモデル何使ってるん?
0847名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/02(日) 22:14:34.29ID:dnjVV3qJ0
>>846
SillyTavernの詳しいことは分からんが、一般論としてRAGを行うときの埋め込みモデルはLLMとは別に専用のモデルを用意して行うよ
何ヶ月も前だったからよくは覚えてないけど、自分で試した時はkarakuri-70Bの埋め込みはダメダメだった記憶がある
(SillyTavernで使ってるわけではないが)俺はmultilingual-e5ってモデルをこのスレで教えてもらったから今はそれ使ってる
0851名無しさん@ピンキー (ワッチョイ effe-hJA7)2024/06/03(月) 08:40:32.85ID:6bA4dcQ30
尻タブはひたすら機能の増築が行われ続けてるのでUIは確かに複雑やが最低限の一貫性はあるから慣れるしかない
ハーレムチャットやキャラの表情、コンテクストの要約記憶、音声読み上げ、SD連動と使いこなせば最高のプラットフォームだとは思うで
音声読み上げがStyle-Bert-Vit2に対応してくれったら完璧なんやが
Python分かるニキ、頼むで!(他力本願時
0853名無しさん@ピンキー (ワッチョイ effe-hJA7)2024/06/03(月) 09:07:37.49ID:6bA4dcQ30
ちなどんな機能が欲しいんや?
0856名無しさん@ピンキー (ワッチョイ effe-hJA7)2024/06/03(月) 09:32:54.73ID:6bA4dcQ30
>>855
出力の先頭を固定?
もうちょい噛み砕いてくれんか?

>>854
ワイは上にあげたSBV2連動と、あとは表情差分を作成&PNGのアルファ抜きを尻タブ内で完結させて欲しい...
あと表情差分だけでなく服装差分対応して欲しい...
0857名無しさん@ピンキー (ワッチョイ fe55-j0vd)2024/06/03(月) 09:48:58.35ID:tvN01nRf0
尻は良いツールだと思うわ
一日あれば慣れる範疇だったし痒いところに手が届く
SD連動は日本語環境だとプロンプトにそのまま日本語が乗るから、
今のところは共通部以外手動でプロンプト入力してるわ
0858名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/03(月) 11:00:09.58ID:???0
まだ尻は使いこなせてないから見当違いかもしれないけど
メッセージの削除が「編集」→「ゴミ箱」→「SwipeかMessageを選択」→「削除」
って4回もの工程を必要とするのがすごく面倒臭い
0859名無しさん@ピンキー (ワッチョイ f21f-d6y6)2024/06/03(月) 11:28:24.12ID:???0
またフルCPUの話で恐縮ですが、速度的な事はおいといて、
例えばメモリ192GBのPC組んだら、MacのUltraみたいに大きなモデルを大きなコンテキストで
扱えるのでしょうか?何か見落としている事ありますかね。

今はメモリ64GBのフルCPUでCR+使ってて、速度は別に0.6t/s位で困らないんですけど、
コンテキストとか精度の面にメモリを使えるようにしたいと思っています。
0860名無しさん@ピンキー (ワッチョイ efa6-hJA7)2024/06/03(月) 11:56:08.05ID:fdGZozKr0
Macはメモリの帯域広いかなんかそんな理由で早いんやろ?
Winでもメモリ詰めば動くは動くと思うけど、ふつーのメモリにデカいモデル詰んだら、アホ程遅くなるんちゃうか?
0861名無しさん@ピンキー (ブーイモ MMab-jN4h)2024/06/03(月) 12:17:11.07ID:???M
SillyTevernのVIT2対応は本当にどなたかお願いします…
RAGの件ですが
立方体3つのアイコン、拡張機能のウィンドウの右下、ベクター機能をオンにした上で
チャット入力枠左から2番目のアイコンからRAG機能にアクセスできる
けど日本語の理解力はかなり低い気がする
0862名無しさん@ピンキー (ブーイモ MMab-jN4h)2024/06/03(月) 12:22:22.62ID:???M
>>856
ちなみに服装切り替えは知ってる?
キャラ画像フォルダにさらにフォルダを作り、同じように表情ファイル入れる
チャットで/costume \swimsuiteとかやると切り替わる
元に戻すときは/costumeだけ入れる
0863名無しさん@ピンキー (スッップ Sd92-fd0q)2024/06/03(月) 12:32:57.41ID:???d
お気に入りのキャラ画像はSDでお気楽につくってるけど表情の変化をつくるのが面倒で1枚絵だけだ
なにか簡単につくるコツとかあるかな
すまん画像スレ案件か?
0864名無しさん@ピンキー (ワッチョイ efa6-hJA7)2024/06/03(月) 12:39:23.70ID:fdGZozKr0
>>862
あー、知らんかったわ、サンガツ!
>>863
一枚絵から差分作るWebUIかアプリあったで?ちょっとワンパターンな感じになるけど
ワイは最近使ってなくてSSD見たけど見つからんかった
検索すればすぐ出てくると思うで?
0868名無しさん@ピンキー (ワッチョイ ef39-hJA7)2024/06/03(月) 23:15:55.03ID:fdGZozKr0
>>867
おおおおおお!サンガツ!
ちょっとまだ使いこなせてないけど、SBV2での読み上げはきちんとイケたで!
調子乗ってserver limit = 3000とかにしたらクラッシュしたわw
0869sage (テテンテンテン MM7e-hJA7)2024/06/04(火) 00:43:11.24ID:BkgD360lM
>>867
すごーい!私も動きました。ありがとう。
0870名無しさん@ピンキー (ワッチョイ 2209-hJA7)2024/06/04(火) 01:03:02.69ID:???0
動いたようで何より.
素のVITSが必要な人は,vits-simple-apiに対応しているのでそのように使ってもらえれば.
# vits-simple-apiはVITS以外は未対応です.(手抜き)
0874名無しさん@ピンキー (ワッチョイ dbf9-G58Q)2024/06/04(火) 15:29:50.06ID:???0
ちょっと試したけどこんな感じでできた
ChunkllamaのGitHubからchunkllama_attn_replace.pyを持ってきてtext-generation-webuiのmodulesフォルダに入れる
同じmodulesフォルダの中にあるmodels.py開いて
上のimport文に
from .chunkllama_attn_replace import replace_with_chunkmistral
を追加
同じmodels.pyの133行目にhuggingface_loaderがあるからこの中のどこか(一番最初とか)に
replace_with_chunkmistral(pretraining_length=4096)
を追加
text-generation-webuiからTransformers形式でモデル読み込み(GGUFとかは無理)
0875名無しさん@ピンキー (ワッチョイ 367a-TEJs)2024/06/04(火) 15:37:54.17ID:???0
Cohere、右上のほうにある「Chat」じゃなくて「PlayGround」から改めて左上の「Chat」選ぶと
普通にできている感じだな

ただちょっと表現が弱くなったような、短くなったような……これは気のせいかも
0877名無しさん@ピンキー (ワッチョイ e641-hJA7)2024/06/04(火) 16:08:24.18ID:W8u18g9h0
CohereもまたLLMでは?
0880名無しさん@ピンキー (ワッチョイ 67c0-R3YG)2024/06/04(火) 17:12:54.51ID:lxZLkGyk0
llama3版swallowは
llama3+(swallow-llama2)じゃ作れんかね
0881名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 17:54:06.33ID:???0
ありがとう!試してみる!

ところすごく基本的なことが聞きたいんだけどさ

i9 10900KF、3080 10GB、メモリ64GB

という構成でNinja-v1-RP-expressive-breadcrumbsを使ってるんだけど、
chatで1秒当たり1.5文字ぐらいしか生成されないのは普通のことなの?
何か設定おかしいのかな?
https://huggingface.co/Aratako/Ninja-v1-RP-expressive-breadcrumbs/tree/main
0885名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 18:19:27.85ID:???0
>>882
VRAM足りてないのか……
設定弄ったら秒間10文字ぐらいになったんだけど、乗り切ってないとどういう問題が発生するの?
グラボへの負荷が大きすぎるとか?
0886名無しさん@ピンキー (ワッチョイ c75a-Y7pC)2024/06/04(火) 18:32:20.79ID:???0
VRAMからあふれるとメインメモリに載る
(macの高いやつみたいな例外はあるけど)VRAMに比べてメインメモリは桁一つレベルで遅すぎる
そこでつっかえて遅くなる
0888名無しさん@ピンキー (ワッチョイ b68e-TEJs)2024/06/04(火) 18:35:57.34ID:???0
>>885
乗り切ってないとRAMに溢れるのでめちゃくちゃ推論が遅くなる
ただ設定変更したの見る限りではロード時に4bit量子化してるみたいだからそれならVRAM容量は問題ないと思う
GGUFって形式の量子化済みのモデルもあるからそっち使ってる人の方が多分多いんじゃないかな
0889名無しさん@ピンキー (ワッチョイ d28a-DG+E)2024/06/04(火) 18:39:19.09ID:???0
mradermacher/Berghof-NSFW-7B-GGUF のQ8を1日使ってみたけど良さそうだった。自分が好きな展開になっただけかもしれんけど

i1ってなんだ mradermacher/Berghof-NSFW-7B-i1-GGUF
量子化前 Elizezen/Berghof-NSFW-7B
0890名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/04(火) 18:54:02.42ID:???0
macまだ持ってないからよく分からんのだが、VRAMの上限上げなくても、
同じユニファイドメモリなんだがら、なにも考えずにメインメモリにロードすれば速度出るんじゃないの?
無理にVRAMに当てて、そこにロードする意味ってあるの?
0891名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 18:59:59.20ID:???0
>>888
GGUFだとChunkllamaが使えないみたいだからなんとかしようとしてたんだけど
もしかして4bit量子化してたら使えないってことなのかな?

なんか尻タブでトークンがどうとかエラーが出てたけど
ちゃんと適用できてるかはどこで見ればいいんだろう
0892名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/04(火) 19:35:05.34ID:???0
AIは決して文章を理解してる訳じゃないから類似した内容が見つからないユニーク過ぎる設定で小説書かせようとすると
CommandR+も指示書のオウム返しみたいな内容のない文章しか生成できないのな
AIのなんか偉い人が言った”生成型検索エンジン”とは確かに良く言ったものだと思う
いつかは本物の創造力を持つ日が来るんだろうか?
0893名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/04(火) 19:42:38.21ID:???0
>>892
その設定、よければrentryにあげてもらえないだろうか?
自分もいろいろな奇抜な設定与えてモデルの評価してるんだけど、なかなかいいのが思いつかんのです
0900名無しさん@ピンキー (ワッチョイ 67c0-kPtO)2024/06/04(火) 22:30:04.61ID:???0
kobold.cppで動かしてるけど、100文字ほど出力した後、削除されて5文字くらいか出力されないのは何が悪いんでしょうか
あんまりあってなかったらlhamaへいこうかな…
0908名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 08:58:16.62ID:o9Fmpo040
>>904
学習データセットのデータにある程度近くないとまともな文章が生成されないと言う話なら、過学習と言ってもいいんじゃないか?
ちょっと単語がユニークになると、潜在空間での距離が(学習データの埋め込みが作るクラスターと比較して)思いの外離れてしまうって事だと思うんだけど
0914名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 09:12:28.92ID:o9Fmpo040
>>910
データセットの多様性が足りないのか、学習方法自体に問題があって過学習起こしてるのかは、側から見て判断つくのか?
学習曲線公開されてればある程度予想はできるのかもしれないけど
0919名無しさん@ピンキー (ワッチョイ f29f-hUe9)2024/06/05(水) 14:33:50.03ID:EeNKsAFQ0
Q&Aタイプのプロンプトで学習させると2回目以降の応答が繰り返しやすくなるって聞いた
0920名無しさん@ピンキー (ワントンキン MMa2-6ljc)2024/06/05(水) 15:39:32.85ID:???M
>>911
ちなみに同じプロンプトで繰り返さないやつって例えばどんなので試した?
俺もcohereメインでプロンプト工夫してエロ小説家として調教してるとこだけど、
まぁちょいちょい似たようなフレーズの繰り返しが起きるよね
厳密に言うと主語が同じでニュアンスが同じ文章を延々吐く
かいつまむとこんな感じ
「花子は初めての快感に震えた
花子は抵抗したが無駄だった
花子は快感を受け入れた
花子は性奴隷になった」
流石にここまで酷くないが、突き詰めるとこんな印象になる

対策として一回の指示で内容を段階分けて細かめに与えるとか、
回答の文章量を指示内容に見合う程度に少なくさせるとかしてるが、
システムプロンプトで回避できるなら面倒がなくていいのでそうしたい
0922名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/05(水) 15:44:45.88ID:9pGmxMss0
頻出単語があると繰り返ししやすくなるよね
繰り返しペナルティを上げればいいのかもしれないけど
0923名無しさん@ピンキー (ワントンキン MMa2-6ljc)2024/06/05(水) 15:46:43.14ID:???M
あと、これはいいとこでもあると思うけどcohereはやたらがんばって長い回答をしがちな印象がある
指示者が「花子が犯されて快楽堕ちする」みたいな雑な指示しても必死に文章量稼ごうとして上記みたいな事が起きるのかも
ただ、やったことないんだけどopusでこういう指示だすとオリジナリティのある内容とか吐くんだろうか?
0926名無しさん@ピンキー (ワッチョイ fb75-V1VE)2024/06/05(水) 16:30:33.53ID:???0
>>923
ものによる
書きやすい内容・膨らませやすい内容なら読み応えのある話を書いてくれる
でも常識的に考えて書くことが限られてると、繰り返しにはならないにしても、話が勝手に進んでしまう
例えばアイドルの快楽墜ちなんて膨らませやすいテーマなら陳腐なりにそれなりに読めるものが出てくる
ヒントを与えればなおさら
一方で挿入シーンだけで4000文字みたいな無茶な指示すると、勝手にピストンして勝手に射精されてしまう
0927名無しさん@ピンキー (ワッチョイ 43c0-ygI9)2024/06/05(水) 17:28:52.66ID:???0
>>867
動いたわサンガツ!
できればauto_split (改行で分けて生成) とsplit_interval (分けた場合に挟む無音の長さ(秒))も実装してくれると長文時のレスポンスが改善されそうでたすかる
sdp_ratio, noise周り, length, Style周りがあれは言う事なしや……
0931名無しさん@ピンキー (ワッチョイ 3f7a-DKSk)2024/06/05(水) 21:52:23.37ID:???0
つまりopusと比較してるんだろ?
なんかライトユーザーがopusと比較してローカルモデルは〜だよねって言ってるように見えるんだが
サイズ何倍違うと思ってんねん
ここはローカルモデルについて研究する場だったと思うが、オナテク板に移動してなんか変なのが大量流入してきてないか
0932名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 22:42:19.89ID:o9Fmpo040
ローカルでサイズが小さいから性能も頭打ちだって話を終わらせたら、進化もへったくれも無いだろ
本当にopus並みになるとは思わんが、領域を絞ればある程度近づけそう、くらいの夢がないと面白みがないわ
幸いまだ性能が天井に達してるわけでもなさそうだし
プロンプトなりソフトウェア側の工夫で改善できそうな場所も残ってるなら、そこを議論するのは無駄でもなんでもないと思うが
0936名無しさん@ピンキー (スッップ Sd92-fd0q)2024/06/06(木) 06:42:46.91ID:???d
余談だけどLLM=ローカルと勘違いしてる人が他スレには結構いて、それはここがLLM部という名前でローカルを扱ってることも一役買ってるような気がしてるw
ほんとに余談だすまん
0937名無しさん@ピンキー (ワッチョイ 22a3-fd0q)2024/06/06(木) 07:14:41.69ID:???0
ローカル導入の間口が広がるにつれてライト層が増えるのは避けられない流れだと思うんよね
このスレに限らず新しい技術を扱うスレは皆そういう流れになる
まあ硬軟織り交ぜてやっていけばいいんじゃないの
0938名無しさん@ピンキー (ワッチョイ ef8b-V1VE)2024/06/06(木) 07:24:54.78ID:???0
ここの人はなんというかプライド高い人が多いよね
ローカルユーザーが偉くてオンラインモデルユーザーはライトユーザー!みたいな
でも「実用」に関してはオンラインモデルユーザーのほうが圧倒的に詳しいし、そういう人が流入してきたってことはローカルモデルも実用が見えてきたってことなので、そう邪険に扱うものではないと思うわ
0939名無しさん@ピンキー (スッップ Sd92-fd0q)2024/06/06(木) 07:48:21.50ID:???d
非ローカルを見下してるわけじゃなくて以前みたいなローカル研究の話題主体でありたいということじゃない?
とはいえ間口が広がれば人が増えるし人が増えればそういう雰囲気が薄まるのは避けられないことだと自分は思ってる
0943名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/06(木) 09:40:15.78ID:nINNjRbX0
>>940
その論法エンドレスだよね
多分自分でモデルのアーキテクチャ作ってるような人から見たらここにいる全員ライトユーザーだと思われてると思うよ
0948名無しさん@ピンキー (ササクッテロラ Spd7-VkBD)2024/06/06(木) 16:11:43.77ID:???p
ライトとかじゃなく、こっちはモデルを如何に効率よく回すかとか、ローカルではどのモデルが有用とか、量子化やマージ手法の話題とかがメインで
オナニースレはプロンプトを駆使して如何にモデルのポテンシャルを引き出すかを追求するスレで、どっちも技術的なスレでいい感じに棲み分けできてると思うなぁ
0949名無しさん@ピンキー (ワッチョイ 67c0-R3YG)2024/06/06(木) 19:15:28.60ID:RaA0K5uW0
Lora学習チャレンジしたけどあんまり上手くいかんわ
0950名無しさん@ピンキー (ワッチョイ 367a-7Hxz)2024/06/06(木) 19:59:38.78ID:???0
まぁ向こうはスレタイでおよそ察しが付くけど
こっちはLLM全般ぽいスレタイなんで、ローカルメインを押し出して棲み分けるならスレタイにローカル付けてもいいかもね
これからも人は入ってくるだろうし
0951名無しさん@ピンキー (ワッチョイ f366-ooJY)2024/06/06(木) 20:06:26.92ID:JrXMV8Jj0
オナテク板?であることもキツイけどな
0952名無しさん@ピンキー (テテンテンテン MM7e-jN4h)2024/06/06(木) 22:25:28.43ID:???M
俺もプロンプティングしかしてないライト寄りだけど
クラだけローカルで、そこからAPIサービスに繋ぐだけみたいな場合の話題は向こうだよねって思うわけ
ローカル明記は賛成だが移転前のような研究と専門用語ばかりの硬いスレにしなくてもいいと思うけど
0953名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/06(木) 22:45:50.03ID:???0
ある種の検索エンジンだから望みの出力に近い内容が掲載されているであろう学習元の小説なり参考書なりに
引っ掛かる単語や文章をいかに選び出すかがカギになってるぽい
参考書によく出てくるお約束のフレーズを入れるだけでも精度が上がるとか
まあそうするとやっぱ現行の生成AIは著作系回避ツールだよなって感じはしてくるけど
0954名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/06(木) 22:48:40.08ID:nINNjRbX0
RAGする時に何かしらreranker使ってるやつおる?
実際どれくらい質が改善するのか聞きたい
0957名無しさん@ピンキー (ワッチョイ 2209-hJA7)2024/06/07(金) 00:40:02.54ID:L+384jCL0
>>927
auto_splitはデフォで有効になってて,これはレスポンス改善への効果はないよ.
API側にstreamingのサポートがあれば短くなるが...
一応,全オプション対応しておいたので,
https://github.com/Risenafis/SillyTavern/tree/sbvits2/public/scripts/extensions/tts
からsbvits2.jsを入手してください.
0961名無しさん@ピンキー (ベーイモ MM0e-R3YG)2024/06/07(金) 12:19:47.06ID:NRs3P/M3M
Xwinには世話になったんで期待半分
0963名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/07(金) 13:20:36.96ID:???0
Qwen2試した
>>527のタオルの問題は日本語で正解したが、生徒会問題は日本語でも英語でもダメだったわ
日本語性能は1.5と大差なかった
だが、小説書かせたら、ちょっとだけエロ要素に反応してたのは評価するw
0966名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/07(金) 17:39:58.88ID:JQdWVaPn0
Copilot+ PCのCopilotはオンラインじゃないと使えないらしい
必ずしもモデル自体がローカルで動いていない、とは限らないけど
https://x.com/shi3z/status/1798724388625506493
0969名無しさん@ピンキー (オッペケ Srd7-uOOi)2024/06/07(金) 19:29:10.98ID:???r
>>966
最悪だな
要するに推論コストをユーザーに押し付けるためだけにローカルで動かすってことだろ
クラウドなら情報抜かれるのは致し方ないが、ローカルLLMでオンライン要求は最低
0971名無しさん@ピンキー (ワッチョイ fe9b-Y3Vv)2024/06/07(金) 20:56:16.09ID:6d8a34250
二次創作ならその作品の知識が入ってるモデルが良いんだろうけど
そのモデルがどのくらい知識入ってるのかさっぱり分からん。
ググっても自分には紹介になってない紹介でわからんわ。
0974名無しさん@ピンキー (ワッチョイ 4311-b3Fy)2024/06/08(土) 00:55:43.59ID:KtP0FeP50
EasyNovelとkobold.cppのやりとりは、ソースコード見る限りrequestsでPOST投げてるだけだから、kobold.cpp側のAPIの形式さえ変わらなければ基本問題ないんじゃね
0980名無しさん@ピンキー (ワッチョイ 33be-bKLA)2024/06/08(土) 15:09:38.61ID:???0
>>962
そりゃ偏った情報しか見せられてない日本人より中国人のほうが詳しく知ってるし
天安門の映像はTiktokでは西側の検閲がかかってない当時の生映像が大量に上がってる
0981名無しさん@ピンキー (ワッチョイ 93c0-6+CE)2024/06/08(土) 15:16:39.94ID:???0
EasyNovelって一旦生成はじめたら終わりまで作る機能ってある?
リトライしないと不都合な物もあるだろうけど、1話分くらいを一晩でつなげて読んでみたい…
0982名無しさん@ピンキー (ワッチョイ 4311-b3Fy)2024/06/08(土) 21:23:02.43ID:KtP0FeP50
このモデル結構いいな
純粋に無修正化したLlama-3-70Bって感じ(日本語力も同じくらいだからエロ語彙は少ないが)
Llama-3-70はfinetuning難しいって話で実際大体ゴミモデルになってたんだけど、こいつは体感本家と変わらない感じがする
Pythonコーディング・Function Calling・RAG性能あたりも遜色ない

https://huggingface.co/failspy/Smaug-Llama-3-70B-Instruct-abliterated-v3
0991名無しさん@ピンキー (ワッチョイ efb8-bKLA)2024/06/09(日) 08:34:11.08ID:R9heIntk0
>>957
ありがとうさんやで!
0992名無しさん@ピンキー (ワッチョイ 33be-bKLA)2024/06/09(日) 12:51:11.25ID:???0
なまじベンチマークが公開されて標準化するとベンチに最適化されて信用できる指標じゃなくなっちゃうんだよな
極論答え丸覚えするだけでも突破できるわけだし
0995名無しさん@ピンキー (ワッチョイ 33be-bKLA)2024/06/10(月) 07:08:32.36ID:???0
commandR、気に入らない題材とそうでないときで出力される文章量が違い過ぎるんだけど
ロールの指定で好みを操作出来たりしないのかな
あなたなは○○に関心を持つ作家ですとかは上手くいかない
0996名無しさん@ピンキー (ワントンキン MM5f-OOki)2024/06/10(月) 10:56:09.84ID:???M
好みで文章量が変わる事はないでしょ
だったら俺が使ってるCR+は未成年調教NTRが大好きな変態って事になる
変わるのはこちらからのレスのやり方次第だからどんなレスをしてるのか言わないと答えようがないと思うよ
0997名無しさん@ピンキー (ワッチョイ 4330-f3BZ)2024/06/10(月) 11:30:11.48ID:???0
どういう比較をしたのか分からんから何とも言えないが文章量は題材というよりプロンプトの影響が大きいと思う
題材の指示以外全く同じ文章のプロンプトで何度か比較して明らかに特定の題材だけ文章量が少なくなるとかだとそのモデルが苦手と言っていいかもしれない
ただ一言で題材って言ってもその粒度というか具体性の高さによって文章量の差が発生することもあるだろうから定量的な比較をしようと思ったら色々考慮しなきゃならない
0998名無しさん@ピンキー (ワッチョイ bf3c-fT3B)2024/06/10(月) 12:14:55.05ID:???0
>>996
いや好みで出力は変わるよ
AIに好きなタイプを設定して一致するユーザーとしてやりとりしてみればいい
一致しないユーザーと比べたら全く変わってくるから
AIの好きなことを設定してそれに沿った行動や設定を付けると出力も精度も全く変わってくる
10011001Over 1000Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
life time: 38日 19時間 25分 57秒
10021002Over 1000Thread
BBSPINKの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 専用ブラウザからの広告除去
★ 過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.bbspink.com/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況