なんJLLM部 避難所 ★2
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ 63c0-joKd)2024/05/02(木) 18:27:25.10ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0610名無しさん@ピンキー (ワッチョイ 0fc1-6Sbe)2024/05/25(土) 08:12:56.76ID:qfdtDSst0
ぶっちゃけNVIDIAが一番儲けているだろ
0611名無しさん@ピンキー (ワッチョイ 7bf6-Jmvz)2024/05/25(土) 08:20:45.78ID:???0
>>601
私の場合個人でちょこちょこやってるだけなので大量のデータを
埋め込みモデルで処理する必要がなくてopenaiのかlangchainに組み込まれてる
ものしか使ったことはありません。あまり参考にならなくてすみません
ローカルでRAGは一度試したのですが、たぶんマシンのスペックが低すぎて
うまくいきませんでした。ツイッターに以前ローカルRAGのライブラリが
流れてきたこともありましたが、その時点ではまだ使えるような
ものではなかったと記憶してます
0613名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/25(土) 09:32:13.61ID:WCIGalib0
>>611
なるほど、ありがとう
ローカル埋め込みモデルも少し前までのテキスト生成と同様にあまり日本語モデルはいいのがなさそうな感じなんですよね
Cohereもembeddingとかrerankerはクローズにしてるみたいだし
なんかLLMもローカルでやってるんだから埋め込みもローカルだろうっていう欲があって、かなり微妙なんだよなぁ
0616名無しさん@ピンキー (ワッチョイ 7be4-RkIm)2024/05/25(土) 11:09:55.81ID:???0
>>615
俺の手元では起きてないな
プロンプトテンプレートが合ってないとか量子化しすぎとかじゃね?
それかコンテキストサイズが大きすぎるとか(多分4kまで)
0617名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/25(土) 11:26:59.32ID:???0
他のローカルLLMでもよく起きるけど、上でも少し話題になってた過学習の問題じゃないかな
一般論的には少ない指示で多くを語らせようとすると出やすい気がする
対策としては向こうが話に答えやすいようにこちらの会話内容や指示を濃くして、
チャットなら返答テキスト数を絞らせる、小説なら指示を提示しないまま続きをどんどん書かせないとか

あと試したことないけど、シンプルに「指定した登場人物以外は出さない」ってプロンプトに入れたらどうなるんかしら
0618名無しさん@ピンキー (ワッチョイ 0f7a-9MTD)2024/05/25(土) 12:02:56.21ID:???0
>>614
しかし狂ったカネ払って64GB載せたところで基本的に70B世代のものを
動かすことになるのでは

今後モデルのさらなる肥大化しそうだけどなあ
それともテキストの質のほうが問われるようになって意外と
70B世代で耐えられるんだろうか
0620名無しさん@ピンキー (ワッチョイ 1f6a-3HYy)2024/05/25(土) 12:26:16.62ID:???0
無駄に品質の低いデータや他言語を大量に学習させて肥大化しただけのパラメータだけでかいLLMよりは日本語に特化した70BのLLMの方がやりたい事は出来そう
0623名無しさん@ピンキー (ワッチョイ 5b6a-5xDZ)2024/05/25(土) 15:14:51.89ID:???0
高品質なデータであれば比較的少なくてもいいことはphiシリーズでわかったけどまともな思考力や推論力が必要であればパラメータ少ないのは致命的な気がする
0625名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/25(土) 20:34:54.20ID:???0
テキストなんて圧縮すればアホほど縮むんだから
優秀なLLMを小サイズVRAMで実現するのはこれからの基本モデルの設計次第だろうな

現状の大規模に作って量子化してっていう発想はまるでスマートではない
0626名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/25(土) 20:39:04.46ID:???0
24時間動かす業務用AIチップは電気代が主なコストだからチップそのものはいくら高くても売れるからな
個人が安くGPUを変える時代は二度と戻ってこないだろうな
0627名無しさん@ピンキー (ベーイモ MM7f-o1lj)2024/05/25(土) 21:04:23.88ID:3IXYmgL8M
来ないわけないだろwただNVIDIAが今は独占してるだけそのうち他の企業や中国が競争に入る
0631名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/25(土) 22:19:17.79ID:???0
>>630
圧縮する→符号化する→符号のパターンの関係性を類推する→復号化する→展開(出力
プロンプトを圧縮する→続く符号を類推する→プロンプト+答えを出力する

こう考えれば?
要するに圧縮解凍部分だけ機械的にやれば良い、そこに不確実性は介在しない。
0632名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/25(土) 22:27:37.56ID:fUnTp8CH0
トークナイザー講座が始まる
0633名無しさん@ピンキー (ワッチョイ 6b74-spP1)2024/05/25(土) 22:29:53.46ID:???0
mac studioで192GBメモリが最安838800円なんよ
でもllama3 400bがそのうち来ることを考えると256GBほしいねんな・・・
正直192GBをポチる寸前まで行ったけど400bの存在が俺を思いとどまらせた
0634名無しさん@ピンキー (ワッチョイ 1feb-o1lj)2024/05/25(土) 22:35:42.90ID:fGLNXdN/0
copilot +pcはいかがかね
0635名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/25(土) 22:40:12.25ID:WCIGalib0
>64GB出たら買いたい
0638名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/26(日) 01:30:09.52ID:???0
あと1-2年でLLM用のマシンがあればPC使う仕事の殆どは出来るようになるんだろうけど
そしたら企業が社員を解雇して大容量VRAMのPC買い漁るようになってGPUと全く同じ価格の暴騰が起きるだろうなぁ
管理職1人いればPC1台で社員数十人分の仕事できるようになるんだから1000万でも売れるだろうし
0641名無しさん@ピンキー (ワッチョイ 6b74-spP1)2024/05/26(日) 08:03:47.27ID:???0
GPUとは別にNPUを搭載しているというArrow Lakeが果たしてどのくらいの性能になるかね
アップルシリコンレベルの性能あればメモリ自由に足せるし一気に情勢変わりそうだけど
0642名無しさん@ピンキー (ワッチョイ 9f46-fWNP)2024/05/26(日) 08:34:39.61ID:???0
Arrow lakeは一般PC用だから期待しないほうがいいと思う
それよりノートPC用の新型メモリ規格をデスクトップに乗せたマザーボードをMSIが参考展示するんだって

DDR5-8533 デュアルチャネル273GB/s 新型
DDR5-6400 デュアルチャネル 204GB/s
DDR4-2666 デュアルチャネル 83GB/s うちのPC
0644名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 09:51:18.21ID:H1VaGscc0
>>639
悪くないかもしれん
試してみるよ
0646名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 12:11:57.98ID:H1VaGscc0
>>639
結局メモリの制約でsmallの方使ってみたんだが割と良いかも、助かったよ

実験結果
https://i.imgur.com/B4VpyUj.png
0647名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 12:42:23.61ID:H1VaGscc0
Command R+のチャットUIにRAGとして組み入れてみた
https://i.imgur.com/Q6hXCxm.png
0650名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 15:30:11.43ID:H1VaGscc0
>>649
そうなんだよね〜
埋め込みの話題探しても大体ベンチマーク的なやつとかOpenAIとかAWSのTitanみたいなクラウドのやつしかヒットしなくて、ローカルでアプリケーションに組み込んだっていう記事があんまり出てこなくてね

今の組み合わせでほぼ実用的な結果(体感HuggingChatとかChatGPTの検索とそんなに変わらない)が返ってくるようになったから、当分これでやってくことにするわ
0653名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 15:47:49.22ID:H1VaGscc0
>>652
Chat UIの自作いいぞー
一旦ベース作っとくとkoboldとかwebuiで実装されてない機能自分でペタペタくっつけられるから結構良い
0655名無しさん@ピンキー (ワッチョイ abbe-mtxu)2024/05/26(日) 16:00:10.12ID:???0
このスレの人達ですらこの認識なんだから世間に時代の流れに取り残されてる人が多いのは当然だよな
copilot使ったら少なくともいま末端のPGにやらせてる作業なんかはみんな自動化出来るわ
大手SierはPGは既に殆ど下請けに外注してるから切るときはあっという間だろうな
0659名無しさん@ピンキー (ワッチョイ 0f90-l8Oh)2024/05/26(日) 16:15:41.82ID:???0
>>653
そういうの聞くとPython勉強したくなるな
copilotとかにマイナーな同人エロゲの評価聞くと途中で会話消されてなかった事にされるけど自作ならそんな事ないんだよね?
0660名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/26(日) 16:33:31.36ID:H1VaGscc0
>>659
会話履歴の管理はユーザーが自由にできるから、もちろん会話が消されるとかはないよ
検索エンジンにduckduckgoとか設定すればセーフサーチ切ってR18コンテンツヒットするようにもできるし
ただ、使うモデルによっては会話をお断りしてくる可能性はあるけど
https://i.imgur.com/vF0knFl.png
0661名無しさん@ピンキー (ササクッテロラ Sp2f-l8Oh)2024/05/26(日) 17:13:45.35ID:???p
>>660
おおお
いい感じやね
すまんが「性教育は蜜の味」っていうエロゲの詳細と評価聞いてみてもらえる?
以前copilotに聞いたらすげ〜興味深い事書き始めて見てたら途中で慌てたように消して以後なかった事にされて憤慨した経験がw
0665名無しさん@ピンキー (ワッチョイ efcf-mtxu)2024/05/26(日) 18:39:20.60ID:nUsE4oe20
STの場合、「本人以外の周りの簡単なキャラ紹介テキスト」こーゆーのはWorld Info(Lore Book)でやるのがえーんちゃうの?
トリガープロンプト設定できるから、ある程度操縦できるんではないんか?

そもそもメインのプロンプトに母親だのオヤジだの村の連中だのの設定したカードあるけど、脇役連中が乱入してきたりはワイは経験ないな
使ってるモデルや設定にもよるんかの?
0667名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/26(日) 20:01:39.78ID:???0
text-generation-webuiのwikiを読んでも全然意味が分からないからひとまず3つ質問させてくれ
使用モデル:Ninja-v1-RP-expressive_Q8_0.gguf

・「chat」→「character」のcontextの記述のコツや例文があれば
・トークンってなんぞ?
・chat-instructでCommand for chat-instruct modeの欄を使わずにchatをしていると、ボットの返答文字数がどんどん増えたり内容が固定化されていってしまうんだけど、その対処方法

>>616-617
ありがとう
原因は分からなかったけど勝手に登場人物が増えなくなったわ
0669名無しさん@ピンキー (テテンテンテン MM7f-kROv)2024/05/27(月) 02:08:15.02ID:???M
>>665
ありがとう
分かち書きのない日本語でチャット中にWIにヒットさせるのが難しい
何やら複数人で会話していいみたいだぞと判断すると知ってる名前に飛びついて勝手に発言しだすとか
RAGの解析がよくないとかありそう
0670名無しさん@ピンキー (ワッチョイ 1fcc-3KJc)2024/05/27(月) 08:33:15.47ID:???0
RAM64GBで、GPUはRyzen7840内蔵ので使えないから、フルCPUなんだけど、
自作の文章生成ツール(Python + llama-cpp-python)だとcommand-r plus iQ4(n_ctx=8000)ロードできるのに、
koboldだとn_ctx下げても落ちちゃうな。
メモリじゃなくて他の設定の問題なんだろうか?
無印command-r iQ8は普通に動いているんだけど。
0671名無しさん@ピンキー (ワッチョイ 1fcb-o1lj)2024/05/27(月) 11:52:58.99ID:wecsAk9R0
他のソフトで試せばわかるだろう
0672名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 12:01:03.22ID:5/zjuufz0
kobold.cppもllama-cpp-pythonもベースはllama.cppだから、直接llama.cpp起動して確かめてみたら?
もしそれで問題ないようなら、kobold.cppの設定(あるいは実装)になんか問題があるんだろう
0676名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 13:31:45.77ID:5/zjuufz0
でかいモデル育てるとなるとLlama 3 70BとかCommand R Plusとバチバチやってかないといけないし、ちっちゃいコミュニティでやるのは現実的じゃなさそうだけど
0678名無しさん@ピンキー (ワッチョイ 0f7a-9MTD)2024/05/27(月) 14:34:56.77ID:???0
普通のPCで「ちょっと遅いけど32GBメモリ積んだデスクトップPCならまあ耐えられる」ってのは
量子化33Bくらいがチョウドイイ!なんだけどねえ
0680名無しさん@ピンキー (ワッチョイ 0f8e-9MTD)2024/05/27(月) 15:01:52.54ID:???0
ArrowProシリーズ作ってる人はAIVtuber向けを想定してるみたいだから実用速度的に7Bくらいじゃないと使い物にならんのじゃないか
ここで求められる用途とはまったく違う
0681名無しさん@ピンキー (ワッチョイ 5b74-9SQg)2024/05/27(月) 15:55:18.43ID:h336ldSK0
海外の好きなジャンルのエロ小説を訳すのにLLMモデルを使ってるんだけど、
(やっぱり人間様が書いた小説の方でないとヌケないしな)
モデルにVecteusやJapanese-TextGen-MoE-TEST-2x7B-NSFWとかを使用すると
語彙が豊富で、かなりいいかんじに訳してくれるな。

llama.cppのserverAPIに原文を1行ずつ続けて投げて訳させる
llmtranslatorってpythonスクリプトを作ってる方がいて、
これを使えば実質コンテクストの上限なしで、7Bレベルだと
表示される日本語を目で追いかけるくらいの速度がでるので、
精度も商用のDeepLのひとまわり低いくらいで、
文字数制限もなくて実用的だわ。
速度だけめをつぶれば、もう外部の翻訳サービスいらんわ。

ちなみにFugaku14Bも使ってみたが、💩だった。
0683名無しさん@ピンキー (ワッチョイ 6b74-spP1)2024/05/27(月) 17:02:21.40ID:???0
llama3 70bを枝刈りしてほぼ性能劣化なく42bにしてるのがあるから、
これに日本語ファインチューンしてほしいんよ

42bだったら3bitが24GB VRAMで動くじゃんね
0684名無しさん@ピンキー (ワッチョイ 5b74-9SQg)2024/05/27(月) 17:03:12.96ID:h336ldSK0
うんにゃ。
そもそも海外のエロ小説には喘ぎのバリエーションが少ないので、
みさくら語録でも何通りかプロンプトに混ぜ込めばいいのでは?
0687名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 18:00:49.97ID:5/zjuufz0
DiscordのチャンネルでCohereの人とちょっと話したけどaya-23の104Bは予定してないって言われちゃった
とは言え、モデル自体に手を加えること自体は継続的にやってるから、近い将来アップデートはしたいとのこと
0690名無しさん@ピンキー (ワッチョイ 9b11-JU9y)2024/05/27(月) 20:22:13.14ID:5/zjuufz0
っていうか、ニューラルネットワークの重みってニューロンそのものじゃなくてシナプスだろ?
脳細胞自体大脳だけで100億あって、各神経細胞におおよそ数千〜万のシナプスがあるとすれば、大脳全体のパラメータは100億x1万のオーダーになる
いくらウェルニッケとかブロカが比較的小さい領域とは言え、100億程度のパラメータで表せるとは思わん
0691名無しさん@ピンキー (オッペケ Sr2f-3KJc)2024/05/27(月) 21:57:55.35ID:HXjacMIyr
>>672
koboldcppの場合なんですけど、ターミナルから開いたら、強制的に閉じられずに、エラー内容確認できました。
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'command-r'
トークナイザーが対応していない?
一応1.64.1なので、command R+対応(1.62.1以降)しているはずなんですが。
結果的に最新の1.66.1にしたら、動作しました。

ちなみにllama.cppでも試してみましたが、r/r+共system_infoを出力して少し時間をおいて、
Model metadataを出力せずにプロンプトに戻ってしまいました。
0693名無しさん@ピンキー (アウアウウー Sa6f-3HYy)2024/05/27(月) 23:15:15.49ID:???a
Command R+って単語指定しなくてもおちんぽミルクって言えるんだな
性器の呼称は直接的で幼稚な表現で言ってくださいで出たわ
でも性格に好色と明るい付けたメスガキだと言ったけど温和な性格の人妻だと出なかった
0694名無しさん@ピンキー (ワッチョイ 0f7a-Jvcz)2024/05/27(月) 23:43:04.60ID:???0
>>693
おちんぽミルクって台詞はロールモデルとしてメスガキに紐づけられてるってのが分かったのは収穫じゃないか
あとはプロンプトで「人妻も快楽が高ぶってくると幼稚で直接的なメスガキじみた台詞を言うようになる」とか加えたらいいんじゃないか
0695名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 06:52:31.43ID:???0
思った通りのロールプレイをさせる方法がなかなか分からないわ
エッチなことをしても平然としているキャラとか
認識阻害で性行為に気付かずに他の話題を楽しむキャラとか全然作れん
0696名無しさん@ピンキー (ワッチョイ eb1e-vbsa)2024/05/28(火) 07:24:36.80ID:???0
それどういう出力を想定してるの?
ロールプレイじゃ表現できない内容だと思うけど
自分でイメージできないものはたいていLLMにも出せないぞ
台本形式にしたら?
0697名無しさん@ピンキー (ワッチョイ ef2b-F0E3)2024/05/28(火) 07:28:36.93ID:r8ifGgqN0
EasyNovelAssistant
大型アプデ後からWinError 10061が出るようになってどうやっても解消できぬ
ウィルスソフトやファイアウォール無効でも解消できないのは何かチェックに抜けがあるのか。
0698名無しさん@ピンキー (ワッチョイ 9fb9-fWNP)2024/05/28(火) 07:43:19.77ID:???0
>>695
貞淑で夫のことを愛してるってキャラでもキスされたら即落ちってAIが多い中、このスレで紹介されたLLMでやったら襲われながら嫌がり続けててすげーってなった
0700名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 07:59:50.33ID:???0
>>696
自分:こんにちは!(相手の胸を揉みながら)
相手:ああ、こんにちは(胸を揉まれているのに気付かない)

みたいな感じにしたいんだけど、台本形式とかの指定ってどこでやればいいの?
text generation webUIを使ってる。
ところでこれの略称ってあるの?tgwUIとかで通じる?
0702名無しさん@ピンキー (ワッチョイ 0b32-Z5+T)2024/05/28(火) 09:02:03.68ID:???0
山田
私は山田だ。(認識阻害の魔法をかけられていることにも気付いていない)

自分
やあ!山田!(山田のおっぱいを揉みながらそう言ったが、認識阻害のせいで気付かない)


みたいな出だしにすると成功率が上がるね
contextの再確認をさせるというか
0704名無しさん@ピンキー (ワッチョイ 4bc0-4tcW)2024/05/28(火) 09:31:34.69ID:YglKEttr0
なんでそれが不正解なのかワイも理解できなかった
0706名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 09:58:39.69ID:/U9RGIsG0
>>700
Text Generation WebUIの一番ポピュラーな略称は大葉やな、作者はんのOobaboogaから取って
やろうとしてる遊びはかなりInstructionに対する追従性が要求される遊びだとおもうから、7Bとかやと無理やとおもうで?
Oobaboogaはワイが触ってた頃はAuthor's noteなかった気がするので、Author's noteが実装されてるKobolt.cppかKobolt.cpp+尻タブ(Silly Tavern)または大葉+尻タブがえーんやないか?
Author’s noteは、毎回LLMに「この件わすれんなや」みたいな感じで、ユーザーには見えない形で任意のプロンプトをコンテクストのあたらし目のあたりに自動で埋め込む機能や
ワイやったらCommand-r-plusの無料枠API使ってSilly Tavernでやるかんじや
日本語の流暢なローカルモデルだと、まだそこまでInstruction追従性の高いモデルはちょっとない気がする、70Bオーバー動かせる環境なら知らんけど
0708名無しさん@ピンキー (ワッチョイ 1fd3-mtxu)2024/05/28(火) 10:10:43.95ID:/U9RGIsG0
>>703
Opus、説得も簡単だけどすぐにこんな感じで正気に戻ってしまわん?
https://imgur.com/a/I8GWqOy

何度でも説得出来るけど、ロールプレイやってるんだかOpusと倫理観談義してるんだかわからんよーなるんでつらいんやがなんかうまい脱獄方法でもあるんか?
0709名無しさん@ピンキー (ワッチョイ 1f77-Mesy)2024/05/28(火) 10:18:50.29ID:???0
>>695
command r+だけど、キャラを入れ子構造にして似たことしてるよ
キャラの設定の後「中の人」を呼び出すことでキャラを演じているAIを呼び出せるというプロンプトにしてる
中の人はキャラの設定を書き換え可能で書き換えられたことはキャラ自身は認識出来ないって風にした

これで会話時に胸を見せるのは当然とか、性的な羞恥心が無くなるって追加すればたいていの常識改変シチュに対応できる
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況