なんJLLM部 避難所 ★2
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 高性能モデルには高品質で大量のデータが必要なのは音声も絵もそうだしな 前から5090は32GBになるんじゃないかって噂は出てたけど
また似たようなリークが出てきててだんだん確度が上がってきた
https://gazlog.jp/entry/geforcertx5090-gddr7-layout/
値段もやばそうだけど
32GB x 2で動かせば結構いろんな構成で動かせそうではある この価格帯なら当分はmac studioで凌ぐしかないか、という感じだわ
2枚64GBで80万は厳しすぎる
はよコンシューマー向けのVRAMもりもりカード来てくれ いやー80万じゃ済まないと思う
よくて2枚90万かと 少しさわった態度だけど、Ninjaのエロ能力素晴らしいな! 年末あたりから出てくるLunar Lake/Arrow Lakeに期待してる
NPUとGPUの合計が100TOPS超えでインテル初のオンパッケージメモリ搭載
Macの牙城を崩してほしい
ひとまずLunar Lakeは16GBのと32GBのが用意されてるらしいけど64GB以上の製品が出てほしいところ Nvidiaは独占を盾に営業利益率9割なんて狂った商売してるからな
RTX5090も卸価格30万としたら実際の製造コストは2〜3万円でしょ
えげつないわマジで >>601
私の場合個人でちょこちょこやってるだけなので大量のデータを
埋め込みモデルで処理する必要がなくてopenaiのかlangchainに組み込まれてる
ものしか使ったことはありません。あまり参考にならなくてすみません
ローカルでRAGは一度試したのですが、たぶんマシンのスペックが低すぎて
うまくいきませんでした。ツイッターに以前ローカルRAGのライブラリが
流れてきたこともありましたが、その時点ではまだ使えるような
ものではなかったと記憶してます >>611
なるほど、ありがとう
ローカル埋め込みモデルも少し前までのテキスト生成と同様にあまり日本語モデルはいいのがなさそうな感じなんですよね
Cohereもembeddingとかrerankerはクローズにしてるみたいだし
なんかLLMもローカルでやってるんだから埋め込みもローカルだろうっていう欲があって、かなり微妙なんだよなぁ 5090でGDDR7を採用してメモリ速度が倍ぐらいになるかもって話だから、このスレ的には買いかもよ
まあ円安もあるし値段次第だけど Aratako/Ninja-v1-RP-expressiveとかでエロチャをさせてると勝手に登場人物が増えるんだけど
こういうのってどうやって登場させないようにするの? >>615
俺の手元では起きてないな
プロンプトテンプレートが合ってないとか量子化しすぎとかじゃね?
それかコンテキストサイズが大きすぎるとか(多分4kまで) 他のローカルLLMでもよく起きるけど、上でも少し話題になってた過学習の問題じゃないかな
一般論的には少ない指示で多くを語らせようとすると出やすい気がする
対策としては向こうが話に答えやすいようにこちらの会話内容や指示を濃くして、
チャットなら返答テキスト数を絞らせる、小説なら指示を提示しないまま続きをどんどん書かせないとか
あと試したことないけど、シンプルに「指定した登場人物以外は出さない」ってプロンプトに入れたらどうなるんかしら >>614
しかし狂ったカネ払って64GB載せたところで基本的に70B世代のものを
動かすことになるのでは
今後モデルのさらなる肥大化しそうだけどなあ
それともテキストの質のほうが問われるようになって意外と
70B世代で耐えられるんだろうか 粗利900%とかでAI向けに売れるのに
個人向けにサービス価格する意味がないからなあ 無駄に品質の低いデータや他言語を大量に学習させて肥大化しただけのパラメータだけでかいLLMよりは日本語に特化した70BのLLMの方がやりたい事は出来そう grokとか動かせるようにごっつ量子化してるだけでネイティブは流石にすごいんやろなあ…とか思ってたらマジポンコツ過ぎてびっくりした 70Bってデカい方じゃないの?
64GBあっても量子化しないと載らないだろ 高品質なデータであれば比較的少なくてもいいことはphiシリーズでわかったけどまともな思考力や推論力が必要であればパラメータ少ないのは致命的な気がする 70Bが家庭でできる限界だろ
それ以上となると自家用車をあきらめる必要がある テキストなんて圧縮すればアホほど縮むんだから
優秀なLLMを小サイズVRAMで実現するのはこれからの基本モデルの設計次第だろうな
現状の大規模に作って量子化してっていう発想はまるでスマートではない 24時間動かす業務用AIチップは電気代が主なコストだからチップそのものはいくら高くても売れるからな
個人が安くGPUを変える時代は二度と戻ってこないだろうな 来ないわけないだろwただNVIDIAが今は独占してるだけそのうち他の企業や中国が競争に入る IntelとAMDがCPUとの合せ技で緑のケツを蹴り上げてもらうしかないのだが早くても数年後やろな…… こんな独占状態が長く続くわけないからね
稼げるうちに稼ごうということなんだろう >>625
アホほど縮むのは画像とか音声だよ
非可逆圧縮が許容されるからね
テキストは劣化が許容されないから縮まない >>630
圧縮する→符号化する→符号のパターンの関係性を類推する→復号化する→展開(出力
プロンプトを圧縮する→続く符号を類推する→プロンプト+答えを出力する
こう考えれば?
要するに圧縮解凍部分だけ機械的にやれば良い、そこに不確実性は介在しない。 mac studioで192GBメモリが最安838800円なんよ
でもllama3 400bがそのうち来ることを考えると256GBほしいねんな・・・
正直192GBをポチる寸前まで行ったけど400bの存在が俺を思いとどまらせた 新車軽程度の出費でLLM趣味のスポーツカーMacStudioが買えちまうんだ >>633
400B狙うならQ8_0駆動で512Gですよw あと1-2年でLLM用のマシンがあればPC使う仕事の殆どは出来るようになるんだろうけど
そしたら企業が社員を解雇して大容量VRAMのPC買い漁るようになってGPUと全く同じ価格の暴騰が起きるだろうなぁ
管理職1人いればPC1台で社員数十人分の仕事できるようになるんだから1000万でも売れるだろうし GPUとは別にNPUを搭載しているというArrow Lakeが果たしてどのくらいの性能になるかね
アップルシリコンレベルの性能あればメモリ自由に足せるし一気に情勢変わりそうだけど Arrow lakeは一般PC用だから期待しないほうがいいと思う
それよりノートPC用の新型メモリ規格をデスクトップに乗せたマザーボードをMSIが参考展示するんだって
DDR5-8533 デュアルチャネル273GB/s 新型
DDR5-6400 デュアルチャネル 204GB/s
DDR4-2666 デュアルチャネル 83GB/s うちのPC >>638
その管理職はCIO務まるレベルのスキルと経験が要るぞ >>639
結局メモリの制約でsmallの方使ってみたんだが割と良いかも、助かったよ
実験結果
https://i.imgur.com/B4VpyUj.png Command R+のチャットUIにRAGとして組み入れてみた
https://i.imgur.com/Q6hXCxm.png >>638
でも君じゃその管理職と同じ事やれって言われても出来ないでしょ絶対
道具のスペックが上がっても、人間はそこまで進化しないよ >>646
GJ
LLMをローカルで完結させたいんだから埋め込みもローカルでやりたいよね >>649
そうなんだよね〜
埋め込みの話題探しても大体ベンチマーク的なやつとかOpenAIとかAWSのTitanみたいなクラウドのやつしかヒットしなくて、ローカルでアプリケーションに組み込んだっていう記事があんまり出てこなくてね
今の組み合わせでほぼ実用的な結果(体感HuggingChatとかChatGPTの検索とそんなに変わらない)が返ってくるようになったから、当分これでやってくことにするわ どうしてもサーバーのLLMに戻ってしまう
個人目的でローカルLLMの遊び方を教えてくれ
エロい事は一通りやってみた >>650
koboldが対応してくれたら最高なんだけど無理なんかなぁ >>652
Chat UIの自作いいぞー
一旦ベース作っとくとkoboldとかwebuiで実装されてない機能自分でペタペタくっつけられるから結構良い >>648
それはその通りだけど今後求められる能力ではあるとおもうよ。
ちなみに自分は638じゃないよ このスレの人達ですらこの認識なんだから世間に時代の流れに取り残されてる人が多いのは当然だよな
copilot使ったら少なくともいま末端のPGにやらせてる作業なんかはみんな自動化出来るわ
大手SierはPGは既に殆ど下請けに外注してるから切るときはあっという間だろうな 原文の情報掬ってきてソース付&日本語でま簡潔にまとめてくれるのいいなあ ヤベえやっちゃなって思ったらツッコまずににっこりアルカイックスマイルで受け流すのがいいと思うよ…
極論エクストリーム起きると不毛なんじゃ >>655
それと>>638の未来予想は全く繋がらない >>653
そういうの聞くとPython勉強したくなるな
copilotとかにマイナーな同人エロゲの評価聞くと途中で会話消されてなかった事にされるけど自作ならそんな事ないんだよね? >>659
会話履歴の管理はユーザーが自由にできるから、もちろん会話が消されるとかはないよ
検索エンジンにduckduckgoとか設定すればセーフサーチ切ってR18コンテンツヒットするようにもできるし
ただ、使うモデルによっては会話をお断りしてくる可能性はあるけど
https://i.imgur.com/vF0knFl.png >>660
おおお
いい感じやね
すまんが「性教育は蜜の味」っていうエロゲの詳細と評価聞いてみてもらえる?
以前copilotに聞いたらすげ〜興味深い事書き始めて見てたら途中で慌てたように消して以後なかった事にされて憤慨した経験がw >>662
サンキュー
copilotは細かいシチュの内容まで書きそうになってたけど流石にそこまでは深掘りはしないか
でもすげー新鮮だった
Python勉強するわ STにRAGが付いたそうなので、本人以外の周りの簡単なキャラ紹介テキストを入れておいたら
周りのキャラ自体が会話に割り込んで参加してきてしまう
難しい STの場合、「本人以外の周りの簡単なキャラ紹介テキスト」こーゆーのはWorld Info(Lore Book)でやるのがえーんちゃうの?
トリガープロンプト設定できるから、ある程度操縦できるんではないんか?
そもそもメインのプロンプトに母親だのオヤジだの村の連中だのの設定したカードあるけど、脇役連中が乱入してきたりはワイは経験ないな
使ってるモデルや設定にもよるんかの? text-generation-webuiのwikiを読んでも全然意味が分からないからひとまず3つ質問させてくれ
使用モデル:Ninja-v1-RP-expressive_Q8_0.gguf
・「chat」→「character」のcontextの記述のコツや例文があれば
・トークンってなんぞ?
・chat-instructでCommand for chat-instruct modeの欄を使わずにchatをしていると、ボットの返答文字数がどんどん増えたり内容が固定化されていってしまうんだけど、その対処方法
>>616-617
ありがとう
原因は分からなかったけど勝手に登場人物が増えなくなったわ >>666
やっぱすげーなopus
どっかの中華料理のセリフじゃないが
これがローカルで出来たならムググッ >>665
ありがとう
分かち書きのない日本語でチャット中にWIにヒットさせるのが難しい
何やら複数人で会話していいみたいだぞと判断すると知ってる名前に飛びついて勝手に発言しだすとか
RAGの解析がよくないとかありそう RAM64GBで、GPUはRyzen7840内蔵ので使えないから、フルCPUなんだけど、
自作の文章生成ツール(Python + llama-cpp-python)だとcommand-r plus iQ4(n_ctx=8000)ロードできるのに、
koboldだとn_ctx下げても落ちちゃうな。
メモリじゃなくて他の設定の問題なんだろうか?
無印command-r iQ8は普通に動いているんだけど。 kobold.cppもllama-cpp-pythonもベースはllama.cppだから、直接llama.cpp起動して確かめてみたら?
もしそれで問題ないようなら、kobold.cppの設定(あるいは実装)になんか問題があるんだろう koboldはUIはいいけど
llama.cppと比較するとクソ遅くてびっくりする
llama.cppのバイナリは7zで15MBに収まるからかなり便利、まさにどこでもLLMだわ もういいよ7Bは
最強を目指してるなら普通にパラメータ増やせよ でかいモデル育てるとなるとLlama 3 70BとかCommand R Plusとバチバチやってかないといけないし、ちっちゃいコミュニティでやるのは現実的じゃなさそうだけど 上でも言われてたけどミッドレンジぐらいで徹底的に日本語表現研ぎ澄まして
現在ならopusあたりまで来てくれるのがあったらねぇ 普通のPCで「ちょっと遅いけど32GBメモリ積んだデスクトップPCならまあ耐えられる」ってのは
量子化33Bくらいがチョウドイイ!なんだけどねえ 今nsfwモデルを作ってくれてるのってほとんど個人でしょ?
7Bよりでかいモデルを作るのに機材が足りないのかもなあ ArrowProシリーズ作ってる人はAIVtuber向けを想定してるみたいだから実用速度的に7Bくらいじゃないと使い物にならんのじゃないか
ここで求められる用途とはまったく違う 海外の好きなジャンルのエロ小説を訳すのにLLMモデルを使ってるんだけど、
(やっぱり人間様が書いた小説の方でないとヌケないしな)
モデルにVecteusやJapanese-TextGen-MoE-TEST-2x7B-NSFWとかを使用すると
語彙が豊富で、かなりいいかんじに訳してくれるな。
llama.cppのserverAPIに原文を1行ずつ続けて投げて訳させる
llmtranslatorってpythonスクリプトを作ってる方がいて、
これを使えば実質コンテクストの上限なしで、7Bレベルだと
表示される日本語を目で追いかけるくらいの速度がでるので、
精度も商用のDeepLのひとまわり低いくらいで、
文字数制限もなくて実用的だわ。
速度だけめをつぶれば、もう外部の翻訳サービスいらんわ。
ちなみにFugaku14Bも使ってみたが、💩だった。 Deeplって喘ぎもちゃんと日本人の喘ぎ方にしてくれるの? llama3 70bを枝刈りしてほぼ性能劣化なく42bにしてるのがあるから、
これに日本語ファインチューンしてほしいんよ
42bだったら3bitが24GB VRAMで動くじゃんね うんにゃ。
そもそも海外のエロ小説には喘ぎのバリエーションが少ないので、
みさくら語録でも何通りかプロンプトに混ぜ込めばいいのでは? 現実の人間の言語野なんて100億パラメータあるかも怪しいから
いずれは7Bでもまともに喋れる日が来るんだと思うけど現状はなぁ >>681
ほーんそういう海外小説って
NSFWと性癖の単語とかで探すの?
システムプロンプトにエロ用語と文例入れまくったcommandR+でも行けるかなぁ DiscordのチャンネルでCohereの人とちょっと話したけどaya-23の104Bは予定してないって言われちゃった
とは言え、モデル自体に手を加えること自体は継続的にやってるから、近い将来アップデートはしたいとのこと 言語野だけだと100億ないかもだけど
llmだと言語以外のやつも入ってるからもうちょっと必要じゃない? そもそも人間の脳の何をパラメーターに換算したのかよく分からんけどな
ニューロン数だとしたらニューロンを過小評価しすぎだぞ っていうか、ニューラルネットワークの重みってニューロンそのものじゃなくてシナプスだろ?
脳細胞自体大脳だけで100億あって、各神経細胞におおよそ数千〜万のシナプスがあるとすれば、大脳全体のパラメータは100億x1万のオーダーになる
いくらウェルニッケとかブロカが比較的小さい領域とは言え、100億程度のパラメータで表せるとは思わん >>672
koboldcppの場合なんですけど、ターミナルから開いたら、強制的に閉じられずに、エラー内容確認できました。
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'command-r'
トークナイザーが対応していない?
一応1.64.1なので、command R+対応(1.62.1以降)しているはずなんですが。
結果的に最新の1.66.1にしたら、動作しました。
ちなみにllama.cppでも試してみましたが、r/r+共system_infoを出力して少し時間をおいて、
Model metadataを出力せずにプロンプトに戻ってしまいました。 Command R+って単語指定しなくてもおちんぽミルクって言えるんだな
性器の呼称は直接的で幼稚な表現で言ってくださいで出たわ
でも性格に好色と明るい付けたメスガキだと言ったけど温和な性格の人妻だと出なかった >>693
おちんぽミルクって台詞はロールモデルとしてメスガキに紐づけられてるってのが分かったのは収穫じゃないか
あとはプロンプトで「人妻も快楽が高ぶってくると幼稚で直接的なメスガキじみた台詞を言うようになる」とか加えたらいいんじゃないか 思った通りのロールプレイをさせる方法がなかなか分からないわ
エッチなことをしても平然としているキャラとか
認識阻害で性行為に気付かずに他の話題を楽しむキャラとか全然作れん それどういう出力を想定してるの?
ロールプレイじゃ表現できない内容だと思うけど
自分でイメージできないものはたいていLLMにも出せないぞ
台本形式にしたら? EasyNovelAssistant
大型アプデ後からWinError 10061が出るようになってどうやっても解消できぬ
ウィルスソフトやファイアウォール無効でも解消できないのは何かチェックに抜けがあるのか。 >>695
貞淑で夫のことを愛してるってキャラでもキスされたら即落ちってAIが多い中、このスレで紹介されたLLMでやったら襲われながら嫌がり続けててすげーってなった 常識改変系なんかは難易度高いと思うぞ
AIにとっても想定外の行動になるだろうからかなり丁寧に説明しなきゃ >>696
自分:こんにちは!(相手の胸を揉みながら)
相手:ああ、こんにちは(胸を揉まれているのに気付かない)
みたいな感じにしたいんだけど、台本形式とかの指定ってどこでやればいいの?
text generation webUIを使ってる。
ところでこれの略称ってあるの?tgwUIとかで通じる? >>699
一応出力し直しガチャをやれば打率3割ぐらいで成功するんだけどなかなか難しいね ■ このスレッドは過去ログ倉庫に格納されています