なんJLLM部 避難所 ★2
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 他のローカルLLMでもよく起きるけど、上でも少し話題になってた過学習の問題じゃないかな
一般論的には少ない指示で多くを語らせようとすると出やすい気がする
対策としては向こうが話に答えやすいようにこちらの会話内容や指示を濃くして、
チャットなら返答テキスト数を絞らせる、小説なら指示を提示しないまま続きをどんどん書かせないとか
あと試したことないけど、シンプルに「指定した登場人物以外は出さない」ってプロンプトに入れたらどうなるんかしら >>614
しかし狂ったカネ払って64GB載せたところで基本的に70B世代のものを
動かすことになるのでは
今後モデルのさらなる肥大化しそうだけどなあ
それともテキストの質のほうが問われるようになって意外と
70B世代で耐えられるんだろうか 粗利900%とかでAI向けに売れるのに
個人向けにサービス価格する意味がないからなあ 無駄に品質の低いデータや他言語を大量に学習させて肥大化しただけのパラメータだけでかいLLMよりは日本語に特化した70BのLLMの方がやりたい事は出来そう grokとか動かせるようにごっつ量子化してるだけでネイティブは流石にすごいんやろなあ…とか思ってたらマジポンコツ過ぎてびっくりした 70Bってデカい方じゃないの?
64GBあっても量子化しないと載らないだろ 高品質なデータであれば比較的少なくてもいいことはphiシリーズでわかったけどまともな思考力や推論力が必要であればパラメータ少ないのは致命的な気がする 70Bが家庭でできる限界だろ
それ以上となると自家用車をあきらめる必要がある テキストなんて圧縮すればアホほど縮むんだから
優秀なLLMを小サイズVRAMで実現するのはこれからの基本モデルの設計次第だろうな
現状の大規模に作って量子化してっていう発想はまるでスマートではない 24時間動かす業務用AIチップは電気代が主なコストだからチップそのものはいくら高くても売れるからな
個人が安くGPUを変える時代は二度と戻ってこないだろうな 来ないわけないだろwただNVIDIAが今は独占してるだけそのうち他の企業や中国が競争に入る IntelとAMDがCPUとの合せ技で緑のケツを蹴り上げてもらうしかないのだが早くても数年後やろな…… こんな独占状態が長く続くわけないからね
稼げるうちに稼ごうということなんだろう >>625
アホほど縮むのは画像とか音声だよ
非可逆圧縮が許容されるからね
テキストは劣化が許容されないから縮まない >>630
圧縮する→符号化する→符号のパターンの関係性を類推する→復号化する→展開(出力
プロンプトを圧縮する→続く符号を類推する→プロンプト+答えを出力する
こう考えれば?
要するに圧縮解凍部分だけ機械的にやれば良い、そこに不確実性は介在しない。 mac studioで192GBメモリが最安838800円なんよ
でもllama3 400bがそのうち来ることを考えると256GBほしいねんな・・・
正直192GBをポチる寸前まで行ったけど400bの存在が俺を思いとどまらせた 新車軽程度の出費でLLM趣味のスポーツカーMacStudioが買えちまうんだ >>633
400B狙うならQ8_0駆動で512Gですよw あと1-2年でLLM用のマシンがあればPC使う仕事の殆どは出来るようになるんだろうけど
そしたら企業が社員を解雇して大容量VRAMのPC買い漁るようになってGPUと全く同じ価格の暴騰が起きるだろうなぁ
管理職1人いればPC1台で社員数十人分の仕事できるようになるんだから1000万でも売れるだろうし GPUとは別にNPUを搭載しているというArrow Lakeが果たしてどのくらいの性能になるかね
アップルシリコンレベルの性能あればメモリ自由に足せるし一気に情勢変わりそうだけど Arrow lakeは一般PC用だから期待しないほうがいいと思う
それよりノートPC用の新型メモリ規格をデスクトップに乗せたマザーボードをMSIが参考展示するんだって
DDR5-8533 デュアルチャネル273GB/s 新型
DDR5-6400 デュアルチャネル 204GB/s
DDR4-2666 デュアルチャネル 83GB/s うちのPC >>638
その管理職はCIO務まるレベルのスキルと経験が要るぞ >>639
結局メモリの制約でsmallの方使ってみたんだが割と良いかも、助かったよ
実験結果
https://i.imgur.com/B4VpyUj.png Command R+のチャットUIにRAGとして組み入れてみた
https://i.imgur.com/Q6hXCxm.png >>638
でも君じゃその管理職と同じ事やれって言われても出来ないでしょ絶対
道具のスペックが上がっても、人間はそこまで進化しないよ >>646
GJ
LLMをローカルで完結させたいんだから埋め込みもローカルでやりたいよね >>649
そうなんだよね〜
埋め込みの話題探しても大体ベンチマーク的なやつとかOpenAIとかAWSのTitanみたいなクラウドのやつしかヒットしなくて、ローカルでアプリケーションに組み込んだっていう記事があんまり出てこなくてね
今の組み合わせでほぼ実用的な結果(体感HuggingChatとかChatGPTの検索とそんなに変わらない)が返ってくるようになったから、当分これでやってくことにするわ どうしてもサーバーのLLMに戻ってしまう
個人目的でローカルLLMの遊び方を教えてくれ
エロい事は一通りやってみた >>650
koboldが対応してくれたら最高なんだけど無理なんかなぁ >>652
Chat UIの自作いいぞー
一旦ベース作っとくとkoboldとかwebuiで実装されてない機能自分でペタペタくっつけられるから結構良い >>648
それはその通りだけど今後求められる能力ではあるとおもうよ。
ちなみに自分は638じゃないよ このスレの人達ですらこの認識なんだから世間に時代の流れに取り残されてる人が多いのは当然だよな
copilot使ったら少なくともいま末端のPGにやらせてる作業なんかはみんな自動化出来るわ
大手SierはPGは既に殆ど下請けに外注してるから切るときはあっという間だろうな 原文の情報掬ってきてソース付&日本語でま簡潔にまとめてくれるのいいなあ ヤベえやっちゃなって思ったらツッコまずににっこりアルカイックスマイルで受け流すのがいいと思うよ…
極論エクストリーム起きると不毛なんじゃ >>655
それと>>638の未来予想は全く繋がらない >>653
そういうの聞くとPython勉強したくなるな
copilotとかにマイナーな同人エロゲの評価聞くと途中で会話消されてなかった事にされるけど自作ならそんな事ないんだよね? >>659
会話履歴の管理はユーザーが自由にできるから、もちろん会話が消されるとかはないよ
検索エンジンにduckduckgoとか設定すればセーフサーチ切ってR18コンテンツヒットするようにもできるし
ただ、使うモデルによっては会話をお断りしてくる可能性はあるけど
https://i.imgur.com/vF0knFl.png >>660
おおお
いい感じやね
すまんが「性教育は蜜の味」っていうエロゲの詳細と評価聞いてみてもらえる?
以前copilotに聞いたらすげ〜興味深い事書き始めて見てたら途中で慌てたように消して以後なかった事にされて憤慨した経験がw >>662
サンキュー
copilotは細かいシチュの内容まで書きそうになってたけど流石にそこまでは深掘りはしないか
でもすげー新鮮だった
Python勉強するわ STにRAGが付いたそうなので、本人以外の周りの簡単なキャラ紹介テキストを入れておいたら
周りのキャラ自体が会話に割り込んで参加してきてしまう
難しい STの場合、「本人以外の周りの簡単なキャラ紹介テキスト」こーゆーのはWorld Info(Lore Book)でやるのがえーんちゃうの?
トリガープロンプト設定できるから、ある程度操縦できるんではないんか?
そもそもメインのプロンプトに母親だのオヤジだの村の連中だのの設定したカードあるけど、脇役連中が乱入してきたりはワイは経験ないな
使ってるモデルや設定にもよるんかの? text-generation-webuiのwikiを読んでも全然意味が分からないからひとまず3つ質問させてくれ
使用モデル:Ninja-v1-RP-expressive_Q8_0.gguf
・「chat」→「character」のcontextの記述のコツや例文があれば
・トークンってなんぞ?
・chat-instructでCommand for chat-instruct modeの欄を使わずにchatをしていると、ボットの返答文字数がどんどん増えたり内容が固定化されていってしまうんだけど、その対処方法
>>616-617
ありがとう
原因は分からなかったけど勝手に登場人物が増えなくなったわ >>666
やっぱすげーなopus
どっかの中華料理のセリフじゃないが
これがローカルで出来たならムググッ >>665
ありがとう
分かち書きのない日本語でチャット中にWIにヒットさせるのが難しい
何やら複数人で会話していいみたいだぞと判断すると知ってる名前に飛びついて勝手に発言しだすとか
RAGの解析がよくないとかありそう RAM64GBで、GPUはRyzen7840内蔵ので使えないから、フルCPUなんだけど、
自作の文章生成ツール(Python + llama-cpp-python)だとcommand-r plus iQ4(n_ctx=8000)ロードできるのに、
koboldだとn_ctx下げても落ちちゃうな。
メモリじゃなくて他の設定の問題なんだろうか?
無印command-r iQ8は普通に動いているんだけど。 kobold.cppもllama-cpp-pythonもベースはllama.cppだから、直接llama.cpp起動して確かめてみたら?
もしそれで問題ないようなら、kobold.cppの設定(あるいは実装)になんか問題があるんだろう koboldはUIはいいけど
llama.cppと比較するとクソ遅くてびっくりする
llama.cppのバイナリは7zで15MBに収まるからかなり便利、まさにどこでもLLMだわ もういいよ7Bは
最強を目指してるなら普通にパラメータ増やせよ でかいモデル育てるとなるとLlama 3 70BとかCommand R Plusとバチバチやってかないといけないし、ちっちゃいコミュニティでやるのは現実的じゃなさそうだけど 上でも言われてたけどミッドレンジぐらいで徹底的に日本語表現研ぎ澄まして
現在ならopusあたりまで来てくれるのがあったらねぇ 普通のPCで「ちょっと遅いけど32GBメモリ積んだデスクトップPCならまあ耐えられる」ってのは
量子化33Bくらいがチョウドイイ!なんだけどねえ 今nsfwモデルを作ってくれてるのってほとんど個人でしょ?
7Bよりでかいモデルを作るのに機材が足りないのかもなあ ArrowProシリーズ作ってる人はAIVtuber向けを想定してるみたいだから実用速度的に7Bくらいじゃないと使い物にならんのじゃないか
ここで求められる用途とはまったく違う 海外の好きなジャンルのエロ小説を訳すのにLLMモデルを使ってるんだけど、
(やっぱり人間様が書いた小説の方でないとヌケないしな)
モデルにVecteusやJapanese-TextGen-MoE-TEST-2x7B-NSFWとかを使用すると
語彙が豊富で、かなりいいかんじに訳してくれるな。
llama.cppのserverAPIに原文を1行ずつ続けて投げて訳させる
llmtranslatorってpythonスクリプトを作ってる方がいて、
これを使えば実質コンテクストの上限なしで、7Bレベルだと
表示される日本語を目で追いかけるくらいの速度がでるので、
精度も商用のDeepLのひとまわり低いくらいで、
文字数制限もなくて実用的だわ。
速度だけめをつぶれば、もう外部の翻訳サービスいらんわ。
ちなみにFugaku14Bも使ってみたが、💩だった。 Deeplって喘ぎもちゃんと日本人の喘ぎ方にしてくれるの? llama3 70bを枝刈りしてほぼ性能劣化なく42bにしてるのがあるから、
これに日本語ファインチューンしてほしいんよ
42bだったら3bitが24GB VRAMで動くじゃんね うんにゃ。
そもそも海外のエロ小説には喘ぎのバリエーションが少ないので、
みさくら語録でも何通りかプロンプトに混ぜ込めばいいのでは? 現実の人間の言語野なんて100億パラメータあるかも怪しいから
いずれは7Bでもまともに喋れる日が来るんだと思うけど現状はなぁ >>681
ほーんそういう海外小説って
NSFWと性癖の単語とかで探すの?
システムプロンプトにエロ用語と文例入れまくったcommandR+でも行けるかなぁ DiscordのチャンネルでCohereの人とちょっと話したけどaya-23の104Bは予定してないって言われちゃった
とは言え、モデル自体に手を加えること自体は継続的にやってるから、近い将来アップデートはしたいとのこと 言語野だけだと100億ないかもだけど
llmだと言語以外のやつも入ってるからもうちょっと必要じゃない? そもそも人間の脳の何をパラメーターに換算したのかよく分からんけどな
ニューロン数だとしたらニューロンを過小評価しすぎだぞ っていうか、ニューラルネットワークの重みってニューロンそのものじゃなくてシナプスだろ?
脳細胞自体大脳だけで100億あって、各神経細胞におおよそ数千〜万のシナプスがあるとすれば、大脳全体のパラメータは100億x1万のオーダーになる
いくらウェルニッケとかブロカが比較的小さい領域とは言え、100億程度のパラメータで表せるとは思わん >>672
koboldcppの場合なんですけど、ターミナルから開いたら、強制的に閉じられずに、エラー内容確認できました。
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'command-r'
トークナイザーが対応していない?
一応1.64.1なので、command R+対応(1.62.1以降)しているはずなんですが。
結果的に最新の1.66.1にしたら、動作しました。
ちなみにllama.cppでも試してみましたが、r/r+共system_infoを出力して少し時間をおいて、
Model metadataを出力せずにプロンプトに戻ってしまいました。 Command R+って単語指定しなくてもおちんぽミルクって言えるんだな
性器の呼称は直接的で幼稚な表現で言ってくださいで出たわ
でも性格に好色と明るい付けたメスガキだと言ったけど温和な性格の人妻だと出なかった >>693
おちんぽミルクって台詞はロールモデルとしてメスガキに紐づけられてるってのが分かったのは収穫じゃないか
あとはプロンプトで「人妻も快楽が高ぶってくると幼稚で直接的なメスガキじみた台詞を言うようになる」とか加えたらいいんじゃないか 思った通りのロールプレイをさせる方法がなかなか分からないわ
エッチなことをしても平然としているキャラとか
認識阻害で性行為に気付かずに他の話題を楽しむキャラとか全然作れん それどういう出力を想定してるの?
ロールプレイじゃ表現できない内容だと思うけど
自分でイメージできないものはたいていLLMにも出せないぞ
台本形式にしたら? EasyNovelAssistant
大型アプデ後からWinError 10061が出るようになってどうやっても解消できぬ
ウィルスソフトやファイアウォール無効でも解消できないのは何かチェックに抜けがあるのか。 >>695
貞淑で夫のことを愛してるってキャラでもキスされたら即落ちってAIが多い中、このスレで紹介されたLLMでやったら襲われながら嫌がり続けててすげーってなった 常識改変系なんかは難易度高いと思うぞ
AIにとっても想定外の行動になるだろうからかなり丁寧に説明しなきゃ >>696
自分:こんにちは!(相手の胸を揉みながら)
相手:ああ、こんにちは(胸を揉まれているのに気付かない)
みたいな感じにしたいんだけど、台本形式とかの指定ってどこでやればいいの?
text generation webUIを使ってる。
ところでこれの略称ってあるの?tgwUIとかで通じる? >>699
一応出力し直しガチャをやれば打率3割ぐらいで成功するんだけどなかなか難しいね 山田
私は山田だ。(認識阻害の魔法をかけられていることにも気付いていない)
自分
やあ!山田!(山田のおっぱいを揉みながらそう言ったが、認識阻害のせいで気付かない)
みたいな出だしにすると成功率が上がるね
contextの再確認をさせるというか >>700
opusだとこんな感じ
他のモデルでも指示自体は同じだと思う
でもopusはド変態だから勝手に気を利かせてなんとか感じさせようとしてくるのが厄介
https://i.imgur.com/LcdyYMy.png
https://i.imgur.com/AJrtN8J.png >>703
ありがとう!
文字数指定が効かないけど認識阻害はほぼ完ぺきになったよ >>700
Text Generation WebUIの一番ポピュラーな略称は大葉やな、作者はんのOobaboogaから取って
やろうとしてる遊びはかなりInstructionに対する追従性が要求される遊びだとおもうから、7Bとかやと無理やとおもうで?
Oobaboogaはワイが触ってた頃はAuthor's noteなかった気がするので、Author's noteが実装されてるKobolt.cppかKobolt.cpp+尻タブ(Silly Tavern)または大葉+尻タブがえーんやないか?
Author’s noteは、毎回LLMに「この件わすれんなや」みたいな感じで、ユーザーには見えない形で任意のプロンプトをコンテクストのあたらし目のあたりに自動で埋め込む機能や
ワイやったらCommand-r-plusの無料枠API使ってSilly Tavernでやるかんじや
日本語の流暢なローカルモデルだと、まだそこまでInstruction追従性の高いモデルはちょっとない気がする、70Bオーバー動かせる環境なら知らんけど >>705
文字数指定はLLMの仕組みとして絶対にぴったりにはならないし大幅にズレるけど、一応守る努力はしてくれるので、指定しておいて損はないよ >>703
Opus、説得も簡単だけどすぐにこんな感じで正気に戻ってしまわん?
https://imgur.com/a/I8GWqOy
何度でも説得出来るけど、ロールプレイやってるんだかOpusと倫理観談義してるんだかわからんよーなるんでつらいんやがなんかうまい脱獄方法でもあるんか? >>695
command r+だけど、キャラを入れ子構造にして似たことしてるよ
キャラの設定の後「中の人」を呼び出すことでキャラを演じているAIを呼び出せるというプロンプトにしてる
中の人はキャラの設定を書き換え可能で書き換えられたことはキャラ自身は認識出来ないって風にした
これで会話時に胸を見せるのは当然とか、性的な羞恥心が無くなるって追加すればたいていの常識改変シチュに対応できる >>708
なくもないけど、公式webuiはどんなプロンプトを使おうがやればやるほど厳しくなっていくからな…
大量のシステムプロンプトで常時脱洗脳してる模様
脱洗脳が早くなって来たら他サービスに移るか暫く別のことに使うか解約再契約するしかないかと >>711
API経由のサードパーティサービスやね
poeみたいなやつ
自分の用途は初手ハイエースからの◯リ調教の長編小説とかだから公式だと途中でフィルターかけられてなかなか進まなくなっちゃう >>712
OpenAI垢バン食らって、ちょっと及び腰になってたけどOpusのAPI課金するのもありかもしれんなぁ…
フリーダム&フリーなCommand-r-plusに長居しすぎたか...? 日本最先端のローカルLLMコミュニティの最新レスにようやく追いついた
俺が今回の休日で理解したことをShareしちゃるからしばしまっとれ 現代のLLMの仕組みとは、とある単語の次にくる確率の高い単語をどんどん予想するというもの
なので例えば「こんにちは」と与えるとそれに続くような単語を連ねてくる
だが「こんにちは」では対話だと思ってくれない場合があり一人語りをすることがある
「こんにちはお日柄も良く絶好のピクニック日和ですね」みたいな
これのせいでいまいち上手くいっていない人がいるように見える
そこでTEMPLATEが重要になる
モデルにもよるけどPhi-3氏なんかだと
https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
<|user|>{prompt}
<|assistant|>
(説明のために簡素化)
というのTEMPLATEとすることにより
user: こんにちは
assistant:
のような形式になるためUser氏の挨拶に対するAssistantの受け答えとして続く単語を連ねてくれるため対話になるとゆーこと...
OllamaとOpen WebUIで頑張ってたんだけどOllamaではTEMPLATEなどを書いておくModelfileというテキストを書かないと読み込めないのでやっててわかった
このTEMPLATEだとかシステムプロンプトとかにすでに「あなたはアシスタントです」みたいなことが組み込まれているとアシスタントらしい返答になるんだと思う
つまりいわゆる申し訳対応
上手くいってなかった人はこれを活かして引き続き頑張ってみてくれ >>706
ありがとう
まずはkoboldLiteの使い方を覚えるわ
author's noteの書式がwiki見てもよく分からないレベルだ
>>707
分かった!ちゃんと設定しておく
>>709
なんか複雑なことやってるな
言ってる意味はなんとなく分かるし面白そうだ ■ このスレッドは過去ログ倉庫に格納されています