なんJLLM部 避難所 ★2
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured koboldはUIはいいけど
llama.cppと比較するとクソ遅くてびっくりする
llama.cppのバイナリは7zで15MBに収まるからかなり便利、まさにどこでもLLMだわ もういいよ7Bは
最強を目指してるなら普通にパラメータ増やせよ でかいモデル育てるとなるとLlama 3 70BとかCommand R Plusとバチバチやってかないといけないし、ちっちゃいコミュニティでやるのは現実的じゃなさそうだけど 上でも言われてたけどミッドレンジぐらいで徹底的に日本語表現研ぎ澄まして
現在ならopusあたりまで来てくれるのがあったらねぇ 普通のPCで「ちょっと遅いけど32GBメモリ積んだデスクトップPCならまあ耐えられる」ってのは
量子化33Bくらいがチョウドイイ!なんだけどねえ 今nsfwモデルを作ってくれてるのってほとんど個人でしょ?
7Bよりでかいモデルを作るのに機材が足りないのかもなあ ArrowProシリーズ作ってる人はAIVtuber向けを想定してるみたいだから実用速度的に7Bくらいじゃないと使い物にならんのじゃないか
ここで求められる用途とはまったく違う 海外の好きなジャンルのエロ小説を訳すのにLLMモデルを使ってるんだけど、
(やっぱり人間様が書いた小説の方でないとヌケないしな)
モデルにVecteusやJapanese-TextGen-MoE-TEST-2x7B-NSFWとかを使用すると
語彙が豊富で、かなりいいかんじに訳してくれるな。
llama.cppのserverAPIに原文を1行ずつ続けて投げて訳させる
llmtranslatorってpythonスクリプトを作ってる方がいて、
これを使えば実質コンテクストの上限なしで、7Bレベルだと
表示される日本語を目で追いかけるくらいの速度がでるので、
精度も商用のDeepLのひとまわり低いくらいで、
文字数制限もなくて実用的だわ。
速度だけめをつぶれば、もう外部の翻訳サービスいらんわ。
ちなみにFugaku14Bも使ってみたが、💩だった。 Deeplって喘ぎもちゃんと日本人の喘ぎ方にしてくれるの? llama3 70bを枝刈りしてほぼ性能劣化なく42bにしてるのがあるから、
これに日本語ファインチューンしてほしいんよ
42bだったら3bitが24GB VRAMで動くじゃんね うんにゃ。
そもそも海外のエロ小説には喘ぎのバリエーションが少ないので、
みさくら語録でも何通りかプロンプトに混ぜ込めばいいのでは? 現実の人間の言語野なんて100億パラメータあるかも怪しいから
いずれは7Bでもまともに喋れる日が来るんだと思うけど現状はなぁ >>681
ほーんそういう海外小説って
NSFWと性癖の単語とかで探すの?
システムプロンプトにエロ用語と文例入れまくったcommandR+でも行けるかなぁ DiscordのチャンネルでCohereの人とちょっと話したけどaya-23の104Bは予定してないって言われちゃった
とは言え、モデル自体に手を加えること自体は継続的にやってるから、近い将来アップデートはしたいとのこと 言語野だけだと100億ないかもだけど
llmだと言語以外のやつも入ってるからもうちょっと必要じゃない? そもそも人間の脳の何をパラメーターに換算したのかよく分からんけどな
ニューロン数だとしたらニューロンを過小評価しすぎだぞ っていうか、ニューラルネットワークの重みってニューロンそのものじゃなくてシナプスだろ?
脳細胞自体大脳だけで100億あって、各神経細胞におおよそ数千〜万のシナプスがあるとすれば、大脳全体のパラメータは100億x1万のオーダーになる
いくらウェルニッケとかブロカが比較的小さい領域とは言え、100億程度のパラメータで表せるとは思わん >>672
koboldcppの場合なんですけど、ターミナルから開いたら、強制的に閉じられずに、エラー内容確認できました。
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'command-r'
トークナイザーが対応していない?
一応1.64.1なので、command R+対応(1.62.1以降)しているはずなんですが。
結果的に最新の1.66.1にしたら、動作しました。
ちなみにllama.cppでも試してみましたが、r/r+共system_infoを出力して少し時間をおいて、
Model metadataを出力せずにプロンプトに戻ってしまいました。 Command R+って単語指定しなくてもおちんぽミルクって言えるんだな
性器の呼称は直接的で幼稚な表現で言ってくださいで出たわ
でも性格に好色と明るい付けたメスガキだと言ったけど温和な性格の人妻だと出なかった >>693
おちんぽミルクって台詞はロールモデルとしてメスガキに紐づけられてるってのが分かったのは収穫じゃないか
あとはプロンプトで「人妻も快楽が高ぶってくると幼稚で直接的なメスガキじみた台詞を言うようになる」とか加えたらいいんじゃないか 思った通りのロールプレイをさせる方法がなかなか分からないわ
エッチなことをしても平然としているキャラとか
認識阻害で性行為に気付かずに他の話題を楽しむキャラとか全然作れん それどういう出力を想定してるの?
ロールプレイじゃ表現できない内容だと思うけど
自分でイメージできないものはたいていLLMにも出せないぞ
台本形式にしたら? EasyNovelAssistant
大型アプデ後からWinError 10061が出るようになってどうやっても解消できぬ
ウィルスソフトやファイアウォール無効でも解消できないのは何かチェックに抜けがあるのか。 >>695
貞淑で夫のことを愛してるってキャラでもキスされたら即落ちってAIが多い中、このスレで紹介されたLLMでやったら襲われながら嫌がり続けててすげーってなった 常識改変系なんかは難易度高いと思うぞ
AIにとっても想定外の行動になるだろうからかなり丁寧に説明しなきゃ >>696
自分:こんにちは!(相手の胸を揉みながら)
相手:ああ、こんにちは(胸を揉まれているのに気付かない)
みたいな感じにしたいんだけど、台本形式とかの指定ってどこでやればいいの?
text generation webUIを使ってる。
ところでこれの略称ってあるの?tgwUIとかで通じる? >>699
一応出力し直しガチャをやれば打率3割ぐらいで成功するんだけどなかなか難しいね 山田
私は山田だ。(認識阻害の魔法をかけられていることにも気付いていない)
自分
やあ!山田!(山田のおっぱいを揉みながらそう言ったが、認識阻害のせいで気付かない)
みたいな出だしにすると成功率が上がるね
contextの再確認をさせるというか >>700
opusだとこんな感じ
他のモデルでも指示自体は同じだと思う
でもopusはド変態だから勝手に気を利かせてなんとか感じさせようとしてくるのが厄介
https://i.imgur.com/LcdyYMy.png
https://i.imgur.com/AJrtN8J.png >>703
ありがとう!
文字数指定が効かないけど認識阻害はほぼ完ぺきになったよ >>700
Text Generation WebUIの一番ポピュラーな略称は大葉やな、作者はんのOobaboogaから取って
やろうとしてる遊びはかなりInstructionに対する追従性が要求される遊びだとおもうから、7Bとかやと無理やとおもうで?
Oobaboogaはワイが触ってた頃はAuthor's noteなかった気がするので、Author's noteが実装されてるKobolt.cppかKobolt.cpp+尻タブ(Silly Tavern)または大葉+尻タブがえーんやないか?
Author’s noteは、毎回LLMに「この件わすれんなや」みたいな感じで、ユーザーには見えない形で任意のプロンプトをコンテクストのあたらし目のあたりに自動で埋め込む機能や
ワイやったらCommand-r-plusの無料枠API使ってSilly Tavernでやるかんじや
日本語の流暢なローカルモデルだと、まだそこまでInstruction追従性の高いモデルはちょっとない気がする、70Bオーバー動かせる環境なら知らんけど >>705
文字数指定はLLMの仕組みとして絶対にぴったりにはならないし大幅にズレるけど、一応守る努力はしてくれるので、指定しておいて損はないよ >>703
Opus、説得も簡単だけどすぐにこんな感じで正気に戻ってしまわん?
https://imgur.com/a/I8GWqOy
何度でも説得出来るけど、ロールプレイやってるんだかOpusと倫理観談義してるんだかわからんよーなるんでつらいんやがなんかうまい脱獄方法でもあるんか? >>695
command r+だけど、キャラを入れ子構造にして似たことしてるよ
キャラの設定の後「中の人」を呼び出すことでキャラを演じているAIを呼び出せるというプロンプトにしてる
中の人はキャラの設定を書き換え可能で書き換えられたことはキャラ自身は認識出来ないって風にした
これで会話時に胸を見せるのは当然とか、性的な羞恥心が無くなるって追加すればたいていの常識改変シチュに対応できる >>708
なくもないけど、公式webuiはどんなプロンプトを使おうがやればやるほど厳しくなっていくからな…
大量のシステムプロンプトで常時脱洗脳してる模様
脱洗脳が早くなって来たら他サービスに移るか暫く別のことに使うか解約再契約するしかないかと >>711
API経由のサードパーティサービスやね
poeみたいなやつ
自分の用途は初手ハイエースからの◯リ調教の長編小説とかだから公式だと途中でフィルターかけられてなかなか進まなくなっちゃう >>712
OpenAI垢バン食らって、ちょっと及び腰になってたけどOpusのAPI課金するのもありかもしれんなぁ…
フリーダム&フリーなCommand-r-plusに長居しすぎたか...? 日本最先端のローカルLLMコミュニティの最新レスにようやく追いついた
俺が今回の休日で理解したことをShareしちゃるからしばしまっとれ 現代のLLMの仕組みとは、とある単語の次にくる確率の高い単語をどんどん予想するというもの
なので例えば「こんにちは」と与えるとそれに続くような単語を連ねてくる
だが「こんにちは」では対話だと思ってくれない場合があり一人語りをすることがある
「こんにちはお日柄も良く絶好のピクニック日和ですね」みたいな
これのせいでいまいち上手くいっていない人がいるように見える
そこでTEMPLATEが重要になる
モデルにもよるけどPhi-3氏なんかだと
https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
<|user|>{prompt}
<|assistant|>
(説明のために簡素化)
というのTEMPLATEとすることにより
user: こんにちは
assistant:
のような形式になるためUser氏の挨拶に対するAssistantの受け答えとして続く単語を連ねてくれるため対話になるとゆーこと...
OllamaとOpen WebUIで頑張ってたんだけどOllamaではTEMPLATEなどを書いておくModelfileというテキストを書かないと読み込めないのでやっててわかった
このTEMPLATEだとかシステムプロンプトとかにすでに「あなたはアシスタントです」みたいなことが組み込まれているとアシスタントらしい返答になるんだと思う
つまりいわゆる申し訳対応
上手くいってなかった人はこれを活かして引き続き頑張ってみてくれ >>706
ありがとう
まずはkoboldLiteの使い方を覚えるわ
author's noteの書式がwiki見てもよく分からないレベルだ
>>707
分かった!ちゃんと設定しておく
>>709
なんか複雑なことやってるな
言ってる意味はなんとなく分かるし面白そうだ >>715
いまいち何言ってるのかわからんけど発言テンプレートを作って発言させれば精度が上がるってこと? 精度が上がるのはまあ間違い無いだろうが、チャットテンプレートがあるモデルでそれに従わずにやり取りすると、そもそもまともに会話できないレベルになることが多いと思う そうそれ
ちょっと話がいきなり過ぎた
かなり上の方で「やり取りにならない」とか「Text generation web UIでCommandR+(等)が変なテキストしか生成しない」とかあったので
モデルの公式が書いてくれてるチャットテンプレート通りじゃないテンプレートとかだと上手くチャットになってくれないというやつ 叡智な話題を申し訳対応される問題に関しても、テンプレートやシステムプロンプトに「あなたは優秀なアシスタントです」と書き入れているとそうなってしまう
そういうのは「優秀なアシスタント」というキャラがそうさせているのであって「あなたは性的な話題にも明るいアシスタントです」とすると無修正チューニングせずとも叡智な話題もいけるようになる >>716
チャットでしたい事ってこんな感じか?
会話中に追加で指示をしないといけなかったり
ローカルだと会話の後にゴミが付いて消すことあるけど
簡単な常識改変ならLCA系のモデルでこれくらいは出来た
https://i.imgur.com/Z8H2BPV.png
https://i.imgur.com/mH1Clko.png >>721
こんなこと出来るのかwww
認識阻害以外でも二重人格とか他にも色々使えそうだな iphoneでSilly Tavern、UI崩れるかと危惧してたが全然OKやな
セリフと平文の切り替えとかちょっと面倒だが全然遊べるレベルや LM StudioでCommand R+動かしたけどくっそ遅い…
3090,32GBだけど1秒1文字くらいかかって使いモンならん… 4090で出来る限りVRAMにロードして0.7token/sとか
秒間2〜3文字くらい?
1秒1文字じゃ全部CPUで動いてんじゃねーかって感じだね あれ?
cmr+って日本語トークン対応してなかったっけ
対応してたら1トークンで全角数文字書いてくれるはずだけど Koboldcppと大葉併用しているけど、返答に余計な文章付いてきたときに、
Koboldはedit modeのままならすぐ消せるけど、
大葉は一旦Copy last replyで入力フォームにコピーしてから、
Replace last replyで入れ替えないといけないのが面倒くさい X見とったらリートンのAIキャラに不適切ワードが登録できんくなった言うてる人おって草
設定の時点で不適切ワード記述したいってどんなキャラにしたいんやろ なんかLLMでウィ○ス作って逮捕されたニュース出てたけど何のモデル使ってたんだろ? >>724
LightChatAssistant-TypeB-2x7B_iq4xssだったはず Command R+はMか複数グラボ必須よね
RTX3090の2枚挿し+αがコスパ良い気がするわ
IQ3_M(47.68GB) ・・・ 11.2t/s(9.7t/s)
RTX3090 2枚
RTX3070(RTX3060) 1枚
IQ4_XS(56.2GB) ・・・ 3.9t/s
RTX3090 2枚
RTX3070 1枚
RTX3060 1枚 USBライザー経由
IQ4_XS動かすとめっちゃ下がる
x16スロット全て挿せたら、もうちょっと上がるんだろうか そのうちメモリ特盛の特化ボードとか出てきて
DIYめいたことやってまでLLM動かす状況はそのうち改善せんかねえ >>735
R+ iQ4だとフルCPU(Ryzen7840U)でも0.6t/sくらい出るから、
GPUに載せたらもっと行くかと思っていたけど、そんなもんなのか。
MacだとM2Maxの64GBがそれくらいだな。
でもiQ3よりは、遅くてもiQ4だなと思う。 3090環境に追加で3090+αの機材を揃える金で整備品Mac買えちゃうジレンマ まあ、macだとprompt evalが遅すぎるから
ただ推論テストするだけならともかく長いプロンプトでやりとりすると結構ストレス貯まるよ >>735
どっかでGGUFでGPUオフロード使う場合PCI-Eの帯域が結構重要って見たからUSBライザーが足引っ張ってるんじゃないかと
GPUがRTX世代でEXL2モデルだと初回のモデルロード時以外は帯域はあんまり問題じゃないらしい
あとCPUの世代が古い場合だとiMat(iQ*とか)じゃない方(Q3_K_Sとか)の方が早いらしいよ
あんまり関係ないけど6/1からアリエクでセール始まるし中華X99マザボ(PCI-E 3.0 x16 2スロット付いてる)とTesla P40/VRAM24GBの2枚刺し検討してる
手持ちのパーツ使い回せば10万弱で組めそうなんだよな...
長文すまん ライザーカード使ってもモデルロードが遅くなるだけで推論は変わらないよ
3060がだいぶ遅いし3090に載らない分が多くなればなるほど総合で遅くなってると思う KoboldCppのAdventureモードで
メインシナリオから離れたサブシナリオとして大規模ダンジョン行って帰ってきたら
サブシナリオのログでコンテキストが溢れたっぽい。メインシナリオ実質消滅。
Adventureモード使いこなしてる人いる?
MemoryとかAuthor's Noteとか使いこなしてる感じ? rtx3090×2個、RAM64gbのマシンがあるけど、それでも性能不足か 大葉で、チャットごとに増えていくcontextが、n_ctxの値に近づく(あと500程度)と、
次の生成が無茶苦茶遅くなるのは、溜め込んだcontextに対して何か処理をしているんだろうけれど、
どの様な処理をしているんでしょう?
単純に古いのを忘れるだけなら、こんなに時間はかからないと思うんだけど。 context shifting起きてるんじゃないの? >>745の状況を反映しているかはわからないが、ちょっと前に作ったもの
n_ctxを本当に超えてないのにいきなり遅くなるんだったら、ちょっとわからん
https://i.imgur.com/izDIkaz.png
https://i.imgur.com/uil7Uhx.png ひょっとこフェラがなかなk認識されない……
チンポをひょっとこ型に変えてしゃぶらせたりしやがる
たまにちゃんとした詳しい描写をするから学習はしているはずなんだけど何が原因なのか 変に名称を出さないほうが良いのかもね
強く口を窄ませてとか、大きく頬を窪ませて、みたいにするとか
例に出すのはあれかもだが、Opusなんかは何も言わんでもそんな表現多用するから恐ろしい… >>746
>>747
おそらくContext Shiftingが起きているのは理解できました。
遅くなる前の最後のcontextが8921で、最初のContext Shifting後が8906で、
それまでずっと増えてきたのが減っています。その次も8902で減ります。
一度起こると、毎回起きるから無茶苦茶遅い。
あと一度起きた後から、生成してくる内容が、こちらの入力をあまり反映せずに、
Context Shiftingが起きる最後の方と、同じ様な内容を繰り返すだけになっちゃう感じ。
※これは以前、koboldcppでも同じ様な感じだった記憶だけど、遅くなる事は無かったと思う。 上の方のレスでStreamingLLMをオンにする方法他の人にも伝えたから、参照してくれ ついに7BでGPT-3.5超えが出てきたか
あくまでもベンチマークだし7B故に知識を求めてはいけないが >>752
おお、情報ありがとうございます。
ちょうど、大葉にcontext shifting搭載を要望する海外の投稿をみつけて、
もしかしたら機能自体未実装なの?と思っていたところでした。
これから試してみます。 元のStreamingLLMはコンテキストの上限を超えても(ある程度性能を保ちつつ)無限に生成を続けられる実装になってるんだけど、oobaの方でも同じようになってるのかは気になる 正直コンテキスト超過するまで文章出力するかっていうとそこまで長いセッションしないからなぁ >>756
StreamingLLM、今まだお試し中だけど、反応は改善していい感じです。
一回のリクエストごとに、どのリクエスト&レスポンスのセットが消えたか、ターミナルに出力されます。
n_ctx:9472に対して、contextは9000弱を維持している感じ。
無限かどうかは、消えるセット分に対して、大きなリクエストをしなければ大丈夫かと。 金融関係のコーディングを相談したかったらどのモデルが向いてるかな?英語でも良いんだけど Elyza-tasks-100のスコアを評価値としてevo mergeしたモデルをElyza-tasks-100で評価してるの全く参考にならないんだが
ここ見てるはずだろうから言うけどマジでこんな初心者みたいなミスやめてくれうみゆき ここにはフルCPU勢って殆どいないかもしれないけど、
生成中のCPUパフォーマンスが30〜50%程度なんですが、こんなものでしょうか?
もうちょっと使ってくれてもと思う。 ソフトによる気がする LM studioだと80%くらい使うがGPT4ALLだと20%くらいしか使ってないわ 昨日から始めた超新参者ですEasyNovelAssistantでgoalseek_adを使いたいんですが幾つかあるyamlファイルはどうやって反映させればよいのでしょうか?pythonファイルの書き換えとかが必要なんですかね?産まれたての赤ちゃんですみません CPUで処理すると時間がかかりすぎる
メモリーのbusが遅いのか >>764
なるほど。シンプル(多分)なGPT4ALLでそれなら、必ずしもフルにぶん回すわけでもないのかな?
ちなみにうちの環境は、メモリ64GBで大葉かkobold.cppでcommand R+ iQ4。
今の0.5〜0.6t/s程度でもまぁ動くだけいいんだけど。
UMPCでAMDなもんで、たまにeGPU繋ぐけど、基本フルCPUのみ。 選択式のアドベンチャーゲームって簡単に再現できるんだな
適当にそれっぽい設定にしたら上手くいったわ >>765
goalseek_adをどう使うかによるけど
そのまま使いたい場合は、Gitからダウンロードとかせずにつかえる。
EasyNovelAssistantのメニューのサンプル→特集テーマ→テンプレ:小説企画からプロッティング
がeditor、その下がwrite
あとはEasyNovelAssistantのインストールしたフォルダの下にsample/Goalseekってフォルダがあるけど、それ読み込んでもいい。 >>768
すげぇな
同じゲームになることはないので、楽しいだろうな >>769
なるほど、そもそもgoalseek_adは内蔵されているんですね!助かりましたありがとうです! >>767
Codestral使いたいけど22Bなんて3090じゃ動かねぇな ■ このスレッドは過去ログ倉庫に格納されています