なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured >>359
あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群 もしかしてLlamacppの最新で使えないってことだろうか >>360
すまん、command-rの情報と間違えたw
こっちは問題ないわ >>361そうなんだ。GGUFのほう入れとくわ。ありがとう。 >>363
おk
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む >>365
ん?
koboldはビルド済みだから、環境のllamaに影響されんよ?
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる >>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった >>367
ああ、そういうことか
それって、>>149の話?
というか、今時点の最新のllama.cppでも動かないのかな? どこかで見たと思っていたらそれだ!ありがとう
最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに
Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな?
時間あるときに確認してみるわ Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんwww >>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった
纏めると、
最新ver量子化 旧ver量子化
Kobold-v1.62.1 〇 〇
Kobold-v1.61.2 × 〇
Llama.cppのmain.exe 〇 ×
この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です
>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします 最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな(2x7Bとかなら誤差なのかもしれんが) >>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる… >>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや?
ちな、376の精子はエロくて賢くて既に最高やで?お世話になっとるで、ありがとさんや >>376
新大陸発見したのは貴方や
これからも何かを発見して行こうー・:*+.\(( °ω° ))/.:+ 超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
upさせたらええんか?一度試したらupで時間切れになってもうた >>379
ノートのメモリいくつ?
あとkoboldは公式から単一のexeファイル落とすだけやで upが何を指してるかよく分からんけど >>376
まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト 0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね?
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ! >>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ >>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで
あと
>>375
のQ4_K_Mも試せるようにしといた みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする!
GGUFの更新終わったらちょっと休みますわ
うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった
しかしこれからは改良版を主に使うけどな多分w(でも余計愛着湧いたからたまに使います!)
>>385
検証ミスしてたかスマン。再インスト案内ありがとうです 最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった 大葉を使っている人は居ないのか?みんなkoboldなのか? Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで
https://twitter.com/Zuntan03/status/1778441181741158764
>>386
ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで
ステキなものを世に出してもろうてサンガツや >>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな 初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの?
豚の顔みたいなアイコン変更したい >>390
サンガツ
settingにcommand-R追加されてるの見落としてたわ
うちの5700Xで0.44T/sだわ >>392
SettingsのUI Style SelectをAestheticに変えると色々いじれるで
見た目も結構変わるけどな
あとはSillyTavernを使う手やな こっちの解説は詳しい人に任すわ ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか? >>396
m2maxでもサクサクか言われるとまだ遅いよ
人によっては十分かもだけど 3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう これローカルで動かせる猛者おりゅ?
mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1 command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ? >>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな ある意味chatGPTはそれを真面目にやった結果では? command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった
メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの? 基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか? >>390を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ
108Bと聞いて身構えたが案外動くもんやな
もう少し環境整備してみるか macをもう1台用意するのは面倒でなぁ…
command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって >>409
macより
>>399みたいなのが安かったりして >>408
VRAM24GBにしたところで大して速度は上がらないぞ Windows11proにしてメモリ2TB乗せれば解決や!
なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様 command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな というか、cohereには70Bくらいの中型モデルを出して欲しい もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな >>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。
ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。
https://docs.cohere.com/docs/going-live
利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。
https://docs.cohere.com/docs/c4ai-acceptable-use-policy WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの? command-R+は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな? わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ >>429
結合せずに並べて置いといたらええだけやで
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases). Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか? Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果
https://rentry.org/asoyyef2
ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった >>435
量子化はどのレベル使ったの?
あと思考テストいいね そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン!"でめっちゃ笑った >>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな 128GBのRAM積んだPC持ってる猛者が実験してくれんかな? Windowsでやってる人の見るとMacで動かすのが今の所現実的だな
M3な5t/sくらい出るし
M4で10出るようにならないかな? Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s
ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた >>446
96GB+3900XTでも俺の貧弱マシンと速度変わらんの?
結局VRAM大量に積んだGPU使うしかないのか、、 RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも >>443
VRAM24GB+12GB RAM128GBあるけど
なにしたらええんや?(´・ω・`) しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな そのPCだとcommand-r-plusってどれくらいの速度で動くの? RAMが遅いというより、CPU処理が遅いのが問題
革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b に
sophosympatheia/Midnight-Rose-70B-v2.0.3 をかぶせてみた結果
https://rentry.org/wbfsvhm9
思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる(ただ、語彙拡張されていないので、遅すぎて使い物にはならない)
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
(Midnight-Roseはnsfwモデルではないけど、エロには寛容)
これは>>305のswallowの変貌を見ても明らか(あのお堅いswallowがw)
で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した
sbtom/karakuri-midroze-mg-Q6_K.gguf
をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル(ベンチスコア高め)とのマージ 隠語の造語が笑えるw
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д`)
今だと、command-r-plusとの比較もあれば(スピードは同じくらいだし) 全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど
マイニングリグみたいの導入せんと しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ? 単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ >>455
karakurimのchatvector、楽しみだね!
よかったら簡単な手順やコンフィグなんかも教えて! HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ ■ このスレッドは過去ログ倉庫に格納されています