なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured koboldうぷで早すぎーw
早速試したが、IQ4xsは起動せんかった
IQ3_xxsはいけた >>342
さらっとM2 Max民がおるんやな・・・ m3studio256盛りultra1200帯域とかいつ出るんやろ ありゃ?
どうやらオフィシャルのsplittoolを使って合体させんとあかんらしい gguf
くそ 元ファイルまた落とさな ああ、てゆうか結合する必要なかったのね
IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね
スピードはうちの環境じゃ大差ないし、こっちを常用するわ こいつしりとりできるね
70Bクラスだと出来ないイメージだったけど IQ3_xxsは9.3GBでIQ4_xsは12.9GBだから
結局サイズが物を言うってことか 最近ちょいちょい遊んでるプロンプト
iq3_mで4.3tokens/sec
はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい
https://i.imgur.com/BIpsJsQ.png うーん、ダメだ
R+試してたけど、karakuri-midroseに及ばない
おそらくimatrixによる量子化が上手くいってない気がする llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった 赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが >>357
間違えられたから、代わりに答えておくわw
https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B-GGUF
↑行って
速度重視なら
LightChatAssistant-2x7B_iq3xxs_imatrix.gguf
精度重視なら(q8はなんか問題あったって情報あったので)
LightChatAssistant-2x7B_q6_k.gguf
こいつをkoboldで読み込むだけ >>358ありがとう。GGUFじゃない方見てたわ
ちなみにGGUFじゃないほうは何か3つに分割されてるけどこれどうやって扱えばいいんだろうか >>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと? >>359
あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群 もしかしてLlamacppの最新で使えないってことだろうか >>360
すまん、command-rの情報と間違えたw
こっちは問題ないわ >>361そうなんだ。GGUFのほう入れとくわ。ありがとう。 >>363
おk
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む >>365
ん?
koboldはビルド済みだから、環境のllamaに影響されんよ?
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる >>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった >>367
ああ、そういうことか
それって、>>149の話?
というか、今時点の最新のllama.cppでも動かないのかな? どこかで見たと思っていたらそれだ!ありがとう
最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに
Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな?
時間あるときに確認してみるわ Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんwww >>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった
纏めると、
最新ver量子化 旧ver量子化
Kobold-v1.62.1 〇 〇
Kobold-v1.61.2 × 〇
Llama.cppのmain.exe 〇 ×
この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です
>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします 最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな(2x7Bとかなら誤差なのかもしれんが) >>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる… >>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや?
ちな、376の精子はエロくて賢くて既に最高やで?お世話になっとるで、ありがとさんや >>376
新大陸発見したのは貴方や
これからも何かを発見して行こうー・:*+.\(( °ω° ))/.:+ 超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
upさせたらええんか?一度試したらupで時間切れになってもうた >>379
ノートのメモリいくつ?
あとkoboldは公式から単一のexeファイル落とすだけやで upが何を指してるかよく分からんけど >>376
まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト 0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね?
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ! >>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ >>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで
あと
>>375
のQ4_K_Mも試せるようにしといた みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする!
GGUFの更新終わったらちょっと休みますわ
うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった
しかしこれからは改良版を主に使うけどな多分w(でも余計愛着湧いたからたまに使います!)
>>385
検証ミスしてたかスマン。再インスト案内ありがとうです 最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった 大葉を使っている人は居ないのか?みんなkoboldなのか? Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで
https://twitter.com/Zuntan03/status/1778441181741158764
>>386
ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで
ステキなものを世に出してもろうてサンガツや >>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな 初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの?
豚の顔みたいなアイコン変更したい >>390
サンガツ
settingにcommand-R追加されてるの見落としてたわ
うちの5700Xで0.44T/sだわ >>392
SettingsのUI Style SelectをAestheticに変えると色々いじれるで
見た目も結構変わるけどな
あとはSillyTavernを使う手やな こっちの解説は詳しい人に任すわ ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか? >>396
m2maxでもサクサクか言われるとまだ遅いよ
人によっては十分かもだけど 3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう これローカルで動かせる猛者おりゅ?
mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1 command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ? >>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな ある意味chatGPTはそれを真面目にやった結果では? command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった
メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの? 基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか? >>390を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ
108Bと聞いて身構えたが案外動くもんやな
もう少し環境整備してみるか macをもう1台用意するのは面倒でなぁ…
command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって >>409
macより
>>399みたいなのが安かったりして >>408
VRAM24GBにしたところで大して速度は上がらないぞ Windows11proにしてメモリ2TB乗せれば解決や!
なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様 command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな というか、cohereには70Bくらいの中型モデルを出して欲しい もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな >>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。
ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。
https://docs.cohere.com/docs/going-live
利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。
https://docs.cohere.com/docs/c4ai-acceptable-use-policy WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの? command-R+は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな? わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ >>429
結合せずに並べて置いといたらええだけやで
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases). Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか? Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果
https://rentry.org/asoyyef2
ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった >>435
量子化はどのレベル使ったの?
あと思考テストいいね そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン!"でめっちゃ笑った >>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな ■ このスレッドは過去ログ倉庫に格納されています