なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0352名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 23:21:55.99ID:qH+Rz3ZR0
llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった
0356名無しさん@ピンキー (ワッチョイ d34b-5610)2024/04/10(水) 00:18:01.68ID:???0
赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが
0360名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:32:45.40ID:gYHj2M1xd
>>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと?
0362名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:35:19.15ID:gYHj2M1xd
もしかしてLlamacppの最新で使えないってことだろうか
0365名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:45:33.73ID:gYHj2M1xd
>>363
おk
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む
0366名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/10(水) 00:53:26.23ID:???0
>>365
ん?
koboldはビルド済みだから、環境のllamaに影響されんよ?
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる
0367名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:04:01.43ID:gYHj2M1xd
>>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった
0369名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:26:37.55ID:gYHj2M1xd
どこかで見たと思っていたらそれだ!ありがとう
最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに

Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな?
時間あるときに確認してみるわ
0370名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:33:33.91ID:gYHj2M1xd
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります
0373名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 19:46:29.02ID:iP2KkLqed
>>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった

纏めると、
           最新ver量子化 旧ver量子化
Kobold-v1.62.1    〇      〇
Kobold-v1.61.2    ×      〇
Llama.cppのmain.exe 〇      ×

この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です

>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします
0375名無しさん@ピンキー (ワッチョイ bb14-eYV/)2024/04/11(木) 10:24:48.92ID:???0
LightChatAssistant-2x7Bの改良版っぽいのが出てた
Chat Vectorの割合をレイヤごとに最適化したらしい
最適化不足っぽいこと書いてるけど、それでも全部0.8で雑に加算してた元モデルよりは良さそうだがどうなんだろう
家帰ったら試すか

https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental-GGUF
0376名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/11(木) 12:42:52.97ID:MNHhi1l8d
>>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる…
0377名無しさん@ピンキー (ワッチョイ d356-hBD6)2024/04/11(木) 15:15:44.53ID:Grsx0tAb0
>>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや?

ちな、376の精子はエロくて賢くて既に最高やで?お世話になっとるで、ありがとさんや
0379名無しさん@ピンキー (ワッチョイ 3e63-EtAA)2024/04/11(木) 15:58:15.53ID:???0
超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
upさせたらええんか?一度試したらupで時間切れになってもうた
0383名無しさん@ピンキー (ブーイモ MMd2-4QwI)2024/04/11(木) 17:21:33.51ID:???M
0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね?
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ!
0384名無しさん@ピンキー (テテンテンテン MM3e-yiir)2024/04/11(木) 19:54:23.43ID:???M
>>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ
0385名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/11(木) 21:12:43.97ID:???0
>>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで

あと
>>375
のQ4_K_Mも試せるようにしといた
0386名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/11(木) 22:00:52.83ID:MNHhi1l8d
みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする!
GGUFの更新終わったらちょっと休みますわ

うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった

しかしこれからは改良版を主に使うけどな多分w(でも余計愛着湧いたからたまに使います!)

>>385
検証ミスしてたかスマン。再インスト案内ありがとうです
0387名無しさん@ピンキー (ワッチョイ bb65-eYV/)2024/04/11(木) 22:55:27.15ID:???0
最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった
0391名無しさん@ピンキー (ワッチョイ 23c0-siMB)2024/04/12(金) 01:20:36.40ID:???0
>>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな
0400名無しさん@ピンキー (ワッチョイ bb65-eYV/)2024/04/12(金) 09:56:55.26ID:???0
LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな
0401名無しさん@ピンキー (ワッチョイ c75f-9UMa)2024/04/12(金) 10:49:39.06ID:2/nKvx4z0
それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう
0404名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/12(金) 13:26:45.10ID:bcuYyZTx0
command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ?
0405名無しさん@ピンキー (ワッチョイ d2a0-EtAA)2024/04/12(金) 13:32:57.42ID:???0
>>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど
0407名無しさん@ピンキー (ワッチョイ c75f-9UMa)2024/04/12(金) 14:38:55.06ID:2/nKvx4z0
ある意味chatGPTはそれを真面目にやった結果では?
0415名無しさん@ピンキー (ワッチョイ 2787-TGoQ)2024/04/12(金) 20:20:19.13ID:HmSxQfNw0
command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな
0417名無しさん@ピンキー (ワッチョイ afbe-hBD6)2024/04/12(金) 21:04:23.80ID:???0
command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな
0418名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/12(金) 21:05:48.48ID:bcuYyZTx0
というか、cohereには70Bくらいの中型モデルを出して欲しい
0419名無しさん@ピンキー (ワッチョイ ff4f-pWkx)2024/04/13(土) 02:18:11.29ID:???0
もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う
0420名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/13(土) 02:32:24.26ID:q69oO3X90
M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな
0422名無しさん@ピンキー (ワッチョイ 7f1f-xm6m)2024/04/13(土) 07:30:35.69ID:???0
Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。

ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。

https://docs.cohere.com/docs/going-live

利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。

https://docs.cohere.com/docs/c4ai-acceptable-use-policy
0427名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 11:38:16.70ID:???0
わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな
0431名無しさん@ピンキー (ワッチョイ cf13-j/Vl)2024/04/13(土) 12:59:18.84ID:???0
>>390 やがメモリ64GBでは4bitがホンマにカツカツなんで
安定的に利用したい場合は3bitの
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/resolve/main/ggml-c4ai-command-r-plus-104b-iq3_s.gguf
かiMatrix無しなら
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00001-of-00002.gguf
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00002-of-00002.gguf
あたりがオススメかなぁ

0.5T/sあたりが出てない場合はコンパネでディスクアクセスが発生してないかを確認や
ディスクアスセスの原因っぽいMMAPを無効にしたらWindows全体が超重くなって危ういで
0432名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 13:12:11.38ID:???0
Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん
0435名無しさん@ピンキー (ワンミングク MM9f-VqMq)2024/04/13(土) 15:57:58.25ID:OV/mcBF2M
Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果

https://rentry.org/asoyyef2

ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった
0439名無しさん@ピンキー (ワントンキン MM9f-VqMq)2024/04/13(土) 16:48:38.78ID:eGHwKOHaM
>>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう
0440名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/13(土) 16:50:14.20ID:q69oO3X90
command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ
0442名無しさん@ピンキー (ワッチョイ c3d1-WVN9)2024/04/13(土) 17:35:40.64ID:???0
メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな
0445名無しさん@ピンキー (ワントンキン MM9f-VqMq)2024/04/13(土) 19:29:27.87ID:eGHwKOHaM
Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる
0446名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 20:09:26.44ID:???0
Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s

ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた
0450名無しさん@ピンキー (ワッチョイ c387-j/Vl)2024/04/13(土) 21:44:29.11ID:tAhny6I70
しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況