なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0387名無しさん@ピンキー (ワッチョイ bb65-eYV/)2024/04/11(木) 22:55:27.15ID:???0
最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった
0391名無しさん@ピンキー (ワッチョイ 23c0-siMB)2024/04/12(金) 01:20:36.40ID:???0
>>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな
0400名無しさん@ピンキー (ワッチョイ bb65-eYV/)2024/04/12(金) 09:56:55.26ID:???0
LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな
0401名無しさん@ピンキー (ワッチョイ c75f-9UMa)2024/04/12(金) 10:49:39.06ID:2/nKvx4z0
それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう
0404名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/12(金) 13:26:45.10ID:bcuYyZTx0
command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ?
0405名無しさん@ピンキー (ワッチョイ d2a0-EtAA)2024/04/12(金) 13:32:57.42ID:???0
>>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど
0407名無しさん@ピンキー (ワッチョイ c75f-9UMa)2024/04/12(金) 14:38:55.06ID:2/nKvx4z0
ある意味chatGPTはそれを真面目にやった結果では?
0415名無しさん@ピンキー (ワッチョイ 2787-TGoQ)2024/04/12(金) 20:20:19.13ID:HmSxQfNw0
command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな
0417名無しさん@ピンキー (ワッチョイ afbe-hBD6)2024/04/12(金) 21:04:23.80ID:???0
command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな
0418名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/12(金) 21:05:48.48ID:bcuYyZTx0
というか、cohereには70Bくらいの中型モデルを出して欲しい
0419名無しさん@ピンキー (ワッチョイ ff4f-pWkx)2024/04/13(土) 02:18:11.29ID:???0
もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う
0420名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/13(土) 02:32:24.26ID:q69oO3X90
M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな
0422名無しさん@ピンキー (ワッチョイ 7f1f-xm6m)2024/04/13(土) 07:30:35.69ID:???0
Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。

ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。

https://docs.cohere.com/docs/going-live

利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。

https://docs.cohere.com/docs/c4ai-acceptable-use-policy
0427名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 11:38:16.70ID:???0
わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな
0431名無しさん@ピンキー (ワッチョイ cf13-j/Vl)2024/04/13(土) 12:59:18.84ID:???0
>>390 やがメモリ64GBでは4bitがホンマにカツカツなんで
安定的に利用したい場合は3bitの
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/resolve/main/ggml-c4ai-command-r-plus-104b-iq3_s.gguf
かiMatrix無しなら
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00001-of-00002.gguf
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00002-of-00002.gguf
あたりがオススメかなぁ

0.5T/sあたりが出てない場合はコンパネでディスクアクセスが発生してないかを確認や
ディスクアスセスの原因っぽいMMAPを無効にしたらWindows全体が超重くなって危ういで
0432名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 13:12:11.38ID:???0
Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん
0435名無しさん@ピンキー (ワンミングク MM9f-VqMq)2024/04/13(土) 15:57:58.25ID:OV/mcBF2M
Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果

https://rentry.org/asoyyef2

ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった
0439名無しさん@ピンキー (ワントンキン MM9f-VqMq)2024/04/13(土) 16:48:38.78ID:eGHwKOHaM
>>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう
0440名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/13(土) 16:50:14.20ID:q69oO3X90
command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ
0442名無しさん@ピンキー (ワッチョイ c3d1-WVN9)2024/04/13(土) 17:35:40.64ID:???0
メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな
0445名無しさん@ピンキー (ワントンキン MM9f-VqMq)2024/04/13(土) 19:29:27.87ID:eGHwKOHaM
Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる
0446名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 20:09:26.44ID:???0
Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s

ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた
0450名無しさん@ピンキー (ワッチョイ c387-j/Vl)2024/04/13(土) 21:44:29.11ID:tAhny6I70
しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ
0455305 (ワッチョイ e332-ULeS)2024/04/14(日) 00:29:37.76ID:???0
なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b に
sophosympatheia/Midnight-Rose-70B-v2.0.3 をかぶせてみた結果

https://rentry.org/wbfsvhm9

思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる(ただ、語彙拡張されていないので、遅すぎて使い物にはならない)
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
(Midnight-Roseはnsfwモデルではないけど、エロには寛容)
これは>>305のswallowの変貌を見ても明らか(あのお堅いswallowがw)

で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した

sbtom/karakuri-midroze-mg-Q6_K.gguf

をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル(ベンチスコア高め)とのマージ 隠語の造語が笑えるw
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д`)
今だと、command-r-plusとの比較もあれば(スピードは同じくらいだし)
0458名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/14(日) 02:01:57.18ID:???0
単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ
0459名無しさん@ピンキー (ワッチョイ cf20-rajz)2024/04/14(日) 02:37:48.92ID:dmNY9iUL0
>>455
karakurimのchatvector、楽しみだね!
よかったら簡単な手順やコンフィグなんかも教えて!
0460名無しさん@ピンキー (ワッチョイ c3d1-WVN9)2024/04/14(日) 02:54:08.92ID:???0
HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ
0461名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/14(日) 03:45:05.90ID:???0
RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか?
RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや
0462名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/14(日) 03:47:10.37ID:???0
command-r-plusやっぱすげぇな
3bitで動かしてもChatGPT3.5超えてると思うわ

あぁワイの環境じゃ0.5token/sが限界じゃあ・・・

>>399の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる
6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな
0463名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/14(日) 04:03:40.39ID:???0
>>461
マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う
まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する

マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど
LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも
0464名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/14(日) 05:18:20.96ID:???0
>>463
あ〜ということは3〜4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも……
できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや

リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった
[【2024最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/)
0467名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 08:32:13.23ID:???d
>>390
遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです!
モデルダウンロード数の9割がツールによるものだと思っとります
改めてサンクスです!

>>455
例の評価プロンプト、大変お世話になっております
あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました
件のアプローチ手法、とても気になる手法です!ChatVectorならぬEroticVectorですなw
0468名無しさん@ピンキー (ワッチョイ cf8e-RkyF)2024/04/14(日) 08:38:34.78ID:???0
実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ
モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので
0469名無しさん@ピンキー (テテンテンテン MM7f-NRev)2024/04/14(日) 08:45:21.95ID:???M
マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合)
転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった
旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる
これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる
推論中は平均20%くらい使ってる
ちなみに普通にpcieスロットにx16接続だと推論中1%くらいしか使わないくらい通信してないようで、測定不能だった
頻繁に通信しつつ推論されてるものと思ってたけど違うみたい
推論だけね、多分学習とかだと違うでしょう
通信速度は問題にならなそう、と分かったところで、そういうケースがあるか?そういうスロット配置のマザボがあるか?ってところでお話が止まってしまう
0471名無しさん@ピンキー (ワッチョイ d3b6-uu0w)2024/04/14(日) 11:53:56.66ID:???0
これ、7Bだけど対話型求めてる人には結構良いかもしれん
https://huggingface.co/Aratako/Antler-7B-RP
元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる
7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも
惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな(セリフの後そのまま続き生成させると書いてくれるが)
0473名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 13:09:46.03ID:???d
推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく
https://note.com/bakushu/n/n26537fab5a14

メモリ帯域の話
https://vectory.work/memory-bandwidth/

※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る
0475名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 13:25:27.89ID:???d
あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5〜6割になったあたりから速くなり始めるように感じる
それまではRAMオンリーと変わらない感じ
0478名無しさん@ピンキー (ワッチョイ 63be-uGJR)2024/04/14(日) 14:46:49.79ID:???0
R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて
0480名無しさん@ピンキー (ワッチョイ cf13-j/Vl)2024/04/14(日) 15:09:39.41ID:???0
>>478 メモリ64GBでのおすすめは
>>431 のIQ3利用やがいくつかエスパーしとくで

タスクマネージャでディスクアクセスが発生して遅くなってるなら起動しているアプリを減らす

gpulayersを0でなく様子見しながら4以上を設定する

ドライバのシステムメモリフォールバックポリシーをなしにする
https://github.com/Zuntan03/EasySdxlWebUi/wiki/%E3%83%88%E3%83%A9%E3%83%96%E3%83%AB%E3%82%B7%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0#%E7%94%BB%E5%83%8F%E7%94%9F%E6%88%90%E3%81%8C%E9%81%85%E3%81%84
0481名無しさん@ピンキー (ワッチョイ 63be-uGJR)2024/04/14(日) 15:10:24.16ID:???0
contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ
0483名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/14(日) 16:18:40.47ID:ad3txZsV0
お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる?
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ
0484名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:15:27.54ID:???0
sbtom/karakuri-midrose-CV.gguf

karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd

chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがw
また、英語で回答したがる傾向も見られました。(英語モデルのインストラクタをかぶせてるせい?)
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。

続いて、マージ手法ですが、長くなるので分けますね
0485名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:22:49.05ID:???0
続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担(特にSSD)をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。m(__)m
0486名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:27:57.91ID:???0
ありゃ?インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16

正しくはこうです。すみません
0487名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:31:53.20ID:???0
うげ!治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16

むりやり*で埋めた(*をスペースと思ってください)
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況