なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな というか、cohereには70Bくらいの中型モデルを出して欲しい もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな >>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。
ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。
https://docs.cohere.com/docs/going-live
利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。
https://docs.cohere.com/docs/c4ai-acceptable-use-policy WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの? command-R+は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな? わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ >>429
結合せずに並べて置いといたらええだけやで
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases). Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか? Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果
https://rentry.org/asoyyef2
ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった >>435
量子化はどのレベル使ったの?
あと思考テストいいね そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン!"でめっちゃ笑った >>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな 128GBのRAM積んだPC持ってる猛者が実験してくれんかな? Windowsでやってる人の見るとMacで動かすのが今の所現実的だな
M3な5t/sくらい出るし
M4で10出るようにならないかな? Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s
ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた >>446
96GB+3900XTでも俺の貧弱マシンと速度変わらんの?
結局VRAM大量に積んだGPU使うしかないのか、、 RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも >>443
VRAM24GB+12GB RAM128GBあるけど
なにしたらええんや?(´・ω・`) しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな そのPCだとcommand-r-plusってどれくらいの速度で動くの? RAMが遅いというより、CPU処理が遅いのが問題
革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b に
sophosympatheia/Midnight-Rose-70B-v2.0.3 をかぶせてみた結果
https://rentry.org/wbfsvhm9
思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる(ただ、語彙拡張されていないので、遅すぎて使い物にはならない)
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
(Midnight-Roseはnsfwモデルではないけど、エロには寛容)
これは>>305のswallowの変貌を見ても明らか(あのお堅いswallowがw)
で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した
sbtom/karakuri-midroze-mg-Q6_K.gguf
をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル(ベンチスコア高め)とのマージ 隠語の造語が笑えるw
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д`)
今だと、command-r-plusとの比較もあれば(スピードは同じくらいだし) 全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど
マイニングリグみたいの導入せんと しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ? 単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ >>455
karakurimのchatvector、楽しみだね!
よかったら簡単な手順やコンフィグなんかも教えて! HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか?
RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや command-r-plusやっぱすげぇな
3bitで動かしてもChatGPT3.5超えてると思うわ
あぁワイの環境じゃ0.5token/sが限界じゃあ・・・
>>399の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる
6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな >>461
マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う
まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する
マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど
LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも >>463
あ〜ということは3〜4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも……
できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや
リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった
[【2024最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/) 結局macがお手軽だけど今だと68万の96GB版しか選べないな
そりゃwindowsでVRAM96GBのマシンが68万なら飛び付くけど用途が限られるmacじゃな >>390
遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです!
モデルダウンロード数の9割がツールによるものだと思っとります
改めてサンクスです!
>>455
例の評価プロンプト、大変お世話になっております
あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました
件のアプローチ手法、とても気になる手法です!ChatVectorならぬEroticVectorですなw 実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ
モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合)
転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった
旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる
これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる
推論中は平均20%くらい使ってる
ちなみに普通にpcieスロットにx16接続だと推論中1%くらいしか使わないくらい通信してないようで、測定不能だった
頻繁に通信しつつ推論されてるものと思ってたけど違うみたい
推論だけね、多分学習とかだと違うでしょう
通信速度は問題にならなそう、と分かったところで、そういうケースがあるか?そういうスロット配置のマザボがあるか?ってところでお話が止まってしまう 推論だけならメモリ帯域はほとんど使わないのか
そうなると数年内に推論はCPUに内蔵されるNPUが主流になるんだろうな これ、7Bだけど対話型求めてる人には結構良いかもしれん
https://huggingface.co/Aratako/Antler-7B-RP
元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる
7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも
惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな(セリフの後そのまま続き生成させると書いてくれるが) windowsのRAMで動かしてる人がみんな似たような速度ってことはCPU性能には依存しないのか? 推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく
https://note.com/bakushu/n/n26537fab5a14
メモリ帯域の話
https://vectory.work/memory-bandwidth/
※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る koboldのamount genって直接入力で512以上にできるけど
推論おかしくならない?
なんか見当違いのこと話しだすんだが あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5〜6割になったあたりから速くなり始めるように感じる
それまではRAMオンリーと変わらない感じ >>474
めっちゃ大きくするとおかしくなるね
1024くらいならいけてる R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて >>478
ドライバはクリンインスコしてる? 同じpcだよね contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ CommandR+ >>431のiq4xsだと、うちの環境(VRAM12GB+8GB)では0.6T/sしか出んかった
ほぼRAMオンリーと変わらんね
>>445
これ気になったので、Aratako氏に直接聞いてみるわ お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる?
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ sbtom/karakuri-midrose-CV.gguf
karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd
chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがw
また、英語で回答したがる傾向も見られました。(英語モデルのインストラクタをかぶせてるせい?)
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。
続いて、マージ手法ですが、長くなるので分けますね 続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担(特にSSD)をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。m(__)m ありゃ?インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
正しくはこうです。すみません うげ!治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16
むりやり*で埋めた(*をスペースと思ってください) >>445
これについてAratako氏に質問したら、詳細を快く公開してくれた!めっちゃ良いかた!感謝!
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental/discussions/1
>>484-487
おお、うp乙です!使わせてもらいます!
ブルースクリーンはむしろ大笑いしたので気にしなくて大丈夫w
config.ymlはrentryにMarkdown使って書くと、見やすくていいかも? command-r-plus日本語のエロチャットで試しているけど
日本語で指定したpromptやこちらの入力は理解している応答っぽいけど
英語に比べるとやっぱり反応が薄いというか淡白だなぁ
このレベルが日本語で反応するだけでも凄いんだが、動いたら動いたでより良いものもが欲しくなるとは貪欲になっていくもんだなぁ なんか7Bだけどすごく良さそうなのが誕生してた!めっちゃ可能性を感じる…
TFMC/Japanese-Starling-ChatV-7B
>>435と同じテストをさせて見た結果
https://rentry.org/zekf2758 commandR+触ってみた。
日本語能力は素晴らしいと思うんだけど、出力される内容そのものがmidnight-miqu70Bとかに負けてる気がする。出力中にどんどんわけのわからん方向に内容が逸れてっちゃう >>491
今のcommandR+の利点は、むしろローカルじゃなくても無規制のまま無料で使えることだからなぁ >>490
その結果だけ見たらもう70B以上クラスとの違いがわからないな
もっと長くて複雑なベンチマークが必要なのかもしれない >>490
エロの表現力は流石に微妙そうだけど、指示追従能力は良い感じに上がってそうだね
ただ、ELYZA-tasks-100とかのGPT-4に評価させる系は長文を高評価するようになっちゃう問題があるから、ベンチマークスコア向上はこれの影響かも というかLCAって普通のベンチマークに対するスコアも元モデルより上がってたのか…
エロ特化でその辺犠牲にしてるんだと思ってたわ >>490
f16使ってみたけど確かに結構賢い感じやね。簡単なタスクはこれに任せてもええかもってくらい
あと全部VRAM乗せられるからワイの環境でも35t/sくらい出て笑うわ。command-r+の0.5t/sに焦らされてる状態から使うと気持ちよすぎる LCAの手法でモデルの特徴を抽出してマージできるならその差分をLora化して後乗せもできるのかね? >>490
確かにいいな、この作者にエロ対応したモデル作って欲しいわ text generation webuiでチャットやってたら急に最新の1応答を除いて過去の会話全部吹っ飛びやがった
マジかよショックがでかすぎる
あぁ、もう一度コンテキスト育てるのは無理やぁ・・・ sbtom/karakuri-midrose-CV.gguf
ちまちま検証してましたが、どうもmg版に比べると劣化してる感が拭えなかった。
表現力は同じくらいなんだけど、指示が入りずらい
チャットだと分かりにくいけど、小説書かせたらプロット通りに書かずに勝手にプロット外の事を書き始める
うーん、ダメだこりゃ・・・ と思ってたら、よく考えると重みに0.8掛けする必要なくね?と気付いた
LCAはインストラクタモデルを使ってたから、0.8掛けが効果を発揮していたけど、krakuriはベースモデルを使ってるから
素直に1.0乗せればよかったんや!
で、修正したら、指示も入りやすくなった感じ
とりあえず、修正アップしました。 今更だけど、KoboldcppのPrompt Template色々間違ってない?
LCA試すときにllama2 chatのテンプレ使ってて思ったんだけど、マルチターンの会話の時[INST]と[/INST]だけで区切ってるけど間にeos_token(</s>)とかもいるよな? >>500
試しに同じ構成で作ってみたいと思うんですが
base_modelは何ですか? >>502
ベースは、meta-llama/Llama-2-70b-hf です ぐあああ!ヤヴァイ
中間モデル保存しておいたSSDが死んだw
予定していた最終モデルは別SSDにできた後だったのが不幸中の幸いだったけど、設定ファイルとか亡くなったのは痛いw
エロ小説用としては、いい感じに仕上がったと思うんで、なんとか最終モデルをアップするまで、もってくれ〜SSD WizardLM-2、消されたらしいけど何かあったのかな
性能やばすぎてGPT-4脅かしそうだったからとか?
帰ったら試そっと sbtom/karakuri-rosemiqu-CV2.gguf
とりあえず、今試したいことを詰め込んだモデルをアップしました。
自分も、これからチマチマ検証していきますw 毒性テストしてないバージョン出しちゃったわ😅ヤベヤベ 今のところ4bit量子化でB数の6割ぐらいの高速メモリ用意できりゃOK
みてえな認識してるけど
この先どんどん肥大化していってもこの方式当てはまるんやろか VRAMに乗り切るかどうかは単純な計算から求まるんだからその法則自体が崩れることはないんじゃないか?
そろそろ必要なVRAM量がコンシューマ向けチップでかなりギリギリだから、1.58bitが主流になって欲しいけど、いまだに進捗を聞かない 8x22Bと7Bは他にも何人か量子化とかアップロードしてるけど、70Bの方は元から公開されなかったんか? >>503
サンガツ
今マージを始めたところです
midroseの代わりにHDDにあったEuryaleを使ってみてます WizardLM-2 7BのiQ3_XXS軽すぎワロタ
RTX3050Laptopの4GB VRAMにフルロードできるからサクサクでいいね
割とまともな日本語話すし、ノートPCでここまで動くとは驚きだ ■ このスレッドは過去ログ倉庫に格納されています