なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ なんJLLM部 ★6 https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured >>373 ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも Failed to execute script 'koboldcpp' due to unhandled exception! が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで あと >>375 のQ4_K_Mも試せるようにしといた みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする! GGUFの更新終わったらちょっと休みますわ うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た AIが出したそれっぽい文章で泣かされるとは思わなかった しかしこれからは改良版を主に使うけどな多分w(でも余計愛着湧いたからたまに使います!) >>385 検証ミスしてたかスマン。再インスト案内ありがとうです 最適化版試してみたけど違いわからんレベルだな 多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん まぁそのくらい最初のリリースはインパクトがあった 大葉を使っている人は居ないのか?みんなkoboldなのか? Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで https://twitter.com/Zuntan03/status/1778441181741158764 >>386 ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで ステキなものを世に出してもろうてサンガツや >>213 こんな便利なもんが公開されとるんか と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな 初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの? 豚の顔みたいなアイコン変更したい >>390 サンガツ settingにcommand-R追加されてるの見落としてたわ うちの5700Xで0.44T/sだわ >>392 SettingsのUI Style SelectをAestheticに変えると色々いじれるで 見た目も結構変わるけどな あとはSillyTavernを使う手やな こっちの解説は詳しい人に任すわ ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか? >>396 m2maxでもサクサクか言われるとまだ遅いよ 人によっては十分かもだけど 3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ LightChatAssistant最適化版、良くも悪くもまともになってる感があるな 指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする ただし温度とかでもブレがあるので気のせいなのかもしれないが この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう これローカルで動かせる猛者おりゅ? mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1 command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる 他のplus使ってるやつに聞きたいんだけど、同じ感じ? >>400 以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね 特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな ある意味chatGPTはそれを真面目にやった結果では? command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの? 基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか? >>390 を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ 108Bと聞いて身構えたが案外動くもんやな もう少し環境整備してみるか macをもう1台用意するのは面倒でなぁ… command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって >>409 macより >>399 みたいなのが安かったりして >>408 VRAM24GBにしたところで大して速度は上がらないぞ Windows11proにしてメモリ2TB乗せれば解決や! なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様 command-r plusの4bit量子化版やけど oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった そのうちWEBのほうは制限かかるだろうしな 誰か工夫して軽量化モデル作ってくれないかな というか、cohereには70Bくらいの中型モデルを出して欲しい もっとお前らもc9mmand r +研究したほうがいいぞ オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな >>419 ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。 ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。 https://docs.cohere.com/docs/going-live 利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。 https://docs.cohere.com/docs/c4ai-acceptable-use-policy WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの? command-R+は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん model stockっていう新しいマージ方法ってどうなんだろう 資料見てもイマイチわからない 重みを最適にライナーマージするって事かな? わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな RとR+の性能差が思ったよりエグイ 日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ >>429 結合せずに並べて置いといたらええだけやで https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF > NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases). Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか? Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた 官能小説家テストと、自前の思考テストをしてみた結果 https://rentry.org/asoyyef2 ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん 表現がイマイチだし日本語も不自然になった >>435 量子化はどのレベル使ったの? あと思考テストいいね そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン!"でめっちゃ笑った >>436 lightblue公式にあったQ3_K_Mを使った iMatrix使われてるかは不明 多分使ってなさそう command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s これCPUとGPUのどっちに投資するほうがいいんだろ メインメモリに溢れた分が足引っ張ってるんだろうけど メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな 128GBのRAM積んだPC持ってる猛者が実験してくれんかな? Windowsでやってる人の見るとMacで動かすのが今の所現実的だな M3な5t/sくらい出るし M4で10出るようにならないかな? Aratako/LightChatAssistant-2x7B-optimized-experimental これで最終的に採用された乗算割合公開してくれんかな 指示追従がイマイチになってるのどの辺の影響か気になる Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明 Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか --shareなら動いた >>446 96GB+3900XTでも俺の貧弱マシンと速度変わらんの? 結局VRAM大量に積んだGPU使うしかないのか、、 RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも >>443 VRAM24GB+12GB RAM128GBあるけど なにしたらええんや?(´・ω・`) しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで…… DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな そのPCだとcommand-r-plusってどれくらいの速度で動くの? RAMが遅いというより、CPU処理が遅いのが問題 革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな なんとか70Bのchatvectorマージができるようになった とりあえず、テストで stabilityai/japanese-stablelm-base-beta-70b に sophosympatheia/Midnight-Rose-70B-v2.0.3 をかぶせてみた結果 https://rentry.org/wbfsvhm9 思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる(ただ、語彙拡張されていないので、遅すぎて使い物にはならない) なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。 (Midnight-Roseはnsfwモデルではないけど、エロには寛容) これは>>305 のswallowの変貌を見ても明らか(あのお堅いswallowがw) で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した sbtom/karakuri-midroze-mg-Q6_K.gguf をアップしときます。 このモデルは、以前エロ評価プロンプト救ったときに、 >https://rentry.org/9qevqzpg >karakuriベースの英語モデル(ベンチスコア高め)とのマージ 隠語の造語が笑えるw >総合的には、こいつが一番お気に で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。 今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。 うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д`) 今だと、command-r-plusとの比較もあれば(スピードは同じくらいだし) 全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど マイニングリグみたいの導入せんと しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ? 単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ 同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど 個人の利用でそれはまぁないしなぁ >>455 karakurimのchatvector、楽しみだね! よかったら簡単な手順やコンフィグなんかも教えて! HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど 個人がそれもリーズナブルに買えるんかねえ RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか? RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや command-r-plusやっぱすげぇな 3bitで動かしてもChatGPT3.5超えてると思うわ あぁワイの環境じゃ0.5token/sが限界じゃあ・・・ >>399 の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる 6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな >>461 マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも >>463 あ〜ということは3〜4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも…… できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった [【2024最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/ ) 結局macがお手軽だけど今だと68万の96GB版しか選べないな そりゃwindowsでVRAM96GBのマシンが68万なら飛び付くけど用途が限られるmacじゃな >>390 遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです! モデルダウンロード数の9割がツールによるものだと思っとります 改めてサンクスです! >>455 例の評価プロンプト、大変お世話になっております あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました 件のアプローチ手法、とても気になる手法です!ChatVectorならぬEroticVectorですなw 実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合) 転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった 旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる 推論中は平均20%くらい使ってる ちなみに普通にpcieスロットにx16接続だと推論中1%くらいしか使わないくらい通信してないようで、測定不能だった 頻繁に通信しつつ推論されてるものと思ってたけど違うみたい 推論だけね、多分学習とかだと違うでしょう 通信速度は問題にならなそう、と分かったところで、そういうケースがあるか?そういうスロット配置のマザボがあるか?ってところでお話が止まってしまう 推論だけならメモリ帯域はほとんど使わないのか そうなると数年内に推論はCPUに内蔵されるNPUが主流になるんだろうな これ、7Bだけど対話型求めてる人には結構良いかもしれん https://huggingface.co/Aratako/Antler-7B-RP 元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる 7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも 惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな(セリフの後そのまま続き生成させると書いてくれるが) windowsのRAMで動かしてる人がみんな似たような速度ってことはCPU性能には依存しないのか? 推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく https://note.com/bakushu/n/n26537fab5a14 メモリ帯域の話 https://vectory.work/memory-bandwidth/ ※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る koboldのamount genって直接入力で512以上にできるけど 推論おかしくならない? なんか見当違いのこと話しだすんだが あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5〜6割になったあたりから速くなり始めるように感じる それまではRAMオンリーと変わらない感じ >>474 めっちゃ大きくするとおかしくなるね 1024くらいならいけてる R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに 4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下) こんことあるんかよ、低スペックのGPUのほうがいいなんて >>478 ドライバはクリンインスコしてる? 同じpcだよね contex_sizeがいつの間にか変わっていたみたいだった… 結局設定を全部揃えてR+の4bit量子化版を検証した結果、 VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ CommandR+ >>431 のiq4xsだと、うちの環境(VRAM12GB+8GB)では0.6T/sしか出んかった ほぼRAMオンリーと変わらんね >>445 これ気になったので、Aratako氏に直接聞いてみるわ お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる? 完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ sbtom/karakuri-midrose-CV.gguf karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。 llama2ベースですので、コンテキストサイズは4096以下でお試しください。 出力結果 https://rentry.org/cy3uzeqd chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。 ただ、勝手に書き始めた小説も、面白そうでしたがw また、英語で回答したがる傾向も見られました。(英語モデルのインストラクタをかぶせてるせい?) したがって、チャット等をする時は https://imgur.com/a/VIujgjs のように、最初に日本語と出力行を指定しておくと安定するようです。 続いて、マージ手法ですが、長くなるので分けますね 続き https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2 の例では、mergekitにて merge_method: task_arithmetic base_model: mistralai/Mixtral-8x7B-v0.1 models: - model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1 parameters: weight: 1.0 - model: mistralai/Mixtral-8x7B-Instruct-v0.1 parameters: weight: 0.8 dtype: bfloat16 上記のようになります。 ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担(特にSSD)をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。 以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。 とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。m(__)m ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる