なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ なんJLLM部 ★6 https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/ VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured Koboldcppの出力トークンはなぜかバー上だと512までしか動かせないけど 数値欄のところに直接入力するとそれ以上いけるという謎仕様がある Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる 初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね >>284 >>285 質問と回答サンガツ 長々と出力する前に止めて修正することが多かったんで気にしてなかったわ READMEに以下を追記しといたで > Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。 > スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。 > Amount to Gen.: 512 (256 や 2048 などお好みで) >>286 ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理?っぽいんよね よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ EasyLightChatAssistantに >>281 の4x7B Q4_K_M対応いれといたで https://github.com/Zuntan03/EasyLightChatAssistant 更新はEasyLightChatAssistant-*.batを削除してから 再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら 2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで 4x7Bのiq4xs_imatrixも見てみたいね superswallowとMoEしてた人のモデルなら期待できそう 個人的に前までお世話になってました。 モデルの能力の定量化でいろんな指標出てきてるけど エロ力の定量化ってどうすりゃええんやろな 専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという 人間の感性に響くか否かを定量評価出来たら苦労しないわな エロだけじゃなくいろんな業界が欲しがるだろう まあ倫理力のなさなら定量化できそうだけどどう考えてもこれ下回ったら許さんみたいな運用しかされんやろな 自前のマージモデルが増えてきたんで倉庫替わりにhfにアップしたら怒られるかな? 回線的に量子化済みのモデルしか上げられないけど >>285 >>286 >>287 サンガツ!なんだけど、 launch前とsettingsの両方で最大トークン32kにしてるのに いざinstractモードで書かせると512トークン上限(xxx/512)になってしまうんよ… トークンのカウントアップが(512/512) になったら生成終了してしまうってことね >>295 マージモデルなんて山ほどすでに上がってない?? >>296 それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず >>285 と>>287 もそれを指している 落ち着くんだ >>298 マジか! 完全に勘違いしてたよサンガツ! Max Ctx. Tokensはコンテキストサイズ いわゆる記憶量だね SillyTavernでcomand r+使うのにはオープンルーターなるものを使えばいいんです? macがHBM256とか積んでLLM番長にならねえかなあ >>281 4x7B試したけどいいね かなり実用レベルだわ 速度も4T/s以上出るしバランスがいいな Sdff-Ltba氏のアプローチは 日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、 じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた https://rentry.org/7ukv2kcp 期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで 何が言いたいかというと、この理屈で karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・ メモリ、つよつよの方、ためしてー >>281 今日これメインで試してたがかなり良いな GPU使わなくても割と満足できるくらいの速度出るし全然良い てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね? パイソン、良く知らんけど少しずつ読み込んで処理できないのかな? mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね? 教えて、パイソンマスター >>308 連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい AIっぽくないと言われてた。そんなポテンシャルがあるとは 手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ 普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。 (処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする) AntlerのChatVector版をテストしたときはすごく驚いた思い出 「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ??」てなったw 設定を何も吹き込んでないのに対してこの反応 Antlerを素材に使おうと決めた瞬間だった LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか かなり初歩的な質問で申し訳ないのですが >>308 308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。 エラーの内容は以下の通りです。 --- Error Encountered Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable --- 以上がエラーの内容です。 自分でエラーの内容を調べたのですが解決しませんでした。 koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。 アドバイスや指摘を頂けたら嬉しいです。 HFにディスカッション立てたんだけど、llama.cppでcommand-r-plusのimat量子化読む時にエラー吐いて読めない問題にあたってるやつおらん? 一応詳細 https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/discussions/7 ちなみに、一応報告 >>273 >>274 でちょっと話してた、言語が混ざったりして出力がおかしくなる問題はMetal(Apple Silicon)特有で、おそらく原因がわかったとのコメントが5時間前についた https://github.com/ggerganov/llama.cpp/pull/6491 >>314 起動用batのkoboldcpp.exeを呼んでいる行の末尾に --noavx2 を足したら動かんやろか? あと知らんかったんやがWin7はサポート外らしい >>319 おっとSIMDのSSEかと思ったら違うっぽいね ならnoavx2は意味がないね ネットワークの問題っぽいけど出先なこともあって今はようわからん >>314 エスパーやが別名のフォルダにインストールして初回起動時のWindowsセキュリティを許可したらどうやろか? あとウィルスチェックソフトがネットワーク監視してるなら止めてみるとか >>318 APIのChat Completionのところににcohereの項目があるのに気付かなくて延々何か拡張機能とかあるのかな…?と探してたというだけの話しなんだ >>323 サンガツ!行けたわ 尻タブはこれまでローカル運用しかしてなかったのでこの辺の仕組みワイもよー分かっとらんかった エロの文脈でもキャラ設定とか世界観設定を上手く使おうとするとRAGっぽい実装になるんかな 続かせたいのに※この文章はフィクションです〜とか後書きみたいな文が出てくる時ってどうしてる? 書き直せな良いんだろうけど一回出ると延々出てくるからうざいっぴ! imatrixのtraindataは日本語モデルなら日本語の方がいいらしいと聞いたが 日本語のテータがほとんどないなぁ 翻訳したやつ使ってみたけど、違いがよくわからん。(commnad-rでは途中で止まるし) >>308 4x7BのIQ4_XSようやく試せた 自分的に日本語ローカルの現時最高峰だわ 小説もチャットも期待以上の満足度 >>305 のメソッドも面白そうだし シンギュラリティに立ち会ってる気分 >>319 >>321 >>322 ありがとうございます、解決しました 当方の使用環境であるOSのwindows10を再起動後に 再びEasyLightChatAssistantのGithubの解説通りに起動したら問題なく動作しました 発生したエラーについては再現性がなかったので、多分おま環っぽいです 皆様ありがとうございました! >>330 http://www.lsta.media.kyoto-u.ac.jp/resource/data/wikitext-ja/ これのTrain_Data_FとTrain_Data_Gを結合したので試したことあるけどあんま変わらなかったわ T Testの方に対するPPL測ってみたりもしたけどむしろ英語のやつ使ったものより(ごく僅かだけど)悪化してた >>323 あかん、昨日接続確認して、時間切れで試せてなかったんやが、いま実際にプロンプト入力してみたらうまくやり取り出来てない模様 freqesncy penaltyとpresense penaltyが特定できない、ってエラーとともに、”...”って出力返ってくるんやが、ワイは何を見落としとるんやろうか? >>333 うーん 結局は英語データでも問題ないのかもね groups_merged.txt ってのがhfに上がってるけどwiki-trainより軽くて使いやすい cudaオンにすればimatrixも爆速になるし Pulled and merged new model support, improvements and fixes from upstream. (Note: Command R Plus support is not yet included yet, it may be added in a future patch release.) お預けかぁ まあ予定はあるようだから大人しく待とう 赤ちゃんだからkoboldが実行環境としてなにやってくれてるのか未だに理解してない R+は64Gでの70Bの遅さが我慢できるのならIQ4_XSがよさそうだな llama.cpp更新されて、mainブランチでcommand-r-plusサポート追加されたっぽいね koboldうぷで早すぎーw 早速試したが、IQ4xsは起動せんかった IQ3_xxsはいけた >>342 さらっとM2 Max民がおるんやな・・・ m3studio256盛りultra1200帯域とかいつ出るんやろ ありゃ? どうやらオフィシャルのsplittoolを使って合体させんとあかんらしい gguf くそ 元ファイルまた落とさな ああ、てゆうか結合する必要なかったのね IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね スピードはうちの環境じゃ大差ないし、こっちを常用するわ こいつしりとりできるね 70Bクラスだと出来ないイメージだったけど IQ3_xxsは9.3GBでIQ4_xsは12.9GBだから 結局サイズが物を言うってことか 最近ちょいちょい遊んでるプロンプト iq3_mで4.3tokens/sec はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい https://i.imgur.com/BIpsJsQ.png うーん、ダメだ R+試してたけど、karakuri-midroseに及ばない おそらくimatrixによる量子化が上手くいってない気がする llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ pypiはまだっぽいけど、普通に使えるようになった 赤ちゃんレベルの超初心者ですまないんやが koboldで使うのには>>169 のどのファイルをダウンロードしたらいいのか分からん… 昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが >>357 間違えられたから、代わりに答えておくわw https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B-GGUF ↑行って 速度重視なら LightChatAssistant-2x7B_iq3xxs_imatrix.gguf 精度重視なら(q8はなんか問題あったって情報あったので) LightChatAssistant-2x7B_q6_k.gguf こいつをkoboldで読み込むだけ >>358 ありがとう。GGUFじゃない方見てたわ ちなみにGGUFじゃないほうは何か3つに分割されてるけどこれどうやって扱えばいいんだろうか >>358 Q8_0うちではKoboldで問題なく動いているけどな 問題ってどんなこと? >>359 あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群 もしかしてLlamacppの最新で使えないってことだろうか >>360 すまん、command-rの情報と間違えたw こっちは問題ないわ >>361 そうなんだ。GGUFのほう入れとくわ。ありがとう。 >>363 おk でもLlamacppの最新で動かない問題があるってのは見た しかしそれに対処するとKoboldで動かなくなるかもしれんという 別ファイルとしてLlamacpp用のを上げればいいのだろうか 意見求む >>365 ん? koboldはビルド済みだから、環境のllamaに影響されんよ? ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて 新規でllama.cppをビルドし直してる >>366 あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ 現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って それで意見を聞いてみたかった >>367 ああ、そういうことか それって、>>149 の話? というか、今時点の最新のllama.cppでも動かないのかな? どこかで見たと思っていたらそれだ!ありがとう 最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか 仕様変更だとしたら突然互換性がなくなったってことに Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな? 時間あるときに確認してみるわ Sdff-Ltba/LightChatAssistant-2x7B-GGUF のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんwww >>365 の検証できた >>149 の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様 v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた) またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった 纏めると、 最新ver量子化 旧ver量子化 Kobold-v1.62.1 〇 〇 Kobold-v1.61.2 × 〇 Llama.cppのmain.exe 〇 × この結果を受けて Sdff-Ltba/LightChatAssistant-2x7B-GGUF のファイルは随時、最新ver量子化に置き換えていく予定です >>322 Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします 最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな(2x7Bとかなら誤差なのかもしれんが) >>375 すごいな githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか ガチな人にかかるとこれくらいするのが普通なのかな 娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる… >>376 娘嫁に出すって捉えるとモヤかもしれんな でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや? ちな、376の精子はエロくて賢くて既に最高やで?お世話になっとるで、ありがとさんや >>376 新大陸発見したのは貴方や これからも何かを発見して行こうー・:*+.\(( °ω° ))/.:+ 超初心者な質問ですまん pc買い替え検討中だがkoboldが動かんpcなんや paperspaceやクラウド環境で一度動かしたいが やり方がわからなくてな…ノートからkobold upさせたらええんか?一度試したらupで時間切れになってもうた >>379 ノートのメモリいくつ? あとkoboldは公式から単一のexeファイル落とすだけやで upが何を指してるかよく分からんけど >>376 まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト 0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね? これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ! >>376 少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。 コンセプトを決めてリリースもした。それってすごいことだよ いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー 少し寝て休むといい、また寝不足になってそうだからさ ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる