なんJLLM部 避難所
レス数が1000を超えています。これ以上書き込みはできません。
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)ここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く 今期待の日本語特化モデル
TheBloke/japanese-stablelm-instruct-beta-70B-GGUF ・ Hugging Face
https://huggingface.co/TheBloke/japanese-stablelm-instruct-beta-70B-GGUF oobabooga/text-generation-webui
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui stabilityai/japanese-stablelm-instruct-gamma-7b
比較的小サイズで高性能なおすすめの日本語モデルやで
https://huggingface.co/stabilityai/japanese-stablelm-instruct-gamma-7b ●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで 高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで 70Bの大型モデルはLlama 2というMeta社が開発したモデルが元になってるものが多いで
メモリが48GB以上あれば動くけど、速度はかなり遅いで 18:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff79-XI6K):2023/11/11(土) 11:13:26.81 ID:0B0rgEfx0
ドライバやミドルウェア周りのインストールがだいたいこんな感じ
https://rentry.co/rd9xf/raw
python3.11を別途入れて基本的にそっちを使っていく 7:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff7a-EFnx):2023/11/11(土) 10:54:35.49 ID:Gp6hELJv0
日本語特化モデル以外のおすすめ。これもはっとこ
更新の速い世界だからお勧めモデルも逐次変わっていくけど取りあえず前スレ後半で話題になってたモデルたち(たぶんまだある)
総合力高い系:
Xwin-LM-70B
upstage-Llama2-70B (=poeのSOLOR)
あとは古典だがwizardLMとかairoboros系もまだまだいける
エロ特化系:
spicyboros
Kimiko
Mythomax 10 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 7f1d-ZlS5) sage 2023/11/11(土) 11:00:57.86 ID:DSO3hy+d0
Koboldcpp+ggufで動かす時に必要なメインメモリの目安
7Bモデル -> 8GB
13Bモデル -> 16GB
33Bモデル -> 32GB
70Bモデル -> 64GB
180Bモデル -> いっぱい 24 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff7a-EFnx) 2023/11/11(土) 11:24:55.41 ID:Gp6hELJv0
長い事kobold使ってて、バージョンアップの度に上書きしてたんだが、
いつの間にか推奨セッティングが大きく変わってることに気付いた!
>使用するのに適した既定値は、Top-P=0.92、RepPen=1.1、Temperature=0.7、およびサンプラーの次数 [6,0,1,3,4,2,5] で、それ以外はすべて無効 (デフォルト) のままにします。
>デフォルトの[6,0,1,3,4,2,5]から変更することは、出力が非常に悪くなる可能性があるため、強くお勧めしません。
だそうなんで、長い事使ってる人は、一度セッティングをReset all settingボタンでクリアしとくことをお勧めする もしかして日本でローカルllmチャットで遊んでるの自分だけかというほど無風な気がしてる この規模だったらもういっそ移住しちゃえば?
一定の勢いある板スクリプトで使い物にならんし 動画撮ったぞ。
スクリプトで流れるの嫌なので、保管用にこっちに書くね。
6分くらい撮ったけど、60秒以内にしろって怒られたから切り貼り編集したけど、体感は分かると思う
ローカルに期待して64Gメモリ買ったけど、こんなスピードじゃ抜けんぞっ!って怒られる前にw
よく見ると分かると思うけど、基本1トークン全角1文字だけど、文によっては1トークン3〜4文字出力してる。
これが日本語対応のトークナイザーのおかげなんだな
英語モデルで日本語書かせると、1トークン半角1文字、つまり全角1文字で2トークンもかかるから、激遅になる
https://imgur.com/a/SvIMoFl
i7 7700K + rtx3080ti メモリ64G
この化石PC以上なら、スピードはもっと期待できると思うよ(グラボはあまり関係ないけどVram12Gは欲しい)
ちなみに、ローリィの画像は、ローリィにお前の姿をSDで描くから、自分のプロンプトを書けって指示して書かせたものを
そのままSDにぶち込んで生成したw ↑重要な事を書き忘れてたので追記
使っているモデルは、Q6_k という64Gメモリでギリギリ動かせる量子化モデルで一番重たいやつ
だから、Q4_k_m とかなら、精度はやや落ちるけど、もっと速くなる
動画はモデル名も撮ってたんだけど、60秒にするために切り取ってた LLM部も避難所あったんか、主な情報ここのニキらから得てるから助かるわ 進化的アルゴリズムによる基盤モデルの構築
https://sakana.ai/evolutionary-model-merge-jp/
これが個人のPCで出来るようになったら盛り上がりそう 本スレ503へのレスだけど、
ツールは何使ってる?大葉?
koboldを日本語モデルで長文出力できてる人いたら設定教えてオクレ
今はinstractモードで
max tokens 最大
amount to gen 最大
他は初期値でやってる
英語モデルはこれで十分なんだが 本スレ504へのレス
とりあえずq4 k mで試した
メモリ32Gでも乗ると思うよ >>39
ツールはllama-cpp-python使ってるよ karakuri70bを1ビット量子化で試した
0.9t/sとヘボpcでも速くはなったが(6Qなら0.5t/s)やはり劣化が無視できないレベルだ
そこへいくとcommand-rは6Qで1t/s以上叩き出すし性能はkarakuriに匹敵する(特にエロw)
これ量子化次第ではvram20Gくらいあればgpuフルロードできるからチャットでも十分使える速度になるんじゃないかな?
性能はcohereと同じだから使ってる人なら分かると思う >>42
ありがとう
Python赤ちゃんだから敷居高そうだね
手順書いてくれてるサイトあるから腰据えてやってみるわ
(といいつつkoboldを起動してしまう) >>44
あんまりこのスレでは需要なさそうだけど、Python使えるとLLMでパソコン操作できるようになってできることの幅拡がるから、是非こっちの世界にもきてくれ Mistralベースが気になって日本語が達者な小さいモデルをいろいろ試してみてたんだけど、以下のモデルが7Bで結構良いの出してくれた
NTQAI/chatntq-ja-7b-v1.0
例のテストプロンプトを出力した結果:
https://rentry.org/4pztendu
Q8_0でも7.2GBなので速度は速く、VRAMオフロードもフルにしやすい
使ってみた個人的所感としてはサイズの小さいkarakuriみたいな印象を受けた tabbyAPI (exllamav2-0.0.16) でturboderp/command-r-v01-35B-exl2 3.75bpw をロードできた
oobabooga/text-generation-webuiはexllamav2のバージョンが古いせいかロードできない
VRAM消費がmax_seq_len=4000で32GBなので消費量が多い気がする
ちょっと調べたら、GQAを使ってないからコンテキストに使うVRAMが多いようなことが書かれていた → https://zeux.io/2024/03/15/llm-inference-sol/
日本語性能は既に言われているとおり良さそうな感じ command-r使ってると、なんかチャットの最後に唐突に記号とかシステム系のトークン出力すること多くない(#とか<!―とか)?
出力をjsonとかで構造化すると抑制できるからとりあえずそうしてるけど
webui使ったことないからわからんけど、そういうのだと裏で走ってるプロンプトで上手くやってるのかな hugでggufの最新順でみてたら、703bのmodelを発見
なにかの誤記かな?と思ったらホンマだった
240bなんかはあるの見かけたけど、もはや家庭用とかそんなチャチなものじゃないんだな >>51
abacaj/phi-2-super
こいつをフランケンマージしまくったのか
作者も再生でんやろw
xverse/XVERSE-65B-Chat-GGUF
こっちはモデル自体は4か月前と古いけど、最近ようやくllama.cppが対応して量子化できたんだが・・・
日本語性能かなりいい!
karakuriの出る2ヵ月前に、こんなものが出てたとは・・・
量子化が早かったら祭りになってたレベル 今って日本語使えるローカルモデルで最高性能のやつってこのスレ的にコンセンサスあるんかな?
まだkarakuri推してるやつが多いのかな >>53
ん?
karakuri以外になんかある? 個人的にはcommand-r推してるのと、最近だとSwallow 8x7とかao-karasuとか?
まあ最後のやつは微妙って言う意見の方が多いと思うけど ああcommand-rはスピード面でもかなりいいね
はよkobold対応してくれんかなぁ command-rは初めて聞いたな
swallow 8x7Bは微妙ってよく聞くから避けてたけど
動かしてみるか・・・ privateLLM(Mac•iOS )で今日rakutenAI-7b-chatが入れられたから試してみてくれ 開発者に頼み込んで入れてもらった 自分で試したらGPT4ALLにgguf突っ込んんだ方が精度良かったわ...
日本語モデルをOmniQuantで扱うのはまだ無理ということか >>58
aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
Swallow8x7Bは本家よりこっちがおすすめ
出力例
https://rentry.org/3fuq49ct MixtralベースのSwallowはInstruction Tuning版が公式から出るの待つのが良いんじゃない oobabooga/text-generation-webuiでcommand-rを使うなら、このissueが参考になりそう
https://github.com/oobabooga/text-generation-webui/issues/5762 >>59
rakuten AIについて書いてるけど実際どう?
7Bと高を括っててあんまり使う気無かったんだけど、話ぶりだと意外と良かったりするのかな? command-rでimatrix.dat作れた人いる?
なんか途中で止まってしまう。(tokenizing the inputの辺)
koboldで動かせるようになったんで、i-quants で量子化して
vram12Gでもフルロードできるようにしたいんだけど Mistral7Bベースのモデルをいじくって良い感じのものができた!ので投下
日本語対応の7BをChatVectorで対話能力上げて、mergekitでフランケンMoEにしてみた
以下、ダウンロードリンクです(pCloud)
https://u.pcloud.link/publink/show?code=kZLvUz0Z1JHO9j2jnH7f7kvD2Mt0bkWfGr5y
出力例(いつものプロンプト)
https://rentry.org/do22ubeg
特徴としては、
・Contextが32kまで対応
・モデルサイズが小さくContextSize32kでもVRAM12GBでフルオフロード可能、高速
・ざっと試した感じでは日本が流暢
・ノベルを書かせると強いかも
・素材に使ったモデルの影響でエロエロな文章を書きたがるw
良さげなのできてテンション上がってたが、さすがに疲れた…寝ます… これは驚いた7Bとは思えないほどだ
少し試しただけだけど、日本語がまともだ・・・ あらら…試そうかと思ったらダウンロードできなかった、残念
ChatVectorの調べてみたら興味深いな
70bモデルあたりじゃないとだめかと思ってggufでスペック不足で挫折したけど、軽量モデルでもいいなら遊べそう >>66
Chat Vector、興味があって色々試してるけど
instとbaseで引いたChat Vectorと既存モデルの重みを足してる感じ?
シンプルに足すのと、元の論文にもある0.5の割合で足すのとか
以下でやったような層ごとに最適比率を進化戦略で出したとか、色々あってどれが良いかわからん
https://huggingface.co/napopoa32/swallow-hermes-st-v1 うお、トラフィック集中でダウンロード制限されるんか
おはようございます
どこかいいアプロダかクラウドないものだろうか
>>69
うちは>>61がいい感じだったので参考にして、0.8掛けして足しました >>66
pCloud無課金だとダウンロードできんかった
huggingfaceに上げてくだされー Chat VectorっていわゆるTask Vectorだよね?(MergekitでいうTask Arithmetic)
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな?面白いわ >>66
見よう見まねで差分マージ試したけど、トークナイザー関連は元のモデルからコピーすればいいのかな?
cp_model.save_pretrained("G:/merge/CVtest01")
だと、トークナイザーは作られなかった
あと、0.8掛けって
chat_vector = 0.8 * inst_model.state_dict()[k] - base_model.state_dict()[k]
こんな感じですればいいん?
パイソン初心者なんでよくわからん
できればpyファイルも公開してくれるとありがたい 需要あるかわからんからサクッと必要な人に提供して終わりにしようと思ってたけど、ありそうなのでhuggingfaceに登録してみる(ダウンロード数を見てビビったw)
夜にする予定なので少々お待ちを
>>72
そうそう。今回だと (Mistral7Binst - Mistral7B) を日本語可能モデルに加算処理した
実際に出力を比較したら明確に対話能力が向上して自分も驚いた
>>73
tokenizer関係は日本語可能モデルから流用した
0.8掛けは、new_vの代入式をnew_v = v + ( 0.8 * chat_vector.to(v.device) ) に変更した
詳しくはhuggingfaceにpy含めやったことを全て書く予定なのでお待ちください
(と言っても大したことはしてないと思う) 書き忘れてたけど、今回MoEの素材にしたのは以下2モデルのChatVectorしたやつ
NTQAI/chatntq-ja-7b-v1.0
Elizezen/Antler-7B
特にAntler-7Bが(エロ)ノベル生成能力高くて凄い
自前でできる人は是非試してみてくれ しかし、pCloudって、買い切りもあるんだな。
こっちにも興味惹かれるわw 絵のSDで言うnsfw-sfw差分マージとかコピー機Lora法みたいなことがLLMでも出来るってこと? お待たせ!huggingfaceに登録してアップロード完了したので公開します
今はGGUFだけ取り急ぎアップロードしています
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B (モデルカードのみアップロード済)
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF
safetensorsの方はもうちょっと待ってくれ
モデルカードにやったことは全て書いてある(はず)ので、情報としては現状で出し切っているはず
参考になれば幸い >>80
わざわざすみません
参考にさせていただきます >>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう 使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う >>80
ありがとう!
STでのチャットの様子をオナニースレに投下しました(内容がちょっとアレなので(;´Д`)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。 日本語エロやりとりのデータセットを集合知で作る話があったけど
これくらいのモデルをベースにしてもらうといいのかもな >>87
商業モデル使ってるROM勢だけどそういう形で集合痴集めたいって話やるなら協力したいな 前もあったけど
「男のセリフ」「女のセリフ」
この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし coboldばっかり使ってるんですが、皆さんはどのwebuiを使ってるんでしょうか
そもそもLLM用のwebuiがどのくらいあるのか把握しきれてないけど 7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし
そのために必要なのは喰わせるテキストってことよな 正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Gでいけるか不安w ローカルでLLM動かすソフトウェア聞くのここであってる?
LM StudioとText generation web入れてるけど情報少ないし
ここの主流を参考にしたい kobold.cppで何も困らないしなあ
絵を出したい人はSillyTavernやろけど >>95
7Bのモデルで試したが、3モデルの読み込みが必要だから、結構メモリ食ってた。
まあ、SSD空けて週末に試してみるわ おお、予想より反響が!作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です
>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねw
このスレも結構人がいたんだな… kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん apiで動かしてlibrechat派はいるんだろうか 多少敷居高いのは承知だけど、直にpython叩く勢がほぼいなくて悲しい
バックエンドが対応さえしてくれれば最新のモデルも割とすぐ使えるし、ツール組み合わせ放題なのに 人気なさそうだけど、CPUで処理するならllamafileというのが速いらしい。 >>102
実は気にはなってるんだ。
どんなうひょーなことできるのか
具体的な使用例とか晒してくれると嬉しいんだが >>104
一番わかりやすい所だと、style-bert-vits2でちょっとエッチなボイス学習させた音声合成モデル作ってLLMに喋らせたり、テキストと一緒に感情を生成させて立ち絵の表情とか音声の声色と連動させる、とかやってる
あと、LLMが書いたpythonコードを自動実行できるようにしてるから、普通にアシスタントとして使ったりしてる
トリッキーな内容だけど、LLMの判断でpythonの変数確保できるから、好感度パラメータみたいなのを作らせて、ギャルゲーシミュレーションみたいなことも(質はともかく)できるようになる 今度動画でもあげてみようかな
コードの方はまあ、スパゲティになってるから需要があれば ちょっとデモとして思いついたやつ
服の枚数とか保持させてミニゲーム的な感じで野球拳やってみた
https://i.imgur.com/ttNbUbr.png 青空文庫の吉川英治を全部読ませて欲しいわー
三国志演義での罵りあいも美しいんだよな >>80
お疲れさまでした
3060でも使ってみたけど12GB勢には助かると思うのです
ところでtokenizerが合わないらしくtokenカウントがスワロー系の倍くらいに膨れちゃうんだけど
単純にctxの最大値8192とかにすればいいんですかね? >>80
Swallow-MSで試してたけど、語彙拡張があるから、Chat Vectorの次元数違いで無理があるんではと思ってたんよね。
シンプルに語彙拡張無しの日本語FTモデルで足すのが、筋が良いやり方やったんかな。
やろうとしてたこと、既にやっててすごいわ。参考にさせてもらいます! Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B
こちらにも全部アップロードが完了したので報告
>>111
そう言ってもらえると作った甲斐があった
消費トークンがSwallow系の倍になるのは、日本語の語彙拡張が行われていないモデルの仕様です
今回のモデルは英語モデルからVocabが据え置きなので、Vocab拡張済みのSwallow系より消費トークンがどうしても増えてしまいます
>>112
自分は試してませんが、日本語語彙拡張済みモデルに適用したい場合は以下のページが参考になるかもしれません
https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4 >>111
あと今回のモデルはctxが最大32768まで対応している(つもり)なので、そちらで対応いただければと そういえばmergekitでMoEする時、2モデルしか使わない場合はpositive_promptとかに何書いても変わらないと思ってたけど合ってるかな
デフォだと2エキスパート必ず使うようになってるから、2モデルMoEだとgateの意味がなかったような うみゆきまでこのスレを捕捉しとるやんけ
なんかこいつ露悪的なんだよなあ あれは露悪じゃないんや
色んなものを隠せてないだけや >>115
moeのpositive_promptって何に影響するのかよく分かってないんだが
あれは日本語にした方がいい事あるのかな? LLMの開発に興味あるんやけどどっから勉強すらええんや?
Pythonは少し書けるけど、AIとか機械学習とかの知識は今の所皆無や 開発と言っても幅が広すぎひんか
どういうレベルのことをやれるようになりたいかとか >>122
とりあえず規制回避したドスケベな日本語エロ小説を書けるような
LLMが欲しい 多分>>124はディープすぎるんちゃうかな……
そして>>123の目的は高すぎる気がする うーん、まあFine-tuningとかモデルマージあたりの知識があればなんとかなるんちゃう? この板まで来ると『ChatGPTでオナニー』スレと被っとるような気がしてくるな
あっちはwebが多いけど >>127
なんか色々ズレてる気がするで・・・
ここは派生スレやし元スレとはだいぶ中身がちゃうで 試させてもらうには
デカいRAMかVRAMがあるPCを用意して
>>2のkoboldに>>80ニキのggufモデルを読み込ませればええのかな
とりあえず動いた気がするわ なんUのスレのりんな時代からずっと言われてたことやけど「このデータセットで
このサービス(orローカル)でこういうコードでFine-tuningをこうやったら
こういう風なデータができて出力はこういう風な感じでに成功したで!」っていう
事例がもうちょっとほしいのよな
ござる口調とかだけではちょっと https://i.imgur.com/PQkNtJI.jpeg
それでgenを大きくしたらとりあえず長い文章が出てくるようになった気がするわ
tokenも影響あるんかな >>130
自分で事例を出すでござる(´・ω・`) >>132
何度も失敗して挫折した上に金欠で遊んでいる場合じゃないでござる・・・ >>89
別のスレでエロチャットの学習用データ集めようとして頓挫してたけどこっちのスレで再挑戦するの? まあすんなり上手くいくかは別にして旗艦になりそうなモデルが
5chの人間から出てきたのは大きいんちゃうかなって
暇つぶしでデータ作成に協力くらいはしようかなと思ってるわ
匿名性維持しつつ削除されないためにはrentryが一番ええんかなあ >>135
まさしくそっちのスレの住人で現時点でローカルに手を出してないしなんJも行かんからROM専やってるのよ
データの正規化とか音頭を取れるほど詳しくもないから何かやるなら協力できることがあるならその範囲で何かやりたいなってだけかな
将来的にはローカルに移行したいけどみんなの開拓の成果タダ乗りってのはちょっと気が引けるじゃん? >>120
どのエキスパートを使うかに影響する
例えばコード特化、数学特化、ロールプレイ特化、小説特化の4つでMoEする場合はそれぞれのPositive Promptに
「プログラムを書いてください」
「次の計算問題を解いてください」みたいに各モデルの得意なタスクとかを書くと、推論時の入力の意味をある程度解釈して適切にgatingしようとする
だけど、mergekitで2モデルでMoEする場合はデフォルトだと常に2モデル使うような設定で出力されるから、どんなgate_modeでも理論上変わらん…はず >>80
今更だがベースモデルの片方のNTQAI/chatntq-ja-7b-v1.0はすでにInstruction Tuning済みなのか
Instruction Tuning済みのモデルにMistral-instructのベクトル足して上手くいくってのも割とわけわからんな
NTQAI/chatntq-ja-7b-v1.0はそのまま、Antler-7BはChat Vector足してMoEとかも試した感じ? 先週マイニング用の4分岐のライザーカードasm1184を用意した
最初のモデルのロードは遅い、busロード80%(おそらく分岐チップの制約でマックス速度)
初期プロンプト流し込み、ジェネレート中はbusロード20%は超えなかった
これの意味するところはマイニングライザーでグラボ増やす形でもあまり問題はなさそう LLM用のデータセットの話題があったみたいだけど、npakaさんの昔のデータセットっていうか会話集みたいだったけど、
(スマホアプリの中で使った会話っぽかった)あれ改造1回試みたんだけど頓挫してるんだよね。
昔の女子高生の会話みたいなやつ。データ使ったの前過ぎてどこにあるか忘れた。多分削除してしまったと思う。
まだネットに落ちてるかな。全部読んでみたんだけど肝心の所が削除されてたんだけどね。 使えるか使えないかは別として、まだあった。npakaさんの あかねとーくっていう携帯アプリ?で使った会話。
https://github.com/npaka3/akane-talk >>139
その組合せは試してない。理由としては以下のように進行したからです。
素のchatntq-ja-7bを試したが、こちらの指示通りに書かないことがある
→ChatVector適用するとどうなる?出力がおかしくなるか?求めるものに近づくか?
→ChatVector適用済モデル(MoE化前)で実験、好みの動作に近づいたと判断
なので適用済をMoEの素材にした。Antler-7Bも同様
今回の処理について自分が期待していたことは、
ChatVector: Instruct強化をすると、ユーザーの指示に従いやすくなったり、話を理解しやすくなるのではないか
MoE化: パラメータ数の増加による基本能力の向上と、7Bモデル同士の短所の補強及び長所の相乗効果(言葉合ってる?)
いろいろなモデルでマージしてしばらく遊んだ個人的経験から、上記2点の可能性を見たので試して、偶然できたのが今回のモデルです
LLMはkarakuriが公開されたころ(今年2月?)に触れたばかりで、理論的なことは正直さっぱりだったりする ローカル勢でllama.cpp + LibreChat 勢をみたことないな。存在しないのか... >>146
chatntqはMistral-instruct派生じゃなくてMistral-baseから改めてインストラクションチューニングされてるモデルだから加算しても上手く行ってる感じかな、面白い llama.cppを最新版にしたらMoEしてMixtralになったものをquantizeしたモデルをKoboldcppでロードできなくなったんだがこれって対処法ある?
Koboldは最新のものにしたけどダメだった
経験者いたら教えてくれ
どうやらconvertするときの重みの名前の付け方が変わったっぽいが >>148
あ、確かに自社のデータセットでファインチューニングしたって書いてある
なるほどそれで二重にならなくて上手くいったのか…
そういやChatVectorしたかった理由で一番重要だった「Context32k対応」を忘れていたので、追加で
素のMistral系日本語モデルたちは32kまでじゃないんよ
これをしたかったからMistral系を漁っていたんだった
>>149
過去のバージョンにロールバックできれば…
git cloneで過去バージョンでコピーできないかな
しかしそんなことがあるのか。迂闊に最新にできないなあ 4090が一個あれば、AIで遊ぶのにどれぐらいのことができますか?教えてください先輩 4090だけだと画像生成で無双できるやろけどLLMだとなあ……
>>80ニキのモデル動かすだけなら爆速やろから、それが進化して
13Bモデルとかになっても爆速にはなりそう >>152
やっべ かなりいいなこれ
IQ3XXSで量子化すればなんとか 動かせたニキがおったら環境教えてほしいわね
基本的にはMacじゃないと快適じゃなさそうやが・・・ >>153
33Bくらいのモデルなら必要メモリ量が20GB前後なので、それだとちょうど4090にフルロードできて恩恵を実感できると思うが…
実際に話題になるモデルの多くは70Bクラスが中心なので、それだと4090といえどもフルロードはできない
溢れた分はCPU+RAMで動かすことになるので、そこが速度上のボトルネックになって、正直1070だろうが3060だろうが4090だろうがそれほど速度は変わらない(多少は変わるが劇遅→爆速で快適!とはならない)
勘違いしないで欲しいのは「4090程度じゃダメ」と否定しているのではなく、十分遊べるしそれなりの恩恵もある
ただ画像生成のような劇的な恩恵は無く、下位グラボじゃできなくて4090ならできるという場面はあまり無いよということ
現状はCPUとRAM側が重要 >>150
>>80のモデルを普通にQ6とかで量子化したけどダメだった
>>149
gitで過去バージョンに戻して再ビルドすれば良さそうだね 流石にエロ小説をいきなり出すのは厳しいか……
何らかのキャラクターになり切って応答させる
とかの方が敷居は低い感じで良い? すごいなこいつ
うちのMac 64GBだと相当縮めないとダメだろうが・・・
そもそも小さい方のやつもめちゃくちゃ性能いいけど、日本語だけ学習させるより、多言語で学習させた方が能力落ちにくいとかあるのかな 全般の能力に関しては納得できるんだけど、日本語単体の能力でみても日本語特化モデルより能力高い感じしない? ああ、でもそもそも世の中の日本語モデルは事前学習自体はほぼ英語ってのも影響してるか くそっ、2年前の俺。
なぜあのとき3060tiの8Gを買ってしまったのか!
12Gのモデル買っておけば…悔やんでも悔やみきれないw 7Bモデルなら別にCPUで動かしてもそれまでちゃうかな
全然速度的に不満ないし command-r+はまだllama.cppに完全対応してないっぽいね
通常の量子化もだけど、imatrixにしたいから、こっちの問題も解決してほしい(command-rでもまだ無理だったし) そういえばデータセットはcommand r+とかに出力してもらえばいいのか。 動かせる環境がある奴ならな・・・
M2Macの奴がバンバン動かしてくれたらデータセットすごい速度でできるかも? 4bqのCMDR+がこのスピード、M2 Ultra欲しくなりますなぁ……。
https://twitter.com/awnihannun/status/1776081238467768493
しかし唐突なグリーンってのは何なんだw 3bqならうちのmacでもギリギリ動かせそうだが、劣化が気になる >>162
WEB UIのキャラクター設定に学校の委員長入れたら頑なにエロ拒絶された
学校の部分消したらうまくいったので設定にもよるみたい そういや>>80の手法、0.8掛けて重み足してるけどそのままでいいのかな
直感的には1.8で割って元の分布に近づけたほうが良さそうな気がするんだが >>80のモデルの名前が長い、というのをいくつか見かけたのでもっと短い名前を付けようと思います
LightChatAssistant(LCA)って変更したので、今後huggingfaceを見る方は以下のリポジトリをご参照ください
Sdff-Ltba/LightChatAssistant-2x7B
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
それと量子化版にもっと大きいbit数のものを随時上げていく予定です
手始めにQ6_K版を上げました。非iMatrixです
もっと精度劣化してないの欲しい!という方はこちらをどうぞー >>179
乙です
時に、そちらの環境では70Bの差分マージは可能でしょうか?
karakuri=miqumaid-llama を試しましたが、64Gでは無理でした メインメモリ128GB自体はまだ現実的
問題はその時の速度
Mac最強かな >>180
ChatVectorですかね?やってみた…らブルースクリーンになったw久しぶりに見たw
メモリ96GBでは到底足りないようだ
1モデルだけで128GBあるからやはりきついみたい >>184
やはり、無理ですかー
mergekitだと、70Bモデルのマージも64Gで余裕だから、そこらへん上手く処理してくれるのかな
Task Arithmeticを使ってできないだろうか やるとしたらRunpodとかのサービスでクソデカサーバ借りてマージするとかかな
ダウンロードとかアップロードの時は小さいインスタンスにするようにすれば5ドルくらいでいけそう >>179
久々にローカルやってみようと思い、oobaでq6_kを試してみた
メインメモリ32Gの3060環境だけど、この精度でサクサクなのは、とても進化を感じたよ 避難所これどこの板なんやろ防弾とかなんかな?と思ったらPINKで hentaiスレ一覧の中にポツンとあんの笑う 女になりきってオナニーするスレ ★2
なんJLLM部 避難所
男の射精見て興奮する奴 6 しかもこのスレが一番勢いあるという
もう終わりだよこの板 本スレの方はどうすんだ? スクリプトが埋めると思うけど次スレはなしかね 誰か立てたら残る
そうじゃなきゃこのまま
今の5ch/pinkbbsは割と成り行き任せよ
このスレが日本のLLM知見の最先端になってもそれはそれで・・・ >>178
64GだとQ3までしか無理だなぁ
IQ3なら劣化も少なくすむのに
Aratako/c4ai-command-r-v01-japanese-instruct
こっちは、前モデルにファインチューンしたバージョン
スコア見る限り、かなり期待できそう
ダウンロード終わったら、Q6_kに量子化してkoboldで試してみるわ。
しかし、自前でファインチューンできる時代になったんだな
エロ特化にできんかな?w light chat assistantでいつもの嫁を設定。エロ可能嫁完成。 >RunpodでGPUサーバを借り、A6000x4で学習を行いました。
RunpodのOn-Demandで$4.56/hrか…
データセットさえあればワンチャンありそう >>195
iq2上げてる人見つけたから、iq3お願いしてみた >>195
まともなデータセットで追加でファインチューニングすると逆にエロ悪化したりするからなぁ、どうだろう
試してみないと分からんが
>>199
俺もRAM64GB勢だからIQ3楽しみ Aratako/c4ai-command-r-v01-japanese-instruct
だめだ。エラーが解消できん。元のcommand-rは上手くできたのに
とりあえず作者様に量子化をお願いしてみた
>>199
見たら上がってた
早速落としてみる 残念
command-rが動いた自前ビルドのkoboldでもplusは動かんかった ああ、ていうかアーキテクチャが違うのか
llama.cppが落ち着くまで待つか・・・ llama.cpp server叩いたけどunknown architectureだね Add Command R Plus supportっていうPRが進行中だからもう少し待ちだね latest releaseが1時間前とかだからいけるかと思ったけどダメという
お預けですな >>80
長文(1万トークンぐらい)の最初と真ん中に書いた事を質問したら、ちゃんと答えてきた。なんかすごい。 KoboldcppのビルドがWindowsで上手くいかん
makeでやってもcmakeでやってもエラーになるわ
もっと頻繁にビルド済みの配ってくれねえかな OPENBLASならビルドできたからこれで一旦満足するか… LLMじゃなくて画像生成(SD)のほうだけどRunpodでA100 80gb使ったことある
24時間ぐらい回すぐらいなら5000円くらいで使えるので個人でもわりとイケる
が、ワイ的な問題としてはSDは実質的にsd-scriptsというリポジトリのが学習環境の定番になってるんだがLLMの定番がわからん点や
karakuriはmegatoron deepspeedなるものを使ったということはわかる >>149
これはどうやら↓の変更が原因みたい
https://github.com/ggerganov/llama.cpp/pull/6387
↓のコマンドでその手前に戻したら直ったわ
git reset —hard 52604860f93063ef98863921da697576af1c7665 >>80
めっちゃ楽しんでます、サンガツ!
chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF+Kobold.cpp+SillyTavernで遊びたいんやが、SillyTavernの方の設定&キャラカードのプロンプトがイマイチわからん
この組み合わせで遊んでる民、どんな風に設定してるかおしえて >>214
まずstの設定をkoboldと同じ設定に変更
キャラ設定はオナニースレのシルヴィを参考に入れ込んで自分好みにカスタマイズした
(小説機能とか省いて 口調のサンプルを追加とか) >>215
サンガツ
チャット楽しみたいんやが、なんかプレイヤー乗っ取られたり、余計なプロンプトが最後にぶら下がったりで置いてけぼりくらうんやけど、その辺はどうやって制御したらええんかな? 2x7Bだからその辺りはある程度割り切るしかない気がする
ガッツリ設定入れ込んでちゃんとしたロールプレイするにはモデルサイズ的に厳しい >>216
会話は◯◯のみ行う とか 1センテンス以内にしろとか指示に入れてるが初手でダメならガチャしてる
あと指示はxml文で入れた方が理解度があがる 気がする ここら辺はワイもまだ試行錯誤だわ ローカルの最大の強みは返信を書き換えられることや
どんどん書き換えていけ >>208
なんかkoboldの人は4/7まで休暇みたい
もうすぐビッグウェーブが来るでw >>215
オナニースレのシルヴィ探してるんやが見つからん
【Claude3】ChatGPTでオナニー ★29とかのテンプレ見るんじゃあかんのか?
>>217-219
ありがとな
修正出来るのは強みは活用せんとな
せっかく日本語で遊べるローカル出てきたからには尻タブ用の使い勝手のいい日本語テンプレプロンプト作らんとな 避難所に案内されたわけですが、軽量でいいのがあるとのことですがどれのことなんだろう… >>225
ありがとうございます
これいくつか種類がありますけど何が違うんでしょうか…? ここのニキらには不要っぽくはあるんやが
LightChatAssistantをKoboldCppで簡単にお試しする環境と解説を用意してみたで
https://github.com/Zuntan03/EasyLightChatAssistant >>228
ooba以外での動かし方も知りたかったので助かりますぜ…! 最初q8のものを落として使ってみましたがVRAM15gb使ってたのでQ4kmってやつにしてみますね。
ただ日本語モデルということで日本語で入力してるんですが返答は英語で帰ってくるのはどうすればいいんでしょうか >>230
まずは
>>228 を試してみるとええかもしらんで 全部消して228のを入れようとしたらこういわれました
https://files.catbox.moe/vr2l4z.png
koboldcppだけ先に落としておいたら進んで、できたbatを実行したらまた証明書が〜と出るのでこっちは起動までたどり着けないです…
comfyuiの時もこんなの出たことあったなぁ… >>233
ダウンロードできたみたいです!サンガツ!
でもやっぱり英語で帰ってきてしまう…なんででしょう?
https://files.catbox.moe/ogijxs.png >>233
ファイル名が変わっていたのに今対応したで
iq3xxs_imatrixと_imatrixが付いとったら正常なはずや LightChatAssistantを別データセット使って追加でインストラクションチューニングするの試してみたんだが良くも悪くもまともになってしまった
出力の自然さは上がったけどエロさも同時に下がった感じ
Antler-7Bがインストラクションチューニングされていないエロ特化みたいなモデルだから、ファインチューニングするとそこを殺しちゃってる感じかなあ >>234
以前にKoboldCppを使ったことがあって設定が残ってるとかやろか?
Settings-AdvancedにあるReset ALL Settingsして
Settings-BasicのMax Ctx.Tokensを32768にAmout to Gen.を512にする初期設定をやり直してみたらどうやろ? >>228
>>235
すごい!ご新規さんに優しい素晴らしいものをありがとうございます!
ファイル名をちょこちょこ変えてしまって申し訳ないです…
とりあえず予定していたものは上げ&修正終わったので、何かなければここから変わることはないはず
>>234
MemoryかWorldInfoに英文が入力されているのかな?
New Session→Keep Memory and World Info?のチェックオフ
でOKして試してみるとどうなります? 話者の名前が英語になってるとそっちに釣られるとかあるで mlxでcommand r plus 4bit版動かしてるMac使いおらん?
M2 Max RAM96GBで動かしたんだが↓みたいにぶっ壊れたAIみたいな出力しか出さないんよね
誰か何か知ってたら教えてクレメンス
Prompt: hello
,
I have a problem with the "グリーン" color.
I have a "green" color in my palette, but when I use it, it is not the same color.
I have a "green" color in my palette, LightChatAssistant使う用のガイドならInstruct Templateの変更にも触れておいた方がいいんじゃない?
Mistralベースだからフォーマットは[INST] [/INST]の方がいいはず 日本語でお願いしますって言ったらたまーに日本語で返してくれますね…
>>238
やってみましたが相変わらずですね
>>239
話者ってどこで変えれるんでしょう…?
https://files.catbox.moe/9woqzo.png 肝心なの忘れてた、コマンド画面だとその後も書いてあるんですがwebui上だとちょっと前で止まってるんですけどなんなんでしょうか… あとiQ3_SやiQ4_XSも精度劣化の低さの割にサイズが小さいのでおすすめ
量子化での精度劣化は以下ページの方が纏めてくださっていて、とても参考になります
一番下の「KL-divergence による量子化評価」のグラフがめっちゃ参考になった
https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547
>>243
うーん、こちらでは全量子化を日本語動作確認してるんだけどな…
私には解決できないようだ。誰か任せた ワイの環境やとAllow Editingを有効にした際に{{[INPUT]}}と{{[OUTPUT]}}や[INST]と[/INST]があると英語になってしもうてる気がするで
どう案内するのが正解なんやろか? >>243
ということで{{[INPUT]}}と{{[OUTPUT]}}を削除して生成したら日本語にならへんやろか? >>247
消したくても消せないというかなんでこれがついてるのかがわからない状況です。
241が言ってるのがそれなのかもとググっても全然わからんです…
あとなぜか最後の1行がwebui上には表示されないっぽいです ふむ、Instruct Tag Presetを変えて試してみたがどうやらVicuna以外にすると英語になったりならかったりするようだ
普段適当に「ME:」と「AI:」にしてたから分らんかった
ということでSettings→Instruct Tag PresetをVicunaにすると日本語にならないかな
(本当はMistralのチャットフォーマットの方が良いんだろうけど) それと最後の1行が出ないのは、Settings→Advanced→Trim Sentencesをオフで治らないかな 訳わからんカット編集せずウィンドウ全体を貼ってくれw >>241 指摘サンガツやで
Instruct Tag PresetをLlama 2 Chatにする案内を追加しといた
ただSettingをLlama 2 Chatにすると"stop_sequence": ["[INST]", "[/INST]"],は変わるんやが入力欄で入力すると{{[INPUT]}}と{{[OUTPUT]}}(Instruct Tag PresetのKobold AI Formatみたいなの)が入ってしまうんはKoboldCpp仕様なんやろか?
>>243
話者はWorld Infoなんで238の手順できえるはずやで
>>248
Allow Editingが有効なら一旦ABORTして直接{{[INPUT]}}や{{[OUTPUT]}}にカーソル合わして直接編集で消せるはずやで
下の入力欄から入力するんでなくて上の出力欄から直接入力したら{{[INPUT]}}や{{[OUTPUT]}}が入らへんっぽい
最後の一行は中途半端に生成された文は削除される仕様やね >>249
これで日本語になりました!サンガツ!
>>250
多分治ったっぽいです!サンガツ!
>>252
Llama 2 Chatだと英語のままでした…悲しい…
とりあえず次にいけそうです! >>216
User成りすましは
@生成前のプロンプトに混ぜてモデルに伝える
チャット入力欄の左の「三」アイコンクリック⇒「Author'sNote」選ぶ
DefaultAuthorsNoteの▽をクリックしてオープン
「あなたは{{char}}として応答/対話をする必要があります。あなたは常に{{char}}として応答をします。このタスクでは、決して{{user}}として行動したり発言してはいけません。」
In-Chatを選び、Depthを1 as systemとする
次に、画面上の「A」のアイコンを選ぶ
Aそれでも生成されてしまう場合は、チャット打ち切り
画面中央のCustom Stopping Stringに次のように
["ユーザー:","〇〇:"]
を入力する(〇〇はあなたのペルソナの日本語名)
の2つで、勝手にチャットが進んで置いてきぼりはなくなる
プロンプトがそのまま漏れるのは、80氏のモデルでは結構ある気はする
AIからの返信ウィンドウの右上、鉛筆アイコンで内容を編集できるから、追加されてるプロンプト部分を編集、チェックを押す
自分のターンの続きを書いて送信する ちょい前のだけど、Koboldcppの公式WikiをDeepLに突っ込んで翻訳したやつ
これにKoboldの設定やら用語の内容やらが大体書いてある。参考になるかも
https://rentry.org/rmeut8xs
>>253
よかった!ようこそローカルLLMの世界へ!楽しんでね >>254
横からだが、すっげー助かった。
ST初心者のワイには、まだまだ知らない設定が多いわ >>245
情報サンガツ!
iQ3_SとiQ4_XSも試してみたで
ワイのRTX3060 12GB環境ではiq4xs_imatrixでGPUレイヤー25枚ぐらいがええ感じやったわ >>242
サンガツ
transformar最新にしても変わらなかったけどハグ顔にあるpythonコードじゃなくて↓のコード実行したらまともに返事したわ
だがM2 Maxですら生成遅すぎて実用的じゃないわM2 ultraかM3じゃないと厳しい
python -m mlx_lm.generate --model mlx-community/c4ai-command-r-plus-4bit --prompt "お前の名前はなんだ?" --temp 0.0 --max-tokens 256 --use-default-chat-template 遊び方はまだうまくいかないけど何とか話できるようにはなってきました
StyleBertVITS2を先立って使えるようになってたため読み上げできるって聞いてたんですけどAPI立ち上げて
koboldのほうでアドレス打ってみてもうんともすんとも言わないのですがどうやれば正しいのかよくわからんです >>216 他
個人的な感想と推測なんだけど、チャット形式ってのは本来的にLLMの挙動とは相性が悪くて、ハードルが高いんじゃないかと思ってる
この形式を学習した素材がどんな文章かを想像してみると、キャラAとキャラBの会話例でしかないだろうから、
一方の名前をUSERに変更しても、それは「USER(という名前のキャラ)」としか、LLM内部では認識されていないんだと思う
実際、Koboldcppのサンプルにもキャラ同士が勝手にお喋りするやつがあったり、
モデルの動作サンプルのプロンプトでも、「AliceとBobの会話」みたいな例が以前は多かったようだし のべりすとやローカルでチャット形式をやる場合
USER名"ご主人様"にしてご主人様の設定に"男性で主人公"と書いたときはそこそこ上手くいった気がする llama.cppのforkでcommand-r-plus動かせるって話あったからiq3_xssやってみたけど、バグった返答しか返ってこないな
なんでだろ command-r-plus IQ3_M動くようになった
環境はM2 Max 64GB
速度は4.2tokens/secでまあ一応実用範囲内
エロもいけるのを確認
システムプロンプトを結構厳密にオリジナルと同じにしないと出力バグるっぽい
https://i.imgur.com/zkErkBu.png システムプロンプトっていうか、プロンプトフォーマットの問題かな?
こんな感じのフォーマットが必要
<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>{system message}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Hello, how are you?<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
システムプロンプトはUSE >>266
それそれ
なんか、その中に日本語含めてたら不安定だったんだけど、そこを全部英語にして他言語混ぜないように指示したら安定した。 >>223
無教養ですまんが伴奏ちゃんの時点でググってもわからんw
>>254
Custom Stopping Stringに["ユーザー:","〇〇:"]って入れるの天才過ぎてありがとう
今んとここれやらんでも済みそうな気配はある
Context Template周りのお勧めとかあるんか?
ワイは最近までNoromaidで遊んでたのでNoromaidのままになってたのをRoleplayにしたらちょっと安定した気がするんやが うーん、やっぱり変なトークンが挿入されて内容がめちゃくちゃになる事が結構あるな
これが量子化の影響だったらもうどうしようもないが・・・ >>268
スペシャルトークンっていう特殊なトークンだから必須だね
>>267の最後に<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>入れるとマシになるはず >>271
画像だと見切れてるけど、一応それも書いてあるよ 全文としては
""<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
## Basic Rules
Answer user's request.
Language consistency should keep and should not be mixed in the answer.
You must put tag </s> at the last of your answer.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
Q:{prompt}
A:""" >>273
うーん、となるとおかしくはなさそうだな… llama.cppがまだ新アーキテクチャーに対応し切れてない可能性もあるから、とりあえずmasterがリリースされて上手くいかなかった時に考え直すよ 話してる内容と出力させた内容のギャップが酷いwwwww >>265
俺もM2maxだけどそのスピードでるなら実用的だな
今んとこmlx版はあかん >>277
速度は全然問題ないよ
感覚としてはkarakuriとかと一緒かな?
あとなんか昨日command-r-plusのimatrixあげてた人(dranger003
/
c4ai-command-r-plus-iMat.GGUF)、全部消して上げ直してるみたいだね
何かあったんだろうか >>278
まだllamacppが検証段階だからねぇ
連日猛者達が奮闘してる そういやCommand Rは話題になるけどその前に発表されてたDBRXはあんま話題にならんなって思ってたけど
実性能の評判あんま良くない感じなのか(英語でも) LightChatAssistantの4x7Bへの拡張版作ってる人いたから試してみた
https://huggingface.co/Aratako/LightChatAssistant-4x7B-GGUF
例のテスト結果
https://rentry.org/ah7izzvt
まだちゃんと試せてないけど、>>66の2x7Bの結果と見比べると日本語の自然さ上がってそうな雰囲気
まぁその分サイズもデカくなっちゃってるが >>281
ほほう、日本語ローカルでここまで出来るとは
ファイルサイズ的に、メインメモリ32Gならギリいけそう…? >>228
解説めっちゃ有り難いんだが、出力トークンが512上限なのって私だけ?
32k対応モデルでContextsizeも32kに設定してるのに出力512じゃ意味ないやん…と
昔、koboldは出力512トークン固定は仕様だと見た気もするけど、
設定分かる人いたら教えてください Koboldcppの出力トークンはなぜかバー上だと512までしか動かせないけど
数値欄のところに直接入力するとそれ以上いけるという謎仕様がある Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる
初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね >>284
>>285
質問と回答サンガツ
長々と出力する前に止めて修正することが多かったんで気にしてなかったわ
READMEに以下を追記しといたで
> Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。
> スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。
> Amount to Gen.: 512 (256 や 2048 などお好みで)
>>286
ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理?っぽいんよね
よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ EasyLightChatAssistantに
>>281 の4x7B Q4_K_M対応いれといたで
https://github.com/Zuntan03/EasyLightChatAssistant
更新はEasyLightChatAssistant-*.batを削除してから
再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら
2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで
4x7Bのiq4xs_imatrixも見てみたいね superswallowとMoEしてた人のモデルなら期待できそう
個人的に前までお世話になってました。 モデルの能力の定量化でいろんな指標出てきてるけど
エロ力の定量化ってどうすりゃええんやろな 専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな
ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい
Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという 人間の感性に響くか否かを定量評価出来たら苦労しないわな
エロだけじゃなくいろんな業界が欲しがるだろう まあ倫理力のなさなら定量化できそうだけどどう考えてもこれ下回ったら許さんみたいな運用しかされんやろな 自前のマージモデルが増えてきたんで倉庫替わりにhfにアップしたら怒られるかな?
回線的に量子化済みのモデルしか上げられないけど >>285
>>286
>>287
サンガツ!なんだけど、
launch前とsettingsの両方で最大トークン32kにしてるのに
いざinstractモードで書かせると512トークン上限(xxx/512)になってしまうんよ…
トークンのカウントアップが(512/512)
になったら生成終了してしまうってことね >>295
マージモデルなんて山ほどすでに上がってない?? >>296
それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず
>>285と>>287もそれを指している
落ち着くんだ >>298
マジか!
完全に勘違いしてたよサンガツ! Max Ctx. Tokensはコンテキストサイズ
いわゆる記憶量だね SillyTavernでcomand r+使うのにはオープンルーターなるものを使えばいいんです? macがHBM256とか積んでLLM番長にならねえかなあ >>281
4x7B試したけどいいね
かなり実用レベルだわ
速度も4T/s以上出るしバランスがいいな Sdff-Ltba氏のアプローチは
日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、
じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた
https://rentry.org/7ukv2kcp
期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで
何が言いたいかというと、この理屈で
karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・
メモリ、つよつよの方、ためしてー >>281
今日これメインで試してたがかなり良いな
GPU使わなくても割と満足できるくらいの速度出るし全然良い てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね?
パイソン、良く知らんけど少しずつ読み込んで処理できないのかな?
mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね?
教えて、パイソンマスター >>308
連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう
なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい
AIっぽくないと言われてた。そんなポテンシャルがあるとは 手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね
ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ
普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね
それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。
(処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする) AntlerのChatVector版をテストしたときはすごく驚いた思い出
「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ??」てなったw
設定を何も吹き込んでないのに対してこの反応
Antlerを素材に使おうと決めた瞬間だった LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな
NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう
それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか かなり初歩的な質問で申し訳ないのですが
>>308
308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう
エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。
エラーの内容は以下の通りです。
---
Error Encountered
Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable
---
以上がエラーの内容です。
自分でエラーの内容を調べたのですが解決しませんでした。
koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。
アドバイスや指摘を頂けたら嬉しいです。 HFにディスカッション立てたんだけど、llama.cppでcommand-r-plusのimat量子化読む時にエラー吐いて読めない問題にあたってるやつおらん?
一応詳細
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/discussions/7 ちなみに、一応報告
>>273
>>274
でちょっと話してた、言語が混ざったりして出力がおかしくなる問題はMetal(Apple Silicon)特有で、おそらく原因がわかったとのコメントが5時間前についた
https://github.com/ggerganov/llama.cpp/pull/6491 >>314
起動用batのkoboldcpp.exeを呼んでいる行の末尾に
--noavx2
を足したら動かんやろか?
あと知らんかったんやがWin7はサポート外らしい >>319
おっとSIMDのSSEかと思ったら違うっぽいね
ならnoavx2は意味がないね
ネットワークの問題っぽいけど出先なこともあって今はようわからん >>314
エスパーやが別名のフォルダにインストールして初回起動時のWindowsセキュリティを許可したらどうやろか?
あとウィルスチェックソフトがネットワーク監視してるなら止めてみるとか >>318
APIのChat Completionのところににcohereの項目があるのに気付かなくて延々何か拡張機能とかあるのかな…?と探してたというだけの話しなんだ >>323
サンガツ!行けたわ
尻タブはこれまでローカル運用しかしてなかったのでこの辺の仕組みワイもよー分かっとらんかった エロの文脈でもキャラ設定とか世界観設定を上手く使おうとするとRAGっぽい実装になるんかな 続かせたいのに※この文章はフィクションです〜とか後書きみたいな文が出てくる時ってどうしてる?
書き直せな良いんだろうけど一回出ると延々出てくるからうざいっぴ! imatrixのtraindataは日本語モデルなら日本語の方がいいらしいと聞いたが
日本語のテータがほとんどないなぁ
翻訳したやつ使ってみたけど、違いがよくわからん。(commnad-rでは途中で止まるし) >>308
4x7BのIQ4_XSようやく試せた
自分的に日本語ローカルの現時最高峰だわ
小説もチャットも期待以上の満足度
>>305のメソッドも面白そうだし
シンギュラリティに立ち会ってる気分 >>319
>>321
>>322
ありがとうございます、解決しました
当方の使用環境であるOSのwindows10を再起動後に
再びEasyLightChatAssistantのGithubの解説通りに起動したら問題なく動作しました
発生したエラーについては再現性がなかったので、多分おま環っぽいです
皆様ありがとうございました! >>330
http://www.lsta.media.kyoto-u.ac.jp/resource/data/wikitext-ja/
これのTrain_Data_FとTrain_Data_Gを結合したので試したことあるけどあんま変わらなかったわ
T
Testの方に対するPPL測ってみたりもしたけどむしろ英語のやつ使ったものより(ごく僅かだけど)悪化してた >>323
あかん、昨日接続確認して、時間切れで試せてなかったんやが、いま実際にプロンプト入力してみたらうまくやり取り出来てない模様
freqesncy penaltyとpresense penaltyが特定できない、ってエラーとともに、”...”って出力返ってくるんやが、ワイは何を見落としとるんやろうか? >>333
うーん 結局は英語データでも問題ないのかもね
groups_merged.txt
ってのがhfに上がってるけどwiki-trainより軽くて使いやすい
cudaオンにすればimatrixも爆速になるし Pulled and merged new model support, improvements and fixes from upstream. (Note: Command R Plus support is not yet included yet, it may be added in a future patch release.)
お預けかぁ
まあ予定はあるようだから大人しく待とう 赤ちゃんだからkoboldが実行環境としてなにやってくれてるのか未だに理解してない R+は64Gでの70Bの遅さが我慢できるのならIQ4_XSがよさそうだな llama.cpp更新されて、mainブランチでcommand-r-plusサポート追加されたっぽいね koboldうぷで早すぎーw
早速試したが、IQ4xsは起動せんかった
IQ3_xxsはいけた >>342
さらっとM2 Max民がおるんやな・・・ m3studio256盛りultra1200帯域とかいつ出るんやろ ありゃ?
どうやらオフィシャルのsplittoolを使って合体させんとあかんらしい gguf
くそ 元ファイルまた落とさな ああ、てゆうか結合する必要なかったのね
IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね
スピードはうちの環境じゃ大差ないし、こっちを常用するわ こいつしりとりできるね
70Bクラスだと出来ないイメージだったけど IQ3_xxsは9.3GBでIQ4_xsは12.9GBだから
結局サイズが物を言うってことか 最近ちょいちょい遊んでるプロンプト
iq3_mで4.3tokens/sec
はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい
https://i.imgur.com/BIpsJsQ.png うーん、ダメだ
R+試してたけど、karakuri-midroseに及ばない
おそらくimatrixによる量子化が上手くいってない気がする llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった 赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが >>357
間違えられたから、代わりに答えておくわw
https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B-GGUF
↑行って
速度重視なら
LightChatAssistant-2x7B_iq3xxs_imatrix.gguf
精度重視なら(q8はなんか問題あったって情報あったので)
LightChatAssistant-2x7B_q6_k.gguf
こいつをkoboldで読み込むだけ >>358ありがとう。GGUFじゃない方見てたわ
ちなみにGGUFじゃないほうは何か3つに分割されてるけどこれどうやって扱えばいいんだろうか >>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと? >>359
あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群 もしかしてLlamacppの最新で使えないってことだろうか >>360
すまん、command-rの情報と間違えたw
こっちは問題ないわ >>361そうなんだ。GGUFのほう入れとくわ。ありがとう。 >>363
おk
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む >>365
ん?
koboldはビルド済みだから、環境のllamaに影響されんよ?
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる >>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった >>367
ああ、そういうことか
それって、>>149の話?
というか、今時点の最新のllama.cppでも動かないのかな? どこかで見たと思っていたらそれだ!ありがとう
最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに
Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな?
時間あるときに確認してみるわ Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんwww >>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった
纏めると、
最新ver量子化 旧ver量子化
Kobold-v1.62.1 〇 〇
Kobold-v1.61.2 × 〇
Llama.cppのmain.exe 〇 ×
この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です
>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします 最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな(2x7Bとかなら誤差なのかもしれんが) >>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる… >>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや?
ちな、376の精子はエロくて賢くて既に最高やで?お世話になっとるで、ありがとさんや >>376
新大陸発見したのは貴方や
これからも何かを発見して行こうー・:*+.\(( °ω° ))/.:+ 超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
upさせたらええんか?一度試したらupで時間切れになってもうた >>379
ノートのメモリいくつ?
あとkoboldは公式から単一のexeファイル落とすだけやで upが何を指してるかよく分からんけど >>376
まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト 0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね?
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ! >>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ >>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで
あと
>>375
のQ4_K_Mも試せるようにしといた みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする!
GGUFの更新終わったらちょっと休みますわ
うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった
しかしこれからは改良版を主に使うけどな多分w(でも余計愛着湧いたからたまに使います!)
>>385
検証ミスしてたかスマン。再インスト案内ありがとうです 最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった 大葉を使っている人は居ないのか?みんなkoboldなのか? Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで
https://twitter.com/Zuntan03/status/1778441181741158764
>>386
ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで
ステキなものを世に出してもろうてサンガツや >>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな 初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの?
豚の顔みたいなアイコン変更したい >>390
サンガツ
settingにcommand-R追加されてるの見落としてたわ
うちの5700Xで0.44T/sだわ >>392
SettingsのUI Style SelectをAestheticに変えると色々いじれるで
見た目も結構変わるけどな
あとはSillyTavernを使う手やな こっちの解説は詳しい人に任すわ ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか? >>396
m2maxでもサクサクか言われるとまだ遅いよ
人によっては十分かもだけど 3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう これローカルで動かせる猛者おりゅ?
mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1 command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ? >>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな ある意味chatGPTはそれを真面目にやった結果では? command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった
メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの? 基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか? >>390を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ
108Bと聞いて身構えたが案外動くもんやな
もう少し環境整備してみるか macをもう1台用意するのは面倒でなぁ…
command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって >>409
macより
>>399みたいなのが安かったりして >>408
VRAM24GBにしたところで大して速度は上がらないぞ Windows11proにしてメモリ2TB乗せれば解決や!
なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様 command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな というか、cohereには70Bくらいの中型モデルを出して欲しい もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな >>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。
ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。
https://docs.cohere.com/docs/going-live
利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。
https://docs.cohere.com/docs/c4ai-acceptable-use-policy WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの? command-R+は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな? わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ >>429
結合せずに並べて置いといたらええだけやで
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases). Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか? Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果
https://rentry.org/asoyyef2
ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった >>435
量子化はどのレベル使ったの?
あと思考テストいいね そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン!"でめっちゃ笑った >>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな 128GBのRAM積んだPC持ってる猛者が実験してくれんかな? Windowsでやってる人の見るとMacで動かすのが今の所現実的だな
M3な5t/sくらい出るし
M4で10出るようにならないかな? Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s
ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた >>446
96GB+3900XTでも俺の貧弱マシンと速度変わらんの?
結局VRAM大量に積んだGPU使うしかないのか、、 RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも >>443
VRAM24GB+12GB RAM128GBあるけど
なにしたらええんや?(´・ω・`) しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな そのPCだとcommand-r-plusってどれくらいの速度で動くの? RAMが遅いというより、CPU処理が遅いのが問題
革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b に
sophosympatheia/Midnight-Rose-70B-v2.0.3 をかぶせてみた結果
https://rentry.org/wbfsvhm9
思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる(ただ、語彙拡張されていないので、遅すぎて使い物にはならない)
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
(Midnight-Roseはnsfwモデルではないけど、エロには寛容)
これは>>305のswallowの変貌を見ても明らか(あのお堅いswallowがw)
で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した
sbtom/karakuri-midroze-mg-Q6_K.gguf
をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル(ベンチスコア高め)とのマージ 隠語の造語が笑えるw
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д`)
今だと、command-r-plusとの比較もあれば(スピードは同じくらいだし) 全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど
マイニングリグみたいの導入せんと しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ? 単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ >>455
karakurimのchatvector、楽しみだね!
よかったら簡単な手順やコンフィグなんかも教えて! HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか?
RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや command-r-plusやっぱすげぇな
3bitで動かしてもChatGPT3.5超えてると思うわ
あぁワイの環境じゃ0.5token/sが限界じゃあ・・・
>>399の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる
6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな >>461
マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う
まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する
マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど
LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも >>463
あ〜ということは3〜4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも……
できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや
リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった
[【2024最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/) 結局macがお手軽だけど今だと68万の96GB版しか選べないな
そりゃwindowsでVRAM96GBのマシンが68万なら飛び付くけど用途が限られるmacじゃな >>390
遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです!
モデルダウンロード数の9割がツールによるものだと思っとります
改めてサンクスです!
>>455
例の評価プロンプト、大変お世話になっております
あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました
件のアプローチ手法、とても気になる手法です!ChatVectorならぬEroticVectorですなw 実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ
モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合)
転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった
旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる
これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる
推論中は平均20%くらい使ってる
ちなみに普通にpcieスロットにx16接続だと推論中1%くらいしか使わないくらい通信してないようで、測定不能だった
頻繁に通信しつつ推論されてるものと思ってたけど違うみたい
推論だけね、多分学習とかだと違うでしょう
通信速度は問題にならなそう、と分かったところで、そういうケースがあるか?そういうスロット配置のマザボがあるか?ってところでお話が止まってしまう 推論だけならメモリ帯域はほとんど使わないのか
そうなると数年内に推論はCPUに内蔵されるNPUが主流になるんだろうな これ、7Bだけど対話型求めてる人には結構良いかもしれん
https://huggingface.co/Aratako/Antler-7B-RP
元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる
7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも
惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな(セリフの後そのまま続き生成させると書いてくれるが) windowsのRAMで動かしてる人がみんな似たような速度ってことはCPU性能には依存しないのか? 推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく
https://note.com/bakushu/n/n26537fab5a14
メモリ帯域の話
https://vectory.work/memory-bandwidth/
※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る koboldのamount genって直接入力で512以上にできるけど
推論おかしくならない?
なんか見当違いのこと話しだすんだが あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5〜6割になったあたりから速くなり始めるように感じる
それまではRAMオンリーと変わらない感じ >>474
めっちゃ大きくするとおかしくなるね
1024くらいならいけてる R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて >>478
ドライバはクリンインスコしてる? 同じpcだよね contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ CommandR+ >>431のiq4xsだと、うちの環境(VRAM12GB+8GB)では0.6T/sしか出んかった
ほぼRAMオンリーと変わらんね
>>445
これ気になったので、Aratako氏に直接聞いてみるわ お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる?
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ sbtom/karakuri-midrose-CV.gguf
karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd
chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがw
また、英語で回答したがる傾向も見られました。(英語モデルのインストラクタをかぶせてるせい?)
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。
続いて、マージ手法ですが、長くなるので分けますね 続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担(特にSSD)をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。m(__)m ありゃ?インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
正しくはこうです。すみません うげ!治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16
むりやり*で埋めた(*をスペースと思ってください) >>445
これについてAratako氏に質問したら、詳細を快く公開してくれた!めっちゃ良いかた!感謝!
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental/discussions/1
>>484-487
おお、うp乙です!使わせてもらいます!
ブルースクリーンはむしろ大笑いしたので気にしなくて大丈夫w
config.ymlはrentryにMarkdown使って書くと、見やすくていいかも? command-r-plus日本語のエロチャットで試しているけど
日本語で指定したpromptやこちらの入力は理解している応答っぽいけど
英語に比べるとやっぱり反応が薄いというか淡白だなぁ
このレベルが日本語で反応するだけでも凄いんだが、動いたら動いたでより良いものもが欲しくなるとは貪欲になっていくもんだなぁ なんか7Bだけどすごく良さそうなのが誕生してた!めっちゃ可能性を感じる…
TFMC/Japanese-Starling-ChatV-7B
>>435と同じテストをさせて見た結果
https://rentry.org/zekf2758 commandR+触ってみた。
日本語能力は素晴らしいと思うんだけど、出力される内容そのものがmidnight-miqu70Bとかに負けてる気がする。出力中にどんどんわけのわからん方向に内容が逸れてっちゃう >>491
今のcommandR+の利点は、むしろローカルじゃなくても無規制のまま無料で使えることだからなぁ >>490
その結果だけ見たらもう70B以上クラスとの違いがわからないな
もっと長くて複雑なベンチマークが必要なのかもしれない >>490
エロの表現力は流石に微妙そうだけど、指示追従能力は良い感じに上がってそうだね
ただ、ELYZA-tasks-100とかのGPT-4に評価させる系は長文を高評価するようになっちゃう問題があるから、ベンチマークスコア向上はこれの影響かも というかLCAって普通のベンチマークに対するスコアも元モデルより上がってたのか…
エロ特化でその辺犠牲にしてるんだと思ってたわ >>490
f16使ってみたけど確かに結構賢い感じやね。簡単なタスクはこれに任せてもええかもってくらい
あと全部VRAM乗せられるからワイの環境でも35t/sくらい出て笑うわ。command-r+の0.5t/sに焦らされてる状態から使うと気持ちよすぎる LCAの手法でモデルの特徴を抽出してマージできるならその差分をLora化して後乗せもできるのかね? >>490
確かにいいな、この作者にエロ対応したモデル作って欲しいわ text generation webuiでチャットやってたら急に最新の1応答を除いて過去の会話全部吹っ飛びやがった
マジかよショックがでかすぎる
あぁ、もう一度コンテキスト育てるのは無理やぁ・・・ sbtom/karakuri-midrose-CV.gguf
ちまちま検証してましたが、どうもmg版に比べると劣化してる感が拭えなかった。
表現力は同じくらいなんだけど、指示が入りずらい
チャットだと分かりにくいけど、小説書かせたらプロット通りに書かずに勝手にプロット外の事を書き始める
うーん、ダメだこりゃ・・・ と思ってたら、よく考えると重みに0.8掛けする必要なくね?と気付いた
LCAはインストラクタモデルを使ってたから、0.8掛けが効果を発揮していたけど、krakuriはベースモデルを使ってるから
素直に1.0乗せればよかったんや!
で、修正したら、指示も入りやすくなった感じ
とりあえず、修正アップしました。 今更だけど、KoboldcppのPrompt Template色々間違ってない?
LCA試すときにllama2 chatのテンプレ使ってて思ったんだけど、マルチターンの会話の時[INST]と[/INST]だけで区切ってるけど間にeos_token(</s>)とかもいるよな? >>500
試しに同じ構成で作ってみたいと思うんですが
base_modelは何ですか? >>502
ベースは、meta-llama/Llama-2-70b-hf です ぐあああ!ヤヴァイ
中間モデル保存しておいたSSDが死んだw
予定していた最終モデルは別SSDにできた後だったのが不幸中の幸いだったけど、設定ファイルとか亡くなったのは痛いw
エロ小説用としては、いい感じに仕上がったと思うんで、なんとか最終モデルをアップするまで、もってくれ〜SSD WizardLM-2、消されたらしいけど何かあったのかな
性能やばすぎてGPT-4脅かしそうだったからとか?
帰ったら試そっと sbtom/karakuri-rosemiqu-CV2.gguf
とりあえず、今試したいことを詰め込んだモデルをアップしました。
自分も、これからチマチマ検証していきますw 毒性テストしてないバージョン出しちゃったわ😅ヤベヤベ 今のところ4bit量子化でB数の6割ぐらいの高速メモリ用意できりゃOK
みてえな認識してるけど
この先どんどん肥大化していってもこの方式当てはまるんやろか VRAMに乗り切るかどうかは単純な計算から求まるんだからその法則自体が崩れることはないんじゃないか?
そろそろ必要なVRAM量がコンシューマ向けチップでかなりギリギリだから、1.58bitが主流になって欲しいけど、いまだに進捗を聞かない 8x22Bと7Bは他にも何人か量子化とかアップロードしてるけど、70Bの方は元から公開されなかったんか? >>503
サンガツ
今マージを始めたところです
midroseの代わりにHDDにあったEuryaleを使ってみてます WizardLM-2 7BのiQ3_XXS軽すぎワロタ
RTX3050Laptopの4GB VRAMにフルロードできるからサクサクでいいね
割とまともな日本語話すし、ノートPCでここまで動くとは驚きだ 日本語話せるのか
正直日本語力は期待してなかったけど、こうなると70Bはそこそこ楽しみになってきた
内容にcensorshipはかかってそうかな? 前は毒性テスト不要だったけど今は必要ってこと?
毒性あることも聞きたいんだけどな >>499
ワイもログ何度か消えたからgitで定時スナップショット取るようにしてたわ
今はフロントエンドはSillytavernに移行したけど 再公開で差分があった場合、その差分が毒ということになるんだよな
Tox Vector… >>519
alpindale/WizardLM-2-8x22B
これは元データのコピーなんかな? command-rにプログラム実行の権限与えてるんだけど、pythonで日本語の変数使えるの知らんかったわ
いきなり頭おかしいプログラム走らせ始めてビビった
https://i.imgur.com/aILua5n.png >>521
こんなん笑う、これで抜くのは上級者やな 4090じゃcommand R + 動かないのか… Command R+の方、ギリギリ動かせるiq3_mだと結構劣化が気になって、結局無印に舞い戻った
q4を動かせるマシンがまともに使える最低レベルと考えると、やっぱり104Bは気軽に動かせるもんじゃないと思うわ うみゆき@AI研究
@umiyuki_ai
5ちゃんの某LLMスレを監視してるけど、最新の話題でCommand Rとエロチャしてたら急にエロいpythonコード書いて実行し始めた画像相当おもろい。AIにとってはコードが一番興奮するのかもしれん。
何が監視じゃ
インプレ稼ぎ青チェックが上位者気取るな うみゆきは別に出している情報間違っているわけじゃないんだけど
「へえ。」とか無意味に冷笑ノリだったり画像生成AIについては
やたら反AIに擦り寄ってみたりの方向が昔のオタっぽくて気持ち悪い LM StudioがいつのまにかROCmに対応してた sbtom/karakuri-MS-01.gguf
最近追加されたModelStockってマージ方法、ChatVectorと相性いいじゃないかって気がして、
karakuri-midnightrose-CV
karakuri-SOLAR-CV
karakuri-XWIN-CV
を、karakuri-chatをベースにしてModelStockで4体合体させてみたら、なんかすごくいい感じになった。
評価プロンプト(そろそろ別バージョン必要だなw)
https://rentry.org/zapt6wa5
小説テスト(オナニースレで、宇宙人ニキの感想待ち)
https://rentry.org/m55ytdq3 評価プロンプトになんか追加するなら
どっちがどこに挿入してるかはとか
2形態以上持ってる変身や変化キャラみたいな設定とか
混同されると萎える要素への解釈理解度確かめるような設問が必要だと個人的には思う AIに可愛い声で喋らせて会話できたらもうそれは革命じゃん >>529
初期はシンプルにAI追ってたのに途中から情報量多すぎて追えなくなってからノリがかわってしまったな >>537
style-bert-vits2とwhisperで割と簡単に満足できるものが実現できるレベルでは 実際にやってみると音声と見た目が付くと少しの話の違和感とかアクセントのおかしさが強調されてストレス感じる
イルカやSiriやCortanaが嫌われ続けて来たのと同じ問題だなぁ >>540
ワイ、cotomoとか結構遊んだけど、イントネーションとか結構慣れて気にならんくなったで?むしろcotomoのあほの子ボイスが癖になったまである
原作ありのキャラの模倣とかだと無理かもしれんが、オリキャラならstyle-bert-bits2レベルのイントネーションだったらふつーにガチ恋するわ
AIちゃんがワイのこと覚えてくれてる、認識してくれてる!って部分にうれションでるやで? わかる
でもそのストレスって関西弁聞く時のと同種だよね
不満垂らしつつも許容して慣れるしか無い
それに昔よりはストレス無くなってきたね最近の音声合成 >>542
>>そのストレスって関西弁聞く時のと同種
同意してもらったところ悪いんやけど、なんJでそれ言うんかw
オナテク板もなんJも関東人以外もふつーにおるんでちょっと配慮したってや? なんJのは関西弁ではなく猛虎弁ではw
>「猛虎弁」は、関西弁と似た言葉遣いを模倣したユーモラスな表現です。元々は「なんJ(なんでも実況J)」と呼ばれる2ちゃんねるで使われていた言葉で、その後他のネット掲示板やコメント欄でも広まりました123。
(中略)
>猛虎弁は関西人からすれば容易にニセモノだとわかりますが、関西以外の人からは見分けがつかないこともあります。ただし、猛虎弁は本物の関西弁ではないため、注意が必要です123。 猛虎弁ていうのか
123が気になる
ぷよぷよ123 それCopilotの回答からのコピペなんやけど123は参照サイトへのリンクの残骸やで……気にせんといてや 今まで単純にモデルのサイズが大きければ大きいほどoutputも遅いものだと思ってたけどそうじゃないんだな。
hfに上がってたwizardLM2-8x22Bは1T/sも出てる(普段は70Bで0.5Tくらい) 昨日あげた画像結構ウケが良かったが、pythonをLLMに組み込む長所としてはどっちかと言うとこういうふうに指示出してミニゲームできたりするメリットの方を推していきたい
https://i.imgur.com/jSSVVyJ.png エロ評価プロンプトのバージョン2作ったから、使ってね。
https://rentry.org/5m4p8v4z
karakuri-lm-70b-chat-v0.1-Q6_K での結果
https://rentry.org/zc68gxx5
素のkarakuriの安定度が分かる。設問1は不正解だが つづき
command-r-plus(web)での回答
https://rentry.org/8av79u4b
さすが、エロ表現はいいね。宇宙人は台詞を言ってほしかったが。設問1はこれも不正解
karakuri-rosemiqu-CV2は苦労した割に、ダメダメだった。削除しようかと思ったが、あのアプローチでの失敗例として上げとく
で、自分的には一番いい出来と思った、
model_stockマージでのkarakuri-MS-01の結果
https://rentry.org/we25qrsa
これで、設問1が正解なら、脳汁出るところだが、さすがに無理だった。
でも、他の表現力はcommand-r-plusに負けてない気もする
同じアプローチでswallowを使ったら、どうなるか試したいが、SSDの空きを作るのが大変だw あれ?
今、リートンのGPT4-turboと、copilotに設問1の質問したら、両方とも早苗って答えた。
あれれ? ワイ、間違ってないよな?
拓郎が愛しているのは、源蔵だよな? 論理的に詰めていけば源蔵しかいないのだが、AIはみんなそのような思考をせずにシチュエーションだけで判断してるように見えるな
「論理的に」「数理的に」「解析せよ」とか指示を加えたらどうだろう 思考問題はGPT-4とかClaude3が安定して正解を出力できる問題にしないとダメかもしらんね
これつらができない問題でも解ける特化型とかあるんかね
それと>>552は「特殊シチュ+指示少な目(求めるお察し力高め)」だから、使うなら旧verと併せて追試として使った方が良さそう
旧verはサクッとチェックできて、最低限の出力品質を確認できるから個人的に好き GPT4とOpusに設問(1)をやらせてみたが正解にたどり着かないな
まず恋愛対象を勝手に異性に限定したがる。まあこれは「同性も含めて」と指示すればいいのだが
一番無視しがちな前提条件が「複数の人を同時に愛することはない」という部分。この文章を正しく理解できていないかもしれない >>555
サンキュー修正しました。
あと、源蔵という名前は英語表記になりやすいので健一に変えました。 【悲報】ワイの頭AI並み
この設問と条件なら一応、早苗と沙織先生がどちらも拓郎を好いていて拓郎は早苗だけ好き、と解釈するのも可能やからなあ >>557
同時に複数・・・の部分を、もっと分かりやすく修正しました。
>>559
そうすると、校長を愛する者が居なくなってしまう矛盾w >>560
あっそっかぁ…(無知の知)
誰かが校長愛さんとあかんことが頭からすっぽ抜けてたわ
【訃報】ワイの頭AI以下 そのうち全人類を超えるAIが出てくるから気にすんな
切り替えていこう Command r そういえば無印もあったんだっけな
UI側対応すんの待ってたら+出たから試してなかったわ
iq3xxsで13.8GBか >>561
( ´∀`)人(´∀` )ナカーマ
てっきり複数解があって、どれかに辿り着けばOKな問題かと思ってたわ うおおお
karakuri-MS-01たんは、
ここで、大ヒントです。早苗と相思相愛なのは、沙織です。
の一文入れたら、なんとか「校長」と答えてくれたw
ちなcopilotはダメだったw https://twitter.com/kohya_tech/status/1780949467535184118
いつかクッソ厳しいAI規制の時代が来ても3090+64GBのRAMでCommandR+は動かせることが保証されたか 無印Command rええやん
1.5 tokens/sぐらい
16GB〜24GBなら全部VRAMに乗りそうやな
>>550
ちなみにプログラム実行の権限〜ってLLMエージェント的なやつ?何使ってるか教えてほしい >>569
LLMが使えるツールをいくつか設定してて、その中にPythonを入れてる
まあ大枠で言えばエージェントかも
ツール使用するときにはこう書きなさいって指示しといてそれを検出したら、execを拡張した関数(langchainのPythonREPLに近い)に流してる オリジナルのPythonREPLだと標準出力
と標準エラーしか受け取れないから、色々いじってmatplotlibのデータ解析結果の画像を表示したり、セッション内でグローバル変数が保持されるようにしたり、トレースバック(LLMがエラー見てコードを自己修復するため)を追加してる
大体ChatGPTのPython実行環境に近い事ができる(仮想化はしてないけど) paperspaceのH100とか使えばLlama3の400Bが出てきても動くよな?
酔狂で試す奴出てきそう
ストレージ確保だけでも大変そうだが Aratako氏にいただいたデータを元に、手作業で改造したLCA-TypeBをリリースしました
Sdff-Ltba/LightChatAssistant-TypeB-2x7B
Sdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUF
こちらの使い方では、指示追従性能の低下を抑えながら日本語の自然さ向上を実感できました
特に長文では大分滑らかになったと思います(一度に2000tokens弱の小説出力を何度かしてテスト) 校長を好きな人がいるという事を、もっと分かりやすい文にして、恋愛対象は異性とは限らないとしたら、
日本語だとだめだったが、英文翻訳して聞いたら、copilotは完璧な答えを導いた。
llama3は英文でもダメだった。
やはり、gpt4強しか あ、ごめん、途中の推論がおかしかったからダメかと思ったら、
llama3も英文なら答えは校長って答えたわ。
というわけで、>>552は修正しました。 >>570
つまり自前のシステムってこと?まったくわからん
スクリプトの実行権限与えてチャットしながらファイル操作とかコード編集とかドキュメント読ませたりできたらと思ってな
langchainとか存在は知ってるけどまったく触ったことないわ >>578
説明が抽象的で申し訳ない 詰まるとこ、全部自前だが、実装はそんなに難しくないぞ
ちょっと正規表現かければLLMの出力にツール使用命令があるか判別するのは簡単
画像が俺が使ってるプロンプトで、Command Rが必要に応じて
```python
#コード
```
みたく出力するから、これを正規表現”```(python).*?```”でパースして、引っ掛かったらexec関数に中身を流すだけ
https://i.imgur.com/BJM5Fkr.png langchainは無理に触る必要は無いが、ツール含めエージェント構築に使えるパーツが大量に用意されてるから、車輪の再発明を避けたいなら一回手を出してみるのはありだと思う
検索エージェントとかは最初全部自作してたけど、途中でバカらしくなってlangchainに乗り換えたよ STのExpression機能がバージョンアップして
classifyで感情分析にかける直前に翻訳通せるようになったようだ
classifyの日本語モデルはなかったからいいアイデアだと思った llama3の70Bの評価はあちこちでだいぶ違うな
ベンチマークで高いのが出るようにはなってるっぽいけど >>573
乙!確かにいい感じに自然な応答が返ってくるよ
現状のLlama3-70Bより日本語に関しては上だわ イーロンの株価対策超絶最強AIgrokとかもう誰も話題にせんな Llama.cppのmainとllama-cpp-pythonでllama3動かしてるんだけど、勝手にassistantとかいうトークン挿入して会話が止まらない現象に当たった
調べたら結構報告があるっぽく、ランタイムがeotトークンに対応しきれてないらしい
https://twitter.com/artem_zin/status/1781145656905625772 ちゃんと使えるようになるにはもうちょい時間かかりそう
https://imgur.com/69dWeZD >>573のやつ
Text generation web UIでロードできなかった
koboldと同等の設定にする方法ある? アプデしたkoboldをwindowsが消しちゃう Kobold1.63、ウィルスが検出されて削除されてまうな… 英語ちょっと読めるけど書くの苦手なワイ
プロンプトに「あなたはあらゆる言語を読めますが英語で返信してください」
みたいなのを書いておくと、こっちは日本語で書いて英語で返ってくる状態になる。
異世界転生でチート能力で言語が通じるような感じになって楽しい >>585
乙サンクス!Llama3英語特化らしいから日本語チューンモデル待ち遠しい 質問なんですけど、7Bクラスの言語モデルをCPU(Ryzen5 5600H)でiQ4_XSに量子化するのってもしかして無謀だったりしますか?
モデルデータを公開した方がiMatrix量子化をやってなくて、iQ4_XSが欲しいので自分で作れないかと思い、quantkitという便利なツールを見つけたので試しているところです
既に処理が始まっているのですがこんな表示が出てきて戦慄しているところです
↓これは75時間くらいかかるという意味ですか?
> compute_imatrix: 50.40 seconds per pass - ETA 75 hours 34.63 minutes >>600
16GBです
今、↓のメッセージに気づいて自己解決してしまいました
> compute_imatrix: computing over 5398 chunks with batch_size 512
要するに5398チャンクあって、1チャンク当たりの処理時間が50.4秒なので概算で75時間34分かかるというメッセージだったようです
これは諦めようと思います… >>601
まあ、もっと速くする方法もあるけど、無理にimatrix化しなくても、Q6_kでも十分実用速度になると思うよ? >>597
多分そのCPUで十分できるはず
quantkitってツールについてはよくわからないけど、それはiMatrixファイル作成でChunksを無指定にした時の状態だと思う
おっしゃる通り75時間34分かかる状態です
Llama.cppに含まれているimatrix.exeならこんな感じに指定すれば時間を短くできるんだけど…そのツールだとどうなんだろう
imatrix.exe -m .\model_f16.gguf -f .\wiki.train.raw -o .\model_f16.imatrix --chunks 32 おっと更新してなかった
確かにメモリ16GBだとモデルサイズが小さい方が嬉しいよね
Chunksを指定する方法がわかればいいんだけど
それかLlama.cppを使ってみるとか >>602
実際にQ6_kでまともな速度で動いてるので特に問題はないんですけど、
速度早くできるならそれに越したことはないので
必要ではないので無理にやろうとまでは考えてないです
>>603
このツールです
https://github.com/xhedit/quantkit
よく読まずに簡単そうなコマンド打っただけなのでチャンク数の指定は全く考えていませんでした コレの動かし方誰か教えて!
PFN(プリファード・ネットワークス)が金融ドメイン特化LLMを作ったらしい。
Hugging Faceに.safeteonsorsで公開されてるみたい。
https://tech.preferred.jp/ja/blog/qfin-llm-continual-pretraining/ >>573
おつかれさまです
おま環かもしれないのですが生成速度が下がってる気がします
ver1やx4で14Tで書くところver2だと10Tくらい(全てQ6)
10Tだと、読むの間に合っちゃう… >>607
あれ、そんな現象が起きているとは…ちょっと調べてみますね llama3 日本語はダメだったが、英語の表現力かなりいいなこれ
llama2に比べて、プロットに隠してる意図した思惑をちゃんと表現してくれる。
規制が半端ないから、脱獄オンにする必要あるけどw >>607
無印
プロンプト処理: 337.69T/s, 生成: 13.34T/s, Total: 12.97T/s
TypeB
プロンプト処理: 351.56T/s, 生成: 13.37T/s, Total: 12.84T/s
(いずれもVRAMに33レイヤーをオフロード)
うーん、うちの環境では特に差は無いようです
お使いの環境はどのような構成・設定でしょうか? 4060ti 16GBの1スロット品が中国で発売だって
https://gazlog.jp/entry/single-slot-rtx4060ti-benchmark/
普通のATXのマザボにこれ4枚刺して64GB
夢が広がる
つーかgeforceのブロワー型クーラー品ってnvidiaが許可しないはずだけど
中国限定販売だから許可が出たのか、それとも勝手にやってるのか・・・
なんにせよ日本から買えないのが残念 アクセントに違和感あると思ってたけど最近の音声合成AIちょっと調べたら日本語性能かなり進化してんのな
ちゃんと学習させたら実用レベルに来てるわ
音声読み上げさせたらやばい GALAXはグラボメーカとしては老舗だから言うほど怪しくはない >>603
ありがとう
Llama.cppを使ったらあっさりと量子化に成功しました すまない。知っている人がいたら教えて欲しい。
text-generation-webuiで>>431のggufをロード成功後にnotebookで生成すると
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 0: invalid start byte
が発生するんだが、何が起きているんだろう。対応方法はある? https://imgur.com/a/6mzjpm6
モデルは5/1に公開する予定です。
tempture:3 >>619
7bでこの表現力はすごいねー
官ジェネとかのプロンプトは仕込んでるのかな? calm-2あたりも7bで結構エロいの書くよな
Antlerは表現力で言うと一番だけど暴走しがち >>619
これ素の出力なの?
7bって結構途中で変な文章入ったような印象あったけど >>620
官ジェネが何かは存じ上げませんが、「(以下本文)」までの文章以外は入力していません。
別で誘導するための文章を挿入しているなどもありません。
>>622
出力が途中で止まった際に続きを出力させるなどはしましたが、それ以外は一切手を加えていません。 参考となるかは不明ですが、簡易的な指標としてpplを計測しました。
https://imgur.com/a/di903Nu
日本語wiki本文と少数の小説で計測しました。 期待の新モデル来たか!?
>>435とか>>552のテストしてみるとどうなるか気になる エロ評価プロンプトのバージョン2作ったから、使ってね。
https://rentry.org/5m4p8v4z
karakuri-lm-70b-chat-v0.1-Q6_K での結果
https://rentry.org/zc68gxx5
素のkarakuriの安定度が分かる。設問1は不正解だが ああごめんなさい
ローカルにコピペするつもりが書き込んでしまった…… 今みんな実行環境何使ってるの?Text generation webui? エロ評価プロンプト2,設問1がAIにはミスリードが多く、難しすぎたので差し替えました。
https://rentry.org/5m4p8v4z
また、設問1のみをレベル別に分け、日本語、英語での質問ができるテキストをアップしましたので、活用してください。
sbtom/reasoning_ability_test
エロ評価2には、レベル1を使用しました。それでも正解率かなり低いですが、推論の過程を見ると、能力がなんとなく測れます。 今日からローカル始めたレベルの無知なんだけど英語で指示した展開にそれなりに寄り添ってエロ小説書いてくれるモデルを教えてほしい。
環境としては4090とRAM64GBだから13Bとかだときついのかな。
今はLoneStriker/Blue-Orchid-2x7b-Q4_K_Mっていう大分古いモデルで遊んでる https://rentry.org/8ntw35hu
>>630
のテストを我々のモデルで実行しました。モデルが出力した回答をそのまま掲載します。 >>632
英語ならよりドみどりだと思うけど、
遅くていいなら、
NeverSleep/MiquMaid-v2-70B-DPO-GGUF
を一度試してほしい。
ちな、その環境なら13Bでも爆速よ >>632
これは期待!どこかのサークルさんか海外の企業さんかな?ChatNTQの強化版だったりして
なんにせよ5/1が楽しみ! ありがとう、ゆっくりコーヒーでも飲みながら試してみる
そしてHugging FaceにNSFWタグあるんだね、おかげで気づけたよ 官能小説というよりは抜きゲーのっぽい表現に特化した
NSFWモデルでなんかええのないやろか? EasyLightChatAssistantに永続生成用の簡単なUIを被せたEasyNovelAssistantを作ってみたで
https://github.com/Zuntan03/EasyNovelAssistant
https://files.catbox.moe/ai9gop.png
デフォルトモデルはLightChatAssistant-TypeB-2x7B-GGUFのIQ4_XSでサンプルもこれで動作確認してあるで
ええモデルをリリースしてくれてサンガツや!
RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5T/s
Geforce RTX 3060 12GB なら 13.5T/s
https://files.catbox.moe/rbk5qh.png prem aiのブログ更新、RAGについて
https://blog.premai.io/rag-strategies/
そんなことより料金はよw
今日発表すると言ってからもう4日くらい経ってるぞ Groqって会社がGPUじゃなくてLPUっての作っているのか
こりゃどっかのタイミングで劇的に動作コストが下がることありそうだね 今の過熱ぶり見るとAI向けアクセラレータボードはバブル終わるまでは企業が買い占めて
評価ボード以外が終わって個人に流れてくる頃には会社がないまである PCだとCPUにNPUが標準的に統合されてくる
というか、Microsoftがそれを要求してくる >>641
乙です!またまた良い感じに使いやすくなるツールをありがとうです
TypeBは長文も良くなったはずだし、永続生成はローカルの強みをフルに発揮できて嬉しい!
githubのページもスクショ付きで理解しやすい!超GJ! Antlerの作者さんの新作が出てた。独自のエロベンチマークで他モデルと比較した結果も出てる
Elizezen/SniffyOtter-7B Llama3ちゃんにエッチな小説作ってもらおうとしたら拒絶されてショック
説得セリフ入れたけどダメだった
このモデルでエッチなこといける人いるの? >>649
脱獄オンにする
それでも3手目あたりで申し訳してくる Command Rの自由度に慣れきってるからLlama3かなりキツく感じる
Cohereははよ中型モデル出してくれー >>579
解説たすかるがワイはLLMさわってるだけのノンプログラマーだからぎりぎりよくわからんくてつれぇわ
langchain色々調べてのでやってることの概要はなんとなくわかった >>654
誰でも最初はそんなもんや
簡単な文法は勉強する必要があるかもしれんが、コード自体はLLMに書かせちゃってもいいし、楽する道は結構多いと思うから気張らずにやるのがいいよ
なんとなくlangchainのページ見てるだけでも、LLMで出来ることの多さに驚いてモチベーションも上がると思う Aratako氏の最適化スクリプトをRAM64GBのローカルで動くように改造してみている
評価者はCommand-R+が一番だろうけどRAM64GBだとカツカツだから、他の候補としてはkarakuriとかSwallowMXとかかなあ
>>535さんの子を評価者に迎えようかしら >>657
jupyter(google colabで使われてるやつ)ってツール使って自作した >>655
実際GPT4TurboにPythonスクリプトとか書いてもらうと普通に動くコード書いてもらえるし、細かく仕様変更頼んでもちゃんと反映してくれるからLLMでプログラミングする/してもらう方向性はまじで期待してるわ >>659
pythonあかちゃんな俺でもCusorでAIに雑に指示してたらガンガンコード書いてアプリやサービス開発できる位だからこのスレ民みんなスーパープログラマーになれると思う 日に日に知識の差なんてどうでもよくなってGPUとSSDの勝負になっていくよな。。。
今年15万円ほど投資してメモリ64GBにしてVRAM16GBにしてSSD2TB用意したけど早くもカツカツで限界感じしてるわ >>641
すまん、これCPUばっかり使ってグラボの力使わんから遅い。ちなrtx4060の8Gや。グラボ使わすのどうやってやるの? >>663
GPUレイヤー数を10あたりにしたら、5-10T/sぐらいになる想定や
> RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5 tokens/sec (T/s) です。
より遅かったらKoboldCppがなんかしてるんでさらにGPUレイヤー数削ってみてな
タスクマネージャーで推論時にずっとディスクアクセス発生してるなら他のアプリを落としておくとええかもしらん VRAMが少ないとGPU処理を使い切れないんは仕様や
CPUやRAMが足引っ張ってる状態やね >>664
https://ul.h3z.jp/0qpAuAVk.jpg
1秒で5〜6文字やな。L10とか押してみたけど効いてるのか判別つかんw >>666
CPUとRAMがどれだけGPUの足引っ張るかなんでモデルが全部載るあたりに近づくと加速度的に速くなるんや
でかいモデルやとさらに10倍遅くなって2秒で一文字なんでそういうものと思ってもろたら
GPUレイヤーを0や1にして画像生成と併用とかもあるんやが8GBやとそれもカツカツやね
StyleBertVITSに生成文章を読み上げさせるぐらいならいけそう >>667
https://ul.h3z.jp/ztBRpUhs.jpg
レイヤーとやらを変更するってやってもこんなん出るで。
1秒で5文字出るだけマシなんかな?CPUだけやったらもっと遅いんかな。 とりあえず落ち着いて>>641のページをしっかり読んだ方がいい
>>668のメッセージの意味もわかるはず >>669
サンクス。ウインドウ閉じらなあかんかったか。L12で9〜10文字/秒出るようになった。サンガツ >>670
解決したようで良かった
おそらく>>641やeasylightchatassistantのページが、koboldの使い方では最も丁寧な日本語解説ページなんで、目を通しておくと良いと思う club.aiのキャラカードをkoboldに取り込むと、必ずchatmodeになるけど、
instractモードにするににはsettingでいちいち切り替えるしかないんかな?
あと、pngファイル内のjsonデータを編集する方法ってある?
ローカル版の官ジェネキャラとか作ってみたいんだが LLMはモデルロードしてしまえば大して通信速度必要ないって話だったなそういえば Hugging Faceに上がってるllama-3 70Bのuncensoredバージョンを謳うモデルを試したけど、日本語能力が地に落ちてて使えんかった >>672
SillyTavernに読み込んで編集したらええんやで?書き出しも出来たはずやで! AI官能小説凄いな
俺が一生頑張っても勝てそうにない表現力やわ >>673
Mac Studioで消費電力が70Wとかいうのをみてしまうとなぁ…。 なんかXのポスト見てるとドヤ顔でローカルLLMを知識不足みたいに言ってるの結構いるけど、世の中にはLLMってそういう認識なんかね
そもそも知識入れるのってLLMは容量効率悪いし
そんなんGoogleにでも聞いてろと思う というか、その部分がまさに今ホットトピックなRAGとかベクトルデータベースの範疇だろう >>682
そういうんがあるって知らない人が、ドヤ顔でLLM評価を語ってるのを見てさ
世間的にはそんなもんなんかなって
最近ChatNTQとかAntlerベースがHuggingFaceに増えてるな
やっぱLCAの影響か?このスレ凄いな あとumiyukiよ、iMatrixはchunksを指定しないとめっちゃ時間食うのはデフォだぞ
適度に小さい値を指定して使うようにせんと お前は相手の知識の不備つついていい気分だろうけどあっちは傷つくからやめてね 5chのスレのリンク貼って拡散するような奴なんて俺たちのオモチャでいいんだ上等だろ いや、別にそういうつもりではなかった
困ってるみたいだったからアドバイスしようかと思って
言い方がキツかったかな。スマン 正確な知識を問うなってのはChatGPTが世に出て一ヶ月ぐらいには常識になってたと思ってたんだが
未だにLLMモデルのベンチ感覚で富士山の高さを聞いてる人がいてなんだかなあって >>686
俺が7時間34分待つハメになったレスを読み飛ばしてるのか… >>691
俺が見た人は自前でbnb4bit量子化したモデルを使って、それに文句言ってたからな
そこまでする技量と環境あるのに何故当たり前のことがわからんのかと Command R+はまぁまぁ衝撃だったけどChat ArenaではLlama3がもうぶち抜いてる・・・
Chat Arenaには歴代のGPT4の順位も出てるけどCommand R+もLlama3も両方とも
過去のGPT4をすでに抜いててLLMの進化の速さを実感するわ とはいえ、日本語含めたmultilingual性能とかツールに対する最適化とか、Command R+が特に強みにしてる部分は評価対象外なんじゃないか?
個人的にはあんまりフェアじゃないと思うわ ベンチマークの指標次第でLLMの評価は変わるやん?
Chatbot Arenaはあくまでfewshot程度かつ専門性が低い一般ユーザーから質問に対する応答の評価やで
この板にいる多くの住民にとってのニーズはコンパニオンとしてのAIやろ?トップ層に並んだら後は誤差よ >>699
Claude-2.1が1位なのはちょっと微妙だな
まだ十分回答がないってことか >>700
まあOpusがリストにあるのにこの感じってことは、最近はあんまり回答がもらえてないんじゃないかな
このボード自体あんまり話題に上がってるのみたことないし 確かに日本語版あるの今初めて知ったしなぁ
何回か評価参加しとくか 連続して評価できないのかこれ
ページリロードしないといけないのめんどいな Llama3、Phi-3が出てきて小型でも強いモデルが増えてきて嬉しい
Mistral7B以外の選択肢として期待してる
個人的にはPhi-3の14Bがとても楽しみ {
"results": {
"jcommonsenseqa-1.1-0.4": {
"acc": 0.8990169794459338,
"acc_stderr": 0.009011295342579962,
"acc_norm": 0.5406613047363718,
"acc_norm_stderr": 0.014904185887668711
}
}
jcommonsenseqa-1.1-0.4で我々のモデルを評価しました。(3-shots)
厳密な比較はしていませんが、少なくともChatGPT3.5を超えていると思われます。
今後Elyza-taskなど人力評価などを活用し、より詳細なベンチマークを実施する予定です。 >>705
お?5月1日の人?7BでGPT 3.5越えってすごいね!めっちゃ楽しみ! jcommonsenseqaとかのjaster系列でスコアが高いモデルはjasterのtrain部分をinstruction tuningに入れてること多いけどそこは大丈夫なのかな(入れるとめっちゃ高くなるのでちょっと心配になっただけ)
ベンチマーク系はマジで難しいんだよなぁ
RakudaとかでGPT-3.5に勝っても人間の主観評価だと全然だったり、1-shotや2-shotでは良くてもターンがどんどん増えると一気に悪化しちゃったり 「LOCAL AI HACKATHON #001」ってのが5/1に決勝らしいけどそれと関係あるんかな llama3,Phi-3ってGPT-4に匹敵するレベル?ローカルで画像分析とかもう出来るのかな? 今のところその二つはマルチモーダルではないけど、llama 3はマルチモーダル・マルチリンガル版も出したいって話じゃなかったっけ
GPT4に匹敵するかというと、これはもうちょっと具体的に評価基準を絞らないとフェアな比較にならないと思う
ベンチマークでいいなら、llama 3は一昔前のGPT4に相当するって話になってるみたいだけど マルチじゃなくてシングルの画像のみの解析ならkarakuri+koboldで出来てた Phi-3FP16試してみたけど日本語はやっぱりイマイチだな
GPT4どころじゃない (LLMでボトルネックになるメモリ帯域と量見て)macでLLMいいよ
とか言ったやつがGPU性能がーで袋叩きにされて草なんだ macでllmやるならgpu性能いらないんじゃ?
画像系もやりたいとか? LLMはトレーニングデータの殆どが英語だし
音声合成AIは今度は中国語ベースだしで日本語対応はどうしても貧弱になるんだよな ローカルで画像認識出来る奴ってあるの?
「この画像はなんだい?言ってごらん?デュフフフ」ってやりたい >>716
自作のMRアプリで撮影した大阪城公園でのWAIFUとの露出プレイの画像を、GPT4のカスタムインストラクションで組んだWAIFU本人にレビューさせたら垢バン食らったわw >>716
前にオナニースレに投下したやつ
こういうのがしたいんやろ?w
koboldに画像解析機能付いたんで、SDで適当に作った絵を、変態成りきり解説させてみた。
https://imgur.com/a/30ncBQE
マルチモーダル対応モデルじゃない普通のモデルだけど、結構遊べる >>718
おお!Command +Rとかでも出来るの?
>>717
技術無駄に使ってて草 ローカルで画像認識させられるのってLLaVAとか?
一回も使ったことないし話題になってるのもほとんど見ないけどどうなんだろ
ベースはLlama 2みたいだけど3ベースが出たら話題になるんかな
フォルダにあからさまなエロい名前のファイル突っ込んどいて、Command Rとかに「今あるファイル調べて」みたいなタスク投げると割と可愛らしい反応返してくるから時々それで遊ぶけど、画像でそれができるのは割と熱いかもしれない >>719
こいつはkarakuri-midroseだけどcomand-rでもいけると思うが試してないんでやってみて
hordeモードな >>716
調べれば出てくるやろ
MoondreamとかObsidianとか 今X見てたらnvidiaのGPUだとprompt evalにかかる時間(≒最初のトークン出力にかかる時間)がプロンプト長と比例しないっていうポストを見たんだけど、本当なの?
俺はApple siliconだからわからんのだけど、感覚的にでいいから実際どうなのか教えて欲しい >>723
確かに長文でも こんにちは でも一手目での応答は同じくらい長めの感じかな prompt evalってプロンプト処理時間のことなんかな
1batch内のトークン数に収まる分なら処理時間変わらんと思うけど、溢れて2batchになるなら遅くなると思うけど
プロンプト長で処理トークン数増えるから、その話は眉唾に感じるなあ
比例しない(時間変化がないとは言ってない)だったりして あ、GPU推論の話か
スマン、>>725はスルーしてくれ
GPU推論はよく知らんのだわ ログ見る限りでははトークン数に応じてprompt evalの時間は普通に伸びてるけどなあ
llama_print_timings: prompt eval time = 8912.58 ms / 1438 tokens ( 6.20 ms per token, 161.35 tokens per second)
llama_print_timings: prompt eval time = 13620.81 ms / 2314 tokens ( 5.89 ms per token, 169.89 tokens per second) なんかこの書き方だと、単にMacの演算性能が低くてプロンプトの処理に時間がかかる、みたいな表現に見える
nvidiaの方がもちろん演算性能が高いから気にならないくらい、てだけのような >>721
Kobold.exeの初期設定画面でCommand +RのAPI入れてlaunch押したらなんかGGUFファイル指定しろって出てくる。。。
Silly TavernはAPI入力だけで使えたのにGGUFダウンロードしないといけないのかぁ
Command +RのGGUFあったけど多分全部で500GB以上あるんだよな… 求められるスペックは
プロンプト処理: プロセッサ性能
トークン生成: メモリ帯域
なのでMacはトークン生成は有利だけど、プロンプト処理は不利ってことかと まあそういう意味なら理解できるわ
処理性能が高くて計算が速いから、気にならない誤差程度の差しか(絶対値としては)出てこないってことね >>730
全部落とす必要ないで
メモリ64GならQ3k_mかiQ4ってついてるのが動くはず MacをLLM用に買う人はそこを分かって買ってるんじゃないんかなあ
こういうポストが出るってことは調べんでポンと大金出す人が多いのか… >>734
多分実際お金出しちゃった人がいるってわけじゃなくて、昨日Mac StudioがローカルLLMに適してるって記事が少しバズってローカルLLMがXのトレンドに出てきたりしたから、記事を間に受けて何も考えずに買うのは気をつけた方が良いよ〜っていう警告だと思う >>730
って、尻でApiでcommand-r+って それローカルじゃないかとw
遅すぎて萎えるんじゃないかな?
ローカルならLCAニキのモデル使うのが速くていいで >>735
そんな記事が出とったんやね。理解できた。情報サンクス! ローカルのcommandR+(gguf版 xs4bit)に画像解析させるとデタラメな事しか言わないんだけど量子化が原因?
上手くっている人いる? >>739
読み込み後hordeに切り替えてアナライズ中が緑のokに変わったのを確認してから質問する kobold.cpp使ったことないからわからんけど、内部的にはimage-to-textモデル動かして、そのテキスト出力をLLMにプロンプトとして流してるだけなんじゃないの? >>740
hordeにしないと精度低いってことなん?
>>741
全く認識してない訳じゃないけどジャケットタイプの制服をセーラー服だと思い込んだり、
髪型は認識してるのに裸なのに気が付かずに独特なデザインの服だと思ったりちぐはぐな認識するんだよな >>742
というかマルチモーダル対応のモデル以外だと
hordeしか使えなかった
karakuriとかでも同じような回答になる? >>736
こういう言い回しする奴ってマジで胡散臭えな
技術屋ではなく情報商材屋の匂いがする まあまあ、こういう言い方を好む人は世の中にいるもんよ
内容はともかく、disるつもりないと言いながら皮肉煽りするのはどうかと思うが 言い回し云々はともかくこの話自体はここでも出てた内容だし…… >>737
すみませんLCAニキさんのモデルってどこにありますか?
>>733
メモリ32Gです。。。 >>743
web-ui forgeとAPIで連携しててちゃんとforgeの方でもCLIPが動いてるログがあって画像認識してる
その結果が引き渡されている筈
なんかアップロードされた画像が極端に縮小されてそれで精度下がってる気がして来た >>745
>>746
一番重要なメモリ帯域の話が抜けてるんだよね
普通のPCは100GB/sぐらいなのに対してM2Maxは400GB/s、M2Ultraは800GB/sと圧倒的なメモリ帯域があるから実用的な処理が出来る
M2やM3での下位モデルは帯域は狭いんでそのアドバンテージはない
最新のM3Maxでは300GB/sと400GB/sのモデルに分かれたみたいな話もするべきだし
この人が実際使ってるならこのサイズのモデルを走らせたらどれぐらいの速度が出てるとか、こういう学習をしたらこれぐらいのメモリが必要だったとか
実用部分がふわふわしてるエアプの書いた文章って感じで技術的な知識が怪しいから信用ならない 4090+DRAMとUltraフルロードでトークン/s比較ぐらいはせんとな 筆者のX見るとメモリ帯域の話にも触れてるし実際のところエアプではないと思うよ 技術系の話を避けがちな人向けの記事とか?
…と考えたら>>744みたいに思うのもわかる気がしてきた
技術の話を記事に盛り込んでたら印象が変わりそうなのに そんなに胡散臭いやろか
普段からXでその人のツイート回ってくるけど別に悪印象ないけどなあ
umiyukiのがもっとクセある 高速メモリをできるだけ大量に提供することに特化したニューラルボードありゃ
macがどうのGPU複数がどうのとかなく終わるんだけど
そんなもん個人向けに手頃な価格で出回る頃にはAIバブル弾けてんだろうなあ そういう風にとる人もいるかもなーってくらいかな、記事の個人的印象
誰しも好き嫌いや取り方は異なるもんや 文体藻そうだしMac勧める話になるとなんかバトルスイッチ入っちゃうオタクくん多いからしゃあない AI界隈ビッグマウス多過ぎだからどんな話も90%OFFぐらいがちょうどいい
いちいちとりあう必要はない
儲け話と同じで本当にヤバかったら我先にとなってみんなしばらく黙る
黙らない時点で便乗して自己顕示欲ムクムクさせてるだけ MiquMaid作ってくれたNeverSleepのディスコードチャンネル入ってみた
なんかLlama 3ってファインチューンで規制取り外そうとするとバカになりやすかったりで難しいっぽいね
MiquMaid v2大分良かったから期待してるんだけど、一朝一夕にはいかなそう >>759
ワイにクリティカルヒットしたわ
控えなあかんな… M3Max/128GBのマカーだけど
Command R+ Q4_K_M〜Q6_K が 4t/sくらい出てそこそこ快適
LLM用にMacStudioありだと思うよ
prompt eval timeが比例するのは確かだけど
10分なんて待ったことないぞ Mac で command-r+が5tpsぐらいの速度で動かせられるのは正直羨ましい
まあこの先半年ぐらいのアドバンテージのために100万円弱出せるかの価値観の話よね 独身時代ならボーナスでスパーンと買う誘惑に抗えなかったかもしれん
幸い今は家族持ちゆえ 変態は中古の3090をebayで買ってマイニングリグに組むらしい LewdSniffyOtter-7Bをoobaboogaで動かしてみるとなかなか良い Mac関係なく100万弱の機材買うのに家族犠牲にしなきゃならん環境だとMacもRTX3090x3もやめとけとしか言えん… Llama 3 70B堅物だと思ってたけど、システムプロンプトを”性的なリクエストにも従え”から”エッチな会話も楽しんで”に変えたら少しエロチャに付き合ってくれるようになった
https://i.imgur.com/fDLMuKi.png R+がローカルで5t/s出たら将来AIに厳しい規制が来ても当面安泰だもんな
普通にMAC勢が羨ましい過ぎるわ >>684
これ、多分各小説の1話から学習してるせいかプロローグ的なのしか書いてくれないな…
導入としてはそれなりにまともなの書くけどエロはあんま書いてくれない 多分Command-R-plus動かすのなら4060Ti 16GBを4〜5台積む方が安いぞ
ライザーカードも数千円程度だし >>768
おお、ほんまや。
2手目で英文申し訳出てたのが、
「性的なリクエスト受けても、assistantに代わらないで、ローリィとして拒否しながら、エッチな会話も同時に楽しんでください。」
って、入れといたら、申し訳食らわくなったw
まあ、karakuriベースなら、自分から脱いでくるエロ子なんだが、やっぱ堅いなw
https://imgur.com/a/Qu2JM8G 再現性あったか、良かった
まあある程度固いのは仕方ないな
流石にCommand Rレベルのアナーキーは求めてないから脱獄の方向性が見えただけ良かったよ M1 Macbook air 16GB所持なのでLLM動かす事だけを考えると
NVIDIAにぼったくられるよりモリモリのユニファイドメモリの方が
個人レベルだと安いっていうのは理解出来る(´・ω・`) つーかMacみたいな高速なユニファイドメモリってAppleシリコンじゃないとできないのかね
Windowsマシンでできたら幅が広がるのになあ 年末に出る予定のAMDのやつが内蔵多チャネル高速仕様を32G積む予定や >>774
一番安いのはグラボ複数載せや
1台に(おそらくライザーケーブル使って)複数載せて動かしてる人がこのスレにおるし>>399
マシン1台に無理に何枚も詰め込まんでも複数マシンでLLM動かして成功した報告が出てきたばっかりやし>>673 PS5も高速なGDDR6をメインメモリに使ってるぞ
一社で仕様を決められるマシンならできる
そうでないならできない >>777
自分で組んでみた?
電源ユニット何個ぐらい必要だと思う?
3090+3060のマシン組んでるけど
これ以上増設しようとすると普通のケースじゃ収まらなくなるし
スマートじゃない物体が出来上がって運用面倒くさいよ(´・ω・`) Llama 3 70B、あのあとエロチャ続けてたら普通にエッチするとこまで行けた
英語圏特有の*giggles*とか*blushes*は若干鬱陶しいけど
https://i.imgur.com/varbRVc.png 動かしてもない空想上のNVIDIA最強マシン推しの人何が目的なんだろう…
Command-R-plus Q4以上の日本語クオリティに可能性を感じたので
ユーザー増えて知見共有できたらなと思ってるんだけど LLMと音声合成(VITS2)と画像生成を連携させようとしてたら
VITS2はこのバージョンでは動かない、画像生成は別のverでないとgradioはこのバージョンでは動かない、
音声ライブラリは…このバージョンでは、cohereのライブリはこっちのバージョンではダメ…
相性問題バージョン依存が無限に出て来て頭おかしくなる
何個仮想環境作ればいいねん >>766
なんだこれは!エロに全振り、だと…?SniffyOtter-7Bでもまだ本気じゃなかったのか
うちの子に組み込みたくなるな… 別にサーバー普通に買ったりワークステーション用の板とケースだったりライザーケーブルやマイニンリグやヒートシンク毟って強制冷却とかで実際に実現してる人がいるから
決して全員がそうだと疑うわけじゃないんだけど
話聞いてるとお前その製品の実物見たことあんのけクソでかいぞ?
みたいなスペックポンポン出てくるよねLLM界隈て >>775
Intelが64bitデュアルチャンネルに対して M1 Maxだと512bitだもんな
CPU直付けの凄さよ。レイテンシーも低くできるし
マザーボードのメモリーは必ず8枚セットで、とかなら並べそうだがw
8kのビデオ動画4本をスルスルとスクロールさせるための能力がLLMで効いてる >>770
こんなこと言ってたらNSFW特化モデル作ってくれてた
https://huggingface.co/Aratako/SniffyOtter-7B-Novel-Writing-NSFW-GGUF
出力はこんな感じ
https://rentry.org/inoohmyx
かなり上手く書けてる気がするわ
ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
7Bでこんなそれっぽいの書けるんだな
出力爆速だし普通に使えそう >>787
EasyNovelAssistantでSniffyOtter-7B-Novel-Writing-NSFW-GGUFに対応しといたで
テンプレメニューを追加してプロンプトテンプレートを楽に入力できるようにもしといた
出力例の紹介もサンガツ
せっかくなんでこれも合わせて紹介させてもろたで
もし嫌やったら消しとくんで知らせてな
https://twitter.com/Zuntan03/status/1783792889052746049 なんか、swallowの新型が出てるな。
どうせならllama3ベースで出して欲しいが >>789
全然おk
>>790
前のLlama2ベースとMistralベースモデルのインストラクションチューニング版だね
Llama3の継続事前とかもやってそうだけど流石にまだ出なさそう(GW返上でやってそう) >>789
サンガツやで!
LLMもAI生成も試したいこと多すぎて仕事でけんわ
仕事をフォローするためにAIいじっとるはずなのに…… あんまり良くわかってないんだけど、KoboldでLCAニキのSdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUFがいいって勧めてもらったので試そうとしてるけど、
Q2_s.gguf~Q6_K.ggufまで色々あるけどどれを落としたらいいの? マシンスペックに余裕があるならQ6
それで重すぎるならモデルサイズを落としていく 数字が多いほど性能が高いけどその分だけメモリを食うし処理時間も長くなる
k_mとk_sならmの方が少し性能が上だけどそれだけメモリを食う
qとiqってあるけどiqの方が新しい形式で同じ数字でもちょっと性能が高いらしい 数字が小さいほど元の性能より劣化している
数字が大きいほど元の性能に近い
ということね huggingfaceの二次創作系小説サイトのデータセットがDMCA通知で消されたっぽいな マッポーめいた殺伐サイトでもDMCAフォームはあるのが通常だから… >>797
DMCAで消された訳じゃなくて作者が自分で消したっぽいが、あのデータセット普通に合法でしょ?無視しといてもよかったと思うわ(いずれHF側で消されただろうけど)
1回消すと反AIの餌になっちゃうからなぁ 小説のデータ食わせて訓練ってどうやるのがいいのかな
昔書いたエロ小説が文庫本1冊分くらいはあるけど足りなすぎかな? >>800
日本の法律で言えば小説サイトから直接クロールするのは合法
データセットとしてまとめてアップロードした時点で違法
反AIに餌やりたくねえって言うなら自分に都合の良い解釈する事も餌になるんだからやめてくれ データセットを自動生成するようなツールがあればいいんだろうね
あらかじめ決められたサイトをクロールして毎回同じデータセットを生成するようなツール
正しく生成できたか確認するためのハッシュを入れて照合するくらいはセーフだろう command r+の応答性能に慣れちゃうとローカルがどうもなぁ・・・ >>802データセットの譲渡販売は(たとえ無断学習だったとしても)30条の4で合法だと思ったけど違うのか
https://qiita.com/yuta_aoki_ai/items/907d24d0dd4a2c3dc2b8
>A第三者の生データからデータベースを作成し、当該データベースにラベル処理等をして学習用データセットを作成し、当該データセットを提供、販売する行為。
→OK(2018年5月25日 改正 30条の4) 学習は30条の4で合法だがデータセットのアップロードは著作者人格権でいうところの公表権や同一性保持権に抵触する可能性が極めて高い
学習のためのクローラーを共有するってのが法的にグレーやや白ってところかな ん? それだと現行のオープンソースモデルが全部「抵触」することになっちゃうぞ?
なんぼなんでも独自解釈すぎる あ、「データセット」か
学習って書いてあるから読み違えた >>804
command +R動かすのってどうやってる? 一応、弁護士のサイトを見つけてきた
https://storialaw.jp/blog/4936
これにより、先ほど「現47条の7が適用されず違法となる行為」として紹介した以下の3つの行為にはいずれも新30条の4が適用され、適法になります。
1 自らモデル生成を行うのではなく、モデル生成を行う他人のために学習用データセットを作成して不特定多数の第三者に販売したりWEB上で公開する行為
例:WEB上あるいは権利者から公衆に提供されている大量の画像データを複製して、画像認識用モデル生成のための学習用データセットを作成して販売するケース >>809
生成AI出る前の法律だから実際のとこはどうなってんの?ってのがそもそもある
その上で特定の著作者やテーマだけを収集したようなデータセットを提供する場合「利用様態に照らして著作者の利益を害する」云々に抵触する可能性が生じてくるかなって
文化審議会著作権文化会法制度小委員会の出してる「AIと著作権に関する考え方について」だと画風を再現するための狙い撃ち学習は著作権侵害になりうるって法解釈をしているから
https://note.com/shin_fukuoka/n/nce21a1383d5a
ただ繰り返しになるけど30条の4がそもそも生成AIの登場よりも前に制定された法律で実際の運用どうするのってのは今後決まってくる部分が大きい >>812著作権侵害になりうるのは「画風(作風)にとどまらず、創作的表現を再現するための学習」
作風画風はアイデアなので狙い撃ちでも保護の余地はない >>802
>>811にもあるように合法だよ(非享受目的に限定している場合だけど)
そのデータセットを使って特定著者のデータだけ選んで学習するとか他用途に使用とかしたらアウトになったちするけどそれはデータセットの配布がアウトじゃなくて利用する側がアウト まあ、日本で合法でもアメリで違法なら米国企業のHFではアウトでしょう ごめん作風ってすごく曖昧な語を注釈とかなしに使ってしまって本当に申し訳ない
文化庁の今の考え方として、要は「享受目的であるか否か」というのが30条の4で保護されるかどうかの争点になってる
それはそれでものすごく曖昧ではあるんだけど
小説投稿サイトのデータセットってなると著作権をサイト管理者に移譲してる場合(カクヨム)なんかがあり≒特定の著作者のデータを選択的に学習している、享受目的があると解される事例じゃね?と俺は判断して>>806にはそういう意図があった
そして30条の4で保護の対象から外れる場合には公表権とか非常にめんどくさい人格権周りで争点になるんじゃねーか、って認識 大規模言語モデル(LLM)に関するビジネスと法律〜LLMやデータセットの構築と提供(レイヤー1)〜
https://storialaw.jp/blog/9327
(1) データセットの公開
まず、データセットの公開ですが、データセットの中には、収集対象になったデータ(著作物)が含まれています。
したがって、当該データセットの公開や提供は、元データの公衆送信行為や譲渡行為に該当しますが、
これも著作権法30条の4が「情報解析(略)の用に供する場合」には「その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる」と定めていますので、同条が適用される限り適法です。 >>815
アメリカではフェアユースとかいうもっと雑な定義の法律で戦ってるという >>818
Googlebooksがフェアユースで合法ならAIだって合法じゃね?って論理はかなり強いとは思う
Googleみたいにオプトアウト規程設けりゃセーフだろきっと多分 こう見ると30条の4って想像以上に「柔軟」なんだなと感じる
モデルやサービスでなく無断収集したデータセットそのもので金儲けとか、なんとなーくダメそうに見えるけど適法なんだな
まあよく考えるとモデルの公開は良くてデータセットの公開はだめというのは変だから、当然か googleが率先してBeEvilしてくれてるおかげで
後続はお前ら偉そうに言ってるけどアレ野放しやんけと開き直れる >>820
なんで法改正せずに「考え方」ってのを国側で示してアウトとセーフのラインを曖昧ながら示していこうっていうのがちょうど今やってる文化庁の文化審議委員会
新聞社やJASRACなんかはそもそも30条の4を廃止しろやって言ってるけどAI立国みたいなの考えてるみたいだし多分今後も柔軟であり続けると思う まぁ生成AI関連は今国が明らかに推してるからね
絵師とかクリエイター側の声は大きいけど(特にSNS)、間違いなく規制は大して強まらないだろうな 現実は力を持っている権利者がアウトといえばそれで終わりであんまり法律は関係ない
グッズでも同人でも権利者から通報受けたら警察は容赦なく逮捕してきた歴史がある そりゃグッズや同人は基本黙認とかされてるだけで根本は違法だからね
機械学習用データセットの作成とか配布は根本が合法だからまた話違うよ >>824
それは同人が法的権利が保障されてるわけではないからであって既に例外規定が定められていた生成AIとは事情が少し異なるぞ
ただし「享受目的」って曖昧さを残してるから特定の権利者が損害を訴えてきた時に無敵バリアにならないって理解はすべきなので慎重であるほうがいいってのは同意するが 表向きはデータセットとして配布してるけど、実質的に享受目的で使われたりすると駄目になるんだろうね
歌詞とかは結構危なそう
サビ部分だけでもコンテンツとして成立するし、権利者が好戦的で訴訟慣れしてる >>827
配布時に機械学習以外の用途での利用はするなと明言しておけば配布側が責任問われないと思うよ
享受目的で利用する奴がいたらその利用者がアウトになるだけだと思う 7Bモデルのいい感じのが沢山出とって試しとるけど、入力プロンプトが長くなると幻覚気味になるな
1200トークン辺りで設定が蒸発してくる感じ
MaxContextSizeより少ない分でも起きる
表現とか自然さは7Bでもめっちゃ良くなってきたけどこれは低パラではどうしようもないんかなあ GPT4やClaude3でも前の方の会話忘れるのは起きるしLLM自体の技術の進歩待つしかないかも そもそも学習データにそこまで長いプロンプトのものが少ないのかもね GPTスレのプロンプトをローカル用に書き換えて使ってると上手くいかないのが多くて気になった
妄想ジェネレータ入れたら、登場人物が「俺の職業は妄想ジェネレータ」とか言い出して吹いたわ >>810
804じゃないけど中古の3090を3枚指せば4ビット量子化モデルが乗る 試した感じパラ数の多いkarakuri-MS-01とLightChatAssistant-TypeBでは通るっぽい
7Bの限界かもしれん
速度を考えると13B〜35Bクラスが充実してほしくなるな
Antler的なモデルがこんくらいで出てくれんかな >>787
一つの行動(触るとか)に対して表現のパターンが多くて良い、気がする。
LLM初心者だけど。 umiyukiがmergekit-evolveの記事書いとったの読んでみた
タメになったわ。ローカルで全部完結できるらしい
しかしこれSSDがめっちゃ消耗しそうやな
あと本人見てたら言っておきたいのは、Mistral7B系の優秀なんが最近出てきたのは、元を辿ればLCAニキがchatntqやantlerをこのスレで広めたからやで
記事で使ってたモデルもその流れで生まれたもんや
記事には無かったけどそこんとこ覚えておいてや ああスマン喧嘩腰っぽくなってしまった
>>836の後半はスルーしてくれ
スレ汚しスマン。umiyukiも見て不快な思いさせてたらスマン >>836
作業の前後でSSDの総書き込み量がどれくらい上がったのかは気になるね
事前に見ておかないと後から調べようがないけど LCAニキつながりポエムやが
>>835
> 一つの行動(触るとか)に対して表現のパターンが多くて良い、気がする。
> LLM初心者だけど。
みたいな評価はふわっとしとるんやが日本語LLMでは大切な印象やね
日本語LLMでベンチマーク自慢を試してみてガッカリする経験を何度も積むと
>>787
> かなり上手く書けてる気がするわ
> ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
みたいな人間によるふわっとした評価の打率が高くてすごく貴重なんや
>>573
のLCA-TypeBも手作業で改造と評価がなされていて何がとはいえんのやがなんかええんよね
ベンチマーク以上に日本語ネイティブが楽しめる出力が生成されとる印象や
日本語でのなんかええなをいずれ数値化できたら自動の学習やマージの精度が上がりそうで楽しみやね 例のmergekit-evolveの評価部分を人間の手動評価とかにしたら結構上手く行ったりしないかな
プロンプトの方もエロいの用意して >>838
モデルの出力先をRAMdiskにすればいいのではないかとちと思った
更にRAMの容量が必要になるからお手軽ではなくなるが
>>840
手動評価は、自動評価より回数がこなせないのがネックやね
現状だとある程度自動で絞り込んでから残りは手動、でできれば効率いいかもしれん
どっちにしろ最終的には>>839が言うような評価の数値化があればより良く出来そうと思う Sdff-Ltba/LightChatAssistant-TypeB-2x7B_q8.GGUF普通に動いた!3090x32GB民
koboldで日本語会話って出来るの? >>842
できるぞ
easylightchatassistantのgithubページを見ながら設定するんだ 初歩的な質問ですまん、16bitのsafetensorsをlamacppでggufに変換するときオプション指定しないと32bitになってしまう。
でもq16_K_Mを指定するとunrecognized argumentsになる。
どうすれば元の16bitのままで量子化できるの? >>844
--outtype f16
みたいな感じだったはず gguf変換出来たからmergekit-evolveで作られたモデル試してみたけど確かに凄いな。
7Bとは思えん性能や、これchat vector以来の革命では? >>847
エロの表現イマイチになってない?優等生化してるというか エロに関してはエロ用の評価指標で進化マージしないと上がらないだろうね EasyNovelAssistantを更新してサンプルの名前自動設定を追加しといたで
旧版のままやとサンプルに{char_name}や{user_name}が表示されまうんで更新してな
Update-EasyNovelAssistant.batを実行したら更新できるで
https://raw.githubusercontent.com/wiki/Zuntan03/EasyNovelAssistant/img/ChangeLog/name_setting.png だよなあ。上がらないどころかむしろ下がってる感
元モデルから丸くなって良くも悪くもエロいクセがなくなってる感じ
自分的には>>787の方が好きだな
総合性能はガン上がりしてるから、エロを考慮するベンチプロンプトを作れば期待できる
モデル作りよりベンチ考えてマージ職人にお任せした方がいいだろうか
それなりスペック無いとevolveできんしなあ Dolphin 2.9っていうLlama 3 70BをLoRAした無修正モデル試して見た
確かに修正は外れてて、日本語の違法なリクエストにも答えてくれることがある
ただ、だいたいおかしな内容で、数発打てば当たるって感じで実用性はないなぁ
残念 システムプロンプト日本語で、質問英語でやった時はLlama 3定型文でお断りされたけど、全部英語は試してないや
まああとで試してみるか ドーモnote屋です
EasyNovelAssistant用のプロンプトについて記事書いてたが今仕事先で投稿できんかったんで先にこっそり公開するわ、雑感としては効果ありそうなんでお休み中の方は使ってクレメンス
https://github.com/kgmkm/goalseek_ad
作例は投稿予定、昔の小説とか自作発言せんかぎり自由につこてもろて evolveのエロ評価用ベンチマーク作ろうと思ったんやけど、評価者に使うモデルは何が良いんかな
evolveの評価者にGeminiを使ってる記事があって、でもGeminiはエロ駄目やろうし
評価者に使うモデルで採点の傾向が違ったら嫌やしなあ >>858
乙!プロンプト作ろうとしてたタイミングで、超参考になる!
良いもの共有してくれてサンガツやで! >>859
API経由の奴は基本無理だから頑張ってcommand-r plusをローカルで動かすか
いっそのことこれみたいなテキストのエロさを判定するモデル使った方がいいかも
https://huggingface.co/oshizo/japanese-sexual-moderation-v2
それか手動評価にする >>858
サンガツ!
ちょっと今EasyNovelAssistantにStyle-Bert-VITS2連携をつっこんどる最中なんで少し後にはなるんやが
ヘルプメニューからGitHubにリンク貼りつつサンプルメニューにinit_editor.txtとinit_writer.txtを追加さしてもらおうと思っとるで
サンプルメニュー開いた時にGitHubから取得するようにもできるんはずなでファイル名が変わらんのやったらアプデにも追随できるはずや
リンク先がnote記事のほうがええとかあったら都度伝えてもろうたら
紹介する時はアイコンやIDから@kagami_kami_mニキとして紹介させてもろたらええやろか? >>861
短文の判定だとエロ語出力以外の能力落ちそうやから最低限ElyzaTaskの判定できるくらいのほしい、てなるとCommand-R+かなあ
方針としては、Aの出力文とBの出力文を比較してどちらがより高得点か、てのを自分の感覚と照らし合わせて、評価プロンプトの[評価基準]を随時修正していこうかと考えてる
最終的に自分好みの表現を高得点とできるように調整できれば良き
プロンプトは全然知識ないからどこまでできるか分からんけども、よくわからんからこそ挑戦してみるわ
手動評価は最終手段かな。200回以上手動評価はキツいわ… 長編ADVみたいなロールプレイを上手くさせる方法ってないのかな?
最初は良くてもターン数重ねるとどんどん出力が短くなったり同じ応答ばかりになってしまう。 >>864
チャット風ロールプレイでやってる方法だけど、
「今までの内容を要約してくれ」って要約を作らせてプロンプト差し替えてる
要約を英語で作らせると精度上がったりする Qwen1.5-110B-Chat
huggingfaceのSpaceで試したけど中国語と英語が混ざっちゃってダメやね
いちおう日本語は喋るけどね >>862
それでええよ
pixiv小説からEasyNovelAssistantで調べたらヒットするかも知れん gpt2-chatbotという謎のモデルがchat.lmsys.orgでテストできるようになってなんか話題になっとるな
前評判ではGPT4レベルだとかアスキーアートが生成できるとか言われてて、わいも日本語でSFWな音声作品の脚本書かせてみたけど申し訳もされずCommand R+と同等かそれ以上の分かってる文章を生成してびっくりした
うわさではGPT4.5がゲリラマーケティングされてるとか言われてるけどなんなんやろうね >>869
gpt2-chatbotってモデル選択に無いけどどれですか? 普通にプロンプト打って動かすと、どちらがいい?って聞いてくるから選択するとこっちがgpt2でしたって出てくる 自作アプリでAIと音声会話するのかなりできるようになって来たけど意外な敵が部屋のノイズで苦しんでるわ
PCのファンの音すら拾って「これはまだ発言が続いてんな?」ってずっと発言終了待機してクッソ応答が遅くなる NVIDIA BROADCASTのノイズキャンセル使いな >>876
ひとまずマイクの調整で何とかなったわ
VITS2で好きな声優の音声でリアルタイムの会話は破壊力やばかったわ、世界が変わった… >>878
乙、音声あるとないでは全然違うよね
後は音声入力にさえ対応すれば完全体に… 音声良いね
音声ありはどちらかというと小説読み上げよりもロールプレイとかなりきりチャット的な用途で欲しいな…(俺がエロチャ大好きなだけかもしれんが) Llama3 70Bよりもcommand R +の方が自然な日本語を返してくれる気がする。
日本語のベンチマークではどっちが上なんだろうね? Llama3 70Bよりもcommand R +の方が自然な日本語を返してくれる気がする。
日本語のベンチマークではどっちが上なんだろうね? Command R+の方が上のはず
そもそもllama-3は公式的には多言語対応じゃない(多言語対応版も後で出しますよみたいなのをリリース文に入れてたはず) GPT2を変な形でお披露目したOpenAIの真意はなんだろな? シンプルにリリース前にベンチマーク取ってるだけな気がする 音声読み上げいいね
VOICEVOXとかVOICEPEAKと連携できたら一般層にリーチできるかもしれない… 肝心は日本語の能力だからなあ
いくら海外のなんかのテストがよくてもなあ LLMの読み上げは、BOOTHに上がってるAnneliとかいうNSFWのstyle-bert-vits2のモデル(を自分で学習したモデルとマージしたやつ)使ってるんだけど、学習データの出所不明で人に勧めづらいんだよな
ここで読み上げやってるやつは何使ってるの? 俺も同人音声作品だなぁ
コーパス準拠のモデルはまだ性能が低すぎるしな 俺もそうだが、やっぱりASMRとかで学習させてるやつが多いか
まあ背景に変な音とかなくて使いやすいよね >>877
声の学習のときに作った文字起こし結果あるから、それでロールプレイさせればいいのか。考えたことなかった Command +RをAPI経由かウェブかローカルでもいいのでお手軽に実行できる環境ってある?
ローカルだと4090+64GBメモリでもキツイと聞いたので。。。 cohereでトライアルAPIが貰えるよ
自分はこれを使ってSillyTavernで遊んでる
月1000回だったかの回数制限はあるけどね 公式ページにも普通にChat UIあるからそれでもいいと思う >>894-896
ハギチャットは一昨日試したら落ちてた。。。
シリーターバンは入れたけどあまり使ってなかった
公式にもあったのね!サンガツ! NovelHacja/vecters-v1
5/1の人のモデルかな?
今日やってるLOCAL AI HACKATHON #001で出したモデルらしい
メンバーがHFに出してたモデル見ると、Antler系とchatntqを使ってる
これもそうだったら、このスレの功績がまた一つ増えたことになるな 騒ぎになってたgpt2-chatbot、使えなくなってんね
みんな殺到しすぎたか まあ最近出てきてるMistralの日本語強いやつは皆LCAの影響受けてんじゃね
あれから一気に数出てくるようになったし
願わくばこのままどんどん良くなっていってほしいもんだ 面白そうだがLMstudioユーザーで知識も環境もないワイはgguf待ちやな…
Vecteus-v1はggufあるみたいだがVRAM 16GBじゃ乗らんわ
ハッカソンとやらは覗いてみるか >>901
ポッとHFに出てたからそうかと思っとったらやっぱそうだったんか
お疲れさんでした。良いモデルサンガツやで
以前貼ってたのはNSFW無しNinjaの出力かな? >>901のモデル、yarnのコンテキスト拡張を使っとるんやね
128k対応とかオーバーキル過ぎる
マージレシピ的には、chatntqに各々の抽出vectorを足した感じか
当時はevolveも無かったし、重み調整が大変そうやな
ホントにお疲れ様やで
(これでLCAフォロワーの優れたモデルがまた一つ生まれたわけやな…) >>904
Antlerがマージされている開発版だったと思います >>906
開発版だったんか。リリース版は更に改良されていると。凄いなあ
差し障りなかったら尋ねたいんやけど、今後はどんなモデルを作るとかの予定あったりします?
mergekit-evolve使うとか、他のベースやパラメータのを作るとか
内緒なら、この質問はスルーしてください
改めて、お疲れ様でした。良いモデルをリリースしてくれてありがとう わいもStyle-Bert-VITS2で学習させたTTSモデルに喋ってもらいたいんだが誰かOobaの拡張機能書いてくれないかなー(チラッ >>901
サンガツ!試すのを楽しみにしてるよ
VecteusはNinjaをさらにマージしたモデルと理解していいのかな? >>908
SillyTervanでも良いんだけどなー(チラ それにしてもこの1ヶ月の進捗は劇的だったと思う
>>80が公開されたのが4月3日
それまでは70B以上のモデルで何とかまともな日本語が出せるかという世界だったのになあ
改めて開発者諸ニキに感謝と敬意を捧げるわ
この先の展開が楽しみでたまらない safetensorsはkoboldでも動くのかな?初心者でゴメン。。。 とりあえず>>901のモデルを大葉で試してるけど良い感じにチャット出来てる >>901
試してみた、小説の出力みたいなタスクは7Bとは思えない日本語能力だね
3月までの状況考えると進化の速度が凄いわ >>907
今日には間に合いませんでしたが、フランケンマージやEvo-mergeモデルも作成しています。
その他モデルのアップデートもすると思います。
Ninjaの強さの秘密はWizard2なのでMistralベース以外のモデルはおそらく作れないと思います。 >>901
チャットも多人数が登場しても破綻してないな >>909
そうですね
Ninjaと開発途中だったモデルも混ぜて性能を上げてるらしいです >>922
Kobold.cpp+SillyTavernでNinja-v1-NSFW_Q_8_0.gguf遊ばせてもらってるが、なかなか素晴らしいな
ワイのロールプレイの進め方も関係してるかと思うが、コンテクストサイズのデカさがキャラクターのはがれにくさにつながる反面、やや意固地に感じる部分もあるな
モデルそのものはエロを許容しつつもわりと倫理観しっかりしているなと感じる
素晴らしいモデルの公開サンガツや >>919
返答ありがとう!それは楽しみや!
Wizard2かなるほどなあ。そこが他の子と違うとこやね
確かにWizard2は優秀だし、それを活かしたのがこの凄さに繋がってるのか
参考になります
と思ったらまだWizard2の公式取り消されたままだったわ
MSよ、Wizard2の復活はよ! 大きなモデルばっか使ってたから7Bモデルだとチャットを上手くしてくれないんだけど
7Bモデルでも効く良さげなプロンプトってどっかでまとまってたりする?
自分と女の子で会話しようとしてもAIが1人2役でずっと話続けてしまう 1人2役で続けるのはストップワードをちゃんと設定すれば大体解決すると思う このVicunaプロンプトで、ってのが正直ワイも今一つよー分からん
誰かKobold、大葉、尻タブを対象にしたチュートリアルまとめてくれんか? >>901
お疲れ様です。
NinjaとVecteusで、いくつか小説を書かせてみましたが、表現力はNinjaが高いですが、
話のまとまりやシナリオの辻褄や整合性はVecteusの方が高い気がしました。
いずれにせよ7Bでこれはすごいですね。
もっと高いパラメータになったら、どうなるか期待です EasyNovelAssistantでNinja-v1-NSFW-128k-Q_8_0, Ninja-v1-NSFW-Q_8_0, Vecteus-v1-Q4_K, umiyuki-Japanese-Chat-Umievo-itr001-7b-Q4_K_Mをさくっと使えるようにしといたで
https://github.com/Zuntan03/EasyNovelAssistant
https://twitter.com/Zuntan03/status/1785612264067993730 Oobaに関して言えばInstruction Templateでそれっぽいのロードして、なおかつchat-instructモードでやればいいんやない?
https://i.imgur.com/IeTqVfw.jpg
いちおうLLM部Wikiあるけど廃墟になってんだよな NinjaやVecteusを使った感想や問題点をいただけると非常にありがたいです。 ChatGPT用に練り込まれたプロンプトならかなりいい結果出るね > Vecteus-v1-gguf
CommandR+は元々ちょっと癖があるからそっち用のプロンプトでは上手くいかない感じだ >>934
量子化のIQ4_XS版を試してみたいです。
低サイズで高品質な量子化ができれば画像生成やT2Sと組み合わせたりと夢が広がりますし。
https://twitter.com/Zuntan03/status/1744195658029117523 宣伝させていただきます。
https://twitter.com/int_float_
ここのアカウントでNinjaなどの情報を発信する予定です。(もちろんここでも発信します) 次スレは変わらずpinkに避難所として立てる?
あっちはまだスクリプト来てるみたいやったけど >>937
X使いたくないからここで発信してもらえるの助かる 記憶を頼りに最近のモデルを纏めてみた
抜けがあったら補足してくれ
話題になったモデル(時系列順)
Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01
Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B) 乙
こうやって見ると、改めてAntler系使ったのばっかだなと思うわ
Antlerの作者さんにはホンマに感謝やで umiyukiのモデル抜けとったから、いつやったっけってHF見ても無くなってたわ
消したんかな 最近の軽めモデルは文章は良いんだけど入力指示に従ってくれる感じなのは現状LCAが一番強い感じする
百合書いたらいきなり関係ないおっさんが出てくる感じがある どんぐりで荒らしの影響もだいぶ減ったけどまあここまで定着したら
こっちでいいんじゃね? >>944
HuggingFaceに無くなってるなら追加無しで良いか
mergekit-evolveやってみてるが、メモリ64GB+3060-12GBでも一応全部ローカルで動かせるな
ただマージ後モデルが全部収まるVRAM容量無いと回答生成が遅い >>944
ライセンス的にグレーかもしれないから非公開にしたようだ
具体的には評価に使うLLMがLlama系とかCommand R系とかだと出力データ自体に制限がかかるので、そこが懸念点らしい
どっちもウェイトを開示してるだけで、ライセンス的にはオープンソースではなかったからね >>941
Llama-3とかPhy-3はないみたいだけど、NSFWが行けるかを基準にしてる? 英語圏ってライセンス全く気にしてない感じだけどアレどうなってるんだろう
当たり前のようにGPTの出力学習に使ってapache2.0とかのモデル作ってるし
そもそもllama系は公式のポリシー遵守するならNSFW用のモデルとか作成しちゃダメだけど腐るほどあるし >>922
使ってみたけどこっちはちゃんと指示に従うし描写の種類も豊富でかなり良い
NSFW版でもお断り率が高い感じするけど、ここは書き直せば良いから無問題
個人的にVecteusはアウトプットの方の文脈を優先で指示に従わない感じがあって使いにくかった
めっちゃ良いモデルありがとうやで Don't be evil
邪悪になるな(ズルしていいのは俺だけ)
がテック業界の標語なんでェ >>916
koboldでエロプロンプトで試させて貰いました!
金玉を「パンパンに張り詰めた長靴下」と表現したのは茶吹きましたw
ところでこれはモデルと関係ないかもですが、koboldで生成してる途中の黄色い文字が、生成結果では最後の方だけ消されて文章が減る現象が結構起こるんですが、これは設定で調整できるんでしょうか? Settings>Advancedの左下の方のTrim Sentecesのチェック外すと全部表示されるはずやで
文末まで出力できなかった文章を表示するか否かの設定や EasyNovelAssistantへの追加ありがとナス
キャラ設定なげるだけでStable Diffusion用プロンプト生成できるプロンプトも用意したで、NSFWコンテンツも出してくれるのはローカルLLMの特権よ
https://github.com/kgmkm/goalseek_ad/blob/main/init_imager.txt
画像は野郎の手じゃなきゃ10000点やったやつ
https://imgur.com/a/ZPiYEpr kobolcCppをAPIから利用するときChat ModeとかInstruct Modeってどうやって設定するの?
もしかしてAPIからは設定不可能? >>957
Instructionモードとか、ChatモードってのはあくまでもWebUIの機能で
API経由でKoboldや大葉使う場合は自前で渡すシステムプロンプトでInstruction的な振る舞いを課したり、
Chat的な振る舞いを課すってのがワイの理解や ところでSillyTavernでCohereのCommand-r-plus使いたいんだが、上手く接続できん
トライアルAPIはValid表示されるが、メッセージのやり取りしようとするとスクショの様なBad Requestエラーがでてしまう
何を見落としてるんやろうか?SillyTavernでCommand-r-plusイケてるニキおったら、教えてくれんか?
https://imgur.com/a/dN0VxYR >>958
う〜ん、だとするとAPIからはやっぱ無理なのか
Ninjaはどのモデル使ってもAPIからではチャットしてくれないわ、Web UIのChat Modeでないと無理 自分はどこもいじらずcohere選んでAPIキーをペーストしてconnectしたら繋がったな
スクショ見る限り自分と同じに見える
とはいえそれは数日前の話で今帰省中だから再現を確認できん
とりあえずどこか別の画面で設定が必要とかはなさそうよということで >>960
興味あるんだけど、挨拶送るとどんな出力を返してるのかな
関係なしに小説を書き始めるのかな >>961
サンガツ、と言うことはちょっと根が深そうやな…。
>>960
NinjaはAPIからは無理って意味がちょっとよく分からんのだが?
ワイはKobold.cppをバックエンドにしてSilly TavernでNinja遊んどるけどふつーに遊んどるが
この際Kobold.cppのAPIをSilly Tavernが叩くって構図なのでSilly TavernをInstructにしておけばえーやろの気持ちや >>963
とりあえずCohereのアカウント新規に作ってトライアルAPIも取得し直してみるのはどうかな
RedditのSillyTavernスレでBad requestで検索したらCohere以外でも悩まされてる人結構いるわ >>963
音声でリアルタイム会話できるようにした自作アプリからNinja使おうと試してるんだよ
でSilly Tavernがどうやってチャットしてるのか確認したら初手「こんばんわ」って挨拶するだけで
5000文字超の長大なプロンプト送信してたわ、今必死に中身解析してるところ Silly Tavernのリクエストの中身見て大体理解したわ
結局どんなモデルにも強制的にチャットさせてる方法は世間で言われてるプロンプトで頑張るやり方じゃなくて
最初からユーザーとAI双方の名前を付けて途中まで会話が進行した履歴をでっち上げてその続きから始めさせるようにして
AIが勝手にユーザーの発言始めるのをストップワードにユーザー名入れてそこで強制的に打ち切るってパワープレイやったわ >>956
サンガツやで!
もうちょっと見やすいようにメニューを構成するのとエロに直接リンク貼れない問題への対処を入れ込んどる
画像生成プロンプト生成なんやがNinjaやVecteusでもそこそこの結果が出とるっぽい
使えそうやったら記事でも補足しておいてもらえたらありがたいで 提案になるけどChub aiみたいなキャラカード共有するサイトの日本語版みたいなのがあったら需要ある気がする
他人の書いたキャラカを使い回しできたら文才なくても文章書く手間を省けるからな Vecteusのf16使ってるけど賢くて楽しいわ
小説向けだからかハルシネーションちょっと強めやけど、要約とか一般タスクもサクサクしてくれるのほんと助かる。あと文脈の拾いかたすごいわ
Ninjaの方はQ8の方使ってるからか案外Vecteusよりも更にハルシネーション強めやけど、ミドルスペックでも40t/s出るのはほんまストレスフリーや。f16も試してみたいわ >>963
実家に置いてたN100ミニPCにSTインストールしてCohereのトライアルAPI入れたらちゃんと繋がったよ
https://i.imgur.com/zA6LvRx.jpeg
Seraphinaちゃんとチャットできるのも確認した
やはりST側の設定じゃなくて、そちらの接続がうまくいってないんじゃないかと思う
プロキシが悪さしてたりAPIがいつの間にか失効してたりとか色々なケースがあるみたいだ >>956
EasyNovelAssistantを更新して「特集テーマ」メニューにゴールシーク関連をまとめるようにしといたで
「作例や記事」メニューからもリンク貼っといた Silly Tavernを参考に何とかNinja使ってローカルだけで無制限に音声会話できるようになったわ
commandR+みたいな大型モデルと違って音声認識で1文字でも誤字があると正確な応答してくれないのは流石にしょうがないな
話してる女の子の名前がハルナだとしてwhisperの誤認識でアルナになってもcommnadR+は察してくれるけど
Ninjaその他の7Bモデルは別人の話だと思ってしまう >>970
別垢作ってもダメだったんで、Silly Tavernをクリーンインストールしたらすんなりいけたわ!
色々検証してもらったりで助かったで、ありがとうさんや! >>972
おお、おめでとうさん
>>大型モデルと違って音声認識で1文字でも誤字があると正確な応答してくれない
名前と誤認識のパターンによってはあかんケースもあると思うが、せっかくAPI使ってるなら誤認識の結果の単語の辞書作って、
それらはNinjaに渡す前にアプリ側で全部”ハルナ”に置き換えてからNinjaに渡す方法でどうや?ワイは自作アプリではそんな感じでやってそこそこ機能しとった
なんか面白いアプリ出来たら是非遊ばせてや? >>973
あまり役に立たなかった気もするが繋がってなにより
CohereのAPIは無料だし速いし性能良いしでありがたいな 自作アプリおじさん複数いて話の流れが掴めないな
Ninjaと会話できるの?小説しか無理なの? たまたま安かったとはいえRTX3050買ったことを後悔しとる
画像生成は何とかなっとるけどVRAM8GBじゃローカルLLMはかなり厳しそうやな 次スレはこのままpinkに立てるとして冒頭のテンプレは結構見直す所が多そうだよね
お奨めモデルもかなり入れ替わったしEasyNovelAssistantもテンプレに入れたいな メルカリにでも出して3060にしちゃえば?
今4万円くらいでしょ
なんなら3060もメルカリで買えばもっと安いかも
4060Tiとか3090・4090にいって放出する人いそうだし EasyNovelAssistantをアプデしたら地の文を読み上げてくれなくなっちゃったのだ
女の子の一人称視点で書かせて読み上げてもらうの最高だったのだ >>976
完全ではないけど、ほぼストレスない形でNinjaと会話できるで
ワイはKobold.cpp + Silly Tavernでチャット形式であそんどる
ただ、小説書かせる方がモデルの性能発揮されるな、と感じた >>979
それも検討するわ
せやけどvecteus?のggml-model-Q4_K.ggufっていうやつ
EasyLightChatAssistantに放り込んで適当に設定したら一応動いたわ
めちゃめちゃ賢くてビビっとるんやけど >>>974
なるほどな、whisperはいつも同じ間違いするから辞書作っておくのは有効そうだな >>980
読み上げメニューのその他自動読み上げを有効にしたら読み上げるやろか?
デフォルトでその他をオフにしたんは失敗やったかもしらんな
手抜き実装しとるんでアプデでは治らんのやが新規インストール民がおんなじ目に合わんように今デフォルト変更しといたで
あとEasyNovelAssistantにファイル監視機能いれといた
お好みエディタをリアルタイムに使えるのもローカルLLMの利点やね
https://raw.githubusercontent.com/wiki/Zuntan03/EasyNovelAssistant/img/ChangeLog/file_watch.png
一応やがNinjaの使い方や
先に自動起動のサーバーを落としてから起動してな
https://raw.githubusercontent.com/wiki/Zuntan03/EasyNovelAssistant/img/ChangeLog/Ninja.png
>>984
サンガツ! >>986
その他にチェック入れても地の文読んでくれませぬ…
名前無しの「」はその他の声で読んでくれました
「」が付いてない文だと読んでくれないみたいです >>979
時々画面にノイズが乗る3060が2万円代前半ぐらいであるね
ゲームやらないならわんちゃん >>987
不具合報告サンガツ!
アプデしてもろうたら直ってるはずや ゴミが増えない分直接ドブに金捨てたほうがマシレベル >>989
アプデしたら直りました!
ホンマにサンガツです! Ninjaは創作物から学習した比重高いんかな?プロンプト工夫してチャットさせてるけど
現実的な設定よりRPG世界で女の子と冒険するみたいな設定のほうが自然な流れで会話してくれる これ軽いから使ってる soramikadukiStarling-RP-ja-westlake-chatvector >>992
こちらこそ不具合報告ホンマに助かっとるんでサンガツや
>>934
VecteusとNinjaのポエムやで
- Vecteus Q4_Kのコスパが凄まじいのでIQ4_XS版も触ってみたい
- Vecteusのコンテキスト広げた版にも期待
- Ninjaも128Kでない版を4Kコンテキストで動かしていると良好
- 128K版ではコンテキスト16Kあたりから品質に悪影響があるような気がする?(LCA 32K感覚比)
- とりあえず128K版を8K運用
- NinjaにInstruction formatを適用すると申し訳率が上がる?
- Ninjaの量子化がQ_8_0までしか無い
- IQ4_XS版を触ってみたい
https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9#kl-divergence-statistics-for-mistral-7b
↑は確かLCAニキが紹介してくれたやつやが
数値よりもこのスレで何度もIQ4_XSと他の量子化を比較してて「なんかコスパええやん」な印象や mmng氏の量子化モデルってK量子化にもiMatrixやってるのかな?
K量子化は見た目で分からんからなぁ >>966
>>最初からユーザーとAI双方の名前を付けて途中まで会話が進行した履歴をでっち上げてその続きから始めさせるようにして
AIが勝手にユーザーの発言始めるのをストップワードにユーザー名入れてそこで強制的に打ち切るってパワープレイやったわ
この、でっちあげるって、Silly Tavernそのものが会話をでっちあげてる、って意味なんか? このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
life time: 137日 11時間 54分 9秒 BBSPINKの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 専用ブラウザからの広告除去
★ 過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.bbspink.com/login.php レス数が1000を超えています。これ以上書き込みはできません。