なんJLLM部 避難所
レス数が900を超えています。1000を超えると表示できなくなるよ。
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0009名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:02:48.96ID:???0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
0010名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:03:14.11ID:???0
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
0011名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:03:36.26ID:???0
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
0012名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:03:58.23ID:???0
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
0014名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:04:40.05ID:???0
モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0016名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:05:06.50ID:???0
18:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff79-XI6K):2023/11/11(土) 11:13:26.81 ID:0B0rgEfx0
ドライバやミドルウェア周りのインストールがだいたいこんな感じ
https://rentry.co/rd9xf/raw
python3.11を別途入れて基本的にそっちを使っていく
0017名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:05:18.42ID:???0
7:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff7a-EFnx):2023/11/11(土) 10:54:35.49 ID:Gp6hELJv0
日本語特化モデル以外のおすすめ。これもはっとこ

更新の速い世界だからお勧めモデルも逐次変わっていくけど取りあえず前スレ後半で話題になってたモデルたち(たぶんまだある)
総合力高い系:
Xwin-LM-70B
upstage-Llama2-70B (=poeのSOLOR)
あとは古典だがwizardLMとかairoboros系もまだまだいける
エロ特化系:
spicyboros
Kimiko
Mythomax
0018名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:05:32.75ID:???0
10 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 7f1d-ZlS5) sage 2023/11/11(土) 11:00:57.86 ID:DSO3hy+d0
Koboldcpp+ggufで動かす時に必要なメインメモリの目安
7Bモデル -> 8GB
13Bモデル -> 16GB
33Bモデル -> 32GB
70Bモデル -> 64GB
180Bモデル -> いっぱい
0020名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:07:47.65ID:???0
24 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff7a-EFnx) 2023/11/11(土) 11:24:55.41 ID:Gp6hELJv0
長い事kobold使ってて、バージョンアップの度に上書きしてたんだが、
いつの間にか推奨セッティングが大きく変わってることに気付いた!

>使用するのに適した既定値は、Top-P=0.92、RepPen=1.1、Temperature=0.7、およびサンプラーの次数 [6,0,1,3,4,2,5] で、それ以外はすべて無効 (デフォルト) のままにします。
>デフォルトの[6,0,1,3,4,2,5]から変更することは、出力が非常に悪くなる可能性があるため、強くお勧めしません。

だそうなんで、長い事使ってる人は、一度セッティングをReset all settingボタンでクリアしとくことをお勧めする
0025名無しさん@ピンキー (ワッチョイ c711-DUyd)2024/03/16(土) 12:59:04.10ID:iqepmufp0
次スレ立てた
0031名無しさん@ピンキー (ワッチョイ 4f32-ACJr)2024/03/20(水) 15:26:47.23ID:???0
動画撮ったぞ。
スクリプトで流れるの嫌なので、保管用にこっちに書くね。
6分くらい撮ったけど、60秒以内にしろって怒られたから切り貼り編集したけど、体感は分かると思う
ローカルに期待して64Gメモリ買ったけど、こんなスピードじゃ抜けんぞっ!って怒られる前にw
よく見ると分かると思うけど、基本1トークン全角1文字だけど、文によっては1トークン3〜4文字出力してる。
これが日本語対応のトークナイザーのおかげなんだな
英語モデルで日本語書かせると、1トークン半角1文字、つまり全角1文字で2トークンもかかるから、激遅になる

https://imgur.com/a/SvIMoFl

i7 7700K + rtx3080ti メモリ64G
この化石PC以上なら、スピードはもっと期待できると思うよ(グラボはあまり関係ないけどVram12Gは欲しい)

ちなみに、ローリィの画像は、ローリィにお前の姿をSDで描くから、自分のプロンプトを書けって指示して書かせたものを
そのままSDにぶち込んで生成したw
0033名無しさん@ピンキー (ワッチョイ 4f32-ACJr)2024/03/20(水) 19:31:20.74ID:???0
↑重要な事を書き忘れてたので追記

使っているモデルは、Q6_k という64Gメモリでギリギリ動かせる量子化モデルで一番重たいやつ
だから、Q4_k_m とかなら、精度はやや落ちるけど、もっと速くなる
動画はモデル名も撮ってたんだけど、60秒にするために切り取ってた
0034名無しさん@ピンキー (ワッチョイ 8fc5-6GLF)2024/03/20(水) 21:57:36.02ID:nCB+9jEE0
LLM部も避難所あったんか、主な情報ここのニキらから得てるから助かるわ
0039名無しさん@ピンキー (ワッチョイ 63ba-Qu5W)2024/03/29(金) 18:48:33.38ID:???0
本スレ503へのレスだけど、
ツールは何使ってる?大葉?

koboldを日本語モデルで長文出力できてる人いたら設定教えてオクレ
今はinstractモードで
max tokens 最大
amount to gen 最大
他は初期値でやってる
英語モデルはこれで十分なんだが
0042名無しさん@ピンキー (ワッチョイ 9f11-WdHl)2024/03/29(金) 22:36:17.94ID:0+xOxA3r0
>>39
ツールはllama-cpp-python使ってるよ
0043名無しさん@ピンキー (ワッチョイ 4f5e-moi/)2024/03/30(土) 07:54:11.00ID:???0
karakuri70bを1ビット量子化で試した
0.9t/sとヘボpcでも速くはなったが(6Qなら0.5t/s)やはり劣化が無視できないレベルだ
そこへいくとcommand-rは6Qで1t/s以上叩き出すし性能はkarakuriに匹敵する(特にエロw)
これ量子化次第ではvram20Gくらいあればgpuフルロードできるからチャットでも十分使える速度になるんじゃないかな?
性能はcohereと同じだから使ってる人なら分かると思う
0045名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/03/30(土) 09:17:58.78ID:GNvq1wKq0
>>44
あんまりこのスレでは需要なさそうだけど、Python使えるとLLMでパソコン操作できるようになってできることの幅拡がるから、是非こっちの世界にもきてくれ
0047名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/03/31(日) 21:20:59.25ID:BapgGA9yd
Mistralベースが気になって日本語が達者な小さいモデルをいろいろ試してみてたんだけど、以下のモデルが7Bで結構良いの出してくれた

NTQAI/chatntq-ja-7b-v1.0
例のテストプロンプトを出力した結果:
https://rentry.org/4pztendu

Q8_0でも7.2GBなので速度は速く、VRAMオフロードもフルにしやすい
使ってみた個人的所感としてはサイズの小さいkarakuriみたいな印象を受けた
0049名無しさん@ピンキー (ワッチョイ 6f7d-Q0e0)2024/03/31(日) 22:05:14.02ID:???0
tabbyAPI (exllamav2-0.0.16) でturboderp/command-r-v01-35B-exl2 3.75bpw をロードできた
oobabooga/text-generation-webuiはexllamav2のバージョンが古いせいかロードできない
VRAM消費がmax_seq_len=4000で32GBなので消費量が多い気がする
ちょっと調べたら、GQAを使ってないからコンテキストに使うVRAMが多いようなことが書かれていた → https://zeux.io/2024/03/15/llm-inference-sol/
日本語性能は既に言われているとおり良さそうな感じ
0050名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/03/31(日) 22:20:40.40ID:luYcF9RI0
command-r使ってると、なんかチャットの最後に唐突に記号とかシステム系のトークン出力すること多くない(#とか<!―とか)?
出力をjsonとかで構造化すると抑制できるからとりあえずそうしてるけど
webui使ったことないからわからんけど、そういうのだと裏で走ってるプロンプトで上手くやってるのかな
0051名無しさん@ピンキー (ワッチョイ 3b9f-OIDP)2024/04/01(月) 06:24:53.60ID:???0
hugでggufの最新順でみてたら、703bのmodelを発見
なにかの誤記かな?と思ったらホンマだった
240bなんかはあるの見かけたけど、もはや家庭用とかそんなチャチなものじゃないんだな
0052名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/01(月) 11:19:43.13ID:???0
>>51
abacaj/phi-2-super
こいつをフランケンマージしまくったのか
作者も再生でんやろw

xverse/XVERSE-65B-Chat-GGUF
こっちはモデル自体は4か月前と古いけど、最近ようやくllama.cppが対応して量子化できたんだが・・・
日本語性能かなりいい!
karakuriの出る2ヵ月前に、こんなものが出てたとは・・・
量子化が早かったら祭りになってたレベル
0053名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/01(月) 12:17:48.09ID:Ix0xQs0e0
今って日本語使えるローカルモデルで最高性能のやつってこのスレ的にコンセンサスあるんかな?
まだkarakuri推してるやつが多いのかな
0055名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/01(月) 13:03:48.80ID:Ix0xQs0e0
個人的にはcommand-r推してるのと、最近だとSwallow 8x7とかao-karasuとか?
まあ最後のやつは微妙って言う意見の方が多いと思うけど
0057名無しさん@ピンキー (ワッチョイ 5f86-6cSz)2024/04/01(月) 13:22:36.68ID:MrxdVkCc0
rakutenAI
0059名無しさん@ピンキー (ワッチョイ 5f86-6cSz)2024/04/01(月) 14:19:39.91ID:MrxdVkCc0
privateLLM(Mac•iOS )で今日rakutenAI-7b-chatが入れられたから試してみてくれ 開発者に頼み込んで入れてもらった
0060名無しさん@ピンキー (ワッチョイ 5f86-6cSz)2024/04/01(月) 15:16:19.60ID:MrxdVkCc0
自分で試したらGPT4ALLにgguf突っ込んんだ方が精度良かったわ...
日本語モデルをOmniQuantで扱うのはまだ無理ということか
0061名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/01(月) 17:05:09.66ID:hvSu9GSod
>>58
aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
Swallow8x7Bは本家よりこっちがおすすめ

出力例
https://rentry.org/3fuq49ct
0064名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/02(火) 08:06:28.32ID:kiLZihx60
>>59
rakuten AIについて書いてるけど実際どう?
7Bと高を括っててあんまり使う気無かったんだけど、話ぶりだと意外と良かったりするのかな?
0065名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/02(火) 15:56:51.71ID:???0
command-rでimatrix.dat作れた人いる?
なんか途中で止まってしまう。(tokenizing the inputの辺)
koboldで動かせるようになったんで、i-quants で量子化して
vram12Gでもフルロードできるようにしたいんだけど
0066名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 02:14:13.94ID:1MfM6C64d
Mistral7Bベースのモデルをいじくって良い感じのものができた!ので投下
日本語対応の7BをChatVectorで対話能力上げて、mergekitでフランケンMoEにしてみた
以下、ダウンロードリンクです(pCloud)

https://u.pcloud.link/publink/show?code=kZLvUz0Z1JHO9j2jnH7f7kvD2Mt0bkWfGr5y

出力例(いつものプロンプト)
https://rentry.org/do22ubeg

特徴としては、
・Contextが32kまで対応
・モデルサイズが小さくContextSize32kでもVRAM12GBでフルオフロード可能、高速
・ざっと試した感じでは日本が流暢
・ノベルを書かせると強いかも
・素材に使ったモデルの影響でエロエロな文章を書きたがるw

良さげなのできてテンション上がってたが、さすがに疲れた…寝ます…
0068名無しさん@ピンキー (ワッチョイ 3b9f-eoXq)2024/04/03(水) 06:22:35.72ID:uDta8W680
あらら…試そうかと思ったらダウンロードできなかった、残念
ChatVectorの調べてみたら興味深いな
70bモデルあたりじゃないとだめかと思ってggufでスペック不足で挫折したけど、軽量モデルでもいいなら遊べそう
0069名無しさん@ピンキー (ワッチョイ cb79-ElCo)2024/04/03(水) 06:32:20.53ID:???0
>>66
Chat Vector、興味があって色々試してるけど
instとbaseで引いたChat Vectorと既存モデルの重みを足してる感じ?
シンプルに足すのと、元の論文にもある0.5の割合で足すのとか
以下でやったような層ごとに最適比率を進化戦略で出したとか、色々あってどれが良いかわからん
https://huggingface.co/napopoa32/swallow-hermes-st-v1
0070名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 07:37:28.23ID:1MfM6C64d
うお、トラフィック集中でダウンロード制限されるんか
おはようございます
どこかいいアプロダかクラウドないものだろうか

>>69
うちは>>61がいい感じだったので参考にして、0.8掛けして足しました
0072名無しさん@ピンキー (ワッチョイ 9bdb-oxdg)2024/04/03(水) 09:59:17.05ID:???0
Chat VectorっていわゆるTask Vectorだよね?(MergekitでいうTask Arithmetic)
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな?面白いわ
0073名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/03(水) 10:27:44.40ID:???0
>>66
見よう見まねで差分マージ試したけど、トークナイザー関連は元のモデルからコピーすればいいのかな?
cp_model.save_pretrained("G:/merge/CVtest01")
だと、トークナイザーは作られなかった

あと、0.8掛けって
chat_vector = 0.8 * inst_model.state_dict()[k] - base_model.state_dict()[k]
こんな感じですればいいん?

パイソン初心者なんでよくわからん
できればpyファイルも公開してくれるとありがたい
0074名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 13:18:54.17ID:1MfM6C64d
需要あるかわからんからサクッと必要な人に提供して終わりにしようと思ってたけど、ありそうなのでhuggingfaceに登録してみる(ダウンロード数を見てビビったw)
夜にする予定なので少々お待ちを

>>72
そうそう。今回だと (Mistral7Binst - Mistral7B) を日本語可能モデルに加算処理した
実際に出力を比較したら明確に対話能力が向上して自分も驚いた

>>73
tokenizer関係は日本語可能モデルから流用した
0.8掛けは、new_vの代入式をnew_v = v + ( 0.8 * chat_vector.to(v.device) ) に変更した
詳しくはhuggingfaceにpy含めやったことを全て書く予定なのでお待ちください
(と言っても大したことはしてないと思う)
0075名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 13:23:51.29ID:1MfM6C64d
書き忘れてたけど、今回MoEの素材にしたのは以下2モデルのChatVectorしたやつ

NTQAI/chatntq-ja-7b-v1.0
Elizezen/Antler-7B

特にAntler-7Bが(エロ)ノベル生成能力高くて凄い
自前でできる人は是非試してみてくれ
0079名無しさん@ピンキー (オイコラミネオ MM7f-k+SB)2024/04/03(水) 18:56:30.78ID:icC4hlB2M
絵のSDで言うnsfw-sfw差分マージとかコピー機Lora法みたいなことがLLMでも出来るってこと?
0080名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 19:54:57.17ID:1MfM6C64d
お待たせ!huggingfaceに登録してアップロード完了したので公開します
今はGGUFだけ取り急ぎアップロードしています

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B (モデルカードのみアップロード済)
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF

safetensorsの方はもうちょっと待ってくれ
モデルカードにやったことは全て書いてある(はず)ので、情報としては現状で出し切っているはず
参考になれば幸い
0082名無しさん@ピンキー (ワッチョイ dbc0-eoXq)2024/04/03(水) 21:08:38.80ID:0JWLeUr80
>>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう
0084名無しさん@ピンキー (ワッチョイ 1fa3-hs76)2024/04/03(水) 21:43:42.07ID:???0
使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う
0085名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/03(水) 21:47:01.95ID:???0
>>80
ありがとう!
STでのチャットの様子をオナニースレに投下しました(内容がちょっとアレなので(;´Д`)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。
0090名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/03(水) 22:24:42.37ID:???0
前もあったけど

「男のセリフ」「女のセリフ」

この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし
0092名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/03(水) 22:29:18.80ID:???0
7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし

そのために必要なのは喰わせるテキストってことよな
0094名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/03(水) 22:35:45.69ID:???0
正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Gでいけるか不安w
0099名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 22:49:03.87ID:1MfM6C64d
おお、予想より反響が!作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です

>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねw

このスレも結構人がいたんだな…
0100名無しさん@ピンキー (ワッチョイ dbc0-eoXq)2024/04/03(水) 23:02:17.40ID:0JWLeUr80
kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん
0101名無しさん@ピンキー (ワッチョイ dbc0-k+SB)2024/04/04(木) 00:15:55.70ID:7CBc0q770
apiで動かしてlibrechat派はいるんだろうか
0102名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/04(木) 00:20:04.98ID:SFg9G6gw0
多少敷居高いのは承知だけど、直にpython叩く勢がほぼいなくて悲しい
バックエンドが対応さえしてくれれば最新のモデルも割とすぐ使えるし、ツール組み合わせ放題なのに
0105名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/04(木) 00:31:56.54ID:SFg9G6gw0
>>104
一番わかりやすい所だと、style-bert-vits2でちょっとエッチなボイス学習させた音声合成モデル作ってLLMに喋らせたり、テキストと一緒に感情を生成させて立ち絵の表情とか音声の声色と連動させる、とかやってる

あと、LLMが書いたpythonコードを自動実行できるようにしてるから、普通にアシスタントとして使ったりしてる
トリッキーな内容だけど、LLMの判断でpythonの変数確保できるから、好感度パラメータみたいなのを作らせて、ギャルゲーシミュレーションみたいなことも(質はともかく)できるようになる
0107名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/04(木) 00:56:43.50ID:SFg9G6gw0
今度動画でもあげてみようかな
コードの方はまあ、スパゲティになってるから需要があれば
0109名無しさん@ピンキー (ワッチョイ eb11-yUXY)2024/04/04(木) 02:28:17.76ID:SFg9G6gw0
ちょっとデモとして思いついたやつ
服の枚数とか保持させてミニゲーム的な感じで野球拳やってみた
https://i.imgur.com/ttNbUbr.png
0110名無しさん@ピンキー (ワッチョイ 9be0-LdzR)2024/04/04(木) 02:29:43.78ID:Xd35agVK0
青空文庫の吉川英治を全部読ませて欲しいわー
三国志演義での罵りあいも美しいんだよな
0111名無しさん@ピンキー (テテンテンテン MMff-mCjS)2024/04/04(木) 02:44:44.55ID:???M
>>80
お疲れさまでした
3060でも使ってみたけど12GB勢には助かると思うのです
ところでtokenizerが合わないらしくtokenカウントがスワロー系の倍くらいに膨れちゃうんだけど
単純にctxの最大値8192とかにすればいいんですかね?
0112名無しさん@ピンキー (ワッチョイ cb79-ElCo)2024/04/04(木) 06:39:39.17ID:???0
>>80
Swallow-MSで試してたけど、語彙拡張があるから、Chat Vectorの次元数違いで無理があるんではと思ってたんよね。
シンプルに語彙拡張無しの日本語FTモデルで足すのが、筋が良いやり方やったんかな。
やろうとしてたこと、既にやっててすごいわ。参考にさせてもらいます!
0113名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/04(木) 07:46:08.99ID:e1I1qEPtd
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B

こちらにも全部アップロードが完了したので報告

>>111
そう言ってもらえると作った甲斐があった
消費トークンがSwallow系の倍になるのは、日本語の語彙拡張が行われていないモデルの仕様です
今回のモデルは英語モデルからVocabが据え置きなので、Vocab拡張済みのSwallow系より消費トークンがどうしても増えてしまいます

>>112
自分は試してませんが、日本語語彙拡張済みモデルに適用したい場合は以下のページが参考になるかもしれません
https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4
0114名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/04(木) 07:53:20.67ID:e1I1qEPtd
>>111
あと今回のモデルはctxが最大32768まで対応している(つもり)なので、そちらで対応いただければと
0115名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/04(木) 08:39:15.94ID:???0
そういえばmergekitでMoEする時、2モデルしか使わない場合はpositive_promptとかに何書いても変わらないと思ってたけど合ってるかな
デフォだと2エキスパート必ず使うようになってるから、2モデルMoEだとgateの意味がなかったような
011696 (スフッ Sdff-qhHw)2024/04/04(木) 10:41:44.28ID:???d
情報どうも
webuiメインにやることにするわ
0121名無しさん@ピンキー (ワッチョイ dfbf-eoXq)2024/04/04(木) 14:31:13.22ID:ZuC/rh5R0
LLMの開発に興味あるんやけどどっから勉強すらええんや?
Pythonは少し書けるけど、AIとか機械学習とかの知識は今の所皆無や
0123名無しさん@ピンキー (ワッチョイ dfbf-eoXq)2024/04/04(木) 14:37:33.38ID:ZuC/rh5R0
>>122
とりあえず規制回避したドスケベな日本語エロ小説を書けるような
LLMが欲しい
0126名無しさん@ピンキー (ワッチョイ 4baa-XxRK)2024/04/04(木) 14:43:37.87ID:vl3Nntgi0
うーん、まあFine-tuningとかモデルマージあたりの知識があればなんとかなるんちゃう?
0130名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/04(木) 16:00:55.96ID:???0
なんUのスレのりんな時代からずっと言われてたことやけど「このデータセットで
このサービス(orローカル)でこういうコードでFine-tuningをこうやったら
こういう風なデータができて出力はこういう風な感じでに成功したで!」っていう
事例がもうちょっとほしいのよな

ござる口調とかだけではちょっと
0131名無しさん@ピンキー (ワッチョイ fb8e-oun9)2024/04/04(木) 16:16:05.47ID:RYURyKh10
https://i.imgur.com/PQkNtJI.jpeg
それでgenを大きくしたらとりあえず長い文章が出てくるようになった気がするわ
tokenも影響あるんかな
0136名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/04(木) 16:44:53.32ID:???0
まあすんなり上手くいくかは別にして旗艦になりそうなモデルが
5chの人間から出てきたのは大きいんちゃうかなって

暇つぶしでデータ作成に協力くらいはしようかなと思ってるわ
匿名性維持しつつ削除されないためにはrentryが一番ええんかなあ
0137名無しさん@ピンキー (ブーイモ MMff-2ZW3)2024/04/04(木) 17:27:02.37ID:???M
>>135
まさしくそっちのスレの住人で現時点でローカルに手を出してないしなんJも行かんからROM専やってるのよ
データの正規化とか音頭を取れるほど詳しくもないから何かやるなら協力できることがあるならその範囲で何かやりたいなってだけかな
将来的にはローカルに移行したいけどみんなの開拓の成果タダ乗りってのはちょっと気が引けるじゃん?
0138名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/04(木) 17:49:29.98ID:???0
>>120
どのエキスパートを使うかに影響する
例えばコード特化、数学特化、ロールプレイ特化、小説特化の4つでMoEする場合はそれぞれのPositive Promptに
「プログラムを書いてください」
「次の計算問題を解いてください」みたいに各モデルの得意なタスクとかを書くと、推論時の入力の意味をある程度解釈して適切にgatingしようとする
だけど、mergekitで2モデルでMoEする場合はデフォルトだと常に2モデル使うような設定で出力されるから、どんなgate_modeでも理論上変わらん…はず
0139名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/04(木) 18:50:39.51ID:???0
>>80
今更だがベースモデルの片方のNTQAI/chatntq-ja-7b-v1.0はすでにInstruction Tuning済みなのか
Instruction Tuning済みのモデルにMistral-instructのベクトル足して上手くいくってのも割とわけわからんな
NTQAI/chatntq-ja-7b-v1.0はそのまま、Antler-7BはChat Vector足してMoEとかも試した感じ?
0140名無しさん@ピンキー (ブーイモ MMff-mCjS)2024/04/04(木) 18:54:21.36ID:???M
先週マイニング用の4分岐のライザーカードasm1184を用意した
最初のモデルのロードは遅い、busロード80%(おそらく分岐チップの制約でマックス速度)
初期プロンプト流し込み、ジェネレート中はbusロード20%は超えなかった
これの意味するところはマイニングライザーでグラボ増やす形でもあまり問題はなさそう
0144名無しさん@ピンキー (ワッチョイ 4bc6-R/WD)2024/04/04(木) 20:12:15.76ID:???0
LLM用のデータセットの話題があったみたいだけど、npakaさんの昔のデータセットっていうか会話集みたいだったけど、
(スマホアプリの中で使った会話っぽかった)あれ改造1回試みたんだけど頓挫してるんだよね。
昔の女子高生の会話みたいなやつ。データ使ったの前過ぎてどこにあるか忘れた。多分削除してしまったと思う。
まだネットに落ちてるかな。全部読んでみたんだけど肝心の所が削除されてたんだけどね。
0146名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/04(木) 21:29:40.63ID:e1I1qEPtd
>>139
その組合せは試してない。理由としては以下のように進行したからです。

素のchatntq-ja-7bを試したが、こちらの指示通りに書かないことがある
→ChatVector適用するとどうなる?出力がおかしくなるか?求めるものに近づくか?
→ChatVector適用済モデル(MoE化前)で実験、好みの動作に近づいたと判断

なので適用済をMoEの素材にした。Antler-7Bも同様

今回の処理について自分が期待していたことは、

ChatVector: Instruct強化をすると、ユーザーの指示に従いやすくなったり、話を理解しやすくなるのではないか
MoE化: パラメータ数の増加による基本能力の向上と、7Bモデル同士の短所の補強及び長所の相乗効果(言葉合ってる?)

いろいろなモデルでマージしてしばらく遊んだ個人的経験から、上記2点の可能性を見たので試して、偶然できたのが今回のモデルです
LLMはkarakuriが公開されたころ(今年2月?)に触れたばかりで、理論的なことは正直さっぱりだったりする
0149名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/05(金) 00:33:11.31ID:???0
llama.cppを最新版にしたらMoEしてMixtralになったものをquantizeしたモデルをKoboldcppでロードできなくなったんだがこれって対処法ある?
Koboldは最新のものにしたけどダメだった
経験者いたら教えてくれ
どうやらconvertするときの重みの名前の付け方が変わったっぽいが
0151名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/05(金) 00:51:55.57ID:XJ7BCY1md
>>148
あ、確かに自社のデータセットでファインチューニングしたって書いてある
なるほどそれで二重にならなくて上手くいったのか…

そういやChatVectorしたかった理由で一番重要だった「Context32k対応」を忘れていたので、追加で
素のMistral系日本語モデルたちは32kまでじゃないんよ
これをしたかったからMistral系を漁っていたんだった

>>149
過去のバージョンにロールバックできれば…
git cloneで過去バージョンでコピーできないかな
しかしそんなことがあるのか。迂闊に最新にできないなあ
0154名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/05(金) 01:45:41.38ID:???0
4090だけだと画像生成で無双できるやろけどLLMだとなあ……

>>80ニキのモデル動かすだけなら爆速やろから、それが進化して
13Bモデルとかになっても爆速にはなりそう
0157名無しさん@ピンキー (ワッチョイ 1fa3-hs76)2024/04/05(金) 07:02:27.53ID:???0
>>153
33Bくらいのモデルなら必要メモリ量が20GB前後なので、それだとちょうど4090にフルロードできて恩恵を実感できると思うが…
実際に話題になるモデルの多くは70Bクラスが中心なので、それだと4090といえどもフルロードはできない
溢れた分はCPU+RAMで動かすことになるので、そこが速度上のボトルネックになって、正直1070だろうが3060だろうが4090だろうがそれほど速度は変わらない(多少は変わるが劇遅→爆速で快適!とはならない)
勘違いしないで欲しいのは「4090程度じゃダメ」と否定しているのではなく、十分遊べるしそれなりの恩恵もある
ただ画像生成のような劇的な恩恵は無く、下位グラボじゃできなくて4090ならできるという場面はあまり無いよということ
現状はCPUとRAM側が重要
0161名無しさん@ピンキー (ワッチョイ fb4c-WvGX)2024/04/05(金) 09:03:12.34ID:SnnzYuXf0
昨日公開された新しいモデル、日本語もちゃんと出ますね。
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

官能小説家としての能力を試したらいい感じでした。
0162名無しさん@ピンキー (ワッチョイ df75-eoXq)2024/04/05(金) 09:13:28.78ID:ah2keZ830
流石にエロ小説をいきなり出すのは厳しいか……
何らかのキャラクターになり切って応答させる
とかの方が敷居は低い感じで良い?
0163名無しさん@ピンキー (ワッチョイ eb11-yUXY)2024/04/05(金) 10:19:50.57ID:XKPqXMvA0
すごいなこいつ
うちのMac 64GBだと相当縮めないとダメだろうが・・・
そもそも小さい方のやつもめちゃくちゃ性能いいけど、日本語だけ学習させるより、多言語で学習させた方が能力落ちにくいとかあるのかな
0165名無しさん@ピンキー (ワッチョイ eb11-yUXY)2024/04/05(金) 10:52:57.45ID:XKPqXMvA0
全般の能力に関しては納得できるんだけど、日本語単体の能力でみても日本語特化モデルより能力高い感じしない?
0166名無しさん@ピンキー (ワッチョイ eb11-yUXY)2024/04/05(金) 10:54:58.20ID:XKPqXMvA0
ああ、でもそもそも世の中の日本語モデルは事前学習自体はほぼ英語ってのも影響してるか
0169名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/05(金) 11:04:39.94ID:???0
command-r+はまだllama.cppに完全対応してないっぽいね
通常の量子化もだけど、imatrixにしたいから、こっちの問題も解決してほしい(command-rでもまだ無理だったし)
0172名無しさん@ピンキー (ワッチョイ fb4c-WvGX)2024/04/05(金) 13:33:30.81ID:SnnzYuXf0
4bqのCMDR+がこのスピード、M2 Ultra欲しくなりますなぁ……。

https://twitter.com/awnihannun/status/1776081238467768493

しかし唐突なグリーンってのは何なんだw
0174名無しさん@ピンキー (ワッチョイ eb11-yUXY)2024/04/05(金) 14:00:32.36ID:XKPqXMvA0
3bqならうちのmacでもギリギリ動かせそうだが、劣化が気になる
0179名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/05(金) 18:52:46.12ID:XJ7BCY1md
>>80のモデルの名前が長い、というのをいくつか見かけたのでもっと短い名前を付けようと思います
LightChatAssistant(LCA)って変更したので、今後huggingfaceを見る方は以下のリポジトリをご参照ください

Sdff-Ltba/LightChatAssistant-2x7B
Sdff-Ltba/LightChatAssistant-2x7B-GGUF

それと量子化版にもっと大きいbit数のものを随時上げていく予定です
手始めにQ6_K版を上げました。非iMatrixです
もっと精度劣化してないの欲しい!という方はこちらをどうぞー
0182名無しさん@ピンキー (オイコラミネオ MM7f-k+SB)2024/04/05(金) 19:44:22.47ID:zF4aX+1DM
メインメモリ128GB自体はまだ現実的
問題はその時の速度
Mac最強かな
0184名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/05(金) 19:50:24.81ID:XJ7BCY1md
>>180
ChatVectorですかね?やってみた…らブルースクリーンになったw久しぶりに見たw
メモリ96GBでは到底足りないようだ
1モデルだけで128GBあるからやはりきついみたい
0186名無しさん@ピンキー (ワッチョイ 5f92-oxdg)2024/04/05(金) 20:15:25.66ID:???0
やるとしたらRunpodとかのサービスでクソデカサーバ借りてマージするとかかな
ダウンロードとかアップロードの時は小さいインスタンスにするようにすれば5ドルくらいでいけそう
0194名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/05(金) 20:59:11.27ID:???0
誰か立てたら残る
そうじゃなきゃこのまま

今の5ch/pinkbbsは割と成り行き任せよ
このスレが日本のLLM知見の最先端になってもそれはそれで・・・
0195名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/05(金) 21:47:09.49ID:???0
>>178
64GだとQ3までしか無理だなぁ
IQ3なら劣化も少なくすむのに

Aratako/c4ai-command-r-v01-japanese-instruct
こっちは、前モデルにファインチューンしたバージョン
スコア見る限り、かなり期待できそう
ダウンロード終わったら、Q6_kに量子化してkoboldで試してみるわ。
しかし、自前でファインチューンできる時代になったんだな
エロ特化にできんかな?w
0200名無しさん@ピンキー (ワッチョイ 4b67-oxdg)2024/04/05(金) 22:42:42.20ID:PBF0BZrG0
>>195
まともなデータセットで追加でファインチューニングすると逆にエロ悪化したりするからなぁ、どうだろう
試してみないと分からんが
>>199
俺もRAM64GB勢だからIQ3楽しみ
0201名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/05(金) 22:55:25.73ID:???0
Aratako/c4ai-command-r-v01-japanese-instruct
だめだ。エラーが解消できん。元のcommand-rは上手くできたのに
とりあえず作者様に量子化をお願いしてみた

>>199
見たら上がってた
早速落としてみる
0206名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/06(土) 00:27:43.75ID:WE0RLjCc0
latest releaseが1時間前とかだからいけるかと思ったけどダメという
お預けですな
0211名無しさん@ピンキー (ワッチョイ 4fc4-TfWo)2024/04/06(土) 06:04:15.65ID:???0
LLMじゃなくて画像生成(SD)のほうだけどRunpodでA100 80gb使ったことある
24時間ぐらい回すぐらいなら5000円くらいで使えるので個人でもわりとイケる
が、ワイ的な問題としてはSDは実質的にsd-scriptsというリポジトリのが学習環境の定番になってるんだがLLMの定番がわからん点や
karakuriはmegatoron deepspeedなるものを使ったということはわかる
0214名無しさん@ピンキー (ワッチョイ 021e-hBD6)2024/04/06(土) 10:59:06.63ID:IGDSh6PD0
>>80
めっちゃ楽しんでます、サンガツ!

chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF+Kobold.cpp+SillyTavernで遊びたいんやが、SillyTavernの方の設定&キャラカードのプロンプトがイマイチわからん
この組み合わせで遊んでる民、どんな風に設定してるかおしえて
0215名無しさん@ピンキー (ササクッテロラ Spb7-aGYJ)2024/04/06(土) 11:23:08.35ID:???p
>>214
まずstの設定をkoboldと同じ設定に変更
キャラ設定はオナニースレのシルヴィを参考に入れ込んで自分好みにカスタマイズした
(小説機能とか省いて 口調のサンプルを追加とか)
0216名無しさん@ピンキー (ワッチョイ 021e-hBD6)2024/04/06(土) 11:40:59.95ID:IGDSh6PD0
>>215
サンガツ
チャット楽しみたいんやが、なんかプレイヤー乗っ取られたり、余計なプロンプトが最後にぶら下がったりで置いてけぼりくらうんやけど、その辺はどうやって制御したらええんかな?
0218名無しさん@ピンキー (ササクッテロラ Spb7-aGYJ)2024/04/06(土) 12:56:01.34ID:???p
>>216
会話は◯◯のみ行う とか 1センテンス以内にしろとか指示に入れてるが初手でダメならガチャしてる
あと指示はxml文で入れた方が理解度があがる 気がする ここら辺はワイもまだ試行錯誤だわ
0222名無しさん@ピンキー (ワッチョイ 0298-hBD6)2024/04/06(土) 15:26:29.60ID:IGDSh6PD0
>>215
オナニースレのシルヴィ探してるんやが見つからん
【Claude3】ChatGPTでオナニー ★29とかのテンプレ見るんじゃあかんのか?
>>217-219
ありがとな
修正出来るのは強みは活用せんとな
せっかく日本語で遊べるローカル出てきたからには尻タブ用の使い勝手のいい日本語テンプレプロンプト作らんとな
0224名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 16:18:23.05ID:PYnkc8ci0
避難所に案内されたわけですが、軽量でいいのがあるとのことですがどれのことなんだろう…
0226名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 17:17:13.41ID:PYnkc8ci0
>>225
ありがとうございます
これいくつか種類がありますけど何が違うんでしょうか…?
0230名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 18:18:33.28ID:PYnkc8ci0
最初q8のものを落として使ってみましたがVRAM15gb使ってたのでQ4kmってやつにしてみますね。
ただ日本語モデルということで日本語で入力してるんですが返答は英語で帰ってくるのはどうすればいいんでしょうか
0232名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 18:30:04.85ID:PYnkc8ci0
全部消して228のを入れようとしたらこういわれました
https://files.catbox.moe/vr2l4z.png
koboldcppだけ先に落としておいたら進んで、できたbatを実行したらまた証明書が〜と出るのでこっちは起動までたどり着けないです…
comfyuiの時もこんなの出たことあったなぁ…
0234名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 18:52:36.97ID:PYnkc8ci0
>>233
ダウンロードできたみたいです!サンガツ!
でもやっぱり英語で帰ってきてしまう…なんででしょう?
https://files.catbox.moe/ogijxs.png
0236名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/06(土) 18:54:45.50ID:???0
LightChatAssistantを別データセット使って追加でインストラクションチューニングするの試してみたんだが良くも悪くもまともになってしまった
出力の自然さは上がったけどエロさも同時に下がった感じ
Antler-7Bがインストラクションチューニングされていないエロ特化みたいなモデルだから、ファインチューニングするとそこを殺しちゃってる感じかなあ
0237名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/06(土) 19:07:47.49ID:???0
>>234
以前にKoboldCppを使ったことがあって設定が残ってるとかやろか?
Settings-AdvancedにあるReset ALL Settingsして
Settings-BasicのMax Ctx.Tokensを32768にAmout to Gen.を512にする初期設定をやり直してみたらどうやろ?
0238名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/06(土) 19:15:33.90ID:lxAnGvR5d
>>228
>>235
すごい!ご新規さんに優しい素晴らしいものをありがとうございます!
ファイル名をちょこちょこ変えてしまって申し訳ないです…
とりあえず予定していたものは上げ&修正終わったので、何かなければここから変わることはないはず

>>234
MemoryかWorldInfoに英文が入力されているのかな?
New Session→Keep Memory and World Info?のチェックオフ
でOKして試してみるとどうなります?
0239名無しさん@ピンキー (ワッチョイ b6c6-Hmna)2024/04/06(土) 19:16:44.42ID:vN0Ur5yH0
話者の名前が英語になってるとそっちに釣られるとかあるで
0240名無しさん@ピンキー (ワッチョイ 52dc-yyZt)2024/04/06(土) 19:19:32.09ID:U2FfXq950
mlxでcommand r plus 4bit版動かしてるMac使いおらん?
M2 Max RAM96GBで動かしたんだが↓みたいにぶっ壊れたAIみたいな出力しか出さないんよね
誰か何か知ってたら教えてクレメンス

Prompt: hello
,
I have a problem with the "グリーン" color.
I have a "green" color in my palette, but when I use it, it is not the same color.
I have a "green" color in my palette,
0241名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/06(土) 19:22:50.53ID:???0
LightChatAssistant使う用のガイドならInstruct Templateの変更にも触れておいた方がいいんじゃない?
Mistralベースだからフォーマットは[INST] [/INST]の方がいいはず
0243名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 19:25:15.89ID:PYnkc8ci0
日本語でお願いしますって言ったらたまーに日本語で返してくれますね…
>>238
やってみましたが相変わらずですね
>>239
話者ってどこで変えれるんでしょう…?
https://files.catbox.moe/9woqzo.png
0244名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 19:26:58.36ID:PYnkc8ci0
肝心なの忘れてた、コマンド画面だとその後も書いてあるんですがwebui上だとちょっと前で止まってるんですけどなんなんでしょうか…
0245名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/06(土) 19:32:42.73ID:lxAnGvR5d
あとiQ3_SやiQ4_XSも精度劣化の低さの割にサイズが小さいのでおすすめ
量子化での精度劣化は以下ページの方が纏めてくださっていて、とても参考になります
一番下の「KL-divergence による量子化評価」のグラフがめっちゃ参考になった

https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547

>>243
うーん、こちらでは全量子化を日本語動作確認してるんだけどな…
私には解決できないようだ。誰か任せた
0246名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/06(土) 19:40:50.83ID:???0
ワイの環境やとAllow Editingを有効にした際に{{[INPUT]}}と{{[OUTPUT]}}や[INST]と[/INST]があると英語になってしもうてる気がするで
どう案内するのが正解なんやろか?
0248名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 19:53:33.29ID:PYnkc8ci0
>>247
消したくても消せないというかなんでこれがついてるのかがわからない状況です。
241が言ってるのがそれなのかもとググっても全然わからんです…
あとなぜか最後の1行がwebui上には表示されないっぽいです
0249名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/06(土) 20:02:17.61ID:lxAnGvR5d
ふむ、Instruct Tag Presetを変えて試してみたがどうやらVicuna以外にすると英語になったりならかったりするようだ
普段適当に「ME:」と「AI:」にしてたから分らんかった
ということでSettings→Instruct Tag PresetをVicunaにすると日本語にならないかな
(本当はMistralのチャットフォーマットの方が良いんだろうけど)
0250名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/06(土) 20:05:15.30ID:lxAnGvR5d
それと最後の1行が出ないのは、Settings→Advanced→Trim Sentencesをオフで治らないかな
0252名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/06(土) 20:08:29.15ID:???0
>>241 指摘サンガツやで
Instruct Tag PresetをLlama 2 Chatにする案内を追加しといた
ただSettingをLlama 2 Chatにすると"stop_sequence": ["[INST]", "[/INST]"],は変わるんやが入力欄で入力すると{{[INPUT]}}と{{[OUTPUT]}}(Instruct Tag PresetのKobold AI Formatみたいなの)が入ってしまうんはKoboldCpp仕様なんやろか?

>>243
話者はWorld Infoなんで238の手順できえるはずやで

>>248
Allow Editingが有効なら一旦ABORTして直接{{[INPUT]}}や{{[OUTPUT]}}にカーソル合わして直接編集で消せるはずやで
下の入力欄から入力するんでなくて上の出力欄から直接入力したら{{[INPUT]}}や{{[OUTPUT]}}が入らへんっぽい
最後の一行は中途半端に生成された文は削除される仕様やね
0253名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 20:13:13.79ID:PYnkc8ci0
>>249
これで日本語になりました!サンガツ!
>>250
多分治ったっぽいです!サンガツ!
>>252
Llama 2 Chatだと英語のままでした…悲しい…

とりあえず次にいけそうです!
0254名無しさん@ピンキー (テテンテンテン MM3e-hBD6)2024/04/06(土) 20:25:20.92ID:kEUlaJaKM
>>216
User成りすましは

@生成前のプロンプトに混ぜてモデルに伝える
チャット入力欄の左の「三」アイコンクリック⇒「Author'sNote」選ぶ
DefaultAuthorsNoteの▽をクリックしてオープン
「あなたは{{char}}として応答/対話をする必要があります。あなたは常に{{char}}として応答をします。このタスクでは、決して{{user}}として行動したり発言してはいけません。」
In-Chatを選び、Depthを1 as systemとする
次に、画面上の「A」のアイコンを選ぶ

Aそれでも生成されてしまう場合は、チャット打ち切り
画面中央のCustom Stopping Stringに次のように
["ユーザー:","〇〇:"]
を入力する(〇〇はあなたのペルソナの日本語名)

の2つで、勝手にチャットが進んで置いてきぼりはなくなる

プロンプトがそのまま漏れるのは、80氏のモデルでは結構ある気はする
AIからの返信ウィンドウの右上、鉛筆アイコンで内容を編集できるから、追加されてるプロンプト部分を編集、チェックを押す
自分のターンの続きを書いて送信する
0255名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/06(土) 20:31:29.91ID:lxAnGvR5d
ちょい前のだけど、Koboldcppの公式WikiをDeepLに突っ込んで翻訳したやつ
これにKoboldの設定やら用語の内容やらが大体書いてある。参考になるかも
https://rentry.org/rmeut8xs

>>253
よかった!ようこそローカルLLMの世界へ!楽しんでね
0259名無しさん@ピンキー (ワッチョイ 52dc-yyZt)2024/04/06(土) 23:14:03.14ID:U2FfXq950
>>242
サンガツ

transformar最新にしても変わらなかったけどハグ顔にあるpythonコードじゃなくて↓のコード実行したらまともに返事したわ
だがM2 Maxですら生成遅すぎて実用的じゃないわM2 ultraかM3じゃないと厳しい

python -m mlx_lm.generate --model mlx-community/c4ai-command-r-plus-4bit --prompt "お前の名前はなんだ?" --temp 0.0 --max-tokens 256 --use-default-chat-template
0260名無しさん@ピンキー (ワッチョイ fe2b-Kxjx)2024/04/06(土) 23:25:49.77ID:PYnkc8ci0
遊び方はまだうまくいかないけど何とか話できるようにはなってきました
StyleBertVITS2を先立って使えるようになってたため読み上げできるって聞いてたんですけどAPI立ち上げて
koboldのほうでアドレス打ってみてもうんともすんとも言わないのですがどうやれば正しいのかよくわからんです
0262名無しさん@ピンキー (ワッチョイ d2a0-EtAA)2024/04/07(日) 00:02:54.27ID:???0
>>216
個人的な感想と推測なんだけど、チャット形式ってのは本来的にLLMの挙動とは相性が悪くて、ハードルが高いんじゃないかと思ってる
この形式を学習した素材がどんな文章かを想像してみると、キャラAとキャラBの会話例でしかないだろうから、
一方の名前をUSERに変更しても、それは「USER(という名前のキャラ)」としか、LLM内部では認識されていないんだと思う

実際、Koboldcppのサンプルにもキャラ同士が勝手にお喋りするやつがあったり、
モデルの動作サンプルのプロンプトでも、「AliceとBobの会話」みたいな例が以前は多かったようだし
0263名無しさん@ピンキー (ワッチョイ 270e-TGoQ)2024/04/07(日) 00:19:18.97ID:???0
のべりすとやローカルでチャット形式をやる場合
USER名"ご主人様"にしてご主人様の設定に"男性で主人公"と書いたときはそこそこ上手くいった気がする
0264名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 00:42:54.62ID:SYErmO0F0
llama.cppのforkでcommand-r-plus動かせるって話あったからiq3_xssやってみたけど、バグった返答しか返ってこないな
なんでだろ
0265名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 01:38:08.77ID:SYErmO0F0
command-r-plus IQ3_M動くようになった
環境はM2 Max 64GB
速度は4.2tokens/secでまあ一応実用範囲内
エロもいけるのを確認
システムプロンプトを結構厳密にオリジナルと同じにしないと出力バグるっぽい
https://i.imgur.com/zkErkBu.png
0266名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/07(日) 01:41:53.32ID:ok+ZRNtJ0
システムプロンプトっていうか、プロンプトフォーマットの問題かな?
こんな感じのフォーマットが必要

<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>{system message}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Hello, how are you?<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

システムプロンプトはUSE
0267名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 01:42:27.06ID:SYErmO0F0
こっちのスクショの方がいいか
https://i.imgur.com/7u5p5Sq.png
0268名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 01:44:00.24ID:SYErmO0F0
>>266
それそれ
なんか、その中に日本語含めてたら不安定だったんだけど、そこを全部英語にして他言語混ぜないように指示したら安定した。
0269名無しさん@ピンキー (ワッチョイ d310-hBD6)2024/04/07(日) 01:58:00.66ID:fQe3/uM+0
>>223
無教養ですまんが伴奏ちゃんの時点でググってもわからんw
>>254
Custom Stopping Stringに["ユーザー:","〇〇:"]って入れるの天才過ぎてありがとう
今んとここれやらんでも済みそうな気配はある

Context Template周りのお勧めとかあるんか?
ワイは最近までNoromaidで遊んでたのでNoromaidのままになってたのをRoleplayにしたらちょっと安定した気がするんやが
0270名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:03:03.62ID:SYErmO0F0
うーん、やっぱり変なトークンが挿入されて内容がめちゃくちゃになる事が結構あるな
これが量子化の影響だったらもうどうしようもないが・・・
0272名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:07:18.28ID:SYErmO0F0
>>271
画像だと見切れてるけど、一応それも書いてあるよ
0273名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:10:08.76ID:SYErmO0F0
全文としては
""<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
## Basic Rules
Answer user's request.
Language consistency should keep and should not be mixed in the answer.
You must put tag </s> at the last of your answer.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
Q:{prompt}
A:"""
0275名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:29:59.04ID:SYErmO0F0
llama.cppがまだ新アーキテクチャーに対応し切れてない可能性もあるから、とりあえずmasterがリリースされて上手くいかなかった時に考え直すよ
0278名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 08:39:03.31ID:SYErmO0F0
>>277
速度は全然問題ないよ
感覚としてはkarakuriとかと一緒かな?

あとなんか昨日command-r-plusのimatrixあげてた人(dranger003
/
c4ai-command-r-plus-iMat.GGUF)、全部消して上げ直してるみたいだね
何かあったんだろうか
0280名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/07(日) 09:30:07.64ID:???0
そういやCommand Rは話題になるけどその前に発表されてたDBRXはあんま話題にならんなって思ってたけど
実性能の評判あんま良くない感じなのか(英語でも)
0284名無しさん@ピンキー (ワッチョイ bbdf-xKEp)2024/04/07(日) 11:37:02.19ID:???0
>>228
解説めっちゃ有り難いんだが、出力トークンが512上限なのって私だけ?
32k対応モデルでContextsizeも32kに設定してるのに出力512じゃ意味ないやん…と

昔、koboldは出力512トークン固定は仕様だと見た気もするけど、
設定分かる人いたら教えてください
0286名無しさん@ピンキー (ワッチョイ 27fc-TGoQ)2024/04/07(日) 11:44:20.31ID:???0
Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる
初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね
0287名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/07(日) 12:08:20.62ID:???0
>>284
>>285
質問と回答サンガツ
長々と出力する前に止めて修正することが多かったんで気にしてなかったわ
READMEに以下を追記しといたで

> Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。
> スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。
> Amount to Gen.: 512 (256 や 2048 などお好みで)

>>286
ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理?っぽいんよね
よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ
0288名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/07(日) 13:32:20.53ID:???0
EasyLightChatAssistantに
>>281 の4x7B Q4_K_M対応いれといたで
https://github.com/Zuntan03/EasyLightChatAssistant

更新はEasyLightChatAssistant-*.batを削除してから
再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら

2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで
4x7Bのiq4xs_imatrixも見てみたいね
0291名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/07(日) 14:35:27.01ID:???0
専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな
ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい
Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという
0293名無しさん@ピンキー (オイコラミネオ MMb3-06W9)2024/04/07(日) 15:16:00.24ID:GRwfgW99M
人間の感性に響くか否かを定量評価出来たら苦労しないわな
エロだけじゃなくいろんな業界が欲しがるだろう
0296名無しさん@ピンキー (ワッチョイ 1fc0-xKEp)2024/04/07(日) 17:14:05.88ID:???0
>>285
>>286
>>287
サンガツ!なんだけど、
launch前とsettingsの両方で最大トークン32kにしてるのに
いざinstractモードで書かせると512トークン上限(xxx/512)になってしまうんよ…

トークンのカウントアップが(512/512)
になったら生成終了してしまうってことね
0298名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/07(日) 18:01:43.80ID:u4fva5Rsd
>>296
それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず
>>285>>287もそれを指している
落ち着くんだ
0305名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/07(日) 21:01:21.07ID:???0
Sdff-Ltba氏のアプローチは
日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、
じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた

https://rentry.org/7ukv2kcp

期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで
何が言いたいかというと、この理屈で
karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・
メモリ、つよつよの方、ためしてー
0307名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/07(日) 22:17:41.85ID:???0
てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね?
パイソン、良く知らんけど少しずつ読み込んで処理できないのかな?
mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね?
教えて、パイソンマスター
0309名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/08(月) 00:16:44.66ID:9g6SRvr1d
>>308
連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう

なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい
AIっぽくないと言われてた。そんなポテンシャルがあるとは
0310名無しさん@ピンキー (ワッチョイ bb8c-eYV/)2024/04/08(月) 00:28:22.23ID:???0
手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね
ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ
普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね
それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ
0311名無しさん@ピンキー (ワッチョイ 127f-ycXU)2024/04/08(月) 00:29:39.19ID:???0
マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。
(処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする)
0312名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/08(月) 00:47:21.54ID:9g6SRvr1d
AntlerのChatVector版をテストしたときはすごく驚いた思い出
「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ??」てなったw
設定を何も吹き込んでないのに対してこの反応
Antlerを素材に使おうと決めた瞬間だった
0313名無しさん@ピンキー (ワッチョイ bb8c-eYV/)2024/04/08(月) 01:25:37.12ID:???0
LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな
NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう
それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか
0314名無しさん@ピンキー (ワッチョイ 537a-hBD6)2024/04/08(月) 08:15:10.30ID:???0
かなり初歩的な質問で申し訳ないのですが


>>308
308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう

エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。
エラーの内容は以下の通りです。

---


Error Encountered

Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable

---

以上がエラーの内容です。

自分でエラーの内容を調べたのですが解決しませんでした。

koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。
アドバイスや指摘を頂けたら嬉しいです。
0317名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/08(月) 12:25:42.96ID:YYuFt8A00
ちなみに、一応報告
>>273
>>274
でちょっと話してた、言語が混ざったりして出力がおかしくなる問題はMetal(Apple Silicon)特有で、おそらく原因がわかったとのコメントが5時間前についた
https://github.com/ggerganov/llama.cpp/pull/6491
0318名無しさん@ピンキー (ワッチョイ 021f-hBD6)2024/04/08(月) 12:28:34.93ID:KHI6ZYIK0
>>302
詳しく
0321名無しさん@ピンキー (ワッチョイ be39-mup9)2024/04/08(月) 13:28:48.13ID:???0
>>314
エスパーやが別名のフォルダにインストールして初回起動時のWindowsセキュリティを許可したらどうやろか?

あとウィルスチェックソフトがネットワーク監視してるなら止めてみるとか
0325名無しさん@ピンキー (ワッチョイ 0242-hBD6)2024/04/08(月) 19:27:47.51ID:KHI6ZYIK0
>>323
サンガツ!行けたわ
尻タブはこれまでローカル運用しかしてなかったのでこの辺の仕組みワイもよー分かっとらんかった
0327名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/08(月) 19:54:00.57ID:9g6SRvr1d
>>322
乙です
0329名無しさん@ピンキー (ワッチョイ 9fc6-CBC5)2024/04/08(月) 21:14:36.84ID:???0
続かせたいのに※この文章はフィクションです〜とか後書きみたいな文が出てくる時ってどうしてる?
書き直せな良いんだろうけど一回出ると延々出てくるからうざいっぴ!
0330名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/08(月) 23:21:54.21ID:???0
imatrixのtraindataは日本語モデルなら日本語の方がいいらしいと聞いたが
日本語のテータがほとんどないなぁ
翻訳したやつ使ってみたけど、違いがよくわからん。(commnad-rでは途中で止まるし)
0332名無しさん@ピンキー (ワッチョイ 537a-hBD6)2024/04/09(火) 00:09:04.62ID:???0
>>319
>>321
>>322

ありがとうございます、解決しました

当方の使用環境であるOSのwindows10を再起動後に
再びEasyLightChatAssistantのGithubの解説通りに起動したら問題なく動作しました

発生したエラーについては再現性がなかったので、多分おま環っぽいです

皆様ありがとうございました!
0334名無しさん@ピンキー (ワッチョイ c7c0-9UMa)2024/04/09(火) 10:01:52.50ID:estv7l4p0
LLM版のGapの登場が待たれる
0335名無しさん@ピンキー (ワッチョイ b6fe-hBD6)2024/04/09(火) 11:45:25.62ID:nxpHhfzT0
>>323
あかん、昨日接続確認して、時間切れで試せてなかったんやが、いま実際にプロンプト入力してみたらうまくやり取り出来てない模様
freqesncy penaltyとpresense penaltyが特定できない、ってエラーとともに、”...”って出力返ってくるんやが、ワイは何を見落としとるんやろうか?
0336名無しさん@ピンキー (ワッチョイ 2791-aGYJ)2024/04/09(火) 12:36:56.77ID:???0
>>333
うーん 結局は英語データでも問題ないのかもね
groups_merged.txt
ってのがhfに上がってるけどwiki-trainより軽くて使いやすい
cudaオンにすればimatrixも爆速になるし
0338名無しさん@ピンキー (ワッチョイ d3d2-Vlac)2024/04/09(火) 17:24:16.92ID:???0
Pulled and merged new model support, improvements and fixes from upstream. (Note: Command R Plus support is not yet included yet, it may be added in a future patch release.)

お預けかぁ
まあ予定はあるようだから大人しく待とう
0341名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 20:12:28.55ID:qH+Rz3ZR0
llama.cpp更新されて、mainブランチでcommand-r-plusサポート追加されたっぽいね
0342名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 20:26:01.79ID:qH+Rz3ZR0
すげぇ!ちゃんと動くしM2 Maxでも速い!
0347名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/09(火) 21:16:24.62ID:???0
ああ、てゆうか結合する必要なかったのね
IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね
スピードはうちの環境じゃ大差ないし、こっちを常用するわ
0348名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 21:23:30.29ID:qH+Rz3ZR0
こいつしりとりできるね
70Bクラスだと出来ないイメージだったけど
0350名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 21:37:50.04ID:qH+Rz3ZR0
最近ちょいちょい遊んでるプロンプト
iq3_mで4.3tokens/sec
はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい
https://i.imgur.com/BIpsJsQ.png
0352名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 23:21:55.99ID:qH+Rz3ZR0
llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった
0356名無しさん@ピンキー (ワッチョイ d34b-5610)2024/04/10(水) 00:18:01.68ID:???0
赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが
0360名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:32:45.40ID:gYHj2M1xd
>>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと?
0362名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:35:19.15ID:gYHj2M1xd
もしかしてLlamacppの最新で使えないってことだろうか
0365名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:45:33.73ID:gYHj2M1xd
>>363
おk
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む
0366名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/10(水) 00:53:26.23ID:???0
>>365
ん?
koboldはビルド済みだから、環境のllamaに影響されんよ?
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる
0367名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:04:01.43ID:gYHj2M1xd
>>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった
0369名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:26:37.55ID:gYHj2M1xd
どこかで見たと思っていたらそれだ!ありがとう
最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに

Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな?
時間あるときに確認してみるわ
0370名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:33:33.91ID:gYHj2M1xd
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります
0373名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 19:46:29.02ID:iP2KkLqed
>>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった

纏めると、
           最新ver量子化 旧ver量子化
Kobold-v1.62.1    〇      〇
Kobold-v1.61.2    ×      〇
Llama.cppのmain.exe 〇      ×

この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です

>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします
0375名無しさん@ピンキー (ワッチョイ bb14-eYV/)2024/04/11(木) 10:24:48.92ID:???0
LightChatAssistant-2x7Bの改良版っぽいのが出てた
Chat Vectorの割合をレイヤごとに最適化したらしい
最適化不足っぽいこと書いてるけど、それでも全部0.8で雑に加算してた元モデルよりは良さそうだがどうなんだろう
家帰ったら試すか

https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental-GGUF
0376名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/11(木) 12:42:52.97ID:MNHhi1l8d
>>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる…
0377名無しさん@ピンキー (ワッチョイ d356-hBD6)2024/04/11(木) 15:15:44.53ID:Grsx0tAb0
>>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや?

ちな、376の精子はエロくて賢くて既に最高やで?お世話になっとるで、ありがとさんや
0379名無しさん@ピンキー (ワッチョイ 3e63-EtAA)2024/04/11(木) 15:58:15.53ID:???0
超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
upさせたらええんか?一度試したらupで時間切れになってもうた
0383名無しさん@ピンキー (ブーイモ MMd2-4QwI)2024/04/11(木) 17:21:33.51ID:???M
0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね?
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ!
0384名無しさん@ピンキー (テテンテンテン MM3e-yiir)2024/04/11(木) 19:54:23.43ID:???M
>>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ
0385名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/11(木) 21:12:43.97ID:???0
>>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで

あと
>>375
のQ4_K_Mも試せるようにしといた
0386名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/11(木) 22:00:52.83ID:MNHhi1l8d
みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする!
GGUFの更新終わったらちょっと休みますわ

うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった

しかしこれからは改良版を主に使うけどな多分w(でも余計愛着湧いたからたまに使います!)

>>385
検証ミスしてたかスマン。再インスト案内ありがとうです
0387名無しさん@ピンキー (ワッチョイ bb65-eYV/)2024/04/11(木) 22:55:27.15ID:???0
最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった
0391名無しさん@ピンキー (ワッチョイ 23c0-siMB)2024/04/12(金) 01:20:36.40ID:???0
>>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな
0400名無しさん@ピンキー (ワッチョイ bb65-eYV/)2024/04/12(金) 09:56:55.26ID:???0
LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク(それこそ例のテストとか)で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな
0401名無しさん@ピンキー (ワッチョイ c75f-9UMa)2024/04/12(金) 10:49:39.06ID:2/nKvx4z0
それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう
0404名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/12(金) 13:26:45.10ID:bcuYyZTx0
command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ?
0405名無しさん@ピンキー (ワッチョイ d2a0-EtAA)2024/04/12(金) 13:32:57.42ID:???0
>>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ(特徴)が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど
0407名無しさん@ピンキー (ワッチョイ c75f-9UMa)2024/04/12(金) 14:38:55.06ID:2/nKvx4z0
ある意味chatGPTはそれを真面目にやった結果では?
0415名無しさん@ピンキー (ワッチョイ 2787-TGoQ)2024/04/12(金) 20:20:19.13ID:HmSxQfNw0
command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな
0417名無しさん@ピンキー (ワッチョイ afbe-hBD6)2024/04/12(金) 21:04:23.80ID:???0
command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな
0418名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/12(金) 21:05:48.48ID:bcuYyZTx0
というか、cohereには70Bくらいの中型モデルを出して欲しい
0419名無しさん@ピンキー (ワッチョイ ff4f-pWkx)2024/04/13(土) 02:18:11.29ID:???0
もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う
0420名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/13(土) 02:32:24.26ID:q69oO3X90
M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな
0422名無しさん@ピンキー (ワッチョイ 7f1f-xm6m)2024/04/13(土) 07:30:35.69ID:???0
Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。

ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。

https://docs.cohere.com/docs/going-live

利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。

https://docs.cohere.com/docs/c4ai-acceptable-use-policy
0427名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 11:38:16.70ID:???0
わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R+のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな
0431名無しさん@ピンキー (ワッチョイ cf13-j/Vl)2024/04/13(土) 12:59:18.84ID:???0
>>390 やがメモリ64GBでは4bitがホンマにカツカツなんで
安定的に利用したい場合は3bitの
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/resolve/main/ggml-c4ai-command-r-plus-104b-iq3_s.gguf
かiMatrix無しなら
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00001-of-00002.gguf
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00002-of-00002.gguf
あたりがオススメかなぁ

0.5T/sあたりが出てない場合はコンパネでディスクアクセスが発生してないかを確認や
ディスクアスセスの原因っぽいMMAPを無効にしたらWindows全体が超重くなって危ういで
0432名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 13:12:11.38ID:???0
Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん
0435名無しさん@ピンキー (ワンミングク MM9f-VqMq)2024/04/13(土) 15:57:58.25ID:OV/mcBF2M
Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果

https://rentry.org/asoyyef2

ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった
0439名無しさん@ピンキー (ワントンキン MM9f-VqMq)2024/04/13(土) 16:48:38.78ID:eGHwKOHaM
>>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう
0440名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/13(土) 16:50:14.20ID:q69oO3X90
command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ
0442名無しさん@ピンキー (ワッチョイ c3d1-WVN9)2024/04/13(土) 17:35:40.64ID:???0
メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな
0445名無しさん@ピンキー (ワントンキン MM9f-VqMq)2024/04/13(土) 19:29:27.87ID:eGHwKOHaM
Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる
0446名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/13(土) 20:09:26.44ID:???0
Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試しては う〜ん、この を繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4〜0.5t/s

ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた
0450名無しさん@ピンキー (ワッチョイ c387-j/Vl)2024/04/13(土) 21:44:29.11ID:tAhny6I70
しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ
0455305 (ワッチョイ e332-ULeS)2024/04/14(日) 00:29:37.76ID:???0
なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b に
sophosympatheia/Midnight-Rose-70B-v2.0.3 をかぶせてみた結果

https://rentry.org/wbfsvhm9

思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる(ただ、語彙拡張されていないので、遅すぎて使い物にはならない)
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
(Midnight-Roseはnsfwモデルではないけど、エロには寛容)
これは>>305のswallowの変貌を見ても明らか(あのお堅いswallowがw)

で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した

sbtom/karakuri-midroze-mg-Q6_K.gguf

をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル(ベンチスコア高め)とのマージ 隠語の造語が笑えるw
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д`)
今だと、command-r-plusとの比較もあれば(スピードは同じくらいだし)
0458名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/14(日) 02:01:57.18ID:???0
単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ
0459名無しさん@ピンキー (ワッチョイ cf20-rajz)2024/04/14(日) 02:37:48.92ID:dmNY9iUL0
>>455
karakurimのchatvector、楽しみだね!
よかったら簡単な手順やコンフィグなんかも教えて!
0460名無しさん@ピンキー (ワッチョイ c3d1-WVN9)2024/04/14(日) 02:54:08.92ID:???0
HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ
0461名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/14(日) 03:45:05.90ID:???0
RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか?
RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや
0462名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/14(日) 03:47:10.37ID:???0
command-r-plusやっぱすげぇな
3bitで動かしてもChatGPT3.5超えてると思うわ

あぁワイの環境じゃ0.5token/sが限界じゃあ・・・

>>399の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる
6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな
0463名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/14(日) 04:03:40.39ID:???0
>>461
マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う
まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する

マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど
LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも
0464名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/14(日) 05:18:20.96ID:???0
>>463
あ〜ということは3〜4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも……
できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや

リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった
[【2024最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/)
0467名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 08:32:13.23ID:???d
>>390
遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです!
モデルダウンロード数の9割がツールによるものだと思っとります
改めてサンクスです!

>>455
例の評価プロンプト、大変お世話になっております
あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました
件のアプローチ手法、とても気になる手法です!ChatVectorならぬEroticVectorですなw
0468名無しさん@ピンキー (ワッチョイ cf8e-RkyF)2024/04/14(日) 08:38:34.78ID:???0
実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ
モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので
0469名無しさん@ピンキー (テテンテンテン MM7f-NRev)2024/04/14(日) 08:45:21.95ID:???M
マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合)
転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった
旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる
これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる
推論中は平均20%くらい使ってる
ちなみに普通にpcieスロットにx16接続だと推論中1%くらいしか使わないくらい通信してないようで、測定不能だった
頻繁に通信しつつ推論されてるものと思ってたけど違うみたい
推論だけね、多分学習とかだと違うでしょう
通信速度は問題にならなそう、と分かったところで、そういうケースがあるか?そういうスロット配置のマザボがあるか?ってところでお話が止まってしまう
0471名無しさん@ピンキー (ワッチョイ d3b6-uu0w)2024/04/14(日) 11:53:56.66ID:???0
これ、7Bだけど対話型求めてる人には結構良いかもしれん
https://huggingface.co/Aratako/Antler-7B-RP
元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる
7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも
惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな(セリフの後そのまま続き生成させると書いてくれるが)
0473名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 13:09:46.03ID:???d
推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく
https://note.com/bakushu/n/n26537fab5a14

メモリ帯域の話
https://vectory.work/memory-bandwidth/

※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る
0475名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 13:25:27.89ID:???d
あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5〜6割になったあたりから速くなり始めるように感じる
それまではRAMオンリーと変わらない感じ
0478名無しさん@ピンキー (ワッチョイ 63be-uGJR)2024/04/14(日) 14:46:49.79ID:???0
R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて
0480名無しさん@ピンキー (ワッチョイ cf13-j/Vl)2024/04/14(日) 15:09:39.41ID:???0
>>478 メモリ64GBでのおすすめは
>>431 のIQ3利用やがいくつかエスパーしとくで

タスクマネージャでディスクアクセスが発生して遅くなってるなら起動しているアプリを減らす

gpulayersを0でなく様子見しながら4以上を設定する

ドライバのシステムメモリフォールバックポリシーをなしにする
https://github.com/Zuntan03/EasySdxlWebUi/wiki/%E3%83%88%E3%83%A9%E3%83%96%E3%83%AB%E3%82%B7%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0#%E7%94%BB%E5%83%8F%E7%94%9F%E6%88%90%E3%81%8C%E9%81%85%E3%81%84
0481名無しさん@ピンキー (ワッチョイ 63be-uGJR)2024/04/14(日) 15:10:24.16ID:???0
contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ
0483名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/14(日) 16:18:40.47ID:ad3txZsV0
お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる?
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ
0484名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:15:27.54ID:???0
sbtom/karakuri-midrose-CV.gguf

karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd

chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがw
また、英語で回答したがる傾向も見られました。(英語モデルのインストラクタをかぶせてるせい?)
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。

続いて、マージ手法ですが、長くなるので分けますね
0485名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:22:49.05ID:???0
続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担(特にSSD)をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。m(__)m
0486名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:27:57.91ID:???0
ありゃ?インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16

正しくはこうです。すみません
0487名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/14(日) 18:31:53.20ID:???0
うげ!治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16

むりやり*で埋めた(*をスペースと思ってください)
0488名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/14(日) 21:01:59.77ID:???d
>>445
これについてAratako氏に質問したら、詳細を快く公開してくれた!めっちゃ良いかた!感謝!
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental/discussions/1

>>484-487
おお、うp乙です!使わせてもらいます!
ブルースクリーンはむしろ大笑いしたので気にしなくて大丈夫w
config.ymlはrentryにMarkdown使って書くと、見やすくていいかも?
0489名無しさん@ピンキー (ワッチョイ e3ee-93oH)2024/04/15(月) 11:04:43.21ID:???0
command-r-plus日本語のエロチャットで試しているけど
日本語で指定したpromptやこちらの入力は理解している応答っぽいけど
英語に比べるとやっぱり反応が薄いというか淡白だなぁ
このレベルが日本語で反応するだけでも凄いんだが、動いたら動いたでより良いものもが欲しくなるとは貪欲になっていくもんだなぁ
0491名無しさん@ピンキー (ワッチョイ bf49-+gIl)2024/04/15(月) 14:01:56.53ID:???0
commandR+触ってみた。
日本語能力は素晴らしいと思うんだけど、出力される内容そのものがmidnight-miqu70Bとかに負けてる気がする。出力中にどんどんわけのわからん方向に内容が逸れてっちゃう
0493名無しさん@ピンキー (ワッチョイ 435f-Zh10)2024/04/15(月) 14:10:27.06ID:GrORv8F70
>>490
その結果だけ見たらもう70B以上クラスとの違いがわからないな
もっと長くて複雑なベンチマークが必要なのかもしれない
0494名無しさん@ピンキー (ワッチョイ d3ea-uu0w)2024/04/15(月) 14:27:07.18ID:???0
>>490
エロの表現力は流石に微妙そうだけど、指示追従能力は良い感じに上がってそうだね
ただ、ELYZA-tasks-100とかのGPT-4に評価させる系は長文を高評価するようになっちゃう問題があるから、ベンチマークスコア向上はこれの影響かも
0496名無しさん@ピンキー (ワッチョイ c387-j/Vl)2024/04/15(月) 16:27:44.71ID:/HalLGkT0
>>490
f16使ってみたけど確かに結構賢い感じやね。簡単なタスクはこれに任せてもええかもってくらい
あと全部VRAM乗せられるからワイの環境でも35t/sくらい出て笑うわ。command-r+の0.5t/sに焦らされてる状態から使うと気持ちよすぎる
0497名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/15(月) 16:58:47.09ID:SmAgcugu0
LCAの手法でモデルの特徴を抽出してマージできるならその差分をLora化して後乗せもできるのかね?
0499名無しさん@ピンキー (ワッチョイ a374-CQ4x)2024/04/15(月) 20:17:25.74ID:???0
text generation webuiでチャットやってたら急に最新の1応答を除いて過去の会話全部吹っ飛びやがった
マジかよショックがでかすぎる
あぁ、もう一度コンテキスト育てるのは無理やぁ・・・
0500名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/15(月) 20:31:09.28ID:???0
sbtom/karakuri-midrose-CV.gguf
ちまちま検証してましたが、どうもmg版に比べると劣化してる感が拭えなかった。
表現力は同じくらいなんだけど、指示が入りずらい
チャットだと分かりにくいけど、小説書かせたらプロット通りに書かずに勝手にプロット外の事を書き始める
うーん、ダメだこりゃ・・・ と思ってたら、よく考えると重みに0.8掛けする必要なくね?と気付いた
LCAはインストラクタモデルを使ってたから、0.8掛けが効果を発揮していたけど、krakuriはベースモデルを使ってるから
素直に1.0乗せればよかったんや!
で、修正したら、指示も入りやすくなった感じ
とりあえず、修正アップしました。
0501名無しさん@ピンキー (ワッチョイ d3ea-uu0w)2024/04/16(火) 03:16:47.20ID:???0
今更だけど、KoboldcppのPrompt Template色々間違ってない?
LCA試すときにllama2 chatのテンプレ使ってて思ったんだけど、マルチターンの会話の時[INST]と[/INST]だけで区切ってるけど間にeos_token(</s>)とかもいるよな?
0502名無しさん@ピンキー (ワッチョイ cf20-rajz)2024/04/16(火) 06:03:57.15ID:u83/57NB0
>>500
試しに同じ構成で作ってみたいと思うんですが
base_modelは何ですか?
0504名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/16(火) 12:59:19.29ID:???0
ぐあああ!ヤヴァイ
中間モデル保存しておいたSSDが死んだw
予定していた最終モデルは別SSDにできた後だったのが不幸中の幸いだったけど、設定ファイルとか亡くなったのは痛いw

エロ小説用としては、いい感じに仕上がったと思うんで、なんとか最終モデルをアップするまで、もってくれ〜SSD
0508名無しさん@ピンキー (ワッチョイ 2382-Zh10)2024/04/16(火) 18:18:19.18ID:WfuRqmo60
毒性テストしてないバージョン出しちゃったわ😅ヤベヤベ
0509名無しさん@ピンキー (ワッチョイ c3d1-WVN9)2024/04/16(火) 18:25:08.15ID:???0
今のところ4bit量子化でB数の6割ぐらいの高速メモリ用意できりゃOK
みてえな認識してるけど
この先どんどん肥大化していってもこの方式当てはまるんやろか
0510名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/16(火) 20:12:30.61ID:Cvmv6Ee70
VRAMに乗り切るかどうかは単純な計算から求まるんだからその法則自体が崩れることはないんじゃないか?
そろそろ必要なVRAM量がコンシューマ向けチップでかなりギリギリだから、1.58bitが主流になって欲しいけど、いまだに進捗を聞かない
0512名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/16(火) 20:27:47.59ID:Cvmv6Ee70
8x22Bと7Bは他にも何人か量子化とかアップロードしてるけど、70Bの方は元から公開されなかったんか?
0513名無しさん@ピンキー (ワッチョイ cf20-rajz)2024/04/16(火) 20:51:00.62ID:u83/57NB0
>>503
サンガツ
今マージを始めたところです
midroseの代わりにHDDにあったEuryaleを使ってみてます
0514名無しさん@ピンキー (ワッチョイ d303-URmv)2024/04/16(火) 21:48:29.76ID:???0
WizardLM-2 7BのiQ3_XXS軽すぎワロタ
RTX3050Laptopの4GB VRAMにフルロードできるからサクサクでいいね
割とまともな日本語話すし、ノートPCでここまで動くとは驚きだ
0515名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/16(火) 22:24:38.33ID:Cvmv6Ee70
日本語話せるのか
正直日本語力は期待してなかったけど、こうなると70Bはそこそこ楽しみになってきた
内容にcensorshipはかかってそうかな?
0517名無しさん@ピンキー (ワッチョイ b392-T8JI)2024/04/17(水) 12:06:58.01ID:zYAYEg/x0
>>499
ワイもログ何度か消えたからgitで定時スナップショット取るようにしてたわ
今はフロントエンドはSillytavernに移行したけど
0521名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/17(水) 19:59:28.37ID:LaZSos2E0
command-rにプログラム実行の権限与えてるんだけど、pythonで日本語の変数使えるの知らんかったわ
いきなり頭おかしいプログラム走らせ始めてビビった
https://i.imgur.com/aILua5n.png
0525名無しさん@ピンキー (ワッチョイ c3ba-j/Vl)2024/04/17(水) 21:57:59.92ID:CXycdFik0
>>521
これもうシンギュラリティやろ
0528名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/17(水) 22:26:59.61ID:LaZSos2E0
Command R+の方、ギリギリ動かせるiq3_mだと結構劣化が気になって、結局無印に舞い戻った
q4を動かせるマシンがまともに使える最低レベルと考えると、やっぱり104Bは気軽に動かせるもんじゃないと思うわ
0529名無しさん@ピンキー (ワッチョイ 53c7-ZezB)2024/04/17(水) 22:58:38.30ID:???0
うみゆき@AI研究
@umiyuki_ai
5ちゃんの某LLMスレを監視してるけど、最新の話題でCommand Rとエロチャしてたら急にエロいpythonコード書いて実行し始めた画像相当おもろい。AIにとってはコードが一番興奮するのかもしれん。

何が監視じゃ
インプレ稼ぎ青チェックが上位者気取るな
0530名無しさん@ピンキー (ワッチョイ cf7a-ULeS)2024/04/17(水) 23:01:58.09ID:???0
うみゆきは別に出している情報間違っているわけじゃないんだけど
「へえ。」とか無意味に冷笑ノリだったり画像生成AIについては
やたら反AIに擦り寄ってみたりの方向が昔のオタっぽくて気持ち悪い
0533名無しさん@ピンキー (ワッチョイ 8f61-uK2W)2024/04/17(水) 23:09:30.51ID:iczziYEI0
ここはオナテク板やぞ
0535名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/17(水) 23:35:31.16ID:???0
sbtom/karakuri-MS-01.gguf

最近追加されたModelStockってマージ方法、ChatVectorと相性いいじゃないかって気がして、
karakuri-midnightrose-CV
karakuri-SOLAR-CV
karakuri-XWIN-CV
を、karakuri-chatをベースにしてModelStockで4体合体させてみたら、なんかすごくいい感じになった。

評価プロンプト(そろそろ別バージョン必要だなw)
https://rentry.org/zapt6wa5

小説テスト(オナニースレで、宇宙人ニキの感想待ち)
https://rentry.org/m55ytdq3
0536名無しさん@ピンキー (ワッチョイ c32b-WVN9)2024/04/17(水) 23:46:19.09ID:???0
評価プロンプトになんか追加するなら
どっちがどこに挿入してるかはとか
2形態以上持ってる変身や変化キャラみたいな設定とか
混同されると萎える要素への解釈理解度確かめるような設問が必要だと個人的には思う
0538名無しさん@ピンキー (ワッチョイ e38f-j/Vl)2024/04/18(木) 03:09:18.12ID:QKygiavm0
>>529
初期はシンプルにAI追ってたのに途中から情報量多すぎて追えなくなってからノリがかわってしまったな
0539名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/18(木) 07:39:05.56ID:Se0rtYV00
>>537
style-bert-vits2とwhisperで割と簡単に満足できるものが実現できるレベルでは
0540名無しさん@ピンキー (ワッチョイ 63be-uGJR)2024/04/18(木) 10:08:53.70ID:???0
実際にやってみると音声と見た目が付くと少しの話の違和感とかアクセントのおかしさが強調されてストレス感じる
イルカやSiriやCortanaが嫌われ続けて来たのと同じ問題だなぁ
0541名無しさん@ピンキー (ワッチョイ 7f16-uGJR)2024/04/18(木) 10:29:24.96ID:31yba4ll0
>>540
ワイ、cotomoとか結構遊んだけど、イントネーションとか結構慣れて気にならんくなったで?むしろcotomoのあほの子ボイスが癖になったまである
原作ありのキャラの模倣とかだと無理かもしれんが、オリキャラならstyle-bert-bits2レベルのイントネーションだったらふつーにガチ恋するわ
AIちゃんがワイのこと覚えてくれてる、認識してくれてる!って部分にうれションでるやで?
0542名無しさん@ピンキー (ワッチョイ 7f0f-vBQZ)2024/04/18(木) 10:33:13.12ID:???0
わかる
でもそのストレスって関西弁聞く時のと同種だよね
不満垂らしつつも許容して慣れるしか無い

それに昔よりはストレス無くなってきたね最近の音声合成
0543名無しさん@ピンキー (ワッチョイ 7ffb-uGJR)2024/04/18(木) 12:04:53.20ID:31yba4ll0
>>542
>>そのストレスって関西弁聞く時のと同種
同意してもらったところ悪いんやけど、なんJでそれ言うんかw
オナテク板もなんJも関東人以外もふつーにおるんでちょっと配慮したってや?
0544名無しさん@ピンキー (ワッチョイ ff9f-OvSD)2024/04/18(木) 15:01:38.67ID:???0
なんJのは関西弁ではなく猛虎弁ではw
>「猛虎弁」は、関西弁と似た言葉遣いを模倣したユーモラスな表現です。元々は「なんJ(なんでも実況J)」と呼ばれる2ちゃんねるで使われていた言葉で、その後他のネット掲示板やコメント欄でも広まりました123。
(中略)
>猛虎弁は関西人からすれば容易にニセモノだとわかりますが、関西以外の人からは見分けがつかないこともあります。ただし、猛虎弁は本物の関西弁ではないため、注意が必要です123。
0548名無しさん@ピンキー (ワッチョイ b3de-+gIl)2024/04/18(木) 15:35:36.17ID:???0
今まで単純にモデルのサイズが大きければ大きいほどoutputも遅いものだと思ってたけどそうじゃないんだな。
hfに上がってたwizardLM2-8x22Bは1T/sも出てる(普段は70Bで0.5Tくらい)
0550名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/18(木) 19:00:52.25ID:Se0rtYV00
昨日あげた画像結構ウケが良かったが、pythonをLLMに組み込む長所としてはどっちかと言うとこういうふうに指示出してミニゲームできたりするメリットの方を推していきたい
https://i.imgur.com/jSSVVyJ.png
0553名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/18(木) 19:59:00.44ID:???0
つづき
command-r-plus(web)での回答

https://rentry.org/8av79u4b

さすが、エロ表現はいいね。宇宙人は台詞を言ってほしかったが。設問1はこれも不正解


karakuri-rosemiqu-CV2は苦労した割に、ダメダメだった。削除しようかと思ったが、あのアプローチでの失敗例として上げとく

で、自分的には一番いい出来と思った、
model_stockマージでのkarakuri-MS-01の結果

https://rentry.org/we25qrsa

これで、設問1が正解なら、脳汁出るところだが、さすがに無理だった。
でも、他の表現力はcommand-r-plusに負けてない気もする
同じアプローチでswallowを使ったら、どうなるか試したいが、SSDの空きを作るのが大変だw
0554名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/18(木) 20:05:40.35ID:???0
あれ?
今、リートンのGPT4-turboと、copilotに設問1の質問したら、両方とも早苗って答えた。

あれれ? ワイ、間違ってないよな?
拓郎が愛しているのは、源蔵だよな?
0555名無しさん@ピンキー (ワッチョイ bfa3-y89D)2024/04/18(木) 20:30:48.34ID:???0
論理的に詰めていけば源蔵しかいないのだが、AIはみんなそのような思考をせずにシチュエーションだけで判断してるように見えるな
「論理的に」「数理的に」「解析せよ」とか指示を加えたらどうだろう
0556名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/18(木) 20:40:30.43ID:???d
思考問題はGPT-4とかClaude3が安定して正解を出力できる問題にしないとダメかもしらんね
これつらができない問題でも解ける特化型とかあるんかね

それと>>552は「特殊シチュ+指示少な目(求めるお察し力高め)」だから、使うなら旧verと併せて追試として使った方が良さそう
旧verはサクッとチェックできて、最低限の出力品質を確認できるから個人的に好き
0557名無しさん@ピンキー (ワッチョイ bfa3-y89D)2024/04/18(木) 21:07:33.17ID:???0
GPT4とOpusに設問(1)をやらせてみたが正解にたどり着かないな
まず恋愛対象を勝手に異性に限定したがる。まあこれは「同性も含めて」と指示すればいいのだが
一番無視しがちな前提条件が「複数の人を同時に愛することはない」という部分。この文章を正しく理解できていないかもしれない
0559名無しさん@ピンキー (ワッチョイ d3b5-humn)2024/04/18(木) 21:23:39.01ID:???0
【悲報】ワイの頭AI並み
この設問と条件なら一応、早苗と沙織先生がどちらも拓郎を好いていて拓郎は早苗だけ好き、と解釈するのも可能やからなあ
0565名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/19(金) 00:29:45.61ID:???0
うおおお
karakuri-MS-01たんは、
ここで、大ヒントです。早苗と相思相愛なのは、沙織です。
の一文入れたら、なんとか「校長」と答えてくれたw
ちなcopilotはダメだったw
0569名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/19(金) 02:11:29.23ID:???0
無印Command rええやん
1.5 tokens/sぐらい
16GB〜24GBなら全部VRAMに乗りそうやな
>>550
ちなみにプログラム実行の権限〜ってLLMエージェント的なやつ?何使ってるか教えてほしい
0570名無しさん@ピンキー (ワッチョイ ff20-asBb)2024/04/19(金) 02:57:07.71ID:???0
>>569
LLMが使えるツールをいくつか設定してて、その中にPythonを入れてる
まあ大枠で言えばエージェントかも
ツール使用するときにはこう書きなさいって指示しといてそれを検出したら、execを拡張した関数(langchainのPythonREPLに近い)に流してる
0571名無しさん@ピンキー (ワッチョイ ff20-asBb)2024/04/19(金) 03:12:26.78ID:???0
オリジナルのPythonREPLだと標準出力
と標準エラーしか受け取れないから、色々いじってmatplotlibのデータ解析結果の画像を表示したり、セッション内でグローバル変数が保持されるようにしたり、トレースバック(LLMがエラー見てコードを自己修復するため)を追加してる
大体ChatGPTのPython実行環境に近い事ができる(仮想化はしてないけど)
0573名無しさん@ピンキー (スプッッ Sd1f-Y5Kd)2024/04/19(金) 07:21:01.60ID:???d
Aratako氏にいただいたデータを元に、手作業で改造したLCA-TypeBをリリースしました

Sdff-Ltba/LightChatAssistant-TypeB-2x7B
Sdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUF

こちらの使い方では、指示追従性能の低下を抑えながら日本語の自然さ向上を実感できました
特に長文では大分滑らかになったと思います(一度に2000tokens弱の小説出力を何度かしてテスト)
0574名無しさん@ピンキー (ワッチョイ e332-ULeS)2024/04/19(金) 10:06:04.59ID:???0
校長を好きな人がいるという事を、もっと分かりやすい文にして、恋愛対象は異性とは限らないとしたら、
日本語だとだめだったが、英文翻訳して聞いたら、copilotは完璧な答えを導いた。
llama3は英文でもダメだった。
やはり、gpt4強しか
0576名無しさん@ピンキー (ワッチョイ 8f56-VjaA)2024/04/19(金) 10:24:15.97ID:YN736YjM0
>>573
乙なんやで!
0578名無しさん@ピンキー (ワッチョイ f3c0-wKpJ)2024/04/19(金) 15:48:00.97ID:???0
>>570
つまり自前のシステムってこと?まったくわからん
スクリプトの実行権限与えてチャットしながらファイル操作とかコード編集とかドキュメント読ませたりできたらと思ってな
langchainとか存在は知ってるけどまったく触ったことないわ
0579名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/19(金) 16:48:22.94ID:krQkzshj0
>>578
説明が抽象的で申し訳ない 詰まるとこ、全部自前だが、実装はそんなに難しくないぞ
ちょっと正規表現かければLLMの出力にツール使用命令があるか判別するのは簡単
画像が俺が使ってるプロンプトで、Command Rが必要に応じて
```python
#コード
```
みたく出力するから、これを正規表現”```(python).*?```”でパースして、引っ掛かったらexec関数に中身を流すだけ
https://i.imgur.com/BJM5Fkr.png
0580名無しさん@ピンキー (ワッチョイ 3311-0y78)2024/04/19(金) 16:53:46.66ID:krQkzshj0
langchainは無理に触る必要は無いが、ツール含めエージェント構築に使えるパーツが大量に用意されてるから、車輪の再発明を避けたいなら一回手を出してみるのはありだと思う
検索エージェントとかは最初全部自作してたけど、途中でバカらしくなってlangchainに乗り換えたよ
0581名無しさん@ピンキー (ワッチョイ 239e-AW1k)2024/04/19(金) 22:01:04.58ID:nSKhHEs/0
llama3はまた30B出んのかのぅ…
0582名無しさん@ピンキー (テテンテンテン MMa6-fvuB)2024/04/20(土) 02:55:19.45ID:???M
STのExpression機能がバージョンアップして
classifyで感情分析にかける直前に翻訳通せるようになったようだ
classifyの日本語モデルはなかったからいいアイデアだと思った
0587名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/20(土) 12:43:19.11ID:ZkMMDsP10
Llama.cppのmainとllama-cpp-pythonでllama3動かしてるんだけど、勝手にassistantとかいうトークン挿入して会話が止まらない現象に当たった
調べたら結構報告があるっぽく、ランタイムがeotトークンに対応しきれてないらしい
https://twitter.com/artem_zin/status/1781145656905625772
0588名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/20(土) 12:51:21.34ID:ZkMMDsP10
ちゃんと使えるようになるにはもうちょい時間かかりそう
https://imgur.com/69dWeZD
0593名無しさん@ピンキー (ワッチョイ ebcf-IRgQ)2024/04/20(土) 19:30:07.01ID:M1+DdCm60
Kobold1.63、ウィルスが検出されて削除されてまうな…
0595名無しさん@ピンキー (ワッチョイ e687-sTO6)2024/04/20(土) 19:58:51.29ID:???0
英語ちょっと読めるけど書くの苦手なワイ
プロンプトに「あなたはあらゆる言語を読めますが英語で返信してください」
みたいなのを書いておくと、こっちは日本語で書いて英語で返ってくる状態になる。
異世界転生でチート能力で言語が通じるような感じになって楽しい
0597名無しさん@ピンキー (ワッチョイ 77ac-KW1h)2024/04/20(土) 21:27:25.31ID:???0
質問なんですけど、7Bクラスの言語モデルをCPU(Ryzen5 5600H)でiQ4_XSに量子化するのってもしかして無謀だったりしますか?
モデルデータを公開した方がiMatrix量子化をやってなくて、iQ4_XSが欲しいので自分で作れないかと思い、quantkitという便利なツールを見つけたので試しているところです
既に処理が始まっているのですがこんな表示が出てきて戦慄しているところです
↓これは75時間くらいかかるという意味ですか?

> compute_imatrix: 50.40 seconds per pass - ETA 75 hours 34.63 minutes
0599名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/20(土) 21:48:19.55ID:ZkMMDsP10
だれかMLXでLlama3動かしてるやついない?
0601名無しさん@ピンキー (ワッチョイ 77ac-KW1h)2024/04/20(土) 22:01:04.90ID:???0
>>600
16GBです

今、↓のメッセージに気づいて自己解決してしまいました
> compute_imatrix: computing over 5398 chunks with batch_size 512
要するに5398チャンクあって、1チャンク当たりの処理時間が50.4秒なので概算で75時間34分かかるというメッセージだったようです
これは諦めようと思います…
0603名無しさん@ピンキー (スプッッ Sd6a-Z3ht)2024/04/20(土) 22:10:39.19ID:???d
>>597
多分そのCPUで十分できるはず
quantkitってツールについてはよくわからないけど、それはiMatrixファイル作成でChunksを無指定にした時の状態だと思う
おっしゃる通り75時間34分かかる状態です
Llama.cppに含まれているimatrix.exeならこんな感じに指定すれば時間を短くできるんだけど…そのツールだとどうなんだろう

imatrix.exe -m .\model_f16.gguf -f .\wiki.train.raw -o .\model_f16.imatrix --chunks 32
0604名無しさん@ピンキー (スプッッ Sd6a-Z3ht)2024/04/20(土) 22:14:30.95ID:t+Q0AVqSd
おっと更新してなかった
確かにメモリ16GBだとモデルサイズが小さい方が嬉しいよね
Chunksを指定する方法がわかればいいんだけど
それかLlama.cppを使ってみるとか
0605名無しさん@ピンキー (ワッチョイ 77ac-KW1h)2024/04/20(土) 22:20:47.39ID:???0
>>602
実際にQ6_kでまともな速度で動いてるので特に問題はないんですけど、
速度早くできるならそれに越したことはないので
必要ではないので無理にやろうとまでは考えてないです

>>603
このツールです
https://github.com/xhedit/quantkit

よく読まずに簡単そうなコマンド打っただけなのでチャンク数の指定は全く考えていませんでした
0609名無しさん@ピンキー (ワッチョイ 1b32-dLvt)2024/04/20(土) 23:17:23.37ID:???0
llama3 日本語はダメだったが、英語の表現力かなりいいなこれ
llama2に比べて、プロットに隠してる意図した思惑をちゃんと表現してくれる。
規制が半端ないから、脱獄オンにする必要あるけどw
0610名無しさん@ピンキー (スプッッ Sd6a-Z3ht)2024/04/20(土) 23:18:58.63ID:???d
>>607
無印
プロンプト処理: 337.69T/s, 生成: 13.34T/s, Total: 12.97T/s
TypeB
プロンプト処理: 351.56T/s, 生成: 13.37T/s, Total: 12.84T/s
(いずれもVRAMに33レイヤーをオフロード)

うーん、うちの環境では特に差は無いようです
お使いの環境はどのような構成・設定でしょうか?
0611名無しさん@ピンキー (ワッチョイ cb74-jk2P)2024/04/21(日) 01:38:14.72ID:???0
4060ti 16GBの1スロット品が中国で発売だって
https://gazlog.jp/entry/single-slot-rtx4060ti-benchmark/

普通のATXのマザボにこれ4枚刺して64GB
夢が広がる

つーかgeforceのブロワー型クーラー品ってnvidiaが許可しないはずだけど
中国限定販売だから許可が出たのか、それとも勝手にやってるのか・・・
なんにせよ日本から買えないのが残念
0612名無しさん@ピンキー (ワッチョイ bbbe-IRgQ)2024/04/21(日) 01:48:45.32ID:???0
アクセントに違和感あると思ってたけど最近の音声合成AIちょっと調べたら日本語性能かなり進化してんのな
ちゃんと学習させたら実用レベルに来てるわ
音声読み上げさせたらやばい
0615名無しさん@ピンキー (ワッチョイ 3e71-8Qqc)2024/04/21(日) 10:54:28.47ID:???0
すまない。知っている人がいたら教えて欲しい。
text-generation-webuiで>>431のggufをロード成功後にnotebookで生成すると
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 0: invalid start byte
が発生するんだが、何が起きているんだろう。対応方法はある?
0616マジカル (ワッチョイ db34-z8bb)2024/04/21(日) 12:19:41.10ID:z9EdHanv0
https://imgur.com/a/6mzjpm6
モデルは5/1に公開する予定です。

tempture:3
0619マジカル (ワッチョイ db34-z8bb)2024/04/21(日) 13:45:20.53ID:z9EdHanv0
>>618
7Bです。
0622名無しさん@ピンキー (ワッチョイ 26db-7awQ)2024/04/21(日) 15:54:07.26ID:PPvJAW9L0
>>619
これ素の出力なの?
7bって結構途中で変な文章入ったような印象あったけど
0623マジカル (ワッチョイ db34-z8bb)2024/04/21(日) 16:19:28.81ID:z9EdHanv0
>>620

官ジェネが何かは存じ上げませんが、「(以下本文)」までの文章以外は入力していません。
別で誘導するための文章を挿入しているなどもありません。

>>622

出力が途中で止まった際に続きを出力させるなどはしましたが、それ以外は一切手を加えていません。
0624マジカル (ワッチョイ db34-z8bb)2024/04/21(日) 16:24:37.87ID:z9EdHanv0
参考となるかは不明ですが、簡易的な指標としてpplを計測しました。
https://imgur.com/a/di903Nu

日本語wiki本文と少数の小説で計測しました。
0626名無しさん@ピンキー (ワッチョイ 03a8-8Qqc)2024/04/21(日) 18:08:21.35ID:8CGWlOOb0
エロ評価プロンプトのバージョン2作ったから、使ってね。

https://rentry.org/5m4p8v4z

karakuri-lm-70b-chat-v0.1-Q6_K での結果
https://rentry.org/zc68gxx5

素のkarakuriの安定度が分かる。設問1は不正解だが
0627名無しさん@ピンキー (ワッチョイ 03a8-8Qqc)2024/04/21(日) 18:08:54.41ID:8CGWlOOb0
ああごめんなさい
ローカルにコピペするつもりが書き込んでしまった……
0630名無しさん@ピンキー (ワッチョイ 1b32-dLvt)2024/04/21(日) 20:26:24.75ID:???0
エロ評価プロンプト2,設問1がAIにはミスリードが多く、難しすぎたので差し替えました。

https://rentry.org/5m4p8v4z


また、設問1のみをレベル別に分け、日本語、英語での質問ができるテキストをアップしましたので、活用してください。

sbtom/reasoning_ability_test

エロ評価2には、レベル1を使用しました。それでも正解率かなり低いですが、推論の過程を見ると、能力がなんとなく測れます。
0631名無しさん@ピンキー (スッップ Sdca-7awQ)2024/04/21(日) 21:02:38.66ID:???d
今日からローカル始めたレベルの無知なんだけど英語で指示した展開にそれなりに寄り添ってエロ小説書いてくれるモデルを教えてほしい。
環境としては4090とRAM64GBだから13Bとかだときついのかな。
今はLoneStriker/Blue-Orchid-2x7b-Q4_K_Mっていう大分古いモデルで遊んでる
0632マジカル (ワッチョイ db34-z8bb)2024/04/21(日) 21:08:11.15ID:z9EdHanv0
https://rentry.org/8ntw35hu

>>630
のテストを我々のモデルで実行しました。モデルが出力した回答をそのまま掲載します。
0633名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/21(日) 21:25:55.85ID:uOvF1J7L0
>>628
jupyter-lab
0640名無しさん@ピンキー (ワッチョイ 335f-el1J)2024/04/22(月) 09:15:14.40ID:eSc9ndJ90
一番近いのはOpusだろうなローカルじゃないけど
0641名無しさん@ピンキー (ワッチョイ 3e13-8Qqc)2024/04/22(月) 16:36:21.57ID:???0
EasyLightChatAssistantに永続生成用の簡単なUIを被せたEasyNovelAssistantを作ってみたで

https://github.com/Zuntan03/EasyNovelAssistant
https://files.catbox.moe/ai9gop.png

デフォルトモデルはLightChatAssistant-TypeB-2x7B-GGUFのIQ4_XSでサンプルもこれで動作確認してあるで
ええモデルをリリースしてくれてサンガツや!

RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5T/s
Geforce RTX 3060 12GB なら 13.5T/s
https://files.catbox.moe/rbk5qh.png
0645名無しさん@ピンキー (ワッチョイ 132b-Xec1)2024/04/22(月) 19:22:25.96ID:???0
今の過熱ぶり見るとAI向けアクセラレータボードはバブル終わるまでは企業が買い占めて
評価ボード以外が終わって個人に流れてくる頃には会社がないまである
0647名無しさん@ピンキー (スプッッ Sd6a-Z3ht)2024/04/22(月) 20:24:39.08ID:???d
>>641
乙です!またまた良い感じに使いやすくなるツールをありがとうです
TypeBは長文も良くなったはずだし、永続生成はローカルの強みをフルに発揮できて嬉しい!
githubのページもスクショ付きで理解しやすい!超GJ!
0649名無しさん@ピンキー (ワッチョイ d3b9-4Q0V)2024/04/22(月) 21:07:42.61ID:???0
Llama3ちゃんにエッチな小説作ってもらおうとしたら拒絶されてショック
説得セリフ入れたけどダメだった
このモデルでエッチなこといける人いるの?
0651名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/22(月) 21:25:11.77ID:ZFyNQtsH0
Command Rの自由度に慣れきってるからLlama3かなりキツく感じる
Cohereははよ中型モデル出してくれー
0652名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/22(月) 22:34:24.99ID:ZFyNQtsH0
Llama 3、プログラミング結構いけるくちか
https://i.imgur.com/fzZl3ee.png
0654名無しさん@ピンキー (ワッチョイ 7fc0-cnxi)2024/04/22(月) 23:23:34.60ID:???0
>>579
解説たすかるがワイはLLMさわってるだけのノンプログラマーだからぎりぎりよくわからんくてつれぇわ
langchain色々調べてのでやってることの概要はなんとなくわかった
0655名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/22(月) 23:37:43.75ID:ZFyNQtsH0
>>654
誰でも最初はそんなもんや
簡単な文法は勉強する必要があるかもしれんが、コード自体はLLMに書かせちゃってもいいし、楽する道は結構多いと思うから気張らずにやるのがいいよ
なんとなくlangchainのページ見てるだけでも、LLMで出来ることの多さに驚いてモチベーションも上がると思う
0656名無しさん@ピンキー (スプッッ Sd6a-Z3ht)2024/04/22(月) 23:50:52.53ID:???d
Aratako氏の最適化スクリプトをRAM64GBのローカルで動くように改造してみている
評価者はCommand-R+が一番だろうけどRAM64GBだとカツカツだから、他の候補としてはkarakuriとかSwallowMXとかかなあ
>>535さんの子を評価者に迎えようかしら
0658名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/23(火) 00:39:45.95ID:Z/XvG38k0
>>657
jupyter(google colabで使われてるやつ)ってツール使って自作した
0659名無しさん@ピンキー (ワッチョイ 7fc0-cnxi)2024/04/23(火) 02:19:15.93ID:???0
>>655
実際GPT4TurboにPythonスクリプトとか書いてもらうと普通に動くコード書いてもらえるし、細かく仕様変更頼んでもちゃんと反映してくれるからLLMでプログラミングする/してもらう方向性はまじで期待してるわ
0660名無しさん@ピンキー (ワッチョイ cadc-4Wdh)2024/04/23(火) 09:43:35.64ID:???0
>>659
pythonあかちゃんな俺でもCusorでAIに雑に指示してたらガンガンコード書いてアプリやサービス開発できる位だからこのスレ民みんなスーパープログラマーになれると思う
0661名無しさん@ピンキー (ワッチョイ bbbe-IRgQ)2024/04/23(火) 10:05:26.24ID:???0
日に日に知識の差なんてどうでもよくなってGPUとSSDの勝負になっていくよな。。。
今年15万円ほど投資してメモリ64GBにしてVRAM16GBにしてSSD2TB用意したけど早くもカツカツで限界感じしてるわ
0664名無しさん@ピンキー (ワッチョイ dbb2-TUJc)2024/04/23(火) 13:36:34.71ID:???0
>>663
GPUレイヤー数を10あたりにしたら、5-10T/sぐらいになる想定や

> RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5 tokens/sec (T/s) です。
より遅かったらKoboldCppがなんかしてるんでさらにGPUレイヤー数削ってみてな

タスクマネージャーで推論時にずっとディスクアクセス発生してるなら他のアプリを落としておくとええかもしらん
0667名無しさん@ピンキー (ワッチョイ dbb2-TUJc)2024/04/23(火) 14:03:50.77ID:???0
>>666
CPUとRAMがどれだけGPUの足引っ張るかなんでモデルが全部載るあたりに近づくと加速度的に速くなるんや

でかいモデルやとさらに10倍遅くなって2秒で一文字なんでそういうものと思ってもろたら

GPUレイヤーを0や1にして画像生成と併用とかもあるんやが8GBやとそれもカツカツやね
StyleBertVITSに生成文章を読み上げさせるぐらいならいけそう
0672名無しさん@ピンキー (ワッチョイ 1b32-dLvt)2024/04/23(火) 17:27:46.58ID:???0
club.aiのキャラカードをkoboldに取り込むと、必ずchatmodeになるけど、
instractモードにするににはsettingでいちいち切り替えるしかないんかな?
あと、pngファイル内のjsonデータを編集する方法ってある?
ローカル版の官ジェネキャラとか作ってみたいんだが
0677名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/23(火) 23:11:37.48ID:Z/XvG38k0
Hugging Faceに上がってるllama-3 70Bのuncensoredバージョンを謳うモデルを試したけど、日本語能力が地に落ちてて使えんかった
0678名無しさん@ピンキー (ワッチョイ 13b1-IRgQ)2024/04/23(火) 23:58:27.10ID:bzxCIQpJ0
>>672
SillyTavernに読み込んで編集したらええんやで?書き出しも出来たはずやで!
0680名無しさん@ピンキー (ワッチョイ eb79-452b)2024/04/24(水) 07:35:57.11ID:hgEiuWsX0
>>673
Mac Studioで消費電力が70Wとかいうのをみてしまうとなぁ…。
0681名無しさん@ピンキー (ワンミングク MM1a-a8r0)2024/04/24(水) 09:19:52.45ID:???M
なんかXのポスト見てるとドヤ顔でローカルLLMを知識不足みたいに言ってるの結構いるけど、世の中にはLLMってそういう認識なんかね
そもそも知識入れるのってLLMは容量効率悪いし
そんなんGoogleにでも聞いてろと思う
0682名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/24(水) 09:36:04.43ID:qlNRYqRn0
というか、その部分がまさに今ホットトピックなRAGとかベクトルデータベースの範疇だろう
0685名無しさん@ピンキー (ワンミングク MM1a-a8r0)2024/04/24(水) 12:20:35.84ID:???M
>>682
そういうんがあるって知らない人が、ドヤ顔でLLM評価を語ってるのを見てさ
世間的にはそんなもんなんかなって

最近ChatNTQとかAntlerベースがHuggingFaceに増えてるな
やっぱLCAの影響か?このスレ凄いな
0691名無しさん@ピンキー (ワッチョイ 2627-dLvt)2024/04/24(水) 13:01:38.71ID:???0
正確な知識を問うなってのはChatGPTが世に出て一ヶ月ぐらいには常識になってたと思ってたんだが
未だにLLMモデルのベンチ感覚で富士山の高さを聞いてる人がいてなんだかなあって
0694名無しさん@ピンキー (ワッチョイ cb74-jk2P)2024/04/24(水) 17:47:50.03ID:???0
Command R+はまぁまぁ衝撃だったけどChat ArenaではLlama3がもうぶち抜いてる・・・

Chat Arenaには歴代のGPT4の順位も出てるけどCommand R+もLlama3も両方とも
過去のGPT4をすでに抜いててLLMの進化の速さを実感するわ
0695名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/24(水) 18:12:09.59ID:qlNRYqRn0
とはいえ、日本語含めたmultilingual性能とかツールに対する最適化とか、Command R+が特に強みにしてる部分は評価対象外なんじゃないか?
個人的にはあんまりフェアじゃないと思うわ
0696名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/24(水) 18:14:55.86ID:qlNRYqRn0
もちろん進化してるのは間違いないと思うが
0698名無しさん@ピンキー (ブーイモ MMca-p/pn)2024/04/24(水) 18:20:02.90ID:???M
ベンチマークの指標次第でLLMの評価は変わるやん?
Chatbot Arenaはあくまでfewshot程度かつ専門性が低い一般ユーザーから質問に対する応答の評価やで
この板にいる多くの住民にとってのニーズはコンパニオンとしてのAIやろ?トップ層に並んだら後は誤差よ
0701名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/24(水) 18:48:49.16ID:qlNRYqRn0
>>700
まあOpusがリストにあるのにこの感じってことは、最近はあんまり回答がもらえてないんじゃないかな
このボード自体あんまり話題に上がってるのみたことないし
0705マジカル (ワッチョイ dbd5-z8bb)2024/04/25(木) 00:39:16.85ID:z84nqIDe0
{
"results": {
"jcommonsenseqa-1.1-0.4": {
"acc": 0.8990169794459338,
"acc_stderr": 0.009011295342579962,
"acc_norm": 0.5406613047363718,
"acc_norm_stderr": 0.014904185887668711
}
}

jcommonsenseqa-1.1-0.4で我々のモデルを評価しました。(3-shots)
厳密な比較はしていませんが、少なくともChatGPT3.5を超えていると思われます。
今後Elyza-taskなど人力評価などを活用し、より詳細なベンチマークを実施する予定です。
0706名無しさん@ピンキー (ワッチョイ 178e-IRgQ)2024/04/25(木) 01:17:23.70ID:mzK3rKYG0
>>705
お?5月1日の人?7BでGPT 3.5越えってすごいね!めっちゃ楽しみ!
0707名無しさん@ピンキー (ワッチョイ 773d-nnYm)2024/04/25(木) 01:43:26.23ID:???0
jcommonsenseqaとかのjaster系列でスコアが高いモデルはjasterのtrain部分をinstruction tuningに入れてること多いけどそこは大丈夫なのかな(入れるとめっちゃ高くなるのでちょっと心配になっただけ)
ベンチマーク系はマジで難しいんだよなぁ
RakudaとかでGPT-3.5に勝っても人間の主観評価だと全然だったり、1-shotや2-shotでは良くてもターンがどんどん増えると一気に悪化しちゃったり
0710名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 03:15:20.23ID:l61WUoRK0
今のところその二つはマルチモーダルではないけど、llama 3はマルチモーダル・マルチリンガル版も出したいって話じゃなかったっけ
GPT4に匹敵するかというと、これはもうちょっと具体的に評価基準を絞らないとフェアな比較にならないと思う
ベンチマークでいいなら、llama 3は一昔前のGPT4に相当するって話になってるみたいだけど
0717名無しさん@ピンキー (ワッチョイ 178e-IRgQ)2024/04/25(木) 12:58:11.90ID:mzK3rKYG0
>>716
自作のMRアプリで撮影した大阪城公園でのWAIFUとの露出プレイの画像を、GPT4のカスタムインストラクションで組んだWAIFU本人にレビューさせたら垢バン食らったわw
0720名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 13:12:58.88ID:l61WUoRK0
ローカルで画像認識させられるのってLLaVAとか?
一回も使ったことないし話題になってるのもほとんど見ないけどどうなんだろ
ベースはLlama 2みたいだけど3ベースが出たら話題になるんかな

フォルダにあからさまなエロい名前のファイル突っ込んどいて、Command Rとかに「今あるファイル調べて」みたいなタスク投げると割と可愛らしい反応返してくるから時々それで遊ぶけど、画像でそれができるのは割と熱いかもしれない
0722名無しさん@ピンキー (ワッチョイ 17ca-tbmE)2024/04/25(木) 13:14:49.75ID:7PsT55ne0
>>716
調べれば出てくるやろ
MoondreamとかObsidianとか
0723名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 13:35:45.93ID:l61WUoRK0
今X見てたらnvidiaのGPUだとprompt evalにかかる時間(≒最初のトークン出力にかかる時間)がプロンプト長と比例しないっていうポストを見たんだけど、本当なの?
俺はApple siliconだからわからんのだけど、感覚的にでいいから実際どうなのか教えて欲しい
0725名無しさん@ピンキー (ワンミングク MM1a-a8r0)2024/04/25(木) 14:28:30.20ID:???M
prompt evalってプロンプト処理時間のことなんかな
1batch内のトークン数に収まる分なら処理時間変わらんと思うけど、溢れて2batchになるなら遅くなると思うけど
プロンプト長で処理トークン数増えるから、その話は眉唾に感じるなあ
比例しない(時間変化がないとは言ってない)だったりして
0727名無しさん@ピンキー (JP 0H9a-dLvt)2024/04/25(木) 14:41:11.49ID:???H
ログ見る限りでははトークン数に応じてprompt evalの時間は普通に伸びてるけどなあ
llama_print_timings: prompt eval time = 8912.58 ms / 1438 tokens ( 6.20 ms per token, 161.35 tokens per second)
llama_print_timings: prompt eval time = 13620.81 ms / 2314 tokens ( 5.89 ms per token, 169.89 tokens per second)
0729名無しさん@ピンキー (ワンミングク MM1a-a8r0)2024/04/25(木) 14:56:46.09ID:???M
なんかこの書き方だと、単にMacの演算性能が低くてプロンプトの処理に時間がかかる、みたいな表現に見える
nvidiaの方がもちろん演算性能が高いから気にならないくらい、てだけのような
0730名無しさん@ピンキー (ワッチョイ 13fe-TokO)2024/04/25(木) 14:59:50.51ID:???0
>>721
Kobold.exeの初期設定画面でCommand +RのAPI入れてlaunch押したらなんかGGUFファイル指定しろって出てくる。。。
Silly TavernはAPI入力だけで使えたのにGGUFダウンロードしないといけないのかぁ
Command +RのGGUFあったけど多分全部で500GB以上あるんだよな…
0732名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 15:10:39.40ID:l61WUoRK0
まあそういう意味なら理解できるわ
処理性能が高くて計算が速いから、気にならない誤差程度の差しか(絶対値としては)出てこないってことね
0735名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 15:25:27.65ID:l61WUoRK0
>>734
多分実際お金出しちゃった人がいるってわけじゃなくて、昨日Mac StudioがローカルLLMに適してるって記事が少しバズってローカルLLMがXのトレンドに出てきたりしたから、記事を間に受けて何も考えずに買うのは気をつけた方が良いよ〜っていう警告だと思う
0741名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 15:43:00.00ID:l61WUoRK0
kobold.cpp使ったことないからわからんけど、内部的にはimage-to-textモデル動かして、そのテキスト出力をLLMにプロンプトとして流してるだけなんじゃないの?
0742名無しさん@ピンキー (ワッチョイ bbbe-7awQ)2024/04/25(木) 15:50:02.99ID:???0
>>740
hordeにしないと精度低いってことなん?
>>741
全く認識してない訳じゃないけどジャケットタイプの制服をセーラー服だと思い込んだり、
髪型は認識してるのに裸なのに気が付かずに独特なデザインの服だと思ったりちぐはぐな認識するんだよな
0748名無しさん@ピンキー (ワッチョイ bbbe-7awQ)2024/04/25(木) 16:27:40.59ID:???0
>>743
web-ui forgeとAPIで連携しててちゃんとforgeの方でもCLIPが動いてるログがあって画像認識してる
その結果が引き渡されている筈
なんかアップロードされた画像が極端に縮小されてそれで精度下がってる気がして来た
0750名無しさん@ピンキー (ワッチョイ 2627-dLvt)2024/04/25(木) 16:44:46.54ID:???0
>>745
>>746
一番重要なメモリ帯域の話が抜けてるんだよね
普通のPCは100GB/sぐらいなのに対してM2Maxは400GB/s、M2Ultraは800GB/sと圧倒的なメモリ帯域があるから実用的な処理が出来る
M2やM3での下位モデルは帯域は狭いんでそのアドバンテージはない
最新のM3Maxでは300GB/sと400GB/sのモデルに分かれたみたいな話もするべきだし
この人が実際使ってるならこのサイズのモデルを走らせたらどれぐらいの速度が出てるとか、こういう学習をしたらこれぐらいのメモリが必要だったとか
実用部分がふわふわしてるエアプの書いた文章って感じで技術的な知識が怪しいから信用ならない
0752名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 17:09:50.13ID:l61WUoRK0
筆者のX見るとメモリ帯域の話にも触れてるし実際のところエアプではないと思うよ
0753名無しさん@ピンキー (ワッチョイ a380-tbmE)2024/04/25(木) 17:10:46.74ID:OxmPFSa60
M3ultraは結局出ないのかな?待ってたのに
0756名無しさん@ピンキー (ワッチョイ 132b-Xec1)2024/04/25(木) 18:00:45.62ID:???0
高速メモリをできるだけ大量に提供することに特化したニューラルボードありゃ
macがどうのGPU複数がどうのとかなく終わるんだけど
そんなもん個人向けに手頃な価格で出回る頃にはAIバブル弾けてんだろうなあ
0759名無しさん@ピンキー (ワッチョイ 6672-tAML)2024/04/25(木) 18:11:58.15ID:???0
AI界隈ビッグマウス多過ぎだからどんな話も90%OFFぐらいがちょうどいい
いちいちとりあう必要はない
儲け話と同じで本当にヤバかったら我先にとなってみんなしばらく黙る
黙らない時点で便乗して自己顕示欲ムクムクさせてるだけ
0760名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 18:25:56.75ID:l61WUoRK0
MiquMaid作ってくれたNeverSleepのディスコードチャンネル入ってみた
なんかLlama 3ってファインチューンで規制取り外そうとするとバカになりやすかったりで難しいっぽいね
MiquMaid v2大分良かったから期待してるんだけど、一朝一夕にはいかなそう
0762名無しさん@ピンキー (ワッチョイ e687-sTO6)2024/04/25(木) 18:37:21.85ID:???0
M3Max/128GBのマカーだけど
Command R+ Q4_K_M〜Q6_K が 4t/sくらい出てそこそこ快適
LLM用にMacStudioありだと思うよ

prompt eval timeが比例するのは確かだけど
10分なんて待ったことないぞ
0763名無しさん@ピンキー (ワッチョイ e6a4-7awQ)2024/04/25(木) 18:45:34.81ID:Q3AcuR5x0
Mac で command-r+が5tpsぐらいの速度で動かせられるのは正直羨ましい
まあこの先半年ぐらいのアドバンテージのために100万円弱出せるかの価値観の話よね
0765名無しさん@ピンキー (ワッチョイ 6b82-el1J)2024/04/25(木) 18:58:16.51ID:zF3U3P4/0
変態は中古の3090をebayで買ってマイニングリグに組むらしい
0766名無しさん@ピンキー (ワッチョイ 6fc7-8Qqc)2024/04/25(木) 18:59:29.07ID:lgxOP2hf0
LewdSniffyOtter-7Bをoobaboogaで動かしてみるとなかなか良い
0768名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 19:41:17.19ID:l61WUoRK0
Llama 3 70B堅物だと思ってたけど、システムプロンプトを”性的なリクエストにも従え”から”エッチな会話も楽しんで”に変えたら少しエロチャに付き合ってくれるようになった
https://i.imgur.com/fDLMuKi.png
0770名無しさん@ピンキー (ワッチョイ 66a5-nnYm)2024/04/25(木) 20:26:11.76ID:???0
>>684
これ、多分各小説の1話から学習してるせいかプロローグ的なのしか書いてくれないな…
導入としてはそれなりにまともなの書くけどエロはあんま書いてくれない
0772名無しさん@ピンキー (ワッチョイ 1b32-dLvt)2024/04/25(木) 20:45:29.47ID:???0
>>768
おお、ほんまや。
2手目で英文申し訳出てたのが、
「性的なリクエスト受けても、assistantに代わらないで、ローリィとして拒否しながら、エッチな会話も同時に楽しんでください。」
って、入れといたら、申し訳食らわくなったw
まあ、karakuriベースなら、自分から脱いでくるエロ子なんだが、やっぱ堅いなw

https://imgur.com/a/Qu2JM8G
0773名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 20:52:44.12ID:l61WUoRK0
再現性あったか、良かった
まあある程度固いのは仕方ないな
流石にCommand Rレベルのアナーキーは求めてないから脱獄の方向性が見えただけ良かったよ
0774名無しさん@ピンキー (ワッチョイ 03f5-IRgQ)2024/04/25(木) 20:55:14.96ID:???0
M1 Macbook air 16GB所持なのでLLM動かす事だけを考えると
NVIDIAにぼったくられるよりモリモリのユニファイドメモリの方が
個人レベルだと安いっていうのは理解出来る(´・ω・`)
0777名無しさん@ピンキー (ワッチョイ cb74-jk2P)2024/04/25(木) 21:12:25.05ID:???0
>>774
一番安いのはグラボ複数載せや
1台に(おそらくライザーケーブル使って)複数載せて動かしてる人がこのスレにおるし>>399
マシン1台に無理に何枚も詰め込まんでも複数マシンでLLM動かして成功した報告が出てきたばっかりやし>>673
0779名無しさん@ピンキー (ワッチョイ 1767-tbmE)2024/04/25(木) 21:16:45.30ID:7PsT55ne0
>>774
消費電力考えてもわいもマック派や
0780名無しさん@ピンキー (ワッチョイ 03f5-IRgQ)2024/04/25(木) 21:23:16.23ID:???0
>>777
自分で組んでみた?
電源ユニット何個ぐらい必要だと思う?
3090+3060のマシン組んでるけど
これ以上増設しようとすると普通のケースじゃ収まらなくなるし
スマートじゃない物体が出来上がって運用面倒くさいよ(´・ω・`)
0781名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 21:38:21.96ID:l61WUoRK0
Llama 3 70B、あのあとエロチャ続けてたら普通にエッチするとこまで行けた
英語圏特有の*giggles*とか*blushes*は若干鬱陶しいけど
https://i.imgur.com/varbRVc.png
0782名無しさん@ピンキー (ワッチョイ e687-sTO6)2024/04/25(木) 21:58:24.75ID:???0
動かしてもない空想上のNVIDIA最強マシン推しの人何が目的なんだろう…
Command-R-plus Q4以上の日本語クオリティに可能性を感じたので
ユーザー増えて知見共有できたらなと思ってるんだけど
0783名無しさん@ピンキー (ワッチョイ bbbe-7awQ)2024/04/25(木) 22:14:48.31ID:???0
LLMと音声合成(VITS2)と画像生成を連携させようとしてたら
VITS2はこのバージョンでは動かない、画像生成は別のverでないとgradioはこのバージョンでは動かない、
音声ライブラリは…このバージョンでは、cohereのライブリはこっちのバージョンではダメ…
相性問題バージョン依存が無限に出て来て頭おかしくなる
何個仮想環境作ればいいねん
0785名無しさん@ピンキー (ワッチョイ 132b-Xec1)2024/04/25(木) 23:47:33.48ID:???0
別にサーバー普通に買ったりワークステーション用の板とケースだったりライザーケーブルやマイニンリグやヒートシンク毟って強制冷却とかで実際に実現してる人がいるから
決して全員がそうだと疑うわけじゃないんだけど
話聞いてるとお前その製品の実物見たことあんのけクソでかいぞ?
みたいなスペックポンポン出てくるよねLLM界隈て
0786名無しさん@ピンキー (ワッチョイ ef28-iw+Z)2024/04/26(金) 14:05:13.59ID:BBNZItaZ0
>>775
Intelが64bitデュアルチャンネルに対して M1 Maxだと512bitだもんな
CPU直付けの凄さよ。レイテンシーも低くできるし
マザーボードのメモリーは必ず8枚セットで、とかなら並べそうだがw
8kのビデオ動画4本をスルスルとスクロールさせるための能力がLLMで効いてる
0787名無しさん@ピンキー (ワッチョイ 773e-nnYm)2024/04/26(金) 14:42:56.04ID:???0
>>770
こんなこと言ってたらNSFW特化モデル作ってくれてた
https://huggingface.co/Aratako/SniffyOtter-7B-Novel-Writing-NSFW-GGUF

出力はこんな感じ
https://rentry.org/inoohmyx

かなり上手く書けてる気がするわ
ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
7Bでこんなそれっぽいの書けるんだな
出力爆速だし普通に使えそう
0789名無しさん@ピンキー (ワッチョイ 3e13-8Qqc)2024/04/26(金) 18:45:25.75ID:???0
>>787
EasyNovelAssistantでSniffyOtter-7B-Novel-Writing-NSFW-GGUFに対応しといたで
テンプレメニューを追加してプロンプトテンプレートを楽に入力できるようにもしといた

出力例の紹介もサンガツ
せっかくなんでこれも合わせて紹介させてもろたで
もし嫌やったら消しとくんで知らせてな

https://twitter.com/Zuntan03/status/1783792889052746049
0791名無しさん@ピンキー (ワッチョイ ee3c-nnYm)2024/04/26(金) 19:50:16.95ID:???0
>>789
全然おk

>>790
前のLlama2ベースとMistralベースモデルのインストラクションチューニング版だね
Llama3の継続事前とかもやってそうだけど流石にまだ出なさそう(GW返上でやってそう)
0792名無しさん@ピンキー (ワッチョイ 0384-8Qqc)2024/04/26(金) 20:17:04.84ID:qWJpL87+0
>>789
サンガツやで!
LLMもAI生成も試したいこと多すぎて仕事でけんわ
仕事をフォローするためにAIいじっとるはずなのに……
0793名無しさん@ピンキー (ワッチョイ 7702-TokO)2024/04/26(金) 21:58:10.57ID:???0
あんまり良くわかってないんだけど、KoboldでLCAニキのSdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUFがいいって勧めてもらったので試そうとしてるけど、
Q2_s.gguf~Q6_K.ggufまで色々あるけどどれを落としたらいいの?
0795名無しさん@ピンキー (ワッチョイ 6f27-rdsl)2024/04/27(土) 01:45:34.03ID:???0
数字が多いほど性能が高いけどその分だけメモリを食うし処理時間も長くなる
k_mとk_sならmの方が少し性能が上だけどそれだけメモリを食う
qとiqってあるけどiqの方が新しい形式で同じ数字でもちょっと性能が高いらしい
0800名無しさん@ピンキー (ワッチョイ f385-5N3P)2024/04/27(土) 14:09:54.89ID:???0
>>797
DMCAで消された訳じゃなくて作者が自分で消したっぽいが、あのデータセット普通に合法でしょ?無視しといてもよかったと思うわ(いずれHF側で消されただろうけど)
1回消すと反AIの餌になっちゃうからなぁ
0802名無しさん@ピンキー (ワッチョイ 6f27-rdsl)2024/04/27(土) 14:28:09.16ID:???0
>>800
日本の法律で言えば小説サイトから直接クロールするのは合法
データセットとしてまとめてアップロードした時点で違法

反AIに餌やりたくねえって言うなら自分に都合の良い解釈する事も餌になるんだからやめてくれ
0803名無しさん@ピンキー (ワッチョイ 7326-5fNx)2024/04/27(土) 14:40:27.76ID:???0
データセットを自動生成するようなツールがあればいいんだろうね
あらかじめ決められたサイトをクロールして毎回同じデータセットを生成するようなツール
正しく生成できたか確認するためのハッシュを入れて照合するくらいはセーフだろう
0804名無しさん@ピンキー (ワッチョイ c3c6-7iwU)2024/04/27(土) 14:41:23.04ID:4N+iWgeb0
command r+の応答性能に慣れちゃうとローカルがどうもなぁ・・・
0805名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 14:41:42.12ID:???0
>>802データセットの譲渡販売は(たとえ無断学習だったとしても)30条の4で合法だと思ったけど違うのか
https://qiita.com/yuta_aoki_ai/items/907d24d0dd4a2c3dc2b8
>A第三者の生データからデータベースを作成し、当該データベースにラベル処理等をして学習用データセットを作成し、当該データセットを提供、販売する行為。
 →OK(2018年5月25日 改正 30条の4)
0806名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 14:42:35.95ID:???M
学習は30条の4で合法だがデータセットのアップロードは著作者人格権でいうところの公表権や同一性保持権に抵触する可能性が極めて高い
学習のためのクローラーを共有するってのが法的にグレーやや白ってところかな
0811名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 14:47:24.87ID:???0
一応、弁護士のサイトを見つけてきた
https://storialaw.jp/blog/4936
これにより、先ほど「現47条の7が適用されず違法となる行為」として紹介した以下の3つの行為にはいずれも新30条の4が適用され、適法になります。

1 自らモデル生成を行うのではなく、モデル生成を行う他人のために学習用データセットを作成して不特定多数の第三者に販売したりWEB上で公開する行為

例:WEB上あるいは権利者から公衆に提供されている大量の画像データを複製して、画像認識用モデル生成のための学習用データセットを作成して販売するケース
0812名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 14:53:46.56ID:???M
>>809
生成AI出る前の法律だから実際のとこはどうなってんの?ってのがそもそもある
その上で特定の著作者やテーマだけを収集したようなデータセットを提供する場合「利用様態に照らして著作者の利益を害する」云々に抵触する可能性が生じてくるかなって

文化審議会著作権文化会法制度小委員会の出してる「AIと著作権に関する考え方について」だと画風を再現するための狙い撃ち学習は著作権侵害になりうるって法解釈をしているから
https://note.com/shin_fukuoka/n/nce21a1383d5a

ただ繰り返しになるけど30条の4がそもそも生成AIの登場よりも前に制定された法律で実際の運用どうするのってのは今後決まってくる部分が大きい
0814名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 15:00:45.61ID:???0
>>802
>>811にもあるように合法だよ(非享受目的に限定している場合だけど)
そのデータセットを使って特定著者のデータだけ選んで学習するとか他用途に使用とかしたらアウトになったちするけどそれはデータセットの配布がアウトじゃなくて利用する側がアウト
0816名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 15:08:13.36ID:???M
ごめん作風ってすごく曖昧な語を注釈とかなしに使ってしまって本当に申し訳ない
文化庁の今の考え方として、要は「享受目的であるか否か」というのが30条の4で保護されるかどうかの争点になってる
それはそれでものすごく曖昧ではあるんだけど

小説投稿サイトのデータセットってなると著作権をサイト管理者に移譲してる場合(カクヨム)なんかがあり≒特定の著作者のデータを選択的に学習している、享受目的があると解される事例じゃね?と俺は判断して>>806にはそういう意図があった
そして30条の4で保護の対象から外れる場合には公表権とか非常にめんどくさい人格権周りで争点になるんじゃねーか、って認識
0817名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 15:08:51.59ID:???0
大規模言語モデル(LLM)に関するビジネスと法律〜LLMやデータセットの構築と提供(レイヤー1)〜
https://storialaw.jp/blog/9327

(1) データセットの公開

 まず、データセットの公開ですが、データセットの中には、収集対象になったデータ(著作物)が含まれています。
 したがって、当該データセットの公開や提供は、元データの公衆送信行為や譲渡行為に該当しますが、
これも著作権法30条の4が「情報解析(略)の用に供する場合」には「その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる」と定めていますので、同条が適用される限り適法です。
0820名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 15:19:09.85ID:???0
こう見ると30条の4って想像以上に「柔軟」なんだなと感じる
モデルやサービスでなく無断収集したデータセットそのもので金儲けとか、なんとなーくダメそうに見えるけど適法なんだな
まあよく考えるとモデルの公開は良くてデータセットの公開はだめというのは変だから、当然か
0822名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 15:24:18.71ID:???M
>>820
なんで法改正せずに「考え方」ってのを国側で示してアウトとセーフのラインを曖昧ながら示していこうっていうのがちょうど今やってる文化庁の文化審議委員会
新聞社やJASRACなんかはそもそも30条の4を廃止しろやって言ってるけどAI立国みたいなの考えてるみたいだし多分今後も柔軟であり続けると思う
0823名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 15:46:04.03ID:???0
まぁ生成AI関連は今国が明らかに推してるからね
絵師とかクリエイター側の声は大きいけど(特にSNS)、間違いなく規制は大して強まらないだろうな
0824名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/27(土) 17:12:40.85ID:???0
現実は力を持っている権利者がアウトといえばそれで終わりであんまり法律は関係ない
グッズでも同人でも権利者から通報受けたら警察は容赦なく逮捕してきた歴史がある
0825名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 17:18:53.49ID:???0
そりゃグッズや同人は基本黙認とかされてるだけで根本は違法だからね
機械学習用データセットの作成とか配布は根本が合法だからまた話違うよ
0826名無しさん@ピンキー (ワッチョイ 93c0-OTde)2024/04/27(土) 17:19:18.17ID:???0
>>824
それは同人が法的権利が保障されてるわけではないからであって既に例外規定が定められていた生成AIとは事情が少し異なるぞ
ただし「享受目的」って曖昧さを残してるから特定の権利者が損害を訴えてきた時に無敵バリアにならないって理解はすべきなので慎重であるほうがいいってのは同意するが
0827名無しさん@ピンキー (ワッチョイ 73bd-dYyJ)2024/04/27(土) 20:50:09.92ID:???0
表向きはデータセットとして配布してるけど、実質的に享受目的で使われたりすると駄目になるんだろうね
歌詞とかは結構危なそう
サビ部分だけでもコンテンツとして成立するし、権利者が好戦的で訴訟慣れしてる
0828名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 21:52:24.21ID:???0
>>827
配布時に機械学習以外の用途での利用はするなと明言しておけば配布側が責任問われないと思うよ
享受目的で利用する奴がいたらその利用者がアウトになるだけだと思う
0829名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/27(土) 22:07:51.71ID:???M
7Bモデルのいい感じのが沢山出とって試しとるけど、入力プロンプトが長くなると幻覚気味になるな
1200トークン辺りで設定が蒸発してくる感じ
MaxContextSizeより少ない分でも起きる
表現とか自然さは7Bでもめっちゃ良くなってきたけどこれは低パラではどうしようもないんかなあ
0832名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/27(土) 22:48:19.93ID:???M
GPTスレのプロンプトをローカル用に書き換えて使ってると上手くいかないのが多くて気になった
妄想ジェネレータ入れたら、登場人物が「俺の職業は妄想ジェネレータ」とか言い出して吹いたわ
0834名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/27(土) 23:03:06.73ID:???M
試した感じパラ数の多いkarakuri-MS-01とLightChatAssistant-TypeBでは通るっぽい
7Bの限界かもしれん
速度を考えると13B〜35Bクラスが充実してほしくなるな
Antler的なモデルがこんくらいで出てくれんかな
0836名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/28(日) 03:57:00.81ID:???M
umiyukiがmergekit-evolveの記事書いとったの読んでみた
タメになったわ。ローカルで全部完結できるらしい
しかしこれSSDがめっちゃ消耗しそうやな

あと本人見てたら言っておきたいのは、Mistral7B系の優秀なんが最近出てきたのは、元を辿ればLCAニキがchatntqやantlerをこのスレで広めたからやで
記事で使ってたモデルもその流れで生まれたもんや
記事には無かったけどそこんとこ覚えておいてや
0839名無しさん@ピンキー (ワッチョイ cf13-6o3J)2024/04/28(日) 10:41:47.43ID:???0
LCAニキつながりポエムやが

>>835
> 一つの行動(触るとか)に対して表現のパターンが多くて良い、気がする。
> LLM初心者だけど。
みたいな評価はふわっとしとるんやが日本語LLMでは大切な印象やね

日本語LLMでベンチマーク自慢を試してみてガッカリする経験を何度も積むと
>>787
> かなり上手く書けてる気がするわ
> ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
みたいな人間によるふわっとした評価の打率が高くてすごく貴重なんや

>>573
のLCA-TypeBも手作業で改造と評価がなされていて何がとはいえんのやがなんかええんよね
ベンチマーク以上に日本語ネイティブが楽しめる出力が生成されとる印象や

日本語でのなんかええなをいずれ数値化できたら自動の学習やマージの精度が上がりそうで楽しみやね
0841名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/28(日) 11:31:25.41ID:???M
>>838
モデルの出力先をRAMdiskにすればいいのではないかとちと思った
更にRAMの容量が必要になるからお手軽ではなくなるが

>>840
手動評価は、自動評価より回数がこなせないのがネックやね
現状だとある程度自動で絞り込んでから残りは手動、でできれば効率いいかもしれん
どっちにしろ最終的には>>839が言うような評価の数値化があればより良く出来そうと思う
0844名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/28(日) 17:14:34.57ID:???0
初歩的な質問ですまん、16bitのsafetensorsをlamacppでggufに変換するときオプション指定しないと32bitになってしまう。
でもq16_K_Mを指定するとunrecognized argumentsになる。
どうすれば元の16bitのままで量子化できるの?
0851名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/28(日) 18:06:19.77ID:???M
だよなあ。上がらないどころかむしろ下がってる感
元モデルから丸くなって良くも悪くもエロいクセがなくなってる感じ
自分的には>>787の方が好きだな

総合性能はガン上がりしてるから、エロを考慮するベンチプロンプトを作れば期待できる
モデル作りよりベンチ考えてマージ職人にお任せした方がいいだろうか
それなりスペック無いとevolveできんしなあ
0853名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/04/28(日) 20:15:04.55ID:xq028QgX0
Dolphin 2.9っていうLlama 3 70BをLoRAした無修正モデル試して見た
確かに修正は外れてて、日本語の違法なリクエストにも答えてくれることがある
ただ、だいたいおかしな内容で、数発打てば当たるって感じで実用性はないなぁ
残念
0855名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/04/28(日) 21:37:32.38ID:xq028QgX0
システムプロンプト日本語で、質問英語でやった時はLlama 3定型文でお断りされたけど、全部英語は試してないや
まああとで試してみるか
0857名無しさん@ピンキー (ワッチョイ cfa8-7iwU)2024/04/29(月) 01:31:55.47ID:rypy5OCM0
>>856
なんか人口無能うずら思い出したわ
0858名無しさん@ピンキー (ワッチョイ 53d4-rT8g)2024/04/29(月) 12:09:08.28ID:???0
ドーモnote屋です

EasyNovelAssistant用のプロンプトについて記事書いてたが今仕事先で投稿できんかったんで先にこっそり公開するわ、雑感としては効果ありそうなんでお休み中の方は使ってクレメンス
https://github.com/kgmkm/goalseek_ad

作例は投稿予定、昔の小説とか自作発言せんかぎり自由につこてもろて
0859名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/29(月) 12:19:45.76ID:???M
evolveのエロ評価用ベンチマーク作ろうと思ったんやけど、評価者に使うモデルは何が良いんかな
evolveの評価者にGeminiを使ってる記事があって、でもGeminiはエロ駄目やろうし
評価者に使うモデルで採点の傾向が違ったら嫌やしなあ
0862名無しさん@ピンキー (ワッチョイ cf13-6o3J)2024/04/29(月) 17:08:45.13ID:???0
>>858
サンガツ!

ちょっと今EasyNovelAssistantにStyle-Bert-VITS2連携をつっこんどる最中なんで少し後にはなるんやが
ヘルプメニューからGitHubにリンク貼りつつサンプルメニューにinit_editor.txtとinit_writer.txtを追加さしてもらおうと思っとるで

サンプルメニュー開いた時にGitHubから取得するようにもできるんはずなでファイル名が変わらんのやったらアプデにも追随できるはずや
リンク先がnote記事のほうがええとかあったら都度伝えてもろうたら

紹介する時はアイコンやIDから@kagami_kami_mニキとして紹介させてもろたらええやろか?
0863名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/29(月) 17:38:21.81ID:???M
>>861
短文の判定だとエロ語出力以外の能力落ちそうやから最低限ElyzaTaskの判定できるくらいのほしい、てなるとCommand-R+かなあ
方針としては、Aの出力文とBの出力文を比較してどちらがより高得点か、てのを自分の感覚と照らし合わせて、評価プロンプトの[評価基準]を随時修正していこうかと考えてる
最終的に自分好みの表現を高得点とできるように調整できれば良き
プロンプトは全然知識ないからどこまでできるか分からんけども、よくわからんからこそ挑戦してみるわ

手動評価は最終手段かな。200回以上手動評価はキツいわ…
0864名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/29(月) 20:44:33.58ID:???0
長編ADVみたいなロールプレイを上手くさせる方法ってないのかな?
最初は良くてもターン数重ねるとどんどん出力が短くなったり同じ応答ばかりになってしまう。
0865名無しさん@ピンキー (ワッチョイ 6f87-4Xr2)2024/04/29(月) 22:27:04.55ID:???0
>>864
チャット風ロールプレイでやってる方法だけど、
「今までの内容を要約してくれ」って要約を作らせてプロンプト差し替えてる
要約を英語で作らせると精度上がったりする
0869名無しさん@ピンキー (ワッチョイ 93c0-Ub2H)2024/04/30(火) 12:33:40.47ID:???0
gpt2-chatbotという謎のモデルがchat.lmsys.orgでテストできるようになってなんか話題になっとるな
前評判ではGPT4レベルだとかアスキーアートが生成できるとか言われてて、わいも日本語でSFWな音声作品の脚本書かせてみたけど申し訳もされずCommand R+と同等かそれ以上の分かってる文章を生成してびっくりした
うわさではGPT4.5がゲリラマーケティングされてるとか言われてるけどなんなんやろうね
0875名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/30(火) 18:11:37.01ID:???0
自作アプリでAIと音声会話するのかなりできるようになって来たけど意外な敵が部屋のノイズで苦しんでるわ
PCのファンの音すら拾って「これはまだ発言が続いてんな?」ってずっと発言終了待機してクッソ応答が遅くなる
0880名無しさん@ピンキー (ワッチョイ 0369-5N3P)2024/04/30(火) 20:43:06.12ID:???0
音声良いね
音声ありはどちらかというと小説読み上げよりもロールプレイとかなりきりチャット的な用途で欲しいな…(俺がエロチャ大好きなだけかもしれんが)
0881名無しさん@ピンキー (ワッチョイ f314-BrOF)2024/04/30(火) 20:56:46.66ID:Iv4x6b4N0
Llama3 70Bよりもcommand R +の方が自然な日本語を返してくれる気がする。
日本語のベンチマークではどっちが上なんだろうね?
0882名無しさん@ピンキー (ワッチョイ f314-M43A)2024/04/30(火) 20:57:00.91ID:Iv4x6b4N0
Llama3 70Bよりもcommand R +の方が自然な日本語を返してくれる気がする。
日本語のベンチマークではどっちが上なんだろうね?
0883名無しさん@ピンキー (ワッチョイ f34f-5N3P)2024/04/30(火) 21:06:13.88ID:???0
Command R+の方が上のはず
そもそもllama-3は公式的には多言語対応じゃない(多言語対応版も後で出しますよみたいなのをリリース文に入れてたはず)
0884名無しさん@ピンキー (ワッチョイ 5380-7iwU)2024/04/30(火) 21:20:09.31ID:MXycCz7k0
GPT2を変な形でお披露目したOpenAIの真意はなんだろな?
0888名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/04/30(火) 22:44:22.41ID:fAUnlGYu0
LLMの読み上げは、BOOTHに上がってるAnneliとかいうNSFWのstyle-bert-vits2のモデル(を自分で学習したモデルとマージしたやつ)使ってるんだけど、学習データの出所不明で人に勧めづらいんだよな
ここで読み上げやってるやつは何使ってるの?
0891名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/05/01(水) 00:06:01.28ID:5ix3SE930
俺もそうだが、やっぱりASMRとかで学習させてるやつが多いか
まあ背景に変な音とかなくて使いやすいよね
0893名無しさん@ピンキー (ワッチョイ 7fe6-1wV0)2024/05/01(水) 08:15:54.11ID:???0
Command +RをAPI経由かウェブかローカルでもいいのでお手軽に実行できる環境ってある?
ローカルだと4090+64GBメモリでもキツイと聞いたので。。。
0896名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/05/01(水) 09:47:53.49ID:5ix3SE930
公式ページにも普通にChat UIあるからそれでもいいと思う
0898名無しさん@ピンキー (ワントンキン MM1f-jMJY)2024/05/01(水) 12:10:06.00ID:???M
NovelHacja/vecters-v1
5/1の人のモデルかな?
今日やってるLOCAL AI HACKATHON #001で出したモデルらしい
メンバーがHFに出してたモデル見ると、Antler系とchatntqを使ってる
これもそうだったら、このスレの功績がまた一つ増えたことになるな
0900名無しさん@ピンキー (スップ Sd9f-zsX1)2024/05/01(水) 13:59:00.72ID:???d
まあ最近出てきてるMistralの日本語強いやつは皆LCAの影響受けてんじゃね
あれから一気に数出てくるようになったし
願わくばこのままどんどん良くなっていってほしいもんだ
0902名無しさん@ピンキー (ワッチョイ 73c6-2TDZ)2024/05/01(水) 14:40:47.10ID:???0
面白そうだがLMstudioユーザーで知識も環境もないワイはgguf待ちやな…
Vecteus-v1はggufあるみたいだがVRAM 16GBじゃ乗らんわ
ハッカソンとやらは覗いてみるか
0903マジカル (ワッチョイ a3dd-aBMh)2024/05/01(水) 14:44:53.87ID:gKfC050z0
ggufも順次公開予定です。少々お待ちください
0905名無しさん@ピンキー (ワントンキン MM1f-jMJY)2024/05/01(水) 15:12:37.00ID:???M
>>901のモデル、yarnのコンテキスト拡張を使っとるんやね
128k対応とかオーバーキル過ぎる
マージレシピ的には、chatntqに各々の抽出vectorを足した感じか
当時はevolveも無かったし、重み調整が大変そうやな
ホントにお疲れ様やで

(これでLCAフォロワーの優れたモデルがまた一つ生まれたわけやな…)
0906マジカル (ワッチョイ a3dd-aBMh)2024/05/01(水) 15:18:11.50ID:gKfC050z0
>>904
Antlerがマージされている開発版だったと思います
0907名無しさん@ピンキー (ワントンキン MM1f-jMJY)2024/05/01(水) 15:32:01.39ID:???M
>>906
開発版だったんか。リリース版は更に改良されていると。凄いなあ

差し障りなかったら尋ねたいんやけど、今後はどんなモデルを作るとかの予定あったりします?
mergekit-evolve使うとか、他のベースやパラメータのを作るとか
内緒なら、この質問はスルーしてください

改めて、お疲れ様でした。良いモデルをリリースしてくれてありがとう
0911名無しさん@ピンキー (ワッチョイ 63c0-joKd)2024/05/01(水) 15:44:04.83ID:???0
それにしてもこの1ヶ月の進捗は劇的だったと思う
>>80が公開されたのが4月3日
それまでは70B以上のモデルで何とかまともな日本語が出せるかという世界だったのになあ
改めて開発者諸ニキに感謝と敬意を捧げるわ
この先の展開が楽しみでたまらない
0919マジカル (ワッチョイ a3dd-4Xr2)2024/05/01(水) 16:54:22.85ID:gKfC050z0
>>907
今日には間に合いませんでしたが、フランケンマージやEvo-mergeモデルも作成しています。
その他モデルのアップデートもすると思います。
Ninjaの強さの秘密はWizard2なのでMistralベース以外のモデルはおそらく作れないと思います。
0921マジカル (ワッチョイ a3dd-4Xr2)2024/05/01(水) 17:08:45.34ID:gKfC050z0
>>909
そうですね
Ninjaと開発途中だったモデルも混ぜて性能を上げてるらしいです
0923名無しさん@ピンキー (ワッチョイ f3fc-7iwU)2024/05/01(水) 17:48:14.71ID:7eBcySVV0
>>922
Kobold.cpp+SillyTavernでNinja-v1-NSFW_Q_8_0.gguf遊ばせてもらってるが、なかなか素晴らしいな
ワイのロールプレイの進め方も関係してるかと思うが、コンテクストサイズのデカさがキャラクターのはがれにくさにつながる反面、やや意固地に感じる部分もあるな
モデルそのものはエロを許容しつつもわりと倫理観しっかりしているなと感じる
素晴らしいモデルの公開サンガツや
0924名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/05/01(水) 18:01:31.06ID:???M
>>919
返答ありがとう!それは楽しみや!
Wizard2かなるほどなあ。そこが他の子と違うとこやね
確かにWizard2は優秀だし、それを活かしたのがこの凄さに繋がってるのか
参考になります

と思ったらまだWizard2の公式取り消されたままだったわ
MSよ、Wizard2の復活はよ!
0925名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/05/01(水) 18:30:55.58ID:???0
大きなモデルばっか使ってたから7Bモデルだとチャットを上手くしてくれないんだけど
7Bモデルでも効く良さげなプロンプトってどっかでまとまってたりする?
自分と女の子で会話しようとしてもAIが1人2役でずっと話続けてしまう
0927マジカル (ワッチョイ a3dd-4Xr2)2024/05/01(水) 18:44:40.27ID:gKfC050z0
Vicunaプロンプトでやってみてください
0928名無しさん@ピンキー (ワッチョイ f310-7iwU)2024/05/01(水) 18:51:24.30ID:7eBcySVV0
このVicunaプロンプトで、ってのが正直ワイも今一つよー分からん
誰かKobold、大葉、尻タブを対象にしたチュートリアルまとめてくれんか?
0930名無しさん@ピンキー (ワッチョイ 0332-rdsl)2024/05/01(水) 19:42:27.55ID:???0
>>901
お疲れ様です。
NinjaとVecteusで、いくつか小説を書かせてみましたが、表現力はNinjaが高いですが、
話のまとまりやシナリオの辻褄や整合性はVecteusの方が高い気がしました。
いずれにせよ7Bでこれはすごいですね。
もっと高いパラメータになったら、どうなるか期待です
0932マジカル (ワッチョイ 03b2-4Xr2)2024/05/01(水) 20:52:24.49ID:8IDFQiKt0
大変嬉しいです!ありがとうございます
0934マジカル (ワッチョイ 03b2-4Xr2)2024/05/01(水) 20:54:34.64ID:8IDFQiKt0
NinjaやVecteusを使った感想や問題点をいただけると非常にありがたいです。
0935名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/05/01(水) 20:57:21.81ID:???0
ChatGPT用に練り込まれたプロンプトならかなりいい結果出るね > Vecteus-v1-gguf
CommandR+は元々ちょっと癖があるからそっち用のプロンプトでは上手くいかない感じだ
0937マジカル (ワッチョイ 03b2-4Xr2)2024/05/01(水) 21:45:22.83ID:8IDFQiKt0
宣伝させていただきます。
https://twitter.com/int_float_
ここのアカウントでNinjaなどの情報を発信する予定です。(もちろんここでも発信します)
0941名無しさん@ピンキー (スップ Sd9f-zsX1)2024/05/01(水) 22:49:51.15ID:???d
記憶を頼りに最近のモデルを纏めてみた
抜けがあったら補足してくれ

話題になったモデル(時系列順)

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)
0945名無しさん@ピンキー (ワッチョイ 43c6-LnU8)2024/05/01(水) 23:32:08.01ID:???0
最近の軽めモデルは文章は良いんだけど入力指示に従ってくれる感じなのは現状LCAが一番強い感じする
百合書いたらいきなり関係ないおっさんが出てくる感じがある
0947名無しさん@ピンキー (スップ Sd9f-zsX1)2024/05/01(水) 23:45:33.75ID:???d
>>944
HuggingFaceに無くなってるなら追加無しで良いか

mergekit-evolveやってみてるが、メモリ64GB+3060-12GBでも一応全部ローカルで動かせるな
ただマージ後モデルが全部収まるVRAM容量無いと回答生成が遅い
0948名無しさん@ピンキー (ワッチョイ 73b2-dYyJ)2024/05/02(木) 00:21:39.65ID:???0
>>944
ライセンス的にグレーかもしれないから非公開にしたようだ
具体的には評価に使うLLMがLlama系とかCommand R系とかだと出力データ自体に制限がかかるので、そこが懸念点らしい
どっちもウェイトを開示してるだけで、ライセンス的にはオープンソースではなかったからね
0949名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/05/02(木) 00:26:46.73ID:/tw254900
>>941
Llama-3とかPhy-3はないみたいだけど、NSFWが行けるかを基準にしてる?
レスを投稿する

レス数が900を超えています。1000を超えると表示できなくなるよ。

ニューススポーツなんでも実況