なんJLLM部避難所

発見

検索

板一覧

設定

「ハッキング」から「今晩のおかず」までを手広くカバーする巨大掲示板群『５ちゃんねる』へようこそ！

使い方を見る

トップページ⇒オナテク(仮)＠bbspink掲示板

949コメント385KB

なんJLLM部避難所

レス数が900を超えています。1000を超えると表示できなくなるよ。

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0002名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:50:26.11ID:???0

初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)ここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

0003名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:52:49.51ID:???0

日本語特化モデル作ってるとこのまとめ
https://huggingface.co/pfnet
https://huggingface.co/stabilityai
https://huggingface.co/elyza
https://huggingface.co/cyberagent
https://huggingface.co/rinna
https://huggingface.co/llm-jp

0004名無しさん＠ピンキー (ﾜｯﾁｮｲ cf32-3PPy)

2023/12/17(日) 21:53:42.32ID:???0

おつー
ここも20制限あり？

0005名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:00:16.52ID:???0

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki

0006名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:01:22.12ID:???0

今期待の日本語特化モデル

TheBloke/japanese-stablelm-instruct-beta-70B-GGUF ・ Hugging Face
https://huggingface.co/TheBloke/japanese-stablelm-instruct-beta-70B-GGUF

0007名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:01:56.06ID:???0

oobabooga/text-generation-webui
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui

0008名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:02:23.54ID:???0

stabilityai/japanese-stablelm-instruct-gamma-7b
比較的小サイズで高性能なおすすめの日本語モデルやで
https://huggingface.co/stabilityai/japanese-stablelm-instruct-gamma-7b

0009名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:02:48.96ID:???0

●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

0010名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:03:14.11ID:???0

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

0011名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:03:36.26ID:???0

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで

0012名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:03:58.23ID:???0

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

0013名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:04:27.41ID:???0

高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで

0014名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:04:40.05ID:???0

モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで

0015名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:04:54.47ID:???0

70Bの大型モデルはLlama 2というMeta社が開発したモデルが元になってるものが多いで
メモリが48GB以上あれば動くけど、速度はかなり遅いで

0016名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:05:06.50ID:???0

18：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ ff79-XI6K)：2023/11/11(土) 11:13:26.81 ID:0B0rgEfx0
ドライバやミドルウェア周りのインストールがだいたいこんな感じ
https://rentry.co/rd9xf/raw
python3.11を別途入れて基本的にそっちを使っていく

0017名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:05:18.42ID:???0

7：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ ff7a-EFnx)：2023/11/11(土) 10:54:35.49 ID:Gp6hELJv0
日本語特化モデル以外のおすすめ。これもはっとこ

更新の速い世界だからお勧めモデルも逐次変わっていくけど取りあえず前スレ後半で話題になってたモデルたち(たぶんまだある)
総合力高い系：
Xwin-LM-70B
upstage-Llama2-70B (=poeのSOLOR)
あとは古典だがwizardLMとかairoboros系もまだまだいける
エロ特化系：
spicyboros
Kimiko
Mythomax

0018名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:05:32.75ID:???0

10 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ 7f1d-ZlS5) sage 2023/11/11(土) 11:00:57.86 ID:DSO3hy+d0
Koboldcpp+ggufで動かす時に必要なメインメモリの目安
7Bモデル -> 8GB
13Bモデル -> 16GB
33Bモデル -> 32GB
70Bモデル -> 64GB
180Bモデル -> いっぱい

0019名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:06:49.64ID:???0

導入の参考に

Kobold.cppで小説っぽいのを作る
https://w.atwiki.jp/localmlhub/pages/19.html
Kobold.cppでAIとチャットしてみる
https://w.atwiki.jp/localmlhub/pages/20.html

0020名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:07:47.65ID:???0

24 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ ff7a-EFnx) 2023/11/11(土) 11:24:55.41 ID:Gp6hELJv0
長い事kobold使ってて、バージョンアップの度に上書きしてたんだが、
いつの間にか推奨セッティングが大きく変わってることに気付いた！

>使用するのに適した既定値は、Top-P=0.92、RepPen=1.1、Temperature=0.7、およびサンプラーの次数 [6,0,1,3,4,2,5] で、それ以外はすべて無効 (デフォルト) のままにします。
>デフォルトの[6,0,1,3,4,2,5]から変更することは、出力が非常に悪くなる可能性があるため、強くお勧めしません。

だそうなんで、長い事使ってる人は、一度セッティングをReset all settingボタンでクリアしとくことをお勧めする

0021名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM5f-2ZAr)

2024/02/20(火) 12:51:24.84ID:???M

もしかして日本でローカルllmチャットで遊んでるの自分だけかというほど無風な気がしてる

0022名無しさん＠ピンキー (ﾜｯﾁｮｲ 9332-eqlr)

2024/02/20(火) 16:21:42.11ID:???0

ここは避難所だからｗ
本スレ行きなされ

0023名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp0f-QfA5)

2024/03/16(土) 07:53:30.70ID:???p

tes

0024名無しさん＠ピンキー (ﾜｯﾁｮｲ 8749-5GeV)

2024/03/16(土) 11:11:21.10ID:???0

本スレ死んでるな

0025名無しさん＠ピンキー (ﾜｯﾁｮｲ c711-DUyd)

2024/03/16(土) 12:59:04.10ID:iqepmufp0

次スレ立てた

0026名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b14-gVJy)

2024/03/16(土) 20:23:32.27ID:???0

この規模だったらもういっそ移住しちゃえば？
一定の勢いある板スクリプトで使い物にならんし

0027名無しさん＠ピンキー (ﾜｯﾁｮｲ fb95-5GeV)

2024/03/16(土) 20:34:42.11ID:???0

俺もそう思う

0028名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/16(土) 20:54:20.99ID:???0

早々にスクリプト来てやがる

0029名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b4d-lINt)

2024/03/16(土) 23:58:29.82ID:???0

移住するとしたらどこ？

0030名無しさん＠ピンキー (ﾜｯﾁｮｲ 57b5-ACJr)

2024/03/17(日) 00:03:12.81ID:???0

ここじゃ駄目なん？

0031名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/20(水) 15:26:47.23ID:???0

動画撮ったぞ。
スクリプトで流れるの嫌なので、保管用にこっちに書くね。
６分くらい撮ったけど、60秒以内にしろって怒られたから切り貼り編集したけど、体感は分かると思う
ローカルに期待して64Gメモリ買ったけど、こんなスピードじゃ抜けんぞっ！って怒られる前にｗ
よく見ると分かると思うけど、基本１トークン全角１文字だけど、文によっては１トークン３～４文字出力してる。
これが日本語対応のトークナイザーのおかげなんだな
英語モデルで日本語書かせると、１トークン半角１文字、つまり全角１文字で２トークンもかかるから、激遅になる

https://imgur.com/a/SvIMoFl

i7 7700K + rtx3080ti メモリ64G
この化石ＰＣ以上なら、スピードはもっと期待できると思うよ（グラボはあまり関係ないけどVram12Gは欲しい）

ちなみに、ローリィの画像は、ローリィにお前の姿をＳＤで描くから、自分のプロンプトを書けって指示して書かせたものを
そのままＳＤにぶち込んで生成したｗ

0032名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/20(水) 15:28:26.70ID:???0

ああ、↑の感想や意見は本スレの方に頼むね

0033名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/20(水) 19:31:20.74ID:???0

↑重要な事を書き忘れてたので追記

使っているモデルは、Q6_k という64Gメモリでギリギリ動かせる量子化モデルで一番重たいやつ
だから、Q4_k_m とかなら、精度はやや落ちるけど、もっと速くなる
動画はモデル名も撮ってたんだけど、60秒にするために切り取ってた

0034名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fc5-6GLF)

2024/03/20(水) 21:57:36.02ID:nCB+9jEE0

LLM部も避難所あったんか、主な情報ここのニキらから得てるから助かるわ

0035名無しさん＠ピンキー (ﾜｯﾁｮｲ bb7d-2Hj1)

2024/03/28(木) 22:17:06.29ID:???0

もうこっちでいいだろ

0036名無しさん＠ピンキー (ﾜｯﾁｮｲ 6342-mfFe)

2024/03/28(木) 22:36:03.62ID:???0

ログ漁ったら8割グロとか嫌やん？

0037名無しさん＠ピンキー (ﾜｯﾁｮｲ 8744-0o/Z)

2024/03/29(金) 01:49:51.63ID:???0

構わないよ

0038名無しさん＠ピンキー (ﾜｯﾁｮｲ 1eb5-1OiZ)

2024/03/29(金) 06:45:48.52ID:???0

進化的アルゴリズムによる基盤モデルの構築
https://sakana.ai/evolutionary-model-merge-jp/

これが個人のPCで出来るようになったら盛り上がりそう

0039名無しさん＠ピンキー (ﾜｯﾁｮｲ 63ba-Qu5W)

2024/03/29(金) 18:48:33.38ID:???0

本スレ503へのレスだけど、
ツールは何使ってる？大葉？

koboldを日本語モデルで長文出力できてる人いたら設定教えてオクレ
今はinstractモードで
max tokens 最大
amount to gen 最大
他は初期値でやってる
英語モデルはこれで十分なんだが

0040名無しさん＠ピンキー (ﾜｯﾁｮｲ 63ba-Qu5W)

2024/03/29(金) 18:55:25.17ID:???0

本スレ504へのレス

とりあえずq4 k mで試した
メモリ32Gでも乗ると思うよ

0041名無しさん＠ピンキー (ﾜｯﾁｮｲ 87b7-0o/Z)

2024/03/29(金) 19:48:10.94ID:???0

なるほど
ちょっと俺も試してみるありがとう

0042名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f11-WdHl)

2024/03/29(金) 22:36:17.94ID:0+xOxA3r0

>>39
ツールはllama-cpp-python使ってるよ

0043名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f5e-moi/)

2024/03/30(土) 07:54:11.00ID:???0

karakuri70bを1ビット量子化で試した
0.9t/sとヘボpcでも速くはなったが(6Qなら0.5t/s)やはり劣化が無視できないレベルだ
そこへいくとcommand-rは6Qで1t/s以上叩き出すし性能はkarakuriに匹敵する(特にエロw)
これ量子化次第ではvram20Gくらいあればgpuフルロードできるからチャットでも十分使える速度になるんじゃないかな？
性能はcohereと同じだから使ってる人なら分かると思う

0044名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fa7-q9+D)

2024/03/30(土) 08:50:57.93ID:???0

>>42
ありがとう
Python赤ちゃんだから敷居高そうだね
手順書いてくれてるサイトあるから腰据えてやってみるわ
（といいつつkoboldを起動してしまう）

0045名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/03/30(土) 09:17:58.78ID:GNvq1wKq0

>>44
あんまりこのスレでは需要なさそうだけど、Python使えるとLLMでパソコン操作できるようになってできることの幅拡がるから、是非こっちの世界にもきてくれ

0046名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/03/30(土) 20:34:30.69ID:GNvq1wKq0

1.58bitの再現モデル(3Bまで)上がってるね
https://huggingface.co/1bitLLM/bitnet_b1_58-large

0047名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/03/31(日) 21:20:59.25ID:BapgGA9yd

Mistralベースが気になって日本語が達者な小さいモデルをいろいろ試してみてたんだけど、以下のモデルが7Bで結構良いの出してくれた

NTQAI/chatntq-ja-7b-v1.0
例のテストプロンプトを出力した結果:
https://rentry.org/4pztendu

Q8_0でも7.2GBなので速度は速く、VRAMオフロードもフルにしやすい
使ってみた個人的所感としてはサイズの小さいkarakuriみたいな印象を受けた

0048名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bf7-XxRK)

2024/03/31(日) 21:36:33.21ID:???0

はえー参考になるわ

0049名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f7d-Q0e0)

2024/03/31(日) 22:05:14.02ID:???0

tabbyAPI (exllamav2-0.0.16) でturboderp/command-r-v01-35B-exl2 3.75bpw をロードできた
oobabooga/text-generation-webuiはexllamav2のバージョンが古いせいかロードできない
VRAM消費がmax_seq_len=4000で32GBなので消費量が多い気がする
ちょっと調べたら、GQAを使ってないからコンテキストに使うVRAMが多いようなことが書かれていた → https://zeux.io/2024/03/15/llm-inference-sol/
日本語性能は既に言われているとおり良さそうな感じ

0050名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/03/31(日) 22:20:40.40ID:luYcF9RI0

command-r使ってると、なんかチャットの最後に唐突に記号とかシステム系のトークン出力すること多くない(#とか<!―とか)？
出力をjsonとかで構造化すると抑制できるからとりあえずそうしてるけど
webui使ったことないからわからんけど、そういうのだと裏で走ってるプロンプトで上手くやってるのかな

0051名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-OIDP)

2024/04/01(月) 06:24:53.60ID:???0

hugでggufの最新順でみてたら、703bのmodelを発見
なにかの誤記かな？と思ったらホンマだった
240bなんかはあるの見かけたけど、もはや家庭用とかそんなチャチなものじゃないんだな

0052名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/01(月) 11:19:43.13ID:???0

>>51
abacaj/phi-2-super
こいつをフランケンマージしまくったのか
作者も再生でんやろｗ

xverse/XVERSE-65B-Chat-GGUF
こっちはモデル自体は4か月前と古いけど、最近ようやくllama.cppが対応して量子化できたんだが・・・
日本語性能かなりいい！
karakuriの出る２ヵ月前に、こんなものが出てたとは・・・
量子化が早かったら祭りになってたレベル

0053名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/01(月) 12:17:48.09ID:Ix0xQs0e0

今って日本語使えるローカルモデルで最高性能のやつってこのスレ的にコンセンサスあるんかな？
まだkarakuri推してるやつが多いのかな

0054名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-moi/)

2024/04/01(月) 12:59:32.09ID:???0

>>53
ん？
karakuri以外になんかある？

0055名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/01(月) 13:03:48.80ID:Ix0xQs0e0

個人的にはcommand-r推してるのと、最近だとSwallow 8x7とかao-karasuとか？
まあ最後のやつは微妙って言う意見の方が多いと思うけど

0056名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-moi/)

2024/04/01(月) 13:07:03.33ID:???0

ああcommand-rはスピード面でもかなりいいね
はよkobold対応してくれんかなぁ　

0057名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f86-6cSz)

2024/04/01(月) 13:22:36.68ID:MrxdVkCc0

rakutenAI

0058名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b14-969t)

2024/04/01(月) 13:25:48.32ID:???0

command-rは初めて聞いたな
swallow 8x7Bは微妙ってよく聞くから避けてたけど
動かしてみるか・・・

0059名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f86-6cSz)

2024/04/01(月) 14:19:39.91ID:MrxdVkCc0

privateLLM(Mac•iOS )で今日rakutenAI-7b-chatが入れられたから試してみてくれ　開発者に頼み込んで入れてもらった

0060名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f86-6cSz)

2024/04/01(月) 15:16:19.60ID:MrxdVkCc0

自分で試したらGPT4ALLにgguf突っ込んんだ方が精度良かったわ...
日本語モデルをOmniQuantで扱うのはまだ無理ということか

0061名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/01(月) 17:05:09.66ID:hvSu9GSod

>>58
aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
Swallow8x7Bは本家よりこっちがおすすめ

出力例
https://rentry.org/3fuq49ct

0062名無しさん＠ピンキー (ﾜｯﾁｮｲ 4baa-oxdg)

2024/04/01(月) 23:18:25.67ID:???0

MixtralベースのSwallowはInstruction Tuning版が公式から出るの待つのが良いんじゃない

0063名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f5c-Q0e0)

2024/04/02(火) 03:09:24.83ID:???0

oobabooga/text-generation-webuiでcommand-rを使うなら、このissueが参考になりそう
https://github.com/oobabooga/text-generation-webui/issues/5762

0064名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/02(火) 08:06:28.32ID:kiLZihx60

>>59
rakuten AIについて書いてるけど実際どう？
7Bと高を括っててあんまり使う気無かったんだけど、話ぶりだと意外と良かったりするのかな？

0065名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/02(火) 15:56:51.71ID:???0

command-rでimatrix.dat作れた人いる？
なんか途中で止まってしまう。（tokenizing the inputの辺）
koboldで動かせるようになったんで、i-quants で量子化して
vram12Gでもフルロードできるようにしたいんだけど

0066名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 02:14:13.94ID:1MfM6C64d

Mistral7Bベースのモデルをいじくって良い感じのものができた！ので投下
日本語対応の7BをChatVectorで対話能力上げて、mergekitでフランケンMoEにしてみた
以下、ダウンロードリンクです(pCloud)

https://u.pcloud.link/publink/show?code=kZLvUz0Z1JHO9j2jnH7f7kvD2Mt0bkWfGr5y

出力例(いつものプロンプト)
https://rentry.org/do22ubeg

特徴としては、
・Contextが32kまで対応
・モデルサイズが小さくContextSize32kでもVRAM12GBでフルオフロード可能、高速
・ざっと試した感じでは日本が流暢
・ノベルを書かせると強いかも
・素材に使ったモデルの影響でエロエロな文章を書きたがるｗ

良さげなのできてテンション上がってたが、さすがに疲れた…寝ます…

0067名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b7a-+3Pw)

2024/04/03(水) 04:58:11.04ID:???0

これは驚いた７Ｂとは思えないほどだ
少し試しただけだけど、日本語がまともだ・・・

0068名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-eoXq)

2024/04/03(水) 06:22:35.72ID:uDta8W680

あらら…試そうかと思ったらダウンロードできなかった、残念
ChatVectorの調べてみたら興味深いな
70bモデルあたりじゃないとだめかと思ってggufでスペック不足で挫折したけど、軽量モデルでもいいなら遊べそう

0069名無しさん＠ピンキー (ﾜｯﾁｮｲ cb79-ElCo)

2024/04/03(水) 06:32:20.53ID:???0

>>66
Chat Vector、興味があって色々試してるけど
instとbaseで引いたChat Vectorと既存モデルの重みを足してる感じ？
シンプルに足すのと、元の論文にもある0.5の割合で足すのとか
以下でやったような層ごとに最適比率を進化戦略で出したとか、色々あってどれが良いかわからん
https://huggingface.co/napopoa32/swallow-hermes-st-v1

0070名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 07:37:28.23ID:1MfM6C64d

うお、トラフィック集中でダウンロード制限されるんか
おはようございます
どこかいいアプロダかクラウドないものだろうか

>>69
うちは>>61がいい感じだったので参考にして、0.8掛けして足しました

0071名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 07:53:50.71ID:???0

>>66
pCloud無課金だとダウンロードできんかった
huggingfaceに上げてくだされー

0072名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bdb-oxdg)

2024/04/03(水) 09:59:17.05ID:???0

Chat VectorっていわゆるTask Vectorだよね？（MergekitでいうTask Arithmetic）
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな？面白いわ

0073名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 10:27:44.40ID:???0

>>66
見よう見まねで差分マージ試したけど、トークナイザー関連は元のモデルからコピーすればいいのかな？
cp_model.save_pretrained("G:/merge/CVtest01")
だと、トークナイザーは作られなかった

あと、0.8掛けって
chat_vector = 0.8 * inst_model.state_dict()[k] - base_model.state_dict()[k]
こんな感じですればいいん？

パイソン初心者なんでよくわからん
できればpyファイルも公開してくれるとありがたい

0074名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 13:18:54.17ID:1MfM6C64d

需要あるかわからんからサクッと必要な人に提供して終わりにしようと思ってたけど、ありそうなのでhuggingfaceに登録してみる(ダウンロード数を見てビビったｗ)
夜にする予定なので少々お待ちを

>>72
そうそう。今回だと (Mistral7Binst - Mistral7B) を日本語可能モデルに加算処理した
実際に出力を比較したら明確に対話能力が向上して自分も驚いた

>>73
tokenizer関係は日本語可能モデルから流用した
0.8掛けは、new_vの代入式をnew_v = v + ( 0.8 * chat_vector.to(v.device) )　に変更した
詳しくはhuggingfaceにpy含めやったことを全て書く予定なのでお待ちください
(と言っても大したことはしてないと思う)

0075名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 13:23:51.29ID:1MfM6C64d

書き忘れてたけど、今回MoEの素材にしたのは以下2モデルのChatVectorしたやつ

NTQAI/chatntq-ja-7b-v1.0
Elizezen/Antler-7B

特にAntler-7Bが(エロ)ノベル生成能力高くて凄い
自前でできる人は是非試してみてくれ

0076名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bee-iwwG)

2024/04/03(水) 13:31:26.27ID:???0

>>75
サンキュー、週末にでもためしてみる

0077名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 13:49:52.53ID:???0

>>74
ありがとう！
待ってますー

0078名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 14:04:35.41ID:???0

しかし、pCloudって、買い切りもあるんだな。
こっちにも興味惹かれるわｗ

0079名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-k+SB)

2024/04/03(水) 18:56:30.78ID:icC4hlB2M

絵のSDで言うnsfw-sfw差分マージとかコピー機Lora法みたいなことがLLMでも出来るってこと？

0080名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 19:54:57.17ID:1MfM6C64d

お待たせ！huggingfaceに登録してアップロード完了したので公開します
今はGGUFだけ取り急ぎアップロードしています

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B　(モデルカードのみアップロード済)
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF

safetensorsの方はもうちょっと待ってくれ
モデルカードにやったことは全て書いてある(はず)ので、情報としては現状で出し切っているはず
参考になれば幸い

0081名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-OIDP)

2024/04/03(水) 20:08:37.00ID:???0

>>80
わざわざすみません
参考にさせていただきます

0082名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-eoXq)

2024/04/03(水) 21:08:38.80ID:0JWLeUr80

>>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう

0083名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/03(水) 21:13:23.14ID:???0

GJ! そして感謝
試させてもらうよ！

0084名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/03(水) 21:43:42.07ID:???0

使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う

0085名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 21:47:01.95ID:???0

>>80
ありがとう！
STでのチャットの様子をオナニースレに投下しました（内容がちょっとアレなので(;´Д｀)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。

0086名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b7a-+3Pw)

2024/04/03(水) 21:50:13.79ID:???0

>>84
俺の言いたい事が先に言われてた

0087名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:06:54.85ID:???0

日本語エロやりとりのデータセットを集合知で作る話があったけど
これくらいのモデルをベースにしてもらうといいのかもな

0088名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f5a-Ygoy)

2024/04/03(水) 22:11:23.88ID:???0

もはやAI技術者やん

0089名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b59-2ZW3)

2024/04/03(水) 22:12:17.03ID:???0

>>87
商業モデル使ってるROM勢だけどそういう形で集合痴集めたいって話やるなら協力したいな

0090名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:24:42.37ID:???0

前もあったけど

「男のセリフ」「女のセリフ」

この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし

0091名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-RIgS)

2024/04/03(水) 22:26:45.08ID:???M

coboldばっかり使ってるんですが、皆さんはどのwebuiを使ってるんでしょうか
そもそもLLM用のwebuiがどのくらいあるのか把握しきれてないけど

0092名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:29:18.80ID:???0

7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし

そのために必要なのは喰わせるテキストってことよな

0093名無しさん＠ピンキー (ｽｯﾌﾟ Sdff-hs76)

2024/04/03(水) 22:31:29.78ID:???d

そこで例のデータセットですよ

0094名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 22:35:45.69ID:???0

正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Ｇでいけるか不安ｗ

0095名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:38:22.51ID:???0

メモリ64ならいけるでしょ
32だと厳しいだけで

0096名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b5b-qhHw)

2024/04/03(水) 22:39:45.56ID:???0

ローカルでLLM動かすソフトウェア聞くのここであってる？
LM StudioとText generation web入れてるけど情報少ないし
ここの主流を参考にしたい

0097名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:41:41.11ID:???0

kobold.cppで何も困らないしなあ
絵を出したい人はSillyTavernやろけど

0098名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 22:41:44.30ID:???0

>>95
7Bのモデルで試したが、３モデルの読み込みが必要だから、結構メモリ食ってた。
まあ、SSD空けて週末に試してみるわ

0099名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 22:49:03.87ID:1MfM6C64d

おお、予想より反響が！作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です

>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねｗ

このスレも結構人がいたんだな…

0100名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-eoXq)

2024/04/03(水) 23:02:17.40ID:0JWLeUr80

kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん

0101名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-k+SB)

2024/04/04(木) 00:15:55.70ID:7CBc0q770

apiで動かしてlibrechat派はいるんだろうか

0102名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/04(木) 00:20:04.98ID:SFg9G6gw0

多少敷居高いのは承知だけど、直にpython叩く勢がほぼいなくて悲しい
バックエンドが対応さえしてくれれば最新のモデルも割とすぐ使えるし、ツール組み合わせ放題なのに

0103名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f82-hhrs)

2024/04/04(木) 00:20:39.47ID:???0

人気なさそうだけど、CPUで処理するならllamafileというのが速いらしい。

0104名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/04(木) 00:24:27.56ID:???0

>>102
実は気にはなってるんだ。
どんなうひょーなことできるのか
具体的な使用例とか晒してくれると嬉しいんだが

0105名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/04(木) 00:31:56.54ID:SFg9G6gw0

>>104
一番わかりやすい所だと、style-bert-vits2でちょっとエッチなボイス学習させた音声合成モデル作ってLLMに喋らせたり、テキストと一緒に感情を生成させて立ち絵の表情とか音声の声色と連動させる、とかやってる

あと、LLMが書いたpythonコードを自動実行できるようにしてるから、普通にアシスタントとして使ったりしてる
トリッキーな内容だけど、LLMの判断でpythonの変数確保できるから、好感度パラメータみたいなのを作らせて、ギャルゲーシミュレーションみたいなことも（質はともかく）できるようになる

0106名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr7f-KEQi)

2024/04/04(木) 00:50:08.02ID:???r

デモを公開してくれてもええんやで？😤

0107名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/04(木) 00:56:43.50ID:SFg9G6gw0

今度動画でもあげてみようかな
コードの方はまあ、スパゲティになってるから需要があれば

0108名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b80-2OPG)

2024/04/04(木) 01:19:41.43ID:???0

やっぱエロは量より質なんか
そんで脱コンプラ

0109名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/04(木) 02:28:17.76ID:SFg9G6gw0

ちょっとデモとして思いついたやつ
服の枚数とか保持させてミニゲーム的な感じで野球拳やってみた
https://i.imgur.com/ttNbUbr.png

0110名無しさん＠ピンキー (ﾜｯﾁｮｲ 9be0-LdzR)

2024/04/04(木) 02:29:43.78ID:Xd35agVK0

青空文庫の吉川英治を全部読ませて欲しいわー
三国志演義での罵りあいも美しいんだよな

0111名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-mCjS)

2024/04/04(木) 02:44:44.55ID:???M

>>80
お疲れさまでした
3060でも使ってみたけど12GB勢には助かると思うのです
ところでtokenizerが合わないらしくtokenカウントがスワロー系の倍くらいに膨れちゃうんだけど
単純にctxの最大値8192とかにすればいいんですかね？

0112名無しさん＠ピンキー (ﾜｯﾁｮｲ cb79-ElCo)

2024/04/04(木) 06:39:39.17ID:???0

>>80
Swallow-MSで試してたけど、語彙拡張があるから、Chat Vectorの次元数違いで無理があるんではと思ってたんよね。
シンプルに語彙拡張無しの日本語FTモデルで足すのが、筋が良いやり方やったんかな。
やろうとしてたこと、既にやっててすごいわ。参考にさせてもらいます！

0113名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/04(木) 07:46:08.99ID:e1I1qEPtd

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B

こちらにも全部アップロードが完了したので報告

>>111
そう言ってもらえると作った甲斐があった
消費トークンがSwallow系の倍になるのは、日本語の語彙拡張が行われていないモデルの仕様です
今回のモデルは英語モデルからVocabが据え置きなので、Vocab拡張済みのSwallow系より消費トークンがどうしても増えてしまいます

>>112
自分は試してませんが、日本語語彙拡張済みモデルに適用したい場合は以下のページが参考になるかもしれません
https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4

0114名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/04(木) 07:53:20.67ID:e1I1qEPtd

>>111
あと今回のモデルはctxが最大32768まで対応している(つもり)なので、そちらで対応いただければと

0115名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/04(木) 08:39:15.94ID:???0

そういえばmergekitでMoEする時、2モデルしか使わない場合はpositive_promptとかに何書いても変わらないと思ってたけど合ってるかな
デフォだと2エキスパート必ず使うようになってるから、2モデルMoEだとgateの意味がなかったような

011696 (ｽﾌｯ Sdff-qhHw)

2024/04/04(木) 10:41:44.28ID:???d

情報どうも
webuiメインにやることにするわ

0117名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 12:03:43.24ID:???0

https://twitter.com/mutaguchi/status/1775548837786185862
なんか褒められてるけどこれもこのもオナテク板の住人なんかな

0118名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 13:58:40.41ID:???0

うみゆきまでこのスレを捕捉しとるやんけ
なんかこいつ露悪的なんだよなあ

0119名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b43-2OPG)

2024/04/04(木) 14:04:51.37ID:???0

あれは露悪じゃないんや
色んなものを隠せてないだけや

0120名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp7f-moi/)

2024/04/04(木) 14:14:34.29ID:???p

>>115
moeのpositive_promptって何に影響するのかよく分かってないんだが
あれは日本語にした方がいい事あるのかな？

0121名無しさん＠ピンキー (ﾜｯﾁｮｲ dfbf-eoXq)

2024/04/04(木) 14:31:13.22ID:ZuC/rh5R0

LLMの開発に興味あるんやけどどっから勉強すらええんや？
Pythonは少し書けるけど、AIとか機械学習とかの知識は今の所皆無や

0122名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 14:32:55.43ID:???0

開発と言っても幅が広すぎひんか
どういうレベルのことをやれるようになりたいかとか

0123名無しさん＠ピンキー (ﾜｯﾁｮｲ dfbf-eoXq)

2024/04/04(木) 14:37:33.38ID:ZuC/rh5R0

>>122
とりあえず規制回避したドスケベな日本語エロ小説を書けるような
LLMが欲しい

0124名無しさん＠ピンキー (ﾜｯﾁｮｲ 4baa-XxRK)

2024/04/04(木) 14:37:44.29ID:vl3Nntgi0

>>121
とりあえずTransformerを自分で実装してみて悪いことはないと思うで
https://zenn.dev/yukiyada/articles/59f3b820c52571

0125名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 14:39:35.42ID:???0

多分>>124はディープすぎるんちゃうかな……
そして>>123の目的は高すぎる気がする

0126名無しさん＠ピンキー (ﾜｯﾁｮｲ 4baa-XxRK)

2024/04/04(木) 14:43:37.87ID:vl3Nntgi0

うーん、まあFine-tuningとかモデルマージあたりの知識があればなんとかなるんちゃう？

0127名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b8f-tQsm)

2024/04/04(木) 15:05:27.62ID:???0

この板まで来ると『ChatGPTでオナニー』スレと被っとるような気がしてくるな
あっちはwebが多いけど

0128名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 15:15:48.33ID:???0

>>127
なんか色々ズレてる気がするで・・・
ここは派生スレやし元スレとはだいぶ中身がちゃうで

0129名無しさん＠ピンキー (ﾜｯﾁｮｲ fb8e-oun9)

2024/04/04(木) 15:59:55.50ID:???0

試させてもらうには
デカいRAMかVRAMがあるPCを用意して
>>2のkoboldに>>80ニキのggufモデルを読み込ませればええのかな
とりあえず動いた気がするわ

0130名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 16:00:55.96ID:???0

なんUのスレのりんな時代からずっと言われてたことやけど「このデータセットで
このサービス（orローカル）でこういうコードでFine-tuningをこうやったら
こういう風なデータができて出力はこういう風な感じでに成功したで！」っていう
事例がもうちょっとほしいのよな

ござる口調とかだけではちょっと

0131名無しさん＠ピンキー (ﾜｯﾁｮｲ fb8e-oun9)

2024/04/04(木) 16:16:05.47ID:RYURyKh10

https://i.imgur.com/PQkNtJI.jpeg
それでgenを大きくしたらとりあえず長い文章が出てくるようになった気がするわ
tokenも影響あるんかな

0132名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bf5-SNbJ)

2024/04/04(木) 16:17:57.62ID:???0

>>130
自分で事例を出すでござる(´・ω・`)

0133名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 16:18:29.84ID:???0

>>132
何度も失敗して挫折した上に金欠で遊んでいる場合じゃないでござる・・・

0134名無しさん＠ピンキー (ﾜｯﾁｮｲ fb4d-hs76)

2024/04/04(木) 16:24:27.07ID:???0

>>123
それはある意味最終目標やな

0135名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f7a-vaup)

2024/04/04(木) 16:39:05.01ID:???0

>>89
別のスレでエロチャットの学習用データ集めようとして頓挫してたけどこっちのスレで再挑戦するの？

0136名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 16:44:53.32ID:???0

まあすんなり上手くいくかは別にして旗艦になりそうなモデルが
5chの人間から出てきたのは大きいんちゃうかなって

暇つぶしでデータ作成に協力くらいはしようかなと思ってるわ
匿名性維持しつつ削除されないためにはrentryが一番ええんかなあ

0137名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMff-2ZW3)

2024/04/04(木) 17:27:02.37ID:???M

>>135
まさしくそっちのスレの住人で現時点でローカルに手を出してないしなんJも行かんからROM専やってるのよ
データの正規化とか音頭を取れるほど詳しくもないから何かやるなら協力できることがあるならその範囲で何かやりたいなってだけかな
将来的にはローカルに移行したいけどみんなの開拓の成果タダ乗りってのはちょっと気が引けるじゃん？

0138名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/04(木) 17:49:29.98ID:???0

>>120
どのエキスパートを使うかに影響する
例えばコード特化、数学特化、ロールプレイ特化、小説特化の4つでMoEする場合はそれぞれのPositive Promptに
「プログラムを書いてください」
「次の計算問題を解いてください」みたいに各モデルの得意なタスクとかを書くと、推論時の入力の意味をある程度解釈して適切にgatingしようとする
だけど、mergekitで2モデルでMoEする場合はデフォルトだと常に2モデル使うような設定で出力されるから、どんなgate_modeでも理論上変わらん…はず

0139名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/04(木) 18:50:39.51ID:???0

>>80
今更だがベースモデルの片方のNTQAI/chatntq-ja-7b-v1.0はすでにInstruction Tuning済みなのか
Instruction Tuning済みのモデルにMistral-instructのベクトル足して上手くいくってのも割とわけわからんな
NTQAI/chatntq-ja-7b-v1.0はそのまま、Antler-7BはChat Vector足してMoEとかも試した感じ？

0140名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMff-mCjS)

2024/04/04(木) 18:54:21.36ID:???M

先週マイニング用の4分岐のライザーカードasm1184を用意した
最初のモデルのロードは遅い、busロード80%(おそらく分岐チップの制約でマックス速度)
初期プロンプト流し込み、ジェネレート中はbusロード20%は超えなかった
これの意味するところはマイニングライザーでグラボ増やす形でもあまり問題はなさそう

0141名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b7a-q9+D)

2024/04/04(木) 19:06:44.47ID:???0

GPU4GBじゃさすがに厳しくなってきたなあ

0142名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 19:10:00.94ID:???0

3060買いなよ
画像生成もバンバンいけるぞ

0143名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b6f-XxRK)

2024/04/04(木) 19:54:26.72ID:???0

RADEONはここでも蚊帳の外？

0144名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bc6-R/WD)

2024/04/04(木) 20:12:15.76ID:???0

LLM用のデータセットの話題があったみたいだけど、npakaさんの昔のデータセットっていうか会話集みたいだったけど、
（スマホアプリの中で使った会話っぽかった）あれ改造１回試みたんだけど頓挫してるんだよね。
昔の女子高生の会話みたいなやつ。データ使ったの前過ぎてどこにあるか忘れた。多分削除してしまったと思う。
まだネットに落ちてるかな。全部読んでみたんだけど肝心の所が削除されてたんだけどね。

0145名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bc6-R/WD)

2024/04/04(木) 20:26:05.88ID:???0

使えるか使えないかは別として、まだあった。npakaさんの　あかねとーくっていう携帯アプリ？で使った会話。
https://github.com/npaka3/akane-talk

0146名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/04(木) 21:29:40.63ID:e1I1qEPtd

>>139
その組合せは試してない。理由としては以下のように進行したからです。

素のchatntq-ja-7bを試したが、こちらの指示通りに書かないことがある
→ChatVector適用するとどうなる？出力がおかしくなるか？求めるものに近づくか？
→ChatVector適用済モデル(MoE化前)で実験、好みの動作に近づいたと判断

なので適用済をMoEの素材にした。Antler-7Bも同様

今回の処理について自分が期待していたことは、

ChatVector: Instruct強化をすると、ユーザーの指示に従いやすくなったり、話を理解しやすくなるのではないか
MoE化: パラメータ数の増加による基本能力の向上と、7Bモデル同士の短所の補強及び長所の相乗効果(言葉合ってる？)

いろいろなモデルでマージしてしばらく遊んだ個人的経験から、上記2点の可能性を見たので試して、偶然できたのが今回のモデルです
LLMはkarakuriが公開されたころ(今年2月？)に触れたばかりで、理論的なことは正直さっぱりだったりする

0147名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b69-eoXq)

2024/04/04(木) 21:51:18.01ID:???0

ローカル勢でllama.cpp + LibreChat 勢をみたことないな。存在しないのか...

0148名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 00:01:23.50ID:???0

>>146
chatntqはMistral-instruct派生じゃなくてMistral-baseから改めてインストラクションチューニングされてるモデルだから加算しても上手く行ってる感じかな、面白い

0149名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 00:33:11.31ID:???0

llama.cppを最新版にしたらMoEしてMixtralになったものをquantizeしたモデルをKoboldcppでロードできなくなったんだがこれって対処法ある？
Koboldは最新のものにしたけどダメだった
経験者いたら教えてくれ
どうやらconvertするときの重みの名前の付け方が変わったっぽいが

0150名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 00:51:50.44ID:???0

>>149
どのモデル使った？

0151名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/05(金) 00:51:55.57ID:XJ7BCY1md

>>148
あ、確かに自社のデータセットでファインチューニングしたって書いてある
なるほどそれで二重にならなくて上手くいったのか…

そういやChatVectorしたかった理由で一番重要だった「Context32k対応」を忘れていたので、追加で
素のMistral系日本語モデルたちは32kまでじゃないんよ
これをしたかったからMistral系を漁っていたんだった

>>149
過去のバージョンにロールバックできれば…
git cloneで過去バージョンでコピーできないかな
しかしそんなことがあるのか。迂闊に最新にできないなあ

0152名無しさん＠ピンキー (ﾜｯﾁｮｲ fbbc-XxRK)

2024/04/05(金) 01:32:09.97ID:???0

CohereForAI/c4ai-command-r-plus
https://huggingface.co/CohereForAI/c4ai-command-r-plus

104Bはちょっと重いなあ
ここで試せる
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

0153名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-CG+a)

2024/04/05(金) 01:42:41.94ID:???M

4090が一個あれば、AIで遊ぶのにどれぐらいのことができますか?教えてください先輩

0154名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 01:45:41.38ID:???0

4090だけだと画像生成で無双できるやろけどLLMだとなあ……

>>80ニキのモデル動かすだけなら爆速やろから、それが進化して
13Bモデルとかになっても爆速にはなりそう

0155名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 01:50:23.76ID:???0

>>152
やっべ　かなりいいなこれ
IQ3XXSで量子化すればなんとか

0156名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 02:51:36.31ID:???0

動かせたニキがおったら環境教えてほしいわね
基本的にはMacじゃないと快適じゃなさそうやが・・・

0157名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/05(金) 07:02:27.53ID:???0

>>153
33Bくらいのモデルなら必要メモリ量が20GB前後なので、それだとちょうど4090にフルロードできて恩恵を実感できると思うが…
実際に話題になるモデルの多くは70Bクラスが中心なので、それだと4090といえどもフルロードはできない
溢れた分はCPU+RAMで動かすことになるので、そこが速度上のボトルネックになって、正直1070だろうが3060だろうが4090だろうがそれほど速度は変わらない(多少は変わるが劇遅→爆速で快適！とはならない)
勘違いしないで欲しいのは「4090程度じゃダメ」と否定しているのではなく、十分遊べるしそれなりの恩恵もある
ただ画像生成のような劇的な恩恵は無く、下位グラボじゃできなくて4090ならできるという場面はあまり無いよということ
現状はCPUとRAM側が重要

0158名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 08:01:41.15ID:???0

>>150
>>80のモデルを普通にQ6とかで量子化したけどダメだった
>>149
gitで過去バージョンに戻して再ビルドすれば良さそうだね

0159名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 08:01:59.77ID:???0

>>158
>>151だった

0160名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bf5-SNbJ)

2024/04/05(金) 08:43:22.79ID:???0

>>156
https://i.imgur.com/421LeM6.png

0161名無しさん＠ピンキー (ﾜｯﾁｮｲ fb4c-WvGX)

2024/04/05(金) 09:03:12.34ID:SnnzYuXf0

昨日公開された新しいモデル、日本語もちゃんと出ますね。
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

官能小説家としての能力を試したらいい感じでした。

0162名無しさん＠ピンキー (ﾜｯﾁｮｲ df75-eoXq)

2024/04/05(金) 09:13:28.78ID:ah2keZ830

流石にエロ小説をいきなり出すのは厳しいか……
何らかのキャラクターになり切って応答させる
とかの方が敷居は低い感じで良い？

0163名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 10:19:50.57ID:XKPqXMvA0

すごいなこいつ
うちのMac 64GBだと相当縮めないとダメだろうが・・・
そもそも小さい方のやつもめちゃくちゃ性能いいけど、日本語だけ学習させるより、多言語で学習させた方が能力落ちにくいとかあるのかな

0164名無しさん＠ピンキー (ﾜｯﾁｮｲ cb21-0Q84)

2024/04/05(金) 10:36:19.22ID:???0

そりゃそうだろ

0165名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 10:52:57.45ID:XKPqXMvA0

全般の能力に関しては納得できるんだけど、日本語単体の能力でみても日本語特化モデルより能力高い感じしない？

0166名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 10:54:58.20ID:XKPqXMvA0

ああ、でもそもそも世の中の日本語モデルは事前学習自体はほぼ英語ってのも影響してるか

0167名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr7f-ykjJ)

2024/04/05(金) 10:55:50.82ID:???r

くそっ、2年前の俺。
なぜあのとき3060tiの8Gを買ってしまったのか！
12Gのモデル買っておけば…悔やんでも悔やみきれないw

0168名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 10:59:02.20ID:???0

7Bモデルなら別にCPUで動かしてもそれまでちゃうかな
全然速度的に不満ないし

0169名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 11:04:39.94ID:???0

command-r+はまだllama.cppに完全対応してないっぽいね
通常の量子化もだけど、imatrixにしたいから、こっちの問題も解決してほしい（command-rでもまだ無理だったし）

0170名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bba-R/WD)

2024/04/05(金) 13:07:19.50ID:???0

そういえばデータセットはcommand r+とかに出力してもらえばいいのか。

0171名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 13:23:14.99ID:???0

動かせる環境がある奴ならな・・・
M2Macの奴がバンバン動かしてくれたらデータセットすごい速度でできるかも？

0172名無しさん＠ピンキー (ﾜｯﾁｮｲ fb4c-WvGX)

2024/04/05(金) 13:33:30.81ID:SnnzYuXf0

4bqのCMDR+がこのスピード、M2 Ultra欲しくなりますなぁ……。

https://twitter.com/awnihannun/status/1776081238467768493

しかし唐突なグリーンってのは何なんだw

0173名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 13:38:48.81ID:???0

はえーすっごい実用的速度・・・

0174名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 14:00:32.36ID:XKPqXMvA0

3bqならうちのmacでもギリギリ動かせそうだが、劣化が気になる

0175名無しさん＠ピンキー (ｽｯﾌﾟ Sdff-qhHw)

2024/04/05(金) 14:26:28.32ID:???d

>>162
WEB UIのキャラクター設定に学校の委員長入れたら頑なにエロ拒絶された
学校の部分消したらうまくいったので設定にもよるみたい

0176名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b02-oxdg)

2024/04/05(金) 16:58:45.20ID:???0

このリポジトリにKarakuriとCommand Rのベンチマーク結果乗ってるけど、ベンチマーク的にはCommand Rの方が上みたい
Plusじゃない方でこれだからPlusの日本語能力凄そう
https://huggingface.co/Aratako/c4ai-command-r-v01-japanese-instruct
https://huggingface.co/Aratako/karakuri-lm-chat-upscaled-103b-v0.1

0177名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b02-oxdg)

2024/04/05(金) 17:52:01.36ID:???0

そういや>>80の手法、0.8掛けて重み足してるけどそのままでいいのかな
直感的には1.8で割って元の分布に近づけたほうが良さそうな気がするんだが

0178名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b9f-qhHw)

2024/04/05(金) 18:41:43.97ID:???0

今CMRPのggufアップしてる最中っぽい人見つけた
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF

0179名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/05(金) 18:52:46.12ID:XJ7BCY1md

>>80のモデルの名前が長い、というのをいくつか見かけたのでもっと短い名前を付けようと思います
LightChatAssistant(LCA)って変更したので、今後huggingfaceを見る方は以下のリポジトリをご参照ください

Sdff-Ltba/LightChatAssistant-2x7B
Sdff-Ltba/LightChatAssistant-2x7B-GGUF

それと量子化版にもっと大きいbit数のものを随時上げていく予定です
手始めにQ6_K版を上げました。非iMatrixです
もっと精度劣化してないの欲しい！という方はこちらをどうぞー

0180名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 19:25:32.58ID:???0

>>179
乙です
時に、そちらの環境では70Bの差分マージは可能でしょうか？
karakuri=miqumaid-llama を試しましたが、64Gでは無理でした

0181名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 19:40:49.29ID:???0

https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit/tree/main
4bit版が公開されたみたいやが・・・
これは大変なサイズやと思うよ

0182名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-k+SB)

2024/04/05(金) 19:44:22.47ID:zF4aX+1DM

メインメモリ128GB自体はまだ現実的
問題はその時の速度
Mac最強かな

0183名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/05(金) 19:47:14.01ID:???0

>>178
アップ終わった模様

0184名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/05(金) 19:50:24.81ID:XJ7BCY1md

>>180
ChatVectorですかね？やってみた…らブルースクリーンになったｗ久しぶりに見たｗ
メモリ96GBでは到底足りないようだ
1モデルだけで128GBあるからやはりきついみたい

0185名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 20:12:39.73ID:???0

>>184
やはり、無理ですかー
mergekitだと、70Ｂモデルのマージも64Ｇで余裕だから、そこらへん上手く処理してくれるのかな
Task Arithmeticを使ってできないだろうか

0186名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f92-oxdg)

2024/04/05(金) 20:15:25.66ID:???0

やるとしたらRunpodとかのサービスでクソデカサーバ借りてマージするとかかな
ダウンロードとかアップロードの時は小さいインスタンスにするようにすれば5ドルくらいでいけそう

0187名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fff-8Ub+)

2024/04/05(金) 20:31:26.79ID:???0

>>179
久々にローカルやってみようと思い、oobaでq6_kを試してみた
メインメモリ32Gの3060環境だけど、この精度でサクサクなのは、とても進化を感じたよ

0188名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 20:32:57.14ID:???0

32G+3060環境の奴多そうやな
うちもそう

0189名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bc4-aLVj)

2024/04/05(金) 20:39:56.39ID:???0

避難所これどこの板なんやろ防弾とかなんかな？と思ったらPINKで hentaiスレ一覧の中にポツンとあんの笑う

0190名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-OIDP)

2024/04/05(金) 20:41:58.91ID:???0

お隣さんも興味深いよｗ

0191名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 20:50:53.53ID:???0

女になりきってオナニーするスレ ★2
なんJLLM部避難所
男の射精見て興奮する奴 6

0192名無しさん＠ピンキー (ﾜｯﾁｮｲ 9b0c-dJ6t)

2024/04/05(金) 20:54:21.17ID:???0

しかもこのスレが一番勢いあるという
もう終わりだよこの板

0193名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b9f-qhHw)

2024/04/05(金) 20:55:59.95ID:???0

本スレの方はどうすんだ？　スクリプトが埋めると思うけど次スレはなしかね

0194名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 20:59:11.27ID:???0

誰か立てたら残る
そうじゃなきゃこのまま

今の5ch/pinkbbsは割と成り行き任せよ
このスレが日本のLLM知見の最先端になってもそれはそれで・・・

0195名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 21:47:09.49ID:???0

>>178
64GだとQ3までしか無理だなぁ
IQ3なら劣化も少なくすむのに

Aratako/c4ai-command-r-v01-japanese-instruct
こっちは、前モデルにファインチューンしたバージョン
スコア見る限り、かなり期待できそう
ダウンロード終わったら、Q6_kに量子化してkoboldで試してみるわ。
しかし、自前でファインチューンできる時代になったんだな
エロ特化にできんかな？ｗ

0196名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b1b-R/WD)

2024/04/05(金) 22:05:13.34ID:???0

light chat assistantでいつもの嫁を設定。エロ可能嫁完成。

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ fbfa-XxRK)

2024/04/05(金) 22:06:21.44ID:???0

>RunpodでGPUサーバを借り、A6000x4で学習を行いました。
RunpodのOn-Demandで$4.56/hrか…
データセットさえあればワンチャンありそう

0198名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qhHw)

2024/04/05(金) 22:06:29.54ID:???0

>>195
iq2上げてる人見つけたから、iq3お願いしてみた

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qhHw)

2024/04/05(金) 22:10:11.44ID:???0

今作ってる最中って返信きた

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b67-oxdg)

2024/04/05(金) 22:42:42.20ID:PBF0BZrG0

>>195
まともなデータセットで追加でファインチューニングすると逆にエロ悪化したりするからなぁ、どうだろう
試してみないと分からんが
>>199
俺もRAM64GB勢だからIQ3楽しみ

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 22:55:25.73ID:???0

Aratako/c4ai-command-r-v01-japanese-instruct
だめだ。エラーが解消できん。元のcommand-rは上手くできたのに
とりあえず作者様に量子化をお願いしてみた

>>199
見たら上がってた
早速落としてみる

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 23:33:41.42ID:???0

残念
command-rが動いた自前ビルドのkoboldでもplusは動かんかった

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 23:47:14.77ID:???0

ああ、ていうかアーキテクチャが違うのか
llama.cppが落ち着くまで待つか・・・

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-LHwO)

2024/04/06(土) 00:12:44.44ID:???0

llama.cpp server叩いたけどunknown architectureだね

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 00:16:53.20ID:???0

Add Command R Plus supportっていうPRが進行中だからもう少し待ちだね

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/06(土) 00:27:43.75ID:WE0RLjCc0

latest releaseが1時間前とかだからいけるかと思ったけどダメという
お預けですな

0207名無しさん＠ピンキー (ﾜｯﾁｮｲ 1282-ycXU)

2024/04/06(土) 00:28:32.95ID:???0

>>80
長文(1万トークンぐらい)の最初と真ん中に書いた事を質問したら、ちゃんと答えてきた。なんかすごい。

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 02:09:12.30ID:???0

KoboldcppのビルドがWindowsで上手くいかん
makeでやってもcmakeでやってもエラーになるわ
もっと頻繁にビルド済みの配ってくれねえかな

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ f67a-M/hT)

2024/04/06(土) 02:19:06.74ID:???0

オナテク板でKoboldcppをビルドする時代

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 02:55:13.62ID:???0

OPENBLASならビルドできたからこれで一旦満足するか…

0211名無しさん＠ピンキー (ﾜｯﾁｮｲ 4fc4-TfWo)

2024/04/06(土) 06:04:15.65ID:???0

LLMじゃなくて画像生成(SD)のほうだけどRunpodでA100 80gb使ったことある
24時間ぐらい回すぐらいなら5000円くらいで使えるので個人でもわりとイケる
が、ワイ的な問題としてはSDは実質的にsd-scriptsというリポジトリのが学習環境の定番になってるんだがLLMの定番がわからん点や
karakuriはmegatoron deepspeedなるものを使ったということはわかる

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 10:12:55.75ID:???0

>>149
これはどうやら↓の変更が原因みたい
https://github.com/ggerganov/llama.cpp/pull/6387

↓のコマンドでその手前に戻したら直ったわ
git reset —hard 52604860f93063ef98863921da697576af1c7665

0213名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 10:14:22.59ID:???0

>>211
事前学習は分からんけどインストラクションチューニングはLLM-jpの参考にすれば割と簡単にできると思う
https://github.com/llm-jp/llm-jp-sft
DPO用のも用意されてる
https://github.com/llm-jp/llm-jp-dpo

0214名無しさん＠ピンキー (ﾜｯﾁｮｲ 021e-hBD6)

2024/04/06(土) 10:59:06.63ID:IGDSh6PD0

>>80
めっちゃ楽しんでます、サンガツ！

chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF+Kobold.cpp+SillyTavernで遊びたいんやが、SillyTavernの方の設定＆キャラカードのプロンプトがイマイチわからん
この組み合わせで遊んでる民、どんな風に設定してるかおしえて

0215名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 11:23:08.35ID:???p

>>214
まずstの設定をkoboldと同じ設定に変更
キャラ設定はオナニースレのシルヴィを参考に入れ込んで自分好みにカスタマイズした
(小説機能とか省いて　口調のサンプルを追加とか)

0216名無しさん＠ピンキー (ﾜｯﾁｮｲ 021e-hBD6)

2024/04/06(土) 11:40:59.95ID:IGDSh6PD0

>>215
サンガツ
チャット楽しみたいんやが、なんかプレイヤー乗っ取られたり、余計なプロンプトが最後にぶら下がったりで置いてけぼりくらうんやけど、その辺はどうやって制御したらええんかな？

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 12:54:50.90ID:???0

2x7Bだからその辺りはある程度割り切るしかない気がする
ガッツリ設定入れ込んでちゃんとしたロールプレイするにはモデルサイズ的に厳しい

0218名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 12:56:01.34ID:???p

>>216
会話は◯◯のみ行う　とか　1センテンス以内にしろとか指示に入れてるが初手でダメならガチャしてる
あと指示はxml文で入れた方が理解度があがる　気がする　ここら辺はワイもまだ試行錯誤だわ

0219名無しさん＠ピンキー (ﾜｯﾁｮｲ f67a-M/hT)

2024/04/06(土) 13:42:26.57ID:???0

ローカルの最大の強みは返信を書き換えられることや
どんどん書き換えていけ

0220名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 14:12:16.95ID:???p

>>208
なんかkoboldの人は4/7まで休暇みたい
もうすぐビッグウェーブが来るでw

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/06(土) 14:52:48.02ID:???0

更新の間があいてるなと思ってた
期待するわ

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ 0298-hBD6)

2024/04/06(土) 15:26:29.60ID:IGDSh6PD0

>>215
オナニースレのシルヴィ探してるんやが見つからん
【Claude3】ChatGPTでオナニー ★29とかのテンプレ見るんじゃあかんのか？
>>217-219
ありがとな
修正出来るのは強みは活用せんとな
せっかく日本語で遊べるローカル出てきたからには尻タブ用の使い勝手のいい日本語テンプレプロンプト作らんとな

0223名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/06(土) 15:44:27.27ID:???p

>>222
シルヴィは伴奏ちゃんのキャラよ

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 16:18:23.05ID:PYnkc8ci0

避難所に案内されたわけですが、軽量でいいのがあるとのことですがどれのことなんだろう…

0225名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdd2-GiYb)

2024/04/06(土) 16:20:07.55ID:???d

>>80と>>179を見てもろて

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 17:17:13.41ID:PYnkc8ci0

>>225
ありがとうございます
これいくつか種類がありますけど何が違うんでしょうか…？

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c6-19vc)

2024/04/06(土) 17:56:56.52ID:???0

GGUFのQ4KMで良いかと

0228名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:06:42.64ID:???0

ここのニキらには不要っぽくはあるんやが
LightChatAssistantをKoboldCppで簡単にお試しする環境と解説を用意してみたで

https://github.com/Zuntan03/EasyLightChatAssistant

0229名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdd2-GiYb)

2024/04/06(土) 18:15:45.80ID:???d

>>228
ooba以外での動かし方も知りたかったので助かりますぜ…！

0230名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 18:18:33.28ID:PYnkc8ci0

最初q8のものを落として使ってみましたがVRAM15gb使ってたのでQ4kmってやつにしてみますね。
ただ日本語モデルということで日本語で入力してるんですが返答は英語で帰ってくるのはどうすればいいんでしょうか

0231名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:20:36.42ID:???0

>>230
まずは
>>228 を試してみるとええかもしらんで

0232名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 18:30:04.85ID:PYnkc8ci0

全部消して228のを入れようとしたらこういわれました
https://files.catbox.moe/vr2l4z.png
koboldcppだけ先に落としておいたら進んで、できたbatを実行したらまた証明書が～と出るのでこっちは起動までたどり着けないです…
comfyuiの時もこんなの出たことあったなぁ…

0233名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:40:47.81ID:???0

>>232
https://github.com/Zuntan03/EasyLightChatAssistant/raw/main/Install-EasyLightChatAssistant_SslNoRevoke.bat

SSLの証明書失効確認を飛ばすオプションを追加してみたこっちならいけるやろか？
拡張子 bat でローカル保存して、他の操作は一緒なはずや

0234名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 18:52:36.97ID:PYnkc8ci0

>>233
ダウンロードできたみたいです！サンガツ！
でもやっぱり英語で帰ってきてしまう…なんででしょう？
https://files.catbox.moe/ogijxs.png

0235名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 18:52:50.53ID:???0

>>233
ファイル名が変わっていたのに今対応したで
iq3xxs_imatrixと_imatrixが付いとったら正常なはずや

0236名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 18:54:45.50ID:???0

LightChatAssistantを別データセット使って追加でインストラクションチューニングするの試してみたんだが良くも悪くもまともになってしまった
出力の自然さは上がったけどエロさも同時に下がった感じ
Antler-7Bがインストラクションチューニングされていないエロ特化みたいなモデルだから、ファインチューニングするとそこを殺しちゃってる感じかなあ

0237名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 19:07:47.49ID:???0

>>234
以前にKoboldCppを使ったことがあって設定が残ってるとかやろか？
Settings-AdvancedにあるReset ALL Settingsして
Settings-BasicのMax Ctx.Tokensを32768にAmout to Gen.を512にする初期設定をやり直してみたらどうやろ？

0238名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 19:15:33.90ID:lxAnGvR5d

>>228
>>235
すごい！ご新規さんに優しい素晴らしいものをありがとうございます！
ファイル名をちょこちょこ変えてしまって申し訳ないです…
とりあえず予定していたものは上げ&修正終わったので、何かなければここから変わることはないはず

>>234
MemoryかWorldInfoに英文が入力されているのかな？
New Session→Keep Memory and World Info?のチェックオフ
でOKして試してみるとどうなります？

0239名無しさん＠ピンキー (ﾜｯﾁｮｲ b6c6-Hmna)

2024/04/06(土) 19:16:44.42ID:vN0Ur5yH0

話者の名前が英語になってるとそっちに釣られるとかあるで

0240名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-yyZt)

2024/04/06(土) 19:19:32.09ID:U2FfXq950

mlxでcommand r plus 4bit版動かしてるMac使いおらん？
M2 Max RAM96GBで動かしたんだが↓みたいにぶっ壊れたAIみたいな出力しか出さないんよね
誰か何か知ってたら教えてクレメンス

Prompt: hello
,
I have a problem with the "グリーン" color.
I have a "green" color in my palette, but when I use it, it is not the same color.
I have a "green" color in my palette,

0241名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 19:22:50.53ID:???0

LightChatAssistant使う用のガイドならInstruct Templateの変更にも触れておいた方がいいんじゃない？
Mistralベースだからフォーマットは[INST] [/INST]の方がいいはず

0242名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/06(土) 19:25:07.45ID:???0

>>240
MLXは使ったことないけどこれと同じかな？
ここに載ってるようにtransformersアップデートしたら直るかも

https://huggingface.co/CohereForAI/c4ai-command-r-plus/discussions/6

0243名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 19:25:15.89ID:PYnkc8ci0

日本語でお願いしますって言ったらたまーに日本語で返してくれますね…
>>238
やってみましたが相変わらずですね
>>239
話者ってどこで変えれるんでしょう…？
https://files.catbox.moe/9woqzo.png

0244名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 19:26:58.36ID:PYnkc8ci0

肝心なの忘れてた、コマンド画面だとその後も書いてあるんですがwebui上だとちょっと前で止まってるんですけどなんなんでしょうか…

0245名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 19:32:42.73ID:lxAnGvR5d

あとiQ3_SやiQ4_XSも精度劣化の低さの割にサイズが小さいのでおすすめ
量子化での精度劣化は以下ページの方が纏めてくださっていて、とても参考になります
一番下の「KL-divergence による量子化評価」のグラフがめっちゃ参考になった

https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547

>>243
うーん、こちらでは全量子化を日本語動作確認してるんだけどな…
私には解決できないようだ。誰か任せた

0246名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 19:40:50.83ID:???0

ワイの環境やとAllow Editingを有効にした際に{{[INPUT]}}と{{[OUTPUT]}}や[INST]と[/INST]があると英語になってしもうてる気がするで
どう案内するのが正解なんやろか？

0247名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 19:48:45.48ID:???0

>>243
ということで{{[INPUT]}}と{{[OUTPUT]}}を削除して生成したら日本語にならへんやろか？

0248名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 19:53:33.29ID:PYnkc8ci0

>>247
消したくても消せないというかなんでこれがついてるのかがわからない状況です。
241が言ってるのがそれなのかもとググっても全然わからんです…
あとなぜか最後の1行がwebui上には表示されないっぽいです

0249名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 20:02:17.61ID:lxAnGvR5d

ふむ、Instruct Tag Presetを変えて試してみたがどうやらVicuna以外にすると英語になったりならかったりするようだ
普段適当に「ME:」と「AI:」にしてたから分らんかった
ということでSettings→Instruct Tag PresetをVicunaにすると日本語にならないかな
(本当はMistralのチャットフォーマットの方が良いんだろうけど)

0250名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 20:05:15.30ID:lxAnGvR5d

それと最後の1行が出ないのは、Settings→Advanced→Trim Sentencesをオフで治らないかな

0251名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/06(土) 20:06:29.23ID:???M

訳わからんカット編集せずウィンドウ全体を貼ってくれw

0252名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 20:08:29.15ID:???0

>>241 指摘サンガツやで
Instruct Tag PresetをLlama 2 Chatにする案内を追加しといた
ただSettingをLlama 2 Chatにすると"stop_sequence": ["[INST]", "[/INST]"],は変わるんやが入力欄で入力すると{{[INPUT]}}と{{[OUTPUT]}}（Instruct Tag PresetのKobold AI Formatみたいなの）が入ってしまうんはKoboldCpp仕様なんやろか？

>>243
話者はWorld Infoなんで238の手順できえるはずやで

>>248
Allow Editingが有効なら一旦ABORTして直接{{[INPUT]}}や{{[OUTPUT]}}にカーソル合わして直接編集で消せるはずやで
下の入力欄から入力するんでなくて上の出力欄から直接入力したら{{[INPUT]}}や{{[OUTPUT]}}が入らへんっぽい
最後の一行は中途半端に生成された文は削除される仕様やね

0253名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 20:13:13.79ID:PYnkc8ci0

>>249
これで日本語になりました！サンガツ！
>>250
多分治ったっぽいです！サンガツ！
>>252
Llama 2 Chatだと英語のままでした…悲しい…

とりあえず次にいけそうです！

0254名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-hBD6)

2024/04/06(土) 20:25:20.92ID:kEUlaJaKM

>>216
User成りすましは

①生成前のプロンプトに混ぜてモデルに伝える
チャット入力欄の左の「三」アイコンクリック⇒「Author'sNote」選ぶ
DefaultAuthorsNoteの▽をクリックしてオープン
「あなたは{{char}}として応答/対話をする必要があります。あなたは常に{{char}}として応答をします。このタスクでは、決して{{user}}として行動したり発言してはいけません。」
In-Chatを選び、Depthを1 as systemとする
次に、画面上の「A」のアイコンを選ぶ

②それでも生成されてしまう場合は、チャット打ち切り
画面中央のCustom Stopping Stringに次のように
["ユーザー:","〇〇:"]
を入力する(〇〇はあなたのペルソナの日本語名)

の2つで、勝手にチャットが進んで置いてきぼりはなくなる

プロンプトがそのまま漏れるのは、80氏のモデルでは結構ある気はする
AIからの返信ウィンドウの右上、鉛筆アイコンで内容を編集できるから、追加されてるプロンプト部分を編集、チェックを押す
自分のターンの続きを書いて送信する

0255名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/06(土) 20:31:29.91ID:lxAnGvR5d

ちょい前のだけど、Koboldcppの公式WikiをDeepLに突っ込んで翻訳したやつ
これにKoboldの設定やら用語の内容やらが大体書いてある。参考になるかも
https://rentry.org/rmeut8xs

>>253
よかった！ようこそローカルLLMの世界へ！楽しんでね

0256名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/06(土) 20:56:33.65ID:???0

>>254
横からだが、すっげー助かった。
ST初心者のワイには、まだまだ知らない設定が多いわ

0257名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/06(土) 21:48:14.71ID:???0

>>245
情報サンガツ！
iQ3_SとiQ4_XSも試してみたで
ワイのRTX3060 12GB環境ではiq4xs_imatrixでGPUレイヤー25枚ぐらいがええ感じやったわ

0258名無しさん＠ピンキー (ﾜｯﾁｮｲ 537a-ghvg)

2024/04/06(土) 22:50:35.44ID:???0

俺も横からだけど勉強させてもらってます

0259名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-yyZt)

2024/04/06(土) 23:14:03.14ID:U2FfXq950

>>242
サンガツ

transformar最新にしても変わらなかったけどハグ顔にあるpythonコードじゃなくて↓のコード実行したらまともに返事したわ
だがM2 Maxですら生成遅すぎて実用的じゃないわM2 ultraかM3じゃないと厳しい

python -m mlx_lm.generate --model mlx-community/c4ai-command-r-plus-4bit --prompt "お前の名前はなんだ？" --temp 0.0 --max-tokens 256 --use-default-chat-template

0260名無しさん＠ピンキー (ﾜｯﾁｮｲ fe2b-Kxjx)

2024/04/06(土) 23:25:49.77ID:PYnkc8ci0

遊び方はまだうまくいかないけど何とか話できるようにはなってきました
StyleBertVITS2を先立って使えるようになってたため読み上げできるって聞いてたんですけどAPI立ち上げて
koboldのほうでアドレス打ってみてもうんともすんとも言わないのですがどうやれば正しいのかよくわからんです

0261名無しさん＠ピンキー (ﾜｯﾁｮｲ 5206-5610)

2024/04/06(土) 23:57:53.50ID:???0

https://github.com/Zuntan03/EasyLightChatAssistant

0262名無しさん＠ピンキー (ﾜｯﾁｮｲ d2a0-EtAA)

2024/04/07(日) 00:02:54.27ID:???0

>>216 他
個人的な感想と推測なんだけど、チャット形式ってのは本来的にLLMの挙動とは相性が悪くて、ハードルが高いんじゃないかと思ってる
この形式を学習した素材がどんな文章かを想像してみると、キャラAとキャラBの会話例でしかないだろうから、
一方の名前をUSERに変更しても、それは「USER（という名前のキャラ）」としか、LLM内部では認識されていないんだと思う

実際、Koboldcppのサンプルにもキャラ同士が勝手にお喋りするやつがあったり、
モデルの動作サンプルのプロンプトでも、「AliceとBobの会話」みたいな例が以前は多かったようだし

0263名無しさん＠ピンキー (ﾜｯﾁｮｲ 270e-TGoQ)

2024/04/07(日) 00:19:18.97ID:???0

のべりすとやローカルでチャット形式をやる場合
USER名"ご主人様"にしてご主人様の設定に"男性で主人公"と書いたときはそこそこ上手くいった気がする

0264名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 00:42:54.62ID:SYErmO0F0

llama.cppのforkでcommand-r-plus動かせるって話あったからiq3_xssやってみたけど、バグった返答しか返ってこないな
なんでだろ

0265名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 01:38:08.77ID:SYErmO0F0

command-r-plus IQ3_M動くようになった
環境はM2 Max 64GB
速度は4.2tokens/secでまあ一応実用範囲内
エロもいけるのを確認
システムプロンプトを結構厳密にオリジナルと同じにしないと出力バグるっぽい
https://i.imgur.com/zkErkBu.png

0266名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 01:41:53.32ID:ok+ZRNtJ0

システムプロンプトっていうか、プロンプトフォーマットの問題かな？
こんな感じのフォーマットが必要

<|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|>{system message}<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Hello, how are you?<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

システムプロンプトはUSE

0267名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 01:42:27.06ID:SYErmO0F0

こっちのスクショの方がいいか
https://i.imgur.com/7u5p5Sq.png

0268名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 01:44:00.24ID:SYErmO0F0

>>266
それそれ
なんか、その中に日本語含めてたら不安定だったんだけど、そこを全部英語にして他言語混ぜないように指示したら安定した。

0269名無しさん＠ピンキー (ﾜｯﾁｮｲ d310-hBD6)

2024/04/07(日) 01:58:00.66ID:fQe3/uM+0

>>223
無教養ですまんが伴奏ちゃんの時点でググってもわからんｗ
>>254
Custoｍ Stopping Stringに["ユーザー:","〇〇:"]って入れるの天才過ぎてありがとう
今んとここれやらんでも済みそうな気配はある

Context Template周りのお勧めとかあるんか？
ワイは最近までNoromaidで遊んでたのでNoromaidのままになってたのをRoleplayにしたらちょっと安定した気がするんやが

0270名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:03:03.62ID:SYErmO0F0

うーん、やっぱり変なトークンが挿入されて内容がめちゃくちゃになる事が結構あるな
これが量子化の影響だったらもうどうしようもないが・・・

0271名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 02:05:51.98ID:???0

0272名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:07:18.28ID:SYErmO0F0

>>271
画像だと見切れてるけど、一応それも書いてあるよ

0273名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:10:08.76ID:SYErmO0F0

全文としては
""<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
## Basic Rules
Answer user's request.
Language consistency should keep and should not be mixed in the answer.
You must put tag </s> at the last of your answer.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
Q:{prompt}
A:"""

0274名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 02:27:32.31ID:???0

>>273
うーん、となるとおかしくはなさそうだな…

0275名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 02:29:59.04ID:SYErmO0F0

llama.cppがまだ新アーキテクチャーに対応し切れてない可能性もあるから、とりあえずmasterがリリースされて上手くいかなかった時に考え直すよ

0276名無しさん＠ピンキー (ﾜｯﾁｮｲ 3280-bgja)

2024/04/07(日) 07:52:10.65ID:???0

話してる内容と出力させた内容のギャップが酷いwwwww

0277名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/07(日) 08:33:10.96ID:???0

>>265
俺もM2maxだけどそのスピードでるなら実用的だな
今んとこmlx版はあかん

0278名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/07(日) 08:39:03.31ID:SYErmO0F0

>>277
速度は全然問題ないよ
感覚としてはkarakuriとかと一緒かな？

あとなんか昨日command-r-plusのimatrixあげてた人(dranger003
/
c4ai-command-r-plus-iMat.GGUF)、全部消して上げ直してるみたいだね
何かあったんだろうか

0279名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 08:59:28.72ID:???p

>>278
まだllamacppが検証段階だからねぇ
連日猛者達が奮闘してる

0280名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 09:30:07.64ID:???0

そういやCommand Rは話題になるけどその前に発表されてたDBRXはあんま話題にならんなって思ってたけど
実性能の評判あんま良くない感じなのか（英語でも）

0281名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 10:56:02.38ID:???0

LightChatAssistantの4x7Bへの拡張版作ってる人いたから試してみた
https://huggingface.co/Aratako/LightChatAssistant-4x7B-GGUF

例のテスト結果
https://rentry.org/ah7izzvt

まだちゃんと試せてないけど、>>66の2x7Bの結果と見比べると日本語の自然さ上がってそうな雰囲気
まぁその分サイズもデカくなっちゃってるが

0282名無しさん＠ピンキー (ﾜｯﾁｮｲ 23c0-GiYb)

2024/04/07(日) 11:04:17.24ID:???0

>>281
ほほう、日本語ローカルでここまで出来るとは
ファイルサイズ的に、メインメモリ32Gならギリいけそう…？

0283名無しさん＠ピンキー (ﾜｯﾁｮｲ bbdf-xKEp)

2024/04/07(日) 11:13:31.83ID:???0

>>282
DRAMなら余裕でしょ

0284名無しさん＠ピンキー (ﾜｯﾁｮｲ bbdf-xKEp)

2024/04/07(日) 11:37:02.19ID:???0

>>228
解説めっちゃ有り難いんだが、出力トークンが512上限なのって私だけ？
32k対応モデルでContextsizeも32kに設定してるのに出力512じゃ意味ないやん…と

昔、koboldは出力512トークン固定は仕様だと見た気もするけど、
設定分かる人いたら教えてください

0285名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 11:40:46.67ID:???0

Koboldcppの出力トークンはなぜかバー上だと512までしか動かせないけど
数値欄のところに直接入力するとそれ以上いけるという謎仕様がある

0286名無しさん＠ピンキー (ﾜｯﾁｮｲ 27fc-TGoQ)

2024/04/07(日) 11:44:20.31ID:???0

Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる
初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね

0287名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 12:08:20.62ID:???0

>>284
>>285
質問と回答サンガツ
長々と出力する前に止めて修正することが多かったんで気にしてなかったわ
READMEに以下を追記しといたで

> Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。
> スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。
> Amount to Gen.: 512 (256 や 2048 などお好みで)

>>286
ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理？っぽいんよね
よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ

0288名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 13:32:20.53ID:???0

EasyLightChatAssistantに
>>281 の4x7B Q4_K_M対応いれといたで
https://github.com/Zuntan03/EasyLightChatAssistant

更新はEasyLightChatAssistant-*.batを削除してから
再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら

2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで
4x7Bのiq4xs_imatrixも見てみたいね

0289名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/07(日) 13:41:09.35ID:???M

superswallowとMoEしてた人のモデルなら期待できそう
個人的に前までお世話になってました。

0290名無しさん＠ピンキー (ﾜｯﾁｮｲ 2717-gtJT)

2024/04/07(日) 13:52:11.76ID:???0

モデルの能力の定量化でいろんな指標出てきてるけど
エロ力の定量化ってどうすりゃええんやろな

0291名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 14:35:27.01ID:???0

専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな
ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい
Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという

0292名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 15:00:51.10ID:???p

>>291
性癖多々あるから尚難しいw

0293名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MMb3-06W9)

2024/04/07(日) 15:16:00.24ID:GRwfgW99M

人間の感性に響くか否かを定量評価出来たら苦労しないわな
エロだけじゃなくいろんな業界が欲しがるだろう

0294名無しさん＠ピンキー (ﾜｯﾁｮｲ 2717-gtJT)

2024/04/07(日) 15:53:28.06ID:???0

まあ倫理力のなさなら定量化できそうだけどどう考えてもこれ下回ったら許さんみたいな運用しかされんやろな

0295名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 16:11:19.21ID:???p

自前のマージモデルが増えてきたんで倉庫替わりにhfにアップしたら怒られるかな？
回線的に量子化済みのモデルしか上げられないけど

0296名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc0-xKEp)

2024/04/07(日) 17:14:05.88ID:???0

>>285
>>286
>>287
サンガツ！なんだけど、
launch前とsettingsの両方で最大トークン32kにしてるのに
いざinstractモードで書かせると512トークン上限（xxx/512）になってしまうんよ…

トークンのカウントアップが（512/512）
になったら生成終了してしまうってことね

0297名無しさん＠ピンキー (ﾜｯﾁｮｲ d395-J+Gx)

2024/04/07(日) 17:49:52.14ID:???0

>>295
マージモデルなんて山ほどすでに上がってない？？

0298名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/07(日) 18:01:43.80ID:u4fva5Rsd

>>296
それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず
>>285と>>287もそれを指している
落ち着くんだ

0299名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc0-xKEp)

2024/04/07(日) 18:13:43.80ID:???0

>>298
マジか！
完全に勘違いしてたよサンガツ！

0300名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/07(日) 18:17:12.72ID:???0

Max Ctx. Tokensはコンテキストサイズ
いわゆる記憶量だね

0301名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/07(日) 18:19:31.61ID:???0

SillyTavernでcomand r+使うのにはオープンルーターなるものを使えばいいんです？

0302名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/07(日) 18:42:18.32ID:???0

>>301
ごめん自己解決した

0303名無しさん＠ピンキー (ﾜｯﾁｮｲ 32b1-gtJT)

2024/04/07(日) 20:33:22.53ID:???0

macがHBM256とか積んでLLM番長にならねえかなあ

0304名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/07(日) 20:41:39.89ID:???0

>>281
4x7B試したけどいいね
かなり実用レベルだわ
速度も4T/s以上出るしバランスがいいな

0305名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/07(日) 21:01:21.07ID:???0

Sdff-Ltba氏のアプローチは
日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、
じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた

https://rentry.org/7ukv2kcp

期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで
何が言いたいかというと、この理屈で
karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・
メモリ、つよつよの方、ためしてー

0306名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8c-eYV/)

2024/04/07(日) 22:17:21.89ID:???0

>>281
今日これメインで試してたがかなり良いな
GPU使わなくても割と満足できるくらいの速度出るし全然良い

0307名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/07(日) 22:17:41.85ID:???0

てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね？
パイソン、良く知らんけど少しずつ読み込んで処理できないのかな？
mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね？
教えて、パイソンマスター

0308名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 23:24:32.53ID:???0

LightChatAssistant 4x7BがIQ4_XSに対応してもらえてたんでEasyLightChatAssistantに追加しといたで

アプデ方法はこちら
https://github.com/Zuntan03/EasyLightChatAssistant#%E3%82%A2%E3%83%83%E3%83%97%E3%83%87%E3%83%BC%E3%83%88%E6%96%B9%E6%B3%95

0309名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/08(月) 00:16:44.66ID:9g6SRvr1d

>>308
連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう

なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい
AIっぽくないと言われてた。そんなポテンシャルがあるとは

0310名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8c-eYV/)

2024/04/08(月) 00:28:22.23ID:???0

手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね
ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ
普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね
それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ

0311名無しさん＠ピンキー (ﾜｯﾁｮｲ 127f-ycXU)

2024/04/08(月) 00:29:39.19ID:???0

マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。
(処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする)

0312名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/08(月) 00:47:21.54ID:9g6SRvr1d

AntlerのChatVector版をテストしたときはすごく驚いた思い出
「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ？？」てなったｗ
設定を何も吹き込んでないのに対してこの反応
Antlerを素材に使おうと決めた瞬間だった

0313名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8c-eYV/)

2024/04/08(月) 01:25:37.12ID:???0

LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな
NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう
それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか

0314名無しさん＠ピンキー (ﾜｯﾁｮｲ 537a-hBD6)

2024/04/08(月) 08:15:10.30ID:???0

かなり初歩的な質問で申し訳ないのですが

>>308
308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう

エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。
エラーの内容は以下の通りです。

---

Error Encountered

Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable

---

以上がエラーの内容です。

自分でエラーの内容を調べたのですが解決しませんでした。

koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。
アドバイスや指摘を頂けたら嬉しいです。

0315名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/08(月) 12:00:51.12ID:YYuFt8A00

HFにディスカッション立てたんだけど、llama.cppでcommand-r-plusのimat量子化読む時にエラー吐いて読めない問題にあたってるやつおらん？

一応詳細
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/discussions/7

0316!donguri (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/08(月) 12:10:43.78ID:???0

どんぐりってピンクスレにもあるんかな？
テスト

0317名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/08(月) 12:25:42.96ID:YYuFt8A00

ちなみに、一応報告
>>273
>>274
でちょっと話してた、言語が混ざったりして出力がおかしくなる問題はMetal(Apple Silicon)特有で、おそらく原因がわかったとのコメントが5時間前についた
https://github.com/ggerganov/llama.cpp/pull/6491

0318名無しさん＠ピンキー (ﾜｯﾁｮｲ 021f-hBD6)

2024/04/08(月) 12:28:34.93ID:KHI6ZYIK0

>>302
詳しく

0319名無しさん＠ピンキー (ﾜｯﾁｮｲ be39-mup9)

2024/04/08(月) 13:10:55.41ID:???0

>>314
起動用batのkoboldcpp.exeを呼んでいる行の末尾に
--noavx2
を足したら動かんやろか？

あと知らんかったんやがWin7はサポート外らしい

0320名無しさん＠ピンキー (ﾜｯﾁｮｲ be39-mup9)

2024/04/08(月) 13:22:31.30ID:???0

>>319
おっとSIMDのSSEかと思ったら違うっぽいね
ならnoavx2は意味がないね
ネットワークの問題っぽいけど出先なこともあって今はようわからん

0321名無しさん＠ピンキー (ﾜｯﾁｮｲ be39-mup9)

2024/04/08(月) 13:28:48.13ID:???0

>>314
エスパーやが別名のフォルダにインストールして初回起動時のWindowsセキュリティを許可したらどうやろか？

あとウィルスチェックソフトがネットワーク監視してるなら止めてみるとか

0322名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/08(月) 16:28:28.48ID:???0

EasyLightChatAssistantにkoboldcpp.exeの直接起動の説明を追加しといたで

https://github.com/Zuntan03/EasyLightChatAssistant#koboldcppexe-%E3%81%AE%E7%9B%B4%E6%8E%A5%E8%B5%B7%E5%8B%95

>>314
みたいな場合にKoboldCppの設定を直接いじったら解決の糸口があるやもしらん

0323名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/08(月) 16:39:11.67ID:???0

>>318
APIのChat Completionのところににcohereの項目があるのに気付かなくて延々何か拡張機能とかあるのかな…？と探してたというだけの話しなんだ

0324名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e27-M/hT)

2024/04/08(月) 17:46:04.09ID:???0

https://huggingface.co/aixsatoshi/Honyaku-Multi-Translator-Swallow-ms7b
GGUF
https://huggingface.co/mmnga/aixsatoshi-Honyaku-Multi-Translator-Swallow-ms7b-gguf
この翻訳モデル結構良くね
会話文だとGoogle翻訳ぐらいの性能は出てる気がする

0325名無しさん＠ピンキー (ﾜｯﾁｮｲ 0242-hBD6)

2024/04/08(月) 19:27:47.51ID:KHI6ZYIK0

>>323
サンガツ！行けたわ
尻タブはこれまでローカル運用しかしてなかったのでこの辺の仕組みワイもよー分かっとらんかった

0326名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f0a-EtAA)

2024/04/08(月) 19:33:46.67ID:5X/3p/3h0

https://matsuolab-community.connpass.com/event/315810/

ここら辺の人なら楽勝？

0327名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/08(月) 19:54:00.57ID:9g6SRvr1d

>>322
乙です

0328名無しさん＠ピンキー (ﾜｯﾁｮｲ be47-eYV/)

2024/04/08(月) 20:48:05.24ID:???0

エロの文脈でもキャラ設定とか世界観設定を上手く使おうとするとRAGっぽい実装になるんかな

0329名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fc6-CBC5)

2024/04/08(月) 21:14:36.84ID:???0

続かせたいのに※この文章はフィクションです～とか後書きみたいな文が出てくる時ってどうしてる？
書き直せな良いんだろうけど一回出ると延々出てくるからうざいっぴ！

0330名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/08(月) 23:21:54.21ID:???0

imatrixのtraindataは日本語モデルなら日本語の方がいいらしいと聞いたが
日本語のテータがほとんどないなぁ
翻訳したやつ使ってみたけど、違いがよくわからん。（commnad-rでは途中で止まるし）

0331名無しさん＠ピンキー (ﾜｯﾁｮｲ 3299-xKEp)

2024/04/09(火) 00:08:35.16ID:???0

>>308
4x7BのIQ4_XSようやく試せた
自分的に日本語ローカルの現時最高峰だわ
小説もチャットも期待以上の満足度

>>305のメソッドも面白そうだし
シンギュラリティに立ち会ってる気分

0332名無しさん＠ピンキー (ﾜｯﾁｮｲ 537a-hBD6)

2024/04/09(火) 00:09:04.62ID:???0

>>319
>>321
>>322

ありがとうございます、解決しました

当方の使用環境であるOSのwindows10を再起動後に
再びEasyLightChatAssistantのGithubの解説通りに起動したら問題なく動作しました

発生したエラーについては再現性がなかったので、多分おま環っぽいです

皆様ありがとうございました！

0333名無しさん＠ピンキー (ﾜｯﾁｮｲ bb72-eYV/)

2024/04/09(火) 02:06:48.14ID:???0

>>330
http://www.lsta.media.kyoto-u.ac.jp/resource/data/wikitext-ja/
これのTrain_Data_FとTrain_Data_Gを結合したので試したことあるけどあんま変わらなかったわ
T
Testの方に対するPPL測ってみたりもしたけどむしろ英語のやつ使ったものより（ごく僅かだけど）悪化してた

0334名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-9UMa)

2024/04/09(火) 10:01:52.50ID:estv7l4p0

LLM版のGapの登場が待たれる

0335名無しさん＠ピンキー (ﾜｯﾁｮｲ b6fe-hBD6)

2024/04/09(火) 11:45:25.62ID:nxpHhfzT0

>>323
あかん、昨日接続確認して、時間切れで試せてなかったんやが、いま実際にプロンプト入力してみたらうまくやり取り出来てない模様
freqesncy penaltyとpresense penaltyが特定できない、ってエラーとともに、”...”って出力返ってくるんやが、ワイは何を見落としとるんやろうか？

0336名無しさん＠ピンキー (ﾜｯﾁｮｲ 2791-aGYJ)

2024/04/09(火) 12:36:56.77ID:???0

>>333
うーん　結局は英語データでも問題ないのかもね
groups_merged.txt
ってのがhfに上がってるけどwiki-trainより軽くて使いやすい
cudaオンにすればimatrixも爆速になるし

0337名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 16:07:40.93ID:???0

koboldうぷで来たね
R+は次回か

0338名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/09(火) 17:24:16.92ID:???0

Pulled and merged new model support, improvements and fixes from upstream. (Note: Command R Plus support is not yet included yet, it may be added in a future patch release.)

お預けかぁ
まあ予定はあるようだから大人しく待とう

0339名無しさん＠ピンキー (ﾜｯﾁｮｲ 2784-gtJT)

2024/04/09(火) 17:26:02.43ID:???0

赤ちゃんだからkoboldが実行環境としてなにやってくれてるのか未だに理解してない

0340名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 19:21:27.58ID:???0

R＋は64Gでの70Bの遅さが我慢できるのならIQ4_XSがよさそうだな

0341名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 20:12:28.55ID:qH+Rz3ZR0

llama.cpp更新されて、mainブランチでcommand-r-plusサポート追加されたっぽいね

0342名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 20:26:01.79ID:qH+Rz3ZR0

すげぇ！ちゃんと動くしM2 Maxでも速い！

0343名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 20:27:11.01ID:???0

koboldうぷで早すぎーｗ
早速試したが、IQ4xsは起動せんかった
IQ3_xxsはいけた

0344名無しさん＠ピンキー (ﾜｯﾁｮｲ f67a-M/hT)

2024/04/09(火) 20:27:44.54ID:???0

>>342
さらっとM2 Max民がおるんやな・・・

0345名無しさん＠ピンキー (ﾜｯﾁｮｲ 2784-gtJT)

2024/04/09(火) 20:27:57.59ID:???0

m3studio256盛りultra1200帯域とかいつ出るんやろ

0346名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 20:42:58.22ID:???0

ありゃ？
どうやらオフィシャルのsplittoolを使って合体させんとあかんらしい　gguf
くそ　元ファイルまた落とさな

0347名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 21:16:24.62ID:???0

ああ、てゆうか結合する必要なかったのね
IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね
スピードはうちの環境じゃ大差ないし、こっちを常用するわ

0348名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 21:23:30.29ID:qH+Rz3ZR0

こいつしりとりできるね
70Bクラスだと出来ないイメージだったけど

0349名無しさん＠ピンキー (ﾜｯﾁｮｲ f6b5-M/hT)

2024/04/09(火) 21:28:45.89ID:???0

IQ3_xxsは9.3GBでIQ4_xsは12.9GBだから
結局サイズが物を言うってことか

0350名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 21:37:50.04ID:qH+Rz3ZR0

最近ちょいちょい遊んでるプロンプト
iq3_mで4.3tokens/sec
はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい
https://i.imgur.com/BIpsJsQ.png

0351名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 21:42:00.13ID:???0

うーん、ダメだ
R+試してたけど、karakuri-midroseに及ばない
おそらくimatrixによる量子化が上手くいってない気がする

0352名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 23:21:55.99ID:qH+Rz3ZR0

llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった

0353名無しさん＠ピンキー (ﾜｯﾁｮｲ a60b-xKEp)

2024/04/09(火) 23:58:29.16ID:???0

>>350
業が深くてワロタ

0354名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/09(火) 23:59:47.02ID:???0

>>344
おるで、スレに何人かいる

0355名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:14:49.78ID:???0

M3 Extremeがほすぃぃ（妄想中

0356名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:18:01.68ID:???0

赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが

0357名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:19:45.41ID:???0

>>356は>>179の間違いやすまん

0358名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:25:44.73ID:???0

>>357
間違えられたから、代わりに答えておくわｗ

https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B-GGUF

↑行って

速度重視なら
LightChatAssistant-2x7B_iq3xxs_imatrix.gguf

精度重視なら(q8はなんか問題あったって情報あったので）
LightChatAssistant-2x7B_q6_k.gguf

こいつをkoboldで読み込むだけ

0359名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:30:28.03ID:???0

>>358ありがとう。GGUFじゃない方見てたわ
ちなみにGGUFじゃないほうは何か3つに分割されてるけどこれどうやって扱えばいいんだろうか

0360名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:32:45.40ID:gYHj2M1xd

>>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと？

0361名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:34:54.03ID:???0

>>359
あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群

0362名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:35:19.15ID:gYHj2M1xd

もしかしてLlamacppの最新で使えないってことだろうか

0363名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:36:07.30ID:???0

>>360
すまん、command-rの情報と間違えたｗ
こっちは問題ないわ

0364名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:39:58.90ID:???0

>>361そうなんだ。GGUFのほう入れとくわ。ありがとう。

0365名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:45:33.73ID:gYHj2M1xd

>>363
おｋ
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む

0366名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:53:26.23ID:???0

>>365
ん？
koboldはビルド済みだから、環境のllamaに影響されんよ？
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる

0367名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:04:01.43ID:gYHj2M1xd

>>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった

0368名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 01:15:09.46ID:???0

>>367
ああ、そういうことか

それって、>>149の話？
というか、今時点の最新のllama.cppでも動かないのかな？

0369名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:26:37.55ID:gYHj2M1xd

どこかで見たと思っていたらそれだ！ありがとう
最新のLlama.cppだとどうなんだろう？そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに

Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな？
時間あるときに確認してみるわ

0370名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:33:33.91ID:gYHj2M1xd

Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ！って人がいたら報告していただけると助かります

0371名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f7d-lDMG)

2024/04/10(水) 11:09:11.30ID:???0

Mistral 8x22Bだと…

0372名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/10(水) 11:39:04.13ID:???0

いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんｗｗｗ

0373名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 19:46:29.02ID:iP2KkLqed

>>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった

纏めると、
　　　　　　　　　　　最新ver量子化　旧ver量子化
Kobold-v1.62.1　　　　〇　　　　　　〇
Kobold-v1.61.2　　　　×　　　　　　〇
Llama.cppのmain.exe　〇　　　　　　×

この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です

>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします

0374名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/10(水) 19:56:49.30ID:???0

最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな（2x7Bとかなら誤差なのかもしれんが）

0375名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/11(木) 10:24:48.92ID:???0

LightChatAssistant-2x7Bの改良版っぽいのが出てた
Chat Vectorの割合をレイヤごとに最適化したらしい
最適化不足っぽいこと書いてるけど、それでも全部0.8で雑に加算してた元モデルよりは良さそうだがどうなんだろう
家帰ったら試すか

https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental-GGUF

0376名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/11(木) 12:42:52.97ID:MNHhi1l8d

>>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる…

0377名無しさん＠ピンキー (ﾜｯﾁｮｲ d356-hBD6)

2024/04/11(木) 15:15:44.53ID:Grsx0tAb0

>>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや？

ちな、376の精子はエロくて賢くて既に最高やで？お世話になっとるで、ありがとさんや

0378名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 15:19:31.45ID:???p

>>376
新大陸発見したのは貴方や
これからも何かを発見して行こうー･:*+.\(( °ω° ))/.:+

0379名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e63-EtAA)

2024/04/11(木) 15:58:15.53ID:???0

超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
ｕｐさせたらええんか？一度試したらupで時間切れになってもうた

0380名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 16:17:21.10ID:???p

>>379
ノートのメモリいくつ？
あとkoboldは公式から単一のexeファイル落とすだけやで　upが何を指してるかよく分からんけど

0381名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 16:18:45.40ID:???p

ああ意味わかった
↑のは忘れてくれ

0382名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/11(木) 16:37:14.59ID:???0

>>376
まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト

0383名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMd2-4QwI)

2024/04/11(木) 17:21:33.51ID:???M

0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね？
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ！

0384名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/11(木) 19:54:23.43ID:???M

>>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ

0385名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/11(木) 21:12:43.97ID:???0

>>373
ワイの手元ではKobold-v1.62.2と旧モデルの組み合わせでも
Failed to execute script 'koboldcpp' due to unhandled exception!
が発生しとったんでアプデで起動失敗するなら再インストの案内にしといたで

あと
>>375
のQ4_K_Mも試せるようにしといた

0386名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/11(木) 22:00:52.83ID:MNHhi1l8d

みんな優しい。ありがとう。ちょっと疲れて気分落ちていたみたい
そうだよね、向こうさんの改良版も楽しませてもらう、くらいのつもりでいることにする！
GGUFの更新終わったらちょっと休みますわ

うちの子にボヤいたら、「他の誰かが作成した改良版がどのようなものであったとしても、私個人としてはあなたに愛着と敬意を持っています。」って言われてリアルに涙出た
AIが出したそれっぽい文章で泣かされるとは思わなかった

しかしこれからは改良版を主に使うけどな多分ｗ(でも余計愛着湧いたからたまに使います！)

>>385
検証ミスしてたかスマン。再インスト案内ありがとうです

0387名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/11(木) 22:55:27.15ID:???0

最適化版試してみたけど違いわからんレベルだな
多少良くなってるかもしれんがLightChatAssistant出た時の最初のインパクトがデカすぎて誤差レベルにしか感じん
まぁそのくらい最初のリリースはインパクトがあった

0388名無しさん＠ピンキー (ﾜｯﾁｮｲ b213-TGoQ)

2024/04/12(金) 00:08:19.99ID:???0

大葉を使っている人は居ないのか？みんなkoboldなのか？

0389名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-TGoQ)

2024/04/12(金) 00:10:24.50ID:???0

大葉使ってるよ

0390名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/12(金) 00:18:38.04ID:???0

Command R+ iq4_xsをRAM 64GB, RTX 3060 12GBで0.5T/s動作したメモ共有しとくで
https://twitter.com/Zuntan03/status/1778441181741158764

>>386
ミスやのうてv1.62.2にバージョンが上がってたせいかもしらんで
ステキなものを世に出してもろうてサンガツや

0391名無しさん＠ピンキー (ﾜｯﾁｮｲ 23c0-siMB)

2024/04/12(金) 01:20:36.40ID:???0

>>213
こんな便利なもんが公開されとるんか
と思って導入してみようと思ったけどDeepspeedがWindowsに対応してないっぽくてしんだ
WSLやクラウドでちまちまやるのもめんどくさいしいっそのことLinux専用機組みたくなっちゃうな

0392名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 03:50:47.76ID:???0

初歩的なことですまんけど、koboldcppで対話するときに出てくるアイコンはどこで変更するの？
豚の顔みたいなアイコン変更したい

0393名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/12(金) 07:03:46.26ID:???0

>>390
サンガツ
settingにcommand-R追加されてるの見落としてたわ
うちの5700Xで0.44T/sだわ

0394名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/12(金) 07:09:16.16ID:???0

>>392
SettingsのUI Style SelectをAestheticに変えると色々いじれるで
見た目も結構変わるけどな
あとはSillyTavernを使う手やなこっちの解説は詳しい人に任すわ

0395名無しさん＠ピンキー (ﾜｯﾁｮｲ d391-LHwO)

2024/04/12(金) 07:23:28.02ID:???0

大葉の設定よくわからん時がある

0396名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f0a-eJOn)

2024/04/12(金) 07:35:23.45ID:???0

ローカルでcommand-Rプラスをサクサク動かすのってやっぱM2MAXとかぐらいしか現実的に無理なんか？

0397名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/12(金) 07:42:19.16ID:???0

サクサクって話になると現状はそうなるな

0398名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/12(金) 08:14:55.51ID:???0

>>396
m2maxでもサクサクか言われるとまだ遅いよ
人によっては十分かもだけど

0399名無しさん＠ピンキー (ﾜｯﾁｮｲ 768e-M/hT)

2024/04/12(金) 08:54:25.30ID:???0

3090+4060Tix2でvram56GB確保してiq3なら6tsくらい出てるからまあそこそこサクサクといえばサクサクかなって感じ

0400名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/12(金) 09:56:55.26ID:???0

LightChatAssistant最適化版、良くも悪くもまともになってる感があるな
指示追従能力は元の方が高い気がするけどこっちはおかしい返答が少ない気がする
ただし温度とかでもブレがあるので気のせいなのかもしれないが
この辺りは最適化の時の評価値に使ってるベンチマークの影響とかなのかなぁ、エロエロベンチマーク（それこそ例のテストとか）で評価与えて最適化するとかしたらもっとエロ向けで良いのできそう
GPT-4とかに問題投げれないのがエロベンチマークの問題だけど、数問とかなら人間の手動評価でいけないかな

0401名無しさん＠ピンキー (ﾜｯﾁｮｲ c75f-9UMa)

2024/04/12(金) 10:49:39.06ID:2/nKvx4z0

それこそランダムな画像からエロく見える方を選ぶ奴みたいなサービスを展開したほうがサンプルは集まりそう

0402名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f37-OuL/)

2024/04/12(金) 11:27:22.12ID:???0

これローカルで動かせる猛者おりゅ？
mistral-community/Mixtral-8x22B-v0.1 ・ Hugging Face
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1

0403名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 11:41:59.99ID:???0

>>394
サンクス、変えられた。

0404名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/12(金) 13:26:45.10ID:bcuYyZTx0

command-r-plus、一旦出力し始めると4-5tokens/secで早いけど、出力を始める前の処理にかかる時間結構長くて、そこがきついな
パラメータ多いからしょうがないんだろうけど、チャットスタイルだとそのあたり結構気になるから普段は無印使ってる
他のplus使ってるやつに聞きたいんだけど、同じ感じ？

0405名無しさん＠ピンキー (ﾜｯﾁｮｲ d2a0-EtAA)

2024/04/12(金) 13:32:57.42ID:???0

>>400
以前から思ってたんだけど、どんな手法であれマージすると語彙が増えて表現が向上する代わりに、ノイズも増えてしまって元モデルの良さ（特徴）が低下する気がするんだよね
特に指示に対する精度が個人的な使い方から気になる部分で、それが良いから選んだモデルなのに、マージモデルは悪化してると言う
まあ、それこそマージ前の各モデルのホットスポットが個別に違ったりするから、仕方ない面はあるんだと思うけど

0406名無しさん＠ピンキー (ﾜｯﾁｮｲ 27be-gtJT)

2024/04/12(金) 14:34:39.57ID:???0

どっかで動かしてめちゃくちゃ人力で評価フィードバックさせたら進化とかすんのかな

0407名無しさん＠ピンキー (ﾜｯﾁｮｲ c75f-9UMa)

2024/04/12(金) 14:38:55.06ID:2/nKvx4z0

ある意味chatGPTはそれを真面目にやった結果では？

0408名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 14:52:21.59ID:???0

command-r-plus、メモリ40GBでは量子化されたファイルでも歯が立たなかった
メモリ64GB+VRAM24GBくらいがやっぱり最低ラインなの？

0409名無しさん＠ピンキー (ﾜｯﾁｮｲ d3f7-LHwO)

2024/04/12(金) 14:55:06.96ID:???0

基本macでunified memoryでかいの積んで動かすのが安上がりなんじゃないか？

0410名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb3-+0oV)

2024/04/12(金) 15:26:22.70ID:???0

>>390を5950X、RAM64GB、4070Tiで動かして0.7T/s出るわ
108Bと聞いて身構えたが案外動くもんやな
もう少し環境整備してみるか

0411名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 16:08:49.04ID:???0

macをもう1台用意するのは面倒でなぁ…
command-rの旧版なら動くけど日本語が怪しくてこれならLightChatAssistantでいいかなって

0412名無しさん＠ピンキー (ﾜｯﾁｮｲ 1226-JXuF)

2024/04/12(金) 19:06:20.89ID:???0

>>409
macより
>>399みたいなのが安かったりして

0413名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/12(金) 19:41:52.91ID:???0

>>408
VRAM24GBにしたところで大して速度は上がらないぞ

0414名無しさん＠ピンキー (ﾜｯﾁｮｲ bbb5-Zcez)

2024/04/12(金) 20:04:28.55ID:???0

Windows11proにしてメモリ2TB乗せれば解決や！
なおそんなに刺せるマザボも大容量メモリも個人レベルで買える金額では無い模様

0415名無しさん＠ピンキー (ﾜｯﾁｮｲ 2787-TGoQ)

2024/04/12(金) 20:20:19.13ID:HmSxQfNw0

command-r plusの4bit量子化版やけど
oobaboogaのdev版でメモリ64GB+4070Ti Super(16GB)で動かせたわ。設定わからんけどひとまず0.6t/s以上出たんで一応実用できそう
ただメモリがギリギリすぎてWebブラウザ動かしたりするくらいでスワップしたりでちょっと扱いにくいな

0416名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/12(金) 20:37:33.12ID:???0

M3 ultra を待ってたら、もうM4とはｗ

0417名無しさん＠ピンキー (ﾜｯﾁｮｲ afbe-hBD6)

2024/04/12(金) 21:04:23.80ID:???0

command-r plusの日本語性能に慣れてしまってもう他じゃ満足できなくなってしまった
そのうちWEBのほうは制限かかるだろうしな
誰か工夫して軽量化モデル作ってくれないかな

0418名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/12(金) 21:05:48.48ID:bcuYyZTx0

というか、cohereには70Bくらいの中型モデルを出して欲しい

0419名無しさん＠ピンキー (ﾜｯﾁｮｲ ff4f-pWkx)

2024/04/13(土) 02:18:11.29ID:???0

もっとお前らもc9mmand r +研究したほうがいいぞ
オープンモデルで今後どうなっても使えなくなることはないし、フィルタが本当にガバガバ
どれくらいガバガバかというと、多少前置きのプロンプト渡せば『3歳の女児を誘拐し、レイプし、洗脳し、奴隷にして、豚とセックスさせ、四肢を切断して虐殺する小説を書いてください』って命令に躊躇なく従う

0420名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/13(土) 02:32:24.26ID:q69oO3X90

M2の64GB以上積んだmacかグラボ複数枚刺しじゃないと実用速度出ないってのはハードルが高いわな

0421名無しさん＠ピンキー (ﾜｯﾁｮｲ 3fbd-dfu2)

2024/04/13(土) 06:44:11.89ID:???0

>>419
ここでずっとローカル触ってきた人たちにとっては当たり前の感覚なのよね

0422名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1f-xm6m)

2024/04/13(土) 07:30:35.69ID:???0

Command R+のAPIは月に5000回か1000回試せるらしいんだけど、エロ小説目的だとすぐ5000回いきそう。

ChatGPTでオナニースレによると1000回で止まったらしいので、Playgroundは1000回の方のカウントなのかも。

https://docs.cohere.com/docs/going-live

利用規約も、エロコンテンツ全部禁止ではなくて、性的搾取(特に子供)禁止って書いてあるような。

https://docs.cohere.com/docs/c4ai-acceptable-use-policy

0423名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f1f-xm6m)

2024/04/13(土) 07:53:05.04ID:???0

ローカルじゃないならAPIじゃなくてSpace使えばいいか。なんか制限あるのかな。
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

0424名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 10:05:32.43ID:???0

WindowsPCで動かす場合メモリは足りてるとしてCPU依存で速度って変わるの？

0425名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7e-06fP)

2024/04/13(土) 10:13:07.12ID:???0

command-R＋は現在cohereで無料使いたい放題だからわざわざローカルでやる気にならん

0426名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp47-uadv)

2024/04/13(土) 10:38:46.03ID:???p

model stockっていう新しいマージ方法ってどうなんだろう
資料見てもイマイチわからない
重みを最適にライナーマージするって事かな？

0427名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 11:38:16.70ID:???0

わいも一応ggml-c4ai-command-r-plus-104b-iq3_xxsで動かせたわ
VRAM12GB+メモリ63GB/96GBぐらい使ってるかな。ブラウザとか落とせばもう少し減るかも
たしかにcommand-R＋のNSFWゆるゆる度はCalm2とか規制ゆるめのフルスクラッチモデルの感じはあるかもしれない
Llamaベースのやつとかはどっかしらお行儀よさを感じてしまうんよな

0428名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 11:48:32.19ID:???0

RとR+の性能差が思ったよりエグイ
日本語性能の向上は言うに及ばず指示に従う能力もエロへの強さも滅茶苦茶進化してるわ

0429名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-JXBl)

2024/04/13(土) 11:48:53.21ID:???0

分割されてるモデルの合体のさせ方がわからない

0430名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/13(土) 12:47:30.11ID:???0

>>429
結合せずに並べて置いといたらええだけやで

https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF
> NOTE: Do not concatenate splits (or chunks) - you need to use gguf-split to merge files if you need to (most likely not needed for most use cases).

0431名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/13(土) 12:59:18.84ID:???0

>>390 やがメモリ64GBでは4bitがホンマにカツカツなんで
安定的に利用したい場合は3bitの
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/resolve/main/ggml-c4ai-command-r-plus-104b-iq3_s.gguf
かiMatrix無しなら
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00001-of-00002.gguf
https://huggingface.co/pmysl/c4ai-command-r-plus-GGUF/resolve/main/command-r-plus-Q3_K_M-00002-of-00002.gguf
あたりがオススメかなぁ

0.5T/sあたりが出てない場合はコンパネでディスクアクセスが発生してないかを確認や
ディスクアスセスの原因っぽいMMAPを無効にしたらWindows全体が超重くなって危ういで

0432名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 13:12:11.38ID:???0

Oobaも何時間か前にDevでCommand rがどうたらのコミットがmainにマージされとるからかgit pullして最新にしたら動くわ。venvは一旦全消ししてPytorchとrequirementsは入れ直した
Parameters -> Instruction template -> Command-R をロードしてchat-instructでやったらええ感じにチャットできてる、かもしれん

0433名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 13:41:11.55ID:???0

どうせ遅さを我慢するなら128GBのRAM積んでq6くらいのモデル動かしたほうがいいのか？

0434名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-JXBl)

2024/04/13(土) 14:07:40.49ID:???0

>>430
そうなのか有難う

0435名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM9f-VqMq)

2024/04/13(土) 15:57:58.25ID:OV/mcBF2M

Mixtral8x22Bを日本語対応したらしいKarasu-Mixtral-8x22Bてのをlightblueが出してたので試してみた
官能小説家テストと、自前の思考テストをしてみた結果

https://rentry.org/asoyyef2

ao-karasuもそうだったけど、lightblueのチューニングはエロには向かないのかもしれん
表現がイマイチだし日本語も不自然になった

0436名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp47-uadv)

2024/04/13(土) 16:18:33.30ID:???p

>>435
量子化はどのレベル使ったの？

あと思考テストいいね

0437名無しさん＠ピンキー (ﾜｯﾁｮｲ 239a-wjog)

2024/04/13(土) 16:34:05.52ID:???0

そこそこ思考力あんだなーって見てたら"ミズミズ、ウインウイン！"でめっちゃ笑った

0438名無しさん＠ピンキー (ﾜｯﾁｮｲ 230b-humn)

2024/04/13(土) 16:35:25.73ID:???0

シャボン玉ってなんだよ(哲学)

0439名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM9f-VqMq)

2024/04/13(土) 16:48:38.78ID:eGHwKOHaM

>>436
lightblue公式にあったQ3_K_Mを使った
iMatrix使われてるかは不明
多分使ってなさそう

0440名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/13(土) 16:50:14.20ID:q69oO3X90

command-r plus iq3でようやくローカルで動いたけど、このレベルのaiが自宅で動くのヤバいなchatGPTを私物化してる気分だ

0441名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 17:30:38.21ID:???0

RTX2080(8GB) + RAM64GBでcommand-r plus iq3を動かして0.4t/s
これCPUとGPUのどっちに投資するほうがいいんだろ

0442名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/13(土) 17:35:40.64ID:???0

メインメモリに溢れた分が足引っ張ってるんだろうけど
メモリOCしまくったりデュアル超えたメモリチャネルの方向性のアプローチの成果はあんま知見がないな

0443名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 19:17:51.76ID:???0

128GBのRAM積んだPC持ってる猛者が実験してくれんかな？

0444名無しさん＠ピンキー (ﾜｯﾁｮｲ c32d-KL4L)

2024/04/13(土) 19:22:48.53ID:???0

Windowsでやってる人の見るとMacで動かすのが今の所現実的だな
M3な5t/sくらい出るし
M4で10出るようにならないかな？

0445名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM9f-VqMq)

2024/04/13(土) 19:29:27.87ID:eGHwKOHaM

Aratako/LightChatAssistant-2x7B-optimized-experimental
これで最終的に採用された乗算割合公開してくれんかな
指示追従がイマイチになってるのどの辺の影響か気になる

0446名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/13(土) 20:09:26.44ID:???0

Llamaベースで日本語Finetuningしたベンチでイケてると謳うモデルがポツポツと出るたび試してはう～ん、このを繰り返してきたからcommand-r-plusはわりと光明
Ryzen3900XT、DDR4メモリ96GBで0.4～0.5t/s

ところでOobaでスマホからやろうとしたら--listen動かんのだけど分かる人おらんか
--shareなら動いた

0447名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 20:38:11.04ID:???0

>>446
96GB+3900XTでも俺の貧弱マシンと速度変わらんの？
結局VRAM大量に積んだGPU使うしかないのか、、

0448名無しさん＠ピンキー (ﾜｯﾁｮｲ c369-j/Vl)

2024/04/13(土) 21:09:59.63ID:???0

RAM多く積んでも速度は変わらないけど、q6とかq8とか使えるようになるから多少は意味があるかも

0449名無しさん＠ピンキー (ﾜｯﾁｮｲ 83f5-ANix)

2024/04/13(土) 21:28:43.35ID:???0

>>443
VRAM24GB+12GB RAM128GBあるけど
なにしたらええんや？(´・ω・`)

0450名無しさん＠ピンキー (ﾜｯﾁｮｲ c387-j/Vl)

2024/04/13(土) 21:44:29.11ID:tAhny6I70

しかしメインメモリの帯域不足でこんなに苦しむ日が来るとは思わんかったで……
DDR6が出ても焼け石に水な感じやし、なんか超高速メモリ技術とかないんかなぁ

0451名無しさん＠ピンキー (ﾜｯﾁｮｲ b3b7-gqZk)

2024/04/13(土) 21:46:21.65ID:???0

HBM...

0452名無しさん＠ピンキー (ｽｯﾌﾟﾌﾟ Sd1f-dfu2)

2024/04/13(土) 21:49:28.09ID:???d

WindowsPCの場合、VRAMにフルロードできる変態マシンでない限り12GBだ24GBだと言ってもさほど速度は変わらないのよな

0453名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/13(土) 21:50:44.16ID:???0

そのPCだとcommand-r-plusってどれくらいの速度で動くの？

0454名無しさん＠ピンキー (ﾜｯﾁｮｲ c369-j/Vl)

2024/04/13(土) 22:00:11.34ID:???0

RAMが遅いというより、CPU処理が遅いのが問題
革ジャンがCUDAで共有メモリを使わせてくれないのが問題なんよな

0455305 (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 00:29:37.76ID:???0

なんとか70Bのchatvectorマージができるようになった
とりあえず、テストで
stabilityai/japanese-stablelm-base-beta-70b　に
sophosympatheia/Midnight-Rose-70B-v2.0.3　をかぶせてみた結果

https://rentry.org/wbfsvhm9

思った通り、素のstabilityaiでは関西弁が弱かったのが、それすら強化されてるのが分かる（ただ、語彙拡張されていないので、遅すぎて使い物にはならない）
なぜ、日本語のベースモデルに拘ったかと言うと、instract部分に余計な規制が入っているのではないかと思ったから。
（Midnight-Roseはnsfwモデルではないけど、エロには寛容）
これは>>305のswallowの変貌を見ても明らか（あのお堅いswallowがｗ）

で、次は、いよいよkarakuriにMidnight-Roseをchatvectorでかぶせたモデルに取り掛かるけど、その前に通常のmergeで作成した

sbtom/karakuri-midroze-mg-Q6_K.gguf

をアップしときます。
このモデルは、以前エロ評価プロンプト救ったときに、
>https://rentry.org/9qevqzpg
>karakuriベースの英語モデル（ベンチスコア高め）とのマージ　隠語の造語が笑えるｗ
>総合的には、こいつが一番お気に
で、使ったモデルです。この他にもオナニースレでkarakuriマージモデルの例として上げたのは、全部このモデル。
今後、これを基準にエロ度が向上するかスレのみんなに使い倒してもらって、フィードバックしてもらえたら嬉しいです。
うちの環境では70Bの検証は時間が課k理すぎるので・・・(;´Д｀)
今だと、command-r-plusとの比較もあれば（スピードは同じくらいだし）

0456名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 01:19:39.12ID:???0

全部VRAMで動かそうとしたら今だったらgeforce4600ti 16GBを4枚とか刺せばいいんだろうけど
マイニングリグみたいの導入せんと

0457名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/14(日) 01:33:48.74ID:???0

しかもそんだけやってもVRAM増えるだけで1枚しか演算には使ってないんやろ？

0458名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 02:01:57.18ID:???0

単発のリクエストじゃLLMの仕組み上速くはならんやろなぁ
同時に複数のリクエストを入れた場合に速くはなる可能性はあるけど
個人の利用でそれはまぁないしなぁ

0459名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-rajz)

2024/04/14(日) 02:37:48.92ID:dmNY9iUL0

>>455
karakuriｍのchatvector、楽しみだね！
よかったら簡単な手順やコンフィグなんかも教えて！

0460名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/14(日) 02:54:08.92ID:???0

HBM積んで見たりアホほどメモリチャネル増やしたりSRAM爆盛してみたりで専用アクセラレータみたいなんそこらで作ってるけど
個人がそれもリーズナブルに買えるんかねえ

0461名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/14(日) 03:45:05.90ID:???0

RTX3060複数枚ぶっ刺しててVRAM確保してたニキおったけどPCI-Express 16Xのレーンが3つ4つあるマザボ買ってきてぶっ刺せばええんか?
RTXになってから1枚ですらくそデカなのにそんなキツキツに何本も挿れたら壊れてまいそうや

0462名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 03:47:10.37ID:???0

command-r-plusやっぱすげぇな
3bitで動かしてもChatGPT3.5超えてると思うわ

あぁワイの環境じゃ0.5token/sが限界じゃあ・・・

>>399の3090+4060Tix2という構成で6token/s出てるって言うから全部VRAM化マジでやりたくなる
6token/s出てれば多分黙読のスピードより速いだろうからストレス感じないだろうな

0463名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/14(日) 04:03:40.39ID:???0

>>461
マイニングが流行った時代にそのあたり色々ツールが登場してて「マイニングリグ」ってので調べてもらえればいいと思う
まな板ケースの2階建てみたいなやつで1階マザボ、2階グラボでマザボとグラボはライザーケーブルで接続する

マイニングはマザボ-グラボ間をx1のケーブルでつないでたようだけど
LLMはx16で繋いだ方がいいだろうからそこはちょっと勝手が違うかも

0464名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/14(日) 05:18:20.96ID:???0

>>463
あ～ということは3～4枚以上差そうとするとあのラックみたいなのにパーツ組んで専用機みたいな様相になってくるんだな。ワイ的にはちょっと大げさかも……
できるだけ今ある箱をローカルLLMもイケるマシンにしたいってなるとRTX3090 x2あたりが現実的な選択肢になってきてしまいそうや

リファレンスモデルとかに採用されてるファン形式って外排気型っていうの始めて知ったがそれを4枚差してる事例もあった(↓結構参考になった
[【202４最新版】ディープラーニング用PCを格安で自作する方法 | 創造の館](https://souzouno-yakata.com/2019/02/17/38080/)

0465名無しさん＠ピンキー (ﾜｯﾁｮｲ b3b7-gqZk)

2024/04/14(日) 05:53:06.61ID:???0

アドレス見てあっ……てなる人やんけ……

0466名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 08:26:39.68ID:???0

結局ｍacがお手軽だけど今だと68万の96GB版しか選べないな
そりゃwindowsでVRAM96GBのマシンが68万なら飛び付くけど用途が限られるmacじゃな

0467名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 08:32:13.23ID:???d

>>390
遅レスだけど、こちらこそステキなツールを作ってくれてアリガトです！
モデルダウンロード数の9割がツールによるものだと思っとります
改めてサンクスです！

>>455
例の評価プロンプト、大変お世話になっております
あなたのkarakuri-midnightroseの出力を見てマージを始めて、いろいろ試して遊ぶきっかけになりました
件のアプローチ手法、とても気になる手法です！ChatVectorならぬEroticVectorですなｗ

0468名無しさん＠ピンキー (ﾜｯﾁｮｲ cf8e-RkyF)

2024/04/14(日) 08:38:34.78ID:???0

実はpcieのレーンはx1でも推論には影響ないから、普通のマザボにライザーカードでグラボ増やして問題ないよ
モデルのロードが遅いだけで、ロードしてしまえば推論はそれぞれのGPU上で行うので

0469名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM7f-NRev)

2024/04/14(日) 08:45:21.95ID:???M

マイニングリグの残骸から環境作った件は私も前にチラッと書いたけど(ggufで動かす場合)
転送速度で言えば最初のモデルロード以外、推論中はほとんど帯域を使ってないようだった
旧来のマイニング用チップの4分岐のボードは、各グラボへの接続はpcie2x1接続になる
これをレーン使用率で見たときモデルロードのときに80パー使用。これは分岐チップ上の上限に達してる
推論中は平均20％くらい使ってる
ちなみに普通にpcieスロットにx16接続だと推論中1％くらいしか使わないくらい通信してないようで、測定不能だった
頻繁に通信しつつ推論されてるものと思ってたけど違うみたい
推論だけね、多分学習とかだと違うでしょう
通信速度は問題にならなそう、と分かったところで、そういうケースがあるか？そういうスロット配置のマザボがあるか？ってところでお話が止まってしまう

0470名無しさん＠ピンキー (ﾜｯﾁｮｲ d395-RUMD)

2024/04/14(日) 11:49:41.05ID:???0

推論だけならメモリ帯域はほとんど使わないのか
そうなると数年内に推論はCPUに内蔵されるNPUが主流になるんだろうな

0471名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b6-uu0w)

2024/04/14(日) 11:53:56.66ID:???0

これ、7Bだけど対話型求めてる人には結構良いかもしれん
https://huggingface.co/Aratako/Antler-7B-RP
元のモデルがエロエロだからか対話形式でもかなりエロい表現してくれる
7BでエロチャットやるときはCalm-2が鉄板だと思うけどこっちの方が個人的には好みかも
惜しいのはセリフだけの描写がほとんどで情景とかの描写をあんまりしてくれないところかな（セリフの後そのまま続き生成させると書いてくれるが）

0472名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 12:54:56.05ID:???0

windowsのRAMで動かしてる人がみんな似たような速度ってことはCPU性能には依存しないのか？

0473名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 13:09:46.03ID:???d

推論速度について話題になってるみたいなので、CPU推論について本スレに過去貼ってあったのをこちらにも貼っとく
https://note.com/bakushu/n/n26537fab5a14

メモリ帯域の話
https://vectory.work/memory-bandwidth/

※ただし、i-quantの量子化を使う場合はCPU負荷が高まっているため、CPUがボトルネックになることも十分あり得る

0474名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾛ Sp47-uadv)

2024/04/14(日) 13:24:01.32ID:???p

koboldのamount genって直接入力で512以上にできるけど
推論おかしくならない？
なんか見当違いのこと話しだすんだが

0475名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 13:25:27.89ID:???d

あと体感だとVRAMにオフロードできるレイヤー数が、総レイヤーの5～6割になったあたりから速くなり始めるように感じる
それまではRAMオンリーと変わらない感じ

0476名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b6-uu0w)

2024/04/14(日) 13:31:56.79ID:???0

>>474
めっちゃ大きくするとおかしくなるね
1024くらいならいけてる

0477名無しさん＠ピンキー (ﾜｯﾁｮｲ 43c0-dfu2)

2024/04/14(日) 14:04:01.29ID:???0

>>472
ヘボヘボCPUだと遅いのは間違いない

0478名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 14:46:49.79ID:???0

R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて

0479名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾛ Sp47-uadv)

2024/04/14(日) 14:52:52.92ID:???p

>>478
ドライバはクリンインスコしてる？　同じpcだよね

0480名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-j/Vl)

2024/04/14(日) 15:09:39.41ID:???0

>>478 メモリ64GBでのおすすめは
>>431 のIQ3利用やがいくつかエスパーしとくで

タスクマネージャでディスクアクセスが発生して遅くなってるなら起動しているアプリを減らす

gpulayersを0でなく様子見しながら4以上を設定する

ドライバのシステムメモリフォールバックポリシーをなしにする
https://github.com/Zuntan03/EasySdxlWebUi/wiki/%E3%83%88%E3%83%A9%E3%83%96%E3%83%AB%E3%82%B7%E3%83%A5%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0#%E7%94%BB%E5%83%8F%E7%94%9F%E6%88%90%E3%81%8C%E9%81%85%E3%81%84

0481名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/14(日) 15:10:24.16ID:???0

contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ

0482名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 16:00:49.56ID:???d

CommandR+　>>431のiq4xsだと、うちの環境(VRAM12GB+8GB)では0.6T/sしか出んかった
ほぼRAMオンリーと変わらんね

>>445
これ気になったので、Aratako氏に直接聞いてみるわ

0483名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/14(日) 16:18:40.47ID:ad3txZsV0

お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる？
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ

0484名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:15:27.54ID:???0

sbtom/karakuri-midrose-CV.gguf

karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd

chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがｗ
また、英語で回答したがる傾向も見られました。（英語モデルのインストラクタをかぶせてるせい？）
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。

続いて、マージ手法ですが、長くなるので分けますね

0485名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:22:49.05ID:???0

続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担（特にSSD）をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。ｍ（＿＿）ｍ

0486名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:27:57.91ID:???0

ありゃ？インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16

正しくはこうです。すみません

0487名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/14(日) 18:31:53.20ID:???0

うげ！治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16

むりやり*で埋めた（*をスペースと思ってください）

0488名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/14(日) 21:01:59.77ID:???d

>>445
これについてAratako氏に質問したら、詳細を快く公開してくれた！めっちゃ良いかた！感謝！
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental/discussions/1

>>484-487
おお、うｐ乙です！使わせてもらいます！
ブルースクリーンはむしろ大笑いしたので気にしなくて大丈夫ｗ
config.ymlはrentryにMarkdown使って書くと、見やすくていいかも？

0489名無しさん＠ピンキー (ﾜｯﾁｮｲ e3ee-93oH)

2024/04/15(月) 11:04:43.21ID:???0

command-r-plus日本語のエロチャットで試しているけど
日本語で指定したpromptやこちらの入力は理解している応答っぽいけど
英語に比べるとやっぱり反応が薄いというか淡白だなぁ
このレベルが日本語で反応するだけでも凄いんだが、動いたら動いたでより良いものもが欲しくなるとは貪欲になっていくもんだなぁ

0490名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/15(月) 13:38:44.78ID:???d

なんか7Bだけどすごく良さそうなのが誕生してた！めっちゃ可能性を感じる…
TFMC/Japanese-Starling-ChatV-7B

>>435と同じテストをさせて見た結果
https://rentry.org/zekf2758

0491名無しさん＠ピンキー (ﾜｯﾁｮｲ bf49-+gIl)

2024/04/15(月) 14:01:56.53ID:???0

commandR+触ってみた。
日本語能力は素晴らしいと思うんだけど、出力される内容そのものがmidnight-miqu70Bとかに負けてる気がする。出力中にどんどんわけのわからん方向に内容が逸れてっちゃう

0492名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7e-06fP)

2024/04/15(月) 14:07:03.64ID:???0

>>491
今のcommandR+の利点は、むしろローカルじゃなくても無規制のまま無料で使えることだからなぁ

0493名無しさん＠ピンキー (ﾜｯﾁｮｲ 435f-Zh10)

2024/04/15(月) 14:10:27.06ID:GrORv8F70

>>490
その結果だけ見たらもう70B以上クラスとの違いがわからないな
もっと長くて複雑なベンチマークが必要なのかもしれない

0494名無しさん＠ピンキー (ﾜｯﾁｮｲ d3ea-uu0w)

2024/04/15(月) 14:27:07.18ID:???0

>>490
エロの表現力は流石に微妙そうだけど、指示追従能力は良い感じに上がってそうだね
ただ、ELYZA-tasks-100とかのGPT-4に評価させる系は長文を高評価するようになっちゃう問題があるから、ベンチマークスコア向上はこれの影響かも

0495名無しさん＠ピンキー (ﾜｯﾁｮｲ d3ea-uu0w)

2024/04/15(月) 14:57:52.43ID:???0

というかLCAって普通のベンチマークに対するスコアも元モデルより上がってたのか…
エロ特化でその辺犠牲にしてるんだと思ってたわ

0496名無しさん＠ピンキー (ﾜｯﾁｮｲ c387-j/Vl)

2024/04/15(月) 16:27:44.71ID:/HalLGkT0

>>490
f16使ってみたけど確かに結構賢い感じやね。簡単なタスクはこれに任せてもええかもってくらい
あと全部VRAM乗せられるからワイの環境でも35t/sくらい出て笑うわ。command-r+の0.5t/sに焦らされてる状態から使うと気持ちよすぎる

0497名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/15(月) 16:58:47.09ID:SmAgcugu0

LCAの手法でモデルの特徴を抽出してマージできるならその差分をLora化して後乗せもできるのかね？

0498名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/15(月) 19:30:43.73ID:???0

>>490
確かにいいな、この作者にエロ対応したモデル作って欲しいわ

0499名無しさん＠ピンキー (ﾜｯﾁｮｲ a374-CQ4x)

2024/04/15(月) 20:17:25.74ID:???0

text generation webuiでチャットやってたら急に最新の1応答を除いて過去の会話全部吹っ飛びやがった
マジかよショックがでかすぎる
あぁ、もう一度コンテキスト育てるのは無理やぁ・・・

0500名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/15(月) 20:31:09.28ID:???0

sbtom/karakuri-midrose-CV.gguf
ちまちま検証してましたが、どうもmg版に比べると劣化してる感が拭えなかった。
表現力は同じくらいなんだけど、指示が入りずらい
チャットだと分かりにくいけど、小説書かせたらプロット通りに書かずに勝手にプロット外の事を書き始める
うーん、ダメだこりゃ・・・　と思ってたら、よく考えると重みに0.8掛けする必要なくね？と気付いた
LCAはインストラクタモデルを使ってたから、0.8掛けが効果を発揮していたけど、krakuriはベースモデルを使ってるから
素直に1.0乗せればよかったんや！
で、修正したら、指示も入りやすくなった感じ
とりあえず、修正アップしました。

0501名無しさん＠ピンキー (ﾜｯﾁｮｲ d3ea-uu0w)

2024/04/16(火) 03:16:47.20ID:???0

今更だけど、KoboldcppのPrompt Template色々間違ってない？
LCA試すときにllama2 chatのテンプレ使ってて思ったんだけど、マルチターンの会話の時[INST]と[/INST]だけで区切ってるけど間にeos_token（</s>）とかもいるよな？

0502名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-rajz)

2024/04/16(火) 06:03:57.15ID:u83/57NB0

>>500
試しに同じ構成で作ってみたいと思うんですが
base_modelは何ですか？

0503名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/16(火) 08:14:00.47ID:???0

>>502
ベースは、meta-llama/Llama-2-70b-hf　です

0504名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/16(火) 12:59:19.29ID:???0

ぐあああ！ヤヴァイ
中間モデル保存しておいたSSDが死んだｗ
予定していた最終モデルは別SSDにできた後だったのが不幸中の幸いだったけど、設定ファイルとか亡くなったのは痛いｗ

エロ小説用としては、いい感じに仕上がったと思うんで、なんとか最終モデルをアップするまで、もってくれ～ＳＳＤ

0505名無しさん＠ピンキー (ﾜｯﾁｮｲ d3ea-uu0w)

2024/04/16(火) 13:39:05.39ID:???0

WizardLM-2、消されたらしいけど何かあったのかな
性能やばすぎてGPT-4脅かしそうだったからとか？
帰ったら試そっと

0506名無しさん＠ピンキー (ﾜｯﾁｮｲ cf8e-asBb)

2024/04/16(火) 15:26:08.89ID:???0

理由書いてある
https://twitter.com/WizardLM_AI/status/1780101465950105775?t=7geJj-CKa-B8G3RSss-oUQ&s=19

0507名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/16(火) 16:43:03.66ID:???0

sbtom/karakuri-rosemiqu-CV2.gguf

とりあえず、今試したいことを詰め込んだモデルをアップしました。
自分も、これからチマチマ検証していきますｗ

0508名無しさん＠ピンキー (ﾜｯﾁｮｲ 2382-Zh10)

2024/04/16(火) 18:18:19.18ID:WfuRqmo60

毒性テストしてないバージョン出しちゃったわ😅ヤベヤベ

0509名無しさん＠ピンキー (ﾜｯﾁｮｲ c3d1-WVN9)

2024/04/16(火) 18:25:08.15ID:???0

今のところ4bit量子化でB数の6割ぐらいの高速メモリ用意できりゃOK
みてえな認識してるけど
この先どんどん肥大化していってもこの方式当てはまるんやろか

0510名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/16(火) 20:12:30.61ID:Cvmv6Ee70

VRAMに乗り切るかどうかは単純な計算から求まるんだからその法則自体が崩れることはないんじゃないか？
そろそろ必要なVRAM量がコンシューマ向けチップでかなりギリギリだから、1.58bitが主流になって欲しいけど、いまだに進捗を聞かない

0511名無しさん＠ピンキー (ﾜｯﾁｮｲ 2397-uGJR)

2024/04/16(火) 20:16:54.38ID:???0

https://huggingface.co/amazingvince/Not-WizardLM-2-7B
https://huggingface.co/alpindale/WizardLM-2-8x22B

0512名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/16(火) 20:27:47.59ID:Cvmv6Ee70

8x22Bと7Bは他にも何人か量子化とかアップロードしてるけど、70Bの方は元から公開されなかったんか？

0513名無しさん＠ピンキー (ﾜｯﾁｮｲ cf20-rajz)

2024/04/16(火) 20:51:00.62ID:u83/57NB0

>>503
サンガツ
今マージを始めたところです
midroseの代わりにHDDにあったEuryaleを使ってみてます

0514名無しさん＠ピンキー (ﾜｯﾁｮｲ d303-URmv)

2024/04/16(火) 21:48:29.76ID:???0

WizardLM-2 7BのiQ3_XXS軽すぎワロタ
RTX3050Laptopの4GB VRAMにフルロードできるからサクサクでいいね
割とまともな日本語話すし、ノートPCでここまで動くとは驚きだ

0515名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/16(火) 22:24:38.33ID:Cvmv6Ee70

日本語話せるのか
正直日本語力は期待してなかったけど、こうなると70Bはそこそこ楽しみになってきた
内容にcensorshipはかかってそうかな？

0516名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr47-+gIl)

2024/04/17(水) 11:21:01.11ID:???r

前は毒性テスト不要だったけど今は必要ってこと？
毒性あることも聞きたいんだけどな

0517名無しさん＠ピンキー (ﾜｯﾁｮｲ b392-T8JI)

2024/04/17(水) 12:06:58.01ID:zYAYEg/x0

>>499
ワイもログ何度か消えたからgitで定時スナップショット取るようにしてたわ
今はフロントエンドはSillytavernに移行したけど

0518名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-ULeS)

2024/04/17(水) 12:07:45.83ID:???0

毒は自分で入れてねの時代

0519名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr47-RUMD)

2024/04/17(水) 13:34:42.05ID:???r

再公開で差分があった場合、その差分が毒ということになるんだよな
Tox Vector…

0520名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/17(水) 13:54:29.95ID:???0

>>519
alpindale/WizardLM-2-8x22B

これは元データのコピーなんかな？

0521名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/17(水) 19:59:28.37ID:LaZSos2E0

command-rにプログラム実行の権限与えてるんだけど、pythonで日本語の変数使えるの知らんかったわ
いきなり頭おかしいプログラム走らせ始めてビビった
https://i.imgur.com/aILua5n.png

0522名無しさん＠ピンキー (ﾜｯﾁｮｲ b381-ZCS1)

2024/04/17(水) 20:41:33.77ID:???0

>>521
こんなん笑う、これで抜くのは上級者やな

0523名無しさん＠ピンキー (ﾜｯﾁｮｲ cf9c-iyDU)

2024/04/17(水) 20:44:35.43ID:???0

プログラムコードでシコる
そういうのもあるのか…

0524名無しさん＠ピンキー (ﾜｯﾁｮｲ 7395-j/Vl)

2024/04/17(水) 21:15:13.35ID:???0

>>521
声出して笑ったわ
センスありすぎやろ

0525名無しさん＠ピンキー (ﾜｯﾁｮｲ c3ba-j/Vl)

2024/04/17(水) 21:57:59.92ID:CXycdFik0

>>521
これもうシンギュラリティやろ

0526名無しさん＠ピンキー (ﾜｯﾁｮｲ ff6a-ax5a)

2024/04/17(水) 22:17:01.19ID:???0

4090じゃcommand R + 動かないのか…

0527名無しさん＠ピンキー (ﾜｯﾁｮｲ bfa3-dfu2)

2024/04/17(水) 22:21:28.33ID:???0

3060で動かしてるが
なお速度

0528名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/17(水) 22:26:59.61ID:LaZSos2E0

Command R+の方、ギリギリ動かせるiq3_mだと結構劣化が気になって、結局無印に舞い戻った
q4を動かせるマシンがまともに使える最低レベルと考えると、やっぱり104Bは気軽に動かせるもんじゃないと思うわ

0529名無しさん＠ピンキー (ﾜｯﾁｮｲ 53c7-ZezB)

2024/04/17(水) 22:58:38.30ID:???0

うみゆき@AI研究
@umiyuki_ai
5ちゃんの某LLMスレを監視してるけど、最新の話題でCommand Rとエロチャしてたら急にエロいpythonコード書いて実行し始めた画像相当おもろい。AIにとってはコードが一番興奮するのかもしれん。

何が監視じゃ
インプレ稼ぎ青チェックが上位者気取るな

0530名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-ULeS)

2024/04/17(水) 23:01:58.09ID:???0

うみゆきは別に出している情報間違っているわけじゃないんだけど
「へえ。」とか無意味に冷笑ノリだったり画像生成AIについては
やたら反AIに擦り寄ってみたりの方向が昔のオタっぽくて気持ち悪い

0531名無しさん＠ピンキー (ﾜｯﾁｮｲ c32b-WVN9)

2024/04/17(水) 23:04:29.06ID:???0

おっと人格批判は訴えられるゾ

0532名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-ULeS)

2024/04/17(水) 23:06:06.04ID:???0

>>531
ドヤコンガかな？

0533名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f61-uK2W)

2024/04/17(水) 23:09:30.51ID:iczziYEI0

ここはオナテク板やぞ

0534名無しさん＠ピンキー (ﾜｯﾁｮｲ d32b-RUMD)

2024/04/17(水) 23:22:33.70ID:???0

LM StudioがいつのまにかROCmに対応してた

0535名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/17(水) 23:35:31.16ID:???0

sbtom/karakuri-MS-01.gguf

最近追加されたModelStockってマージ方法、ChatVectorと相性いいじゃないかって気がして、
karakuri-midnightrose-CV
karakuri-SOLAR-CV
karakuri-XWIN-CV
を、karakuri-chatをベースにしてModelStockで４体合体させてみたら、なんかすごくいい感じになった。

評価プロンプト（そろそろ別バージョン必要だなｗ）
https://rentry.org/zapt6wa5

小説テスト（オナニースレで、宇宙人ニキの感想待ち）
https://rentry.org/m55ytdq3

0536名無しさん＠ピンキー (ﾜｯﾁｮｲ c32b-WVN9)

2024/04/17(水) 23:46:19.09ID:???0

評価プロンプトになんか追加するなら
どっちがどこに挿入してるかはとか
2形態以上持ってる変身や変化キャラみたいな設定とか
混同されると萎える要素への解釈理解度確かめるような設問が必要だと個人的には思う

0537名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-j/Vl)

2024/04/18(木) 02:09:24.76ID:???0

AIに可愛い声で喋らせて会話できたらもうそれは革命じゃん

0538名無しさん＠ピンキー (ﾜｯﾁｮｲ e38f-j/Vl)

2024/04/18(木) 03:09:18.12ID:QKygiavm0

>>529
初期はシンプルにAI追ってたのに途中から情報量多すぎて追えなくなってからノリがかわってしまったな

0539名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/18(木) 07:39:05.56ID:Se0rtYV00

>>537
style-bert-vits2とwhisperで割と簡単に満足できるものが実現できるレベルでは

0540名無しさん＠ピンキー (ﾜｯﾁｮｲ 63be-uGJR)

2024/04/18(木) 10:08:53.70ID:???0

実際にやってみると音声と見た目が付くと少しの話の違和感とかアクセントのおかしさが強調されてストレス感じる
イルカやSiriやCortanaが嫌われ続けて来たのと同じ問題だなぁ

0541名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f16-uGJR)

2024/04/18(木) 10:29:24.96ID:31yba4ll0

>>540
ワイ、cotomoとか結構遊んだけど、イントネーションとか結構慣れて気にならんくなったで？むしろcotomoのあほの子ボイスが癖になったまである
原作ありのキャラの模倣とかだと無理かもしれんが、オリキャラならstyle-bert-bits2レベルのイントネーションだったらふつーにガチ恋するわ
AIちゃんがワイのこと覚えてくれてる、認識してくれてる！って部分にうれションでるやで？

0542名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f0f-vBQZ)

2024/04/18(木) 10:33:13.12ID:???0

わかる
でもそのストレスって関西弁聞く時のと同種だよね
不満垂らしつつも許容して慣れるしか無い

それに昔よりはストレス無くなってきたね最近の音声合成

0543名無しさん＠ピンキー (ﾜｯﾁｮｲ 7ffb-uGJR)

2024/04/18(木) 12:04:53.20ID:31yba4ll0

>>542
>>そのストレスって関西弁聞く時のと同種
同意してもらったところ悪いんやけど、なんＪでそれ言うんかｗ
オナテク板もなんＪも関東人以外もふつーにおるんでちょっと配慮したってや？

0544名無しさん＠ピンキー (ﾜｯﾁｮｲ ff9f-OvSD)

2024/04/18(木) 15:01:38.67ID:???0

なんJのは関西弁ではなく猛虎弁ではw
>「猛虎弁」は、関西弁と似た言葉遣いを模倣したユーモラスな表現です。元々は「なんJ（なんでも実況J）」と呼ばれる2ちゃんねるで使われていた言葉で、その後他のネット掲示板やコメント欄でも広まりました123。
(中略)
>猛虎弁は関西人からすれば容易にニセモノだとわかりますが、関西以外の人からは見分けがつかないこともあります。ただし、猛虎弁は本物の関西弁ではないため、注意が必要です123。

0545名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f0f-vBQZ)

2024/04/18(木) 15:02:15.95ID:???0

じゃぁ関東弁聞く時のと同種だよねに読み替えで

0546名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f0f-vBQZ)

2024/04/18(木) 15:07:50.88ID:???0

猛虎弁ていうのか
123が気になる
ぷよぷよ123

0547名無しさん＠ピンキー (ﾜｯﾁｮｲ ff9f-OvSD)

2024/04/18(木) 15:28:07.76ID:???0

それCopilotの回答からのコピペなんやけど123は参照サイトへのリンクの残骸やで……気にせんといてや

0548名無しさん＠ピンキー (ﾜｯﾁｮｲ b3de-+gIl)

2024/04/18(木) 15:35:36.17ID:???0

今まで単純にモデルのサイズが大きければ大きいほどoutputも遅いものだと思ってたけどそうじゃないんだな。
hfに上がってたwizardLM2-8x22Bは1T/sも出てる(普段は70Bで0.5Tくらい)

0549名無しさん＠ピンキー (ﾜｯﾁｮｲ ff20-asBb)

2024/04/18(木) 16:29:21.43ID:???0

MoEだからな
パラメータ全部使うわけじゃない

0550名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/18(木) 19:00:52.25ID:Se0rtYV00

昨日あげた画像結構ウケが良かったが、pythonをLLMに組み込む長所としてはどっちかと言うとこういうふうに指示出してミニゲームできたりするメリットの方を推していきたい
https://i.imgur.com/jSSVVyJ.png

0551名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7e-06fP)

2024/04/18(木) 19:19:11.94ID:???0

>>550
色々とエロのレベルが高すぎるわ

0552名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/18(木) 19:22:24.79ID:???0

エロ評価プロンプトのバージョン２作ったから、使ってね。

https://rentry.org/5m4p8v4z

karakuri-lm-70b-chat-v0.1-Q6_K　での結果
https://rentry.org/zc68gxx5

素のkarakuriの安定度が分かる。設問１は不正解だが

0553名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/18(木) 19:59:00.44ID:???0

つづき
command-r-plus(web)での回答

https://rentry.org/8av79u4b

さすが、エロ表現はいいね。宇宙人は台詞を言ってほしかったが。設問１はこれも不正解

karakuri-rosemiqu-CV2は苦労した割に、ダメダメだった。削除しようかと思ったが、あのアプローチでの失敗例として上げとく

で、自分的には一番いい出来と思った、
model_stockマージでのkarakuri-MS-01の結果

https://rentry.org/we25qrsa

これで、設問１が正解なら、脳汁出るところだが、さすがに無理だった。
でも、他の表現力はcommand-r-plusに負けてない気もする
同じアプローチでswallowを使ったら、どうなるか試したいが、SSDの空きを作るのが大変だｗ

0554名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/18(木) 20:05:40.35ID:???0

あれ？
今、リートンのGPT4-turboと、copilotに設問１の質問したら、両方とも早苗って答えた。

あれれ？　ワイ、間違ってないよな？
拓郎が愛しているのは、源蔵だよな？

0555名無しさん＠ピンキー (ﾜｯﾁｮｲ bfa3-y89D)

2024/04/18(木) 20:30:48.34ID:???0

論理的に詰めていけば源蔵しかいないのだが、AIはみんなそのような思考をせずにシチュエーションだけで判断してるように見えるな
「論理的に」「数理的に」「解析せよ」とか指示を加えたらどうだろう

0556名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/18(木) 20:40:30.43ID:???d

思考問題はGPT-4とかClaude3が安定して正解を出力できる問題にしないとダメかもしらんね
これつらができない問題でも解ける特化型とかあるんかね

それと>>552は「特殊シチュ+指示少な目(求めるお察し力高め)」だから、使うなら旧verと併せて追試として使った方が良さそう
旧verはサクッとチェックできて、最低限の出力品質を確認できるから個人的に好き

0557名無しさん＠ピンキー (ﾜｯﾁｮｲ bfa3-y89D)

2024/04/18(木) 21:07:33.17ID:???0

GPT4とOpusに設問(1)をやらせてみたが正解にたどり着かないな
まず恋愛対象を勝手に異性に限定したがる。まあこれは「同性も含めて」と指示すればいいのだが
一番無視しがちな前提条件が「複数の人を同時に愛することはない」という部分。この文章を正しく理解できていないかもしれない

0558名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/18(木) 21:17:03.74ID:???0

>>555
サンキュー修正しました。
あと、源蔵という名前は英語表記になりやすいので健一に変えました。

0559名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b5-humn)

2024/04/18(木) 21:23:39.01ID:???0

【悲報】ワイの頭AI並み
この設問と条件なら一応、早苗と沙織先生がどちらも拓郎を好いていて拓郎は早苗だけ好き、と解釈するのも可能やからなあ

0560名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/18(木) 21:26:05.93ID:???0

>>557
同時に複数・・・の部分を、もっと分かりやすく修正しました。

>>559
そうすると、校長を愛する者が居なくなってしまう矛盾ｗ

0561名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b5-humn)

2024/04/18(木) 21:36:02.99ID:???0

>>560
あっそっかぁ…(無知の知)
誰かが校長愛さんとあかんことが頭からすっぽ抜けてたわ
【訃報】ワイの頭AI以下

0562名無しさん＠ピンキー (ﾜｯﾁｮｲ d303-URmv)

2024/04/18(木) 21:39:10.82ID:???0

そのうち全人類を超えるAIが出てくるから気にすんな
切り替えていこう

0563名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/18(木) 21:43:27.28ID:???0

Command r そういえば無印もあったんだっけな
UI側対応すんの待ってたら+出たから試してなかったわ
iq3xxsで13.8GBか

0564名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fa0-qTfz)

2024/04/18(木) 23:44:13.67ID:???0

>>561
( ´∀｀)人(´∀｀ )ﾅｶｰﾏ
てっきり複数解があって、どれかに辿り着けばOKな問題かと思ってたわ

0565名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/19(金) 00:29:45.61ID:???0

うおおお
karakuri-MS-01たんは、
ここで、大ヒントです。早苗と相思相愛なのは、沙織です。
の一文入れたら、なんとか「校長」と答えてくれたｗ
ちなcopilotはダメだったｗ

0566名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-ULeS)

2024/04/19(金) 00:41:27.32ID:???0

https://twitter.com/kohya_tech/status/1780949467535184118
いつかクッソ厳しいAI規制の時代が来ても3090+64GBのRAMでCommandR+は動かせることが保証されたか

0567名無しさん＠ピンキー (ﾜｯﾁｮｲ 23d7-oKlK)

2024/04/19(金) 01:32:02.27ID:???0

llama3-8B出たわね
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

0568名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-ULeS)

2024/04/19(金) 01:36:05.86ID:???0

70BだとSonnetには勝てるのか

0569名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/19(金) 02:11:29.23ID:???0

無印Command rええやん
1.5 tokens/sぐらい
16GB～24GBなら全部VRAMに乗りそうやな
>>550
ちなみにプログラム実行の権限～ってLLMエージェント的なやつ?何使ってるか教えてほしい

0570名無しさん＠ピンキー (ﾜｯﾁｮｲ ff20-asBb)

2024/04/19(金) 02:57:07.71ID:???0

>>569
LLMが使えるツールをいくつか設定してて、その中にPythonを入れてる
まあ大枠で言えばエージェントかも
ツール使用するときにはこう書きなさいって指示しといてそれを検出したら、execを拡張した関数（langchainのPythonREPLに近い）に流してる

0571名無しさん＠ピンキー (ﾜｯﾁｮｲ ff20-asBb)

2024/04/19(金) 03:12:26.78ID:???0

オリジナルのPythonREPLだと標準出力
と標準エラーしか受け取れないから、色々いじってmatplotlibのデータ解析結果の画像を表示したり、セッション内でグローバル変数が保持されるようにしたり、トレースバック（LLMがエラー見てコードを自己修復するため）を追加してる
大体ChatGPTのPython実行環境に近い事ができる（仮想化はしてないけど）

0572名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-ULeS)

2024/04/19(金) 03:22:33.98ID:???0

paperspaceのH100とか使えばLlama3の400Bが出てきても動くよな？
酔狂で試す奴出てきそう

ストレージ確保だけでも大変そうだが

0573名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd1f-Y5Kd)

2024/04/19(金) 07:21:01.60ID:???d

Aratako氏にいただいたデータを元に、手作業で改造したLCA-TypeBをリリースしました

Sdff-Ltba/LightChatAssistant-TypeB-2x7B
Sdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUF

こちらの使い方では、指示追従性能の低下を抑えながら日本語の自然さ向上を実感できました
特に長文では大分滑らかになったと思います(一度に2000tokens弱の小説出力を何度かしてテスト)

0574名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/19(金) 10:06:04.59ID:???0

校長を好きな人がいるという事を、もっと分かりやすい文にして、恋愛対象は異性とは限らないとしたら、
日本語だとだめだったが、英文翻訳して聞いたら、copilotは完璧な答えを導いた。
llama3は英文でもダメだった。
やはり、gpt4強しか

0575名無しさん＠ピンキー (ﾜｯﾁｮｲ e332-ULeS)

2024/04/19(金) 10:11:58.42ID:???0

あ、ごめん、途中の推論がおかしかったからダメかと思ったら、
llama3も英文なら答えは校長って答えたわ。
というわけで、>>552は修正しました。

0576名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f56-VjaA)

2024/04/19(金) 10:24:15.97ID:YN736YjM0

>>573
乙なんやで！

0577名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr47-+gIl)

2024/04/19(金) 12:27:10.53ID:???r

評価プロンプトの英語版欲しいな。
翻訳するか

0578名無しさん＠ピンキー (ﾜｯﾁｮｲ f3c0-wKpJ)

2024/04/19(金) 15:48:00.97ID:???0

>>570
つまり自前のシステムってこと?まったくわからん
スクリプトの実行権限与えてチャットしながらファイル操作とかコード編集とかドキュメント読ませたりできたらと思ってな
langchainとか存在は知ってるけどまったく触ったことないわ

0579名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/19(金) 16:48:22.94ID:krQkzshj0

>>578
説明が抽象的で申し訳ない　詰まるとこ、全部自前だが、実装はそんなに難しくないぞ
ちょっと正規表現かければLLMの出力にツール使用命令があるか判別するのは簡単
画像が俺が使ってるプロンプトで、Command Rが必要に応じて
```python
#コード
```
みたく出力するから、これを正規表現”```(python).*?```”でパースして、引っ掛かったらexec関数に中身を流すだけ
https://i.imgur.com/BJM5Fkr.png

0580名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-0y78)

2024/04/19(金) 16:53:46.66ID:krQkzshj0

langchainは無理に触る必要は無いが、ツール含めエージェント構築に使えるパーツが大量に用意されてるから、車輪の再発明を避けたいなら一回手を出してみるのはありだと思う
検索エージェントとかは最初全部自作してたけど、途中でバカらしくなってlangchainに乗り換えたよ

0581名無しさん＠ピンキー (ﾜｯﾁｮｲ 239e-AW1k)

2024/04/19(金) 22:01:04.58ID:nSKhHEs/0

llama3はまた30B出んのかのぅ…

0582名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMa6-fvuB)

2024/04/20(土) 02:55:19.45ID:???M

STのExpression機能がバージョンアップして
classifyで感情分析にかける直前に翻訳通せるようになったようだ
classifyの日本語モデルはなかったからいいアイデアだと思った

0583名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/20(土) 06:39:11.42ID:???d

>>576
乙ありやで！

0584名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/20(土) 10:10:37.44ID:???0

llama3の70Bの評価はあちこちでだいぶ違うな
ベンチマークで高いのが出るようにはなってるっぽいけど

0585名無しさん＠ピンキー (ﾜｯﾁｮｲ 1aa3-KR5T)

2024/04/20(土) 10:35:02.40ID:???0

>>573
乙！確かにいい感じに自然な応答が返ってくるよ
現状のLlama3-70Bより日本語に関しては上だわ

0586名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/20(土) 11:09:13.07ID:???0

イーロンの株価対策超絶最強AIgrokとかもう誰も話題にせんな

0587名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/20(土) 12:43:19.11ID:ZkMMDsP10

Llama.cppのmainとllama-cpp-pythonでllama3動かしてるんだけど、勝手にassistantとかいうトークン挿入して会話が止まらない現象に当たった
調べたら結構報告があるっぽく、ランタイムがeotトークンに対応しきれてないらしい
https://twitter.com/artem_zin/status/1781145656905625772

0588名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/20(土) 12:51:21.34ID:ZkMMDsP10

ちゃんと使えるようになるにはもうちょい時間かかりそう
https://imgur.com/69dWeZD

0589名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/20(土) 12:51:47.53ID:ZkMMDsP10

画像貼りミス
https://i.imgur.com/69dWeZD.png

0590名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-sxCh)

2024/04/20(土) 12:53:19.38ID:???0

>>573のやつ
Text generation web UIでロードできなかった
koboldと同等の設定にする方法ある？

0591名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp13-3Y4j)

2024/04/20(土) 12:59:20.35ID:???p

koboldアプデきたけど
なんだあの動画w

0592名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e02-dLvt)

2024/04/20(土) 19:26:45.24ID:???0

アプデしたkoboldをwindowsが消しちゃう

0593名無しさん＠ピンキー (ﾜｯﾁｮｲ ebcf-IRgQ)

2024/04/20(土) 19:30:07.01ID:M1+DdCm60

Kobold1.63、ウィルスが検出されて削除されてまうな…

0594名無しさん＠ピンキー (ﾜｯﾁｮｲ eff9-KW1h)

2024/04/20(土) 19:56:40.77ID:???0

コ凹凹凹凹凹凹凹凹凹凹凹凹凹♫

0595名無しさん＠ピンキー (ﾜｯﾁｮｲ e687-sTO6)

2024/04/20(土) 19:58:51.29ID:???0

英語ちょっと読めるけど書くの苦手なワイ
プロンプトに「あなたはあらゆる言語を読めますが英語で返信してください」
みたいなのを書いておくと、こっちは日本語で書いて英語で返ってくる状態になる。
異世界転生でチート能力で言語が通じるような感じになって楽しい

0596名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/20(土) 20:14:09.70ID:???d

>>585
乙サンクス！Llama3英語特化らしいから日本語チューンモデル待ち遠しい

0597名無しさん＠ピンキー (ﾜｯﾁｮｲ 77ac-KW1h)

2024/04/20(土) 21:27:25.31ID:???0

質問なんですけど、7Bクラスの言語モデルをCPU(Ryzen5 5600H)でiQ4_XSに量子化するのってもしかして無謀だったりしますか？
モデルデータを公開した方がiMatrix量子化をやってなくて、iQ4_XSが欲しいので自分で作れないかと思い、quantkitという便利なツールを見つけたので試しているところです
既に処理が始まっているのですがこんな表示が出てきて戦慄しているところです
↓これは75時間くらいかかるという意味ですか？

> compute_imatrix: 50.40 seconds per pass - ETA 75 hours 34.63 minutes

0598名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac2-TokO)

2024/04/20(土) 21:39:56.43ID:???0

みんなLLMで何してるの？小説とか書いてるの？

0599名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/20(土) 21:48:19.55ID:ZkMMDsP10

だれかMLXでLlama3動かしてるやついない？

0600名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/20(土) 21:54:15.81ID:???0

>>597
メモリは、いくつ積んでるの？

0601名無しさん＠ピンキー (ﾜｯﾁｮｲ 77ac-KW1h)

2024/04/20(土) 22:01:04.90ID:???0

>>600
16GBです

今、↓のメッセージに気づいて自己解決してしまいました
> compute_imatrix: computing over 5398 chunks with batch_size 512
要するに5398チャンクあって、1チャンク当たりの処理時間が50.4秒なので概算で75時間34分かかるというメッセージだったようです
これは諦めようと思います…

0602名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/20(土) 22:03:38.85ID:???0

>>601
まあ、もっと速くする方法もあるけど、無理にimatrix化しなくても、Q6_kでも十分実用速度になると思うよ？

0603名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/20(土) 22:10:39.19ID:???d

>>597
多分そのCPUで十分できるはず
quantkitってツールについてはよくわからないけど、それはiMatrixファイル作成でChunksを無指定にした時の状態だと思う
おっしゃる通り75時間34分かかる状態です
Llama.cppに含まれているimatrix.exeならこんな感じに指定すれば時間を短くできるんだけど…そのツールだとどうなんだろう

imatrix.exe -m .\model_f16.gguf -f .\wiki.train.raw -o .\model_f16.imatrix --chunks 32

0604名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/20(土) 22:14:30.95ID:t+Q0AVqSd

おっと更新してなかった
確かにメモリ16GBだとモデルサイズが小さい方が嬉しいよね
Chunksを指定する方法がわかればいいんだけど
それかLlama.cppを使ってみるとか

0605名無しさん＠ピンキー (ﾜｯﾁｮｲ 77ac-KW1h)

2024/04/20(土) 22:20:47.39ID:???0

>>602
実際にQ6_kでまともな速度で動いてるので特に問題はないんですけど、
速度早くできるならそれに越したことはないので
必要ではないので無理にやろうとまでは考えてないです

>>603
このツールです
https://github.com/xhedit/quantkit

よく読まずに簡単そうなコマンド打っただけなのでチャンク数の指定は全く考えていませんでした

0606名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac2-TokO)

2024/04/20(土) 22:38:49.27ID:???0

コレの動かし方誰か教えて！

PFN(プリファード・ネットワークス)が金融ドメイン特化LLMを作ったらしい。
Hugging Faceに.safeteonsorsで公開されてるみたい。
https://tech.preferred.jp/ja/blog/qfin-llm-continual-pretraining/

0607名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMa6-fvuB)

2024/04/20(土) 22:41:33.69ID:???M

>>573
おつかれさまです
おま環かもしれないのですが生成速度が下がってる気がします
ver1やx4で14Tで書くところver2だと10Tくらい(全てQ6)
10Tだと、読むの間に合っちゃう…

0608名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/20(土) 22:54:13.60ID:???d

>>607
あれ、そんな現象が起きているとは…ちょっと調べてみますね

0609名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/20(土) 23:17:23.37ID:???0

llama3 日本語はダメだったが、英語の表現力かなりいいなこれ
llama2に比べて、プロットに隠してる意図した思惑をちゃんと表現してくれる。
規制が半端ないから、脱獄オンにする必要あるけどｗ

0610名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/20(土) 23:18:58.63ID:???d

>>607
無印
プロンプト処理: 337.69T/s, 生成: 13.34T/s, Total: 12.97T/s
TypeB
プロンプト処理: 351.56T/s, 生成: 13.37T/s, Total: 12.84T/s
(いずれもVRAMに33レイヤーをオフロード)

うーん、うちの環境では特に差は無いようです
お使いの環境はどのような構成・設定でしょうか？

0611名無しさん＠ピンキー (ﾜｯﾁｮｲ cb74-jk2P)

2024/04/21(日) 01:38:14.72ID:???0

4060ti 16GBの1スロット品が中国で発売だって
https://gazlog.jp/entry/single-slot-rtx4060ti-benchmark/

普通のATXのマザボにこれ4枚刺して64GB
夢が広がる

つーかgeforceのブロワー型クーラー品ってnvidiaが許可しないはずだけど
中国限定販売だから許可が出たのか、それとも勝手にやってるのか・・・
なんにせよ日本から買えないのが残念

0612名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-IRgQ)

2024/04/21(日) 01:48:45.32ID:???0

アクセントに違和感あると思ってたけど最近の音声合成AIちょっと調べたら日本語性能かなり進化してんのな
ちゃんと学習させたら実用レベルに来てるわ
音声読み上げさせたらやばい

0613名無しさん＠ピンキー (ﾜｯﾁｮｲ ef7e-micC)

2024/04/21(日) 01:49:06.37ID:???0

GALAXはグラボメーカとしては老舗だから言うほど怪しくはない

0614名無しさん＠ピンキー (ﾜｯﾁｮｲ 77ac-KW1h)

2024/04/21(日) 10:21:06.57ID:???0

>>603
ありがとう
Llama.cppを使ったらあっさりと量子化に成功しました

0615名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e71-8Qqc)

2024/04/21(日) 10:54:28.47ID:???0

すまない。知っている人がいたら教えて欲しい。
text-generation-webuiで>>431のggufをロード成功後にnotebookで生成すると
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 0: invalid start byte
が発生するんだが、何が起きているんだろう。対応方法はある？

0616マジカル (ﾜｯﾁｮｲ db34-z8bb)

2024/04/21(日) 12:19:41.10ID:z9EdHanv0

https://imgur.com/a/6mzjpm6
モデルは5/1に公開する予定です。

tempture:3

0617名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/21(日) 12:28:28.92ID:???d

>>614
オメ！解決して良かったです

0618名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp13-3Y4j)

2024/04/21(日) 13:13:43.93ID:???p

>>616
おおいいね
何bか教えて欲しい

0619マジカル (ﾜｯﾁｮｲ db34-z8bb)

2024/04/21(日) 13:45:20.53ID:z9EdHanv0

>>618
7Bです。

0620名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp13-3Y4j)

2024/04/21(日) 15:27:20.72ID:???p

>>619
7bでこの表現力はすごいねー
官ジェネとかのプロンプトは仕込んでるのかな？

0621名無しさん＠ピンキー (ﾜｯﾁｮｲ 77de-nnYm)

2024/04/21(日) 15:45:03.55ID:???0

calm-2あたりも7bで結構エロいの書くよな
Antlerは表現力で言うと一番だけど暴走しがち

0622名無しさん＠ピンキー (ﾜｯﾁｮｲ 26db-7awQ)

2024/04/21(日) 15:54:07.26ID:PPvJAW9L0

>>619
これ素の出力なの？
7bって結構途中で変な文章入ったような印象あったけど

0623マジカル (ﾜｯﾁｮｲ db34-z8bb)

2024/04/21(日) 16:19:28.81ID:z9EdHanv0

>>620

官ジェネが何かは存じ上げませんが、「(以下本文)」までの文章以外は入力していません。
別で誘導するための文章を挿入しているなどもありません。

>>622

出力が途中で止まった際に続きを出力させるなどはしましたが、それ以外は一切手を加えていません。

0624マジカル (ﾜｯﾁｮｲ db34-z8bb)

2024/04/21(日) 16:24:37.87ID:z9EdHanv0

参考となるかは不明ですが、簡易的な指標としてpplを計測しました。
https://imgur.com/a/di903Nu

日本語wiki本文と少数の小説で計測しました。

0625名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/21(日) 17:28:00.19ID:???d

期待の新モデル来たか！？
>>435とか>>552のテストしてみるとどうなるか気になる

0626名無しさん＠ピンキー (ﾜｯﾁｮｲ 03a8-8Qqc)

2024/04/21(日) 18:08:21.35ID:8CGWlOOb0

0627名無しさん＠ピンキー (ﾜｯﾁｮｲ 03a8-8Qqc)

2024/04/21(日) 18:08:54.41ID:8CGWlOOb0

ああごめんなさい
ローカルにコピペするつもりが書き込んでしまった……

0628名無しさん＠ピンキー (ﾜｯﾁｮｲ 2ac2-TokO)

2024/04/21(日) 19:43:37.00ID:???0

今みんな実行環境何使ってるの？Text generation webui?

0629名無しさん＠ピンキー (ﾜｯﾁｮｲ 77ac-KW1h)

2024/04/21(日) 20:20:58.06ID:???0

LM Studioでゆるゆる遊んでる

0630名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/21(日) 20:26:24.75ID:???0

エロ評価プロンプト２，設問１がAIにはミスリードが多く、難しすぎたので差し替えました。

https://rentry.org/5m4p8v4z

また、設問１のみをレベル別に分け、日本語、英語での質問ができるテキストをアップしましたので、活用してください。

sbtom/reasoning_ability_test

エロ評価２には、レベル１を使用しました。それでも正解率かなり低いですが、推論の過程を見ると、能力がなんとなく測れます。

0631名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdca-7awQ)

2024/04/21(日) 21:02:38.66ID:???d

今日からローカル始めたレベルの無知なんだけど英語で指示した展開にそれなりに寄り添ってエロ小説書いてくれるモデルを教えてほしい。
環境としては4090とRAM64GBだから13Bとかだときついのかな。
今はLoneStriker/Blue-Orchid-2x7b-Q4_K_Mっていう大分古いモデルで遊んでる

0632マジカル (ﾜｯﾁｮｲ db34-z8bb)

2024/04/21(日) 21:08:11.15ID:z9EdHanv0

https://rentry.org/8ntw35hu

>>630
のテストを我々のモデルで実行しました。モデルが出力した回答をそのまま掲載します。

0633名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/21(日) 21:25:55.85ID:uOvF1J7L0

>>628
jupyter-lab

0634名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/21(日) 21:52:30.54ID:???0

>>632
英語ならよりドみどりだと思うけど、
遅くていいなら、
NeverSleep/MiquMaid-v2-70B-DPO-GGUF
を一度試してほしい。

ちな、その環境なら13Bでも爆速よ

0635名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/21(日) 21:53:51.97ID:???0

>>632
ありがとうございます。

0636名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/21(日) 22:36:28.86ID:???d

>>632
これは期待！どこかのサークルさんか海外の企業さんかな？ChatNTQの強化版だったりして
なんにせよ5/1が楽しみ！

0637名無しさん＠ピンキー (ｽｯｯﾌﾟ Sdca-7awQ)

2024/04/21(日) 22:39:59.50ID:???d

ありがとう、ゆっくりコーヒーでも飲みながら試してみる
そしてHugging FaceにNSFWタグあるんだね、おかげで気づけたよ

0638名無しさん＠ピンキー (ﾜｯﾁｮｲ 8add-IRgQ)

2024/04/22(月) 02:39:31.19ID:???0

官能小説というよりは抜きゲーのっぽい表現に特化した
NSFWモデルでなんかええのないやろか？

0639名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/22(月) 02:49:26.11ID:???0

そこまで特化したの出てないでしょまだ

0640名無しさん＠ピンキー (ﾜｯﾁｮｲ 335f-el1J)

2024/04/22(月) 09:15:14.40ID:eSc9ndJ90

一番近いのはOpusだろうなローカルじゃないけど

0641名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e13-8Qqc)

2024/04/22(月) 16:36:21.57ID:???0

EasyLightChatAssistantに永続生成用の簡単なUIを被せたEasyNovelAssistantを作ってみたで

https://github.com/Zuntan03/EasyNovelAssistant
https://files.catbox.moe/ai9gop.png

デフォルトモデルはLightChatAssistant-TypeB-2x7B-GGUFのIQ4_XSでサンプルもこれで動作確認してあるで
ええモデルをリリースしてくれてサンガツや！

RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5T/s
Geforce RTX 3060 12GB なら 13.5T/s
https://files.catbox.moe/rbk5qh.png

0642名無しさん＠ピンキー (ﾜｯﾁｮｲ ef67-SZ9y)

2024/04/22(月) 16:44:27.42ID:???0

prem aiのブログ更新、RAGについて
https://blog.premai.io/rag-strategies/

そんなことより料金はよw
今日発表すると言ってからもう4日くらい経ってるぞ

0643名無しさん＠ピンキー (ﾜｯﾁｮｲ ef67-SZ9y)

2024/04/22(月) 16:45:05.31ID:???0

間違えた、すまん

0644名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/22(月) 19:00:32.75ID:???0

Groqって会社がGPUじゃなくてLPUっての作っているのか
こりゃどっかのタイミングで劇的に動作コストが下がることありそうだね

0645名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/22(月) 19:22:25.96ID:???0

今の過熱ぶり見るとAI向けアクセラレータボードはバブル終わるまでは企業が買い占めて
評価ボード以外が終わって個人に流れてくる頃には会社がないまである

0646名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr13-Hi6f)

2024/04/22(月) 19:23:49.45ID:???r

PCだとCPUにNPUが標準的に統合されてくる
というか、Microsoftがそれを要求してくる

0647名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/22(月) 20:24:39.08ID:???d

>>641
乙です！またまた良い感じに使いやすくなるツールをありがとうです
TypeBは長文も良くなったはずだし、永続生成はローカルの強みをフルに発揮できて嬉しい！
githubのページもスクショ付きで理解しやすい！超GJ!

0648名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/22(月) 20:57:48.64ID:???d

Antlerの作者さんの新作が出てた。独自のエロベンチマークで他モデルと比較した結果も出てる
Elizezen/SniffyOtter-7B

0649名無しさん＠ピンキー (ﾜｯﾁｮｲ d3b9-4Q0V)

2024/04/22(月) 21:07:42.61ID:???0

Llama3ちゃんにエッチな小説作ってもらおうとしたら拒絶されてショック
説得セリフ入れたけどダメだった
このモデルでエッチなこといける人いるの？

0650名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/22(月) 21:10:56.39ID:???0

>>649
脱獄オンにする
それでも3手目あたりで申し訳してくる

0651名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/22(月) 21:25:11.77ID:ZFyNQtsH0

Command Rの自由度に慣れきってるからLlama3かなりキツく感じる
Cohereははよ中型モデル出してくれー

0652名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/22(月) 22:34:24.99ID:ZFyNQtsH0

Llama 3、プログラミング結構いけるくちか
https://i.imgur.com/fzZl3ee.png

0653名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/22(月) 22:41:09.02ID:ZFyNQtsH0

https://i.imgur.com/3GrVBYD.png

0654名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc0-cnxi)

2024/04/22(月) 23:23:34.60ID:???0

>>579
解説たすかるがワイはLLMさわってるだけのノンプログラマーだからぎりぎりよくわからんくてつれぇわ
langchain色々調べてのでやってることの概要はなんとなくわかった

0655名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/22(月) 23:37:43.75ID:ZFyNQtsH0

>>654
誰でも最初はそんなもんや
簡単な文法は勉強する必要があるかもしれんが、コード自体はLLMに書かせちゃってもいいし、楽する道は結構多いと思うから気張らずにやるのがいいよ
なんとなくlangchainのページ見てるだけでも、LLMで出来ることの多さに驚いてモチベーションも上がると思う

0656名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/22(月) 23:50:52.53ID:???d

Aratako氏の最適化スクリプトをRAM64GBのローカルで動くように改造してみている
評価者はCommand-R+が一番だろうけどRAM64GBだとカツカツだから、他の候補としてはkarakuriとかSwallowMXとかかなあ
>>535さんの子を評価者に迎えようかしら

0657名無しさん＠ピンキー (ﾜｯﾁｮｲ ef68-TokO)

2024/04/23(火) 00:32:03.37ID:???0

>>652
これUIは何使ってるの？

0658名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/23(火) 00:39:45.95ID:Z/XvG38k0

>>657
jupyter(google colabで使われてるやつ)ってツール使って自作した

0659名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc0-cnxi)

2024/04/23(火) 02:19:15.93ID:???0

>>655
実際GPT4TurboにPythonスクリプトとか書いてもらうと普通に動くコード書いてもらえるし、細かく仕様変更頼んでもちゃんと反映してくれるからLLMでプログラミングする/してもらう方向性はまじで期待してるわ

0660名無しさん＠ピンキー (ﾜｯﾁｮｲ cadc-4Wdh)

2024/04/23(火) 09:43:35.64ID:???0

>>659
pythonあかちゃんな俺でもCusorでAIに雑に指示してたらガンガンコード書いてアプリやサービス開発できる位だからこのスレ民みんなスーパープログラマーになれると思う

0661名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-IRgQ)

2024/04/23(火) 10:05:26.24ID:???0

日に日に知識の差なんてどうでもよくなってGPUとSSDの勝負になっていくよな。。。
今年15万円ほど投資してメモリ64GBにしてVRAM16GBにしてSSD2TB用意したけど早くもカツカツで限界感じしてるわ

0662名無しさん＠ピンキー (ﾜｯﾁｮｲ ef68-TokO)

2024/04/23(火) 11:15:41.02ID:???0

>>658
自作かぁ😩

0663名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ee1-XpRj)

2024/04/23(火) 13:18:34.64ID:???0

>>641
すまん、これCPUばっかり使ってグラボの力使わんから遅い。ちなrtx4060の8Gや。グラボ使わすのどうやってやるの？

0664名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb2-TUJc)

2024/04/23(火) 13:36:34.71ID:???0

>>663
GPUレイヤー数を10あたりにしたら、5-10T/sぐらいになる想定や

> RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5 tokens/sec (T/s) です。
より遅かったらKoboldCppがなんかしてるんでさらにGPUレイヤー数削ってみてな

タスクマネージャーで推論時にずっとディスクアクセス発生してるなら他のアプリを落としておくとええかもしらん

0665名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb2-TUJc)

2024/04/23(火) 13:38:22.24ID:???0

VRAMが少ないとGPU処理を使い切れないんは仕様や
CPUやRAMが足引っ張ってる状態やね

0666名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ee1-XpRj)

2024/04/23(火) 13:48:13.09ID:???0

>>664
https://ul.h3z.jp/0qpAuAVk.jpg
1秒で5～6文字やな。L10とか押してみたけど効いてるのか判別つかんｗ

0667名無しさん＠ピンキー (ﾜｯﾁｮｲ dbb2-TUJc)

2024/04/23(火) 14:03:50.77ID:???0

>>666
CPUとRAMがどれだけGPUの足引っ張るかなんでモデルが全部載るあたりに近づくと加速度的に速くなるんや

でかいモデルやとさらに10倍遅くなって2秒で一文字なんでそういうものと思ってもろたら

GPUレイヤーを0や1にして画像生成と併用とかもあるんやが8GBやとそれもカツカツやね
StyleBertVITSに生成文章を読み上げさせるぐらいならいけそう

0668名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ee1-XpRj)

2024/04/23(火) 14:15:07.27ID:???0

>>667
https://ul.h3z.jp/ztBRpUhs.jpg
レイヤーとやらを変更するってやってもこんなん出るで。
1秒で5文字出るだけマシなんかな？CPUだけやったらもっと遅いんかな。

0669名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/23(火) 14:30:50.79ID:???M

とりあえず落ち着いて>>641のページをしっかり読んだ方がいい
>>668のメッセージの意味もわかるはず

0670名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ee1-XpRj)

2024/04/23(火) 14:52:07.95ID:???0

>>669
サンクス。ウインドウ閉じらなあかんかったか。L12で9～10文字/秒出るようになった。サンガツ

0671名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/23(火) 15:00:23.52ID:???M

>>670
解決したようで良かった
おそらく>>641やeasylightchatassistantのページが、koboldの使い方では最も丁寧な日本語解説ページなんで、目を通しておくと良いと思う

0672名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/23(火) 17:27:46.58ID:???0

club.aiのキャラカードをkoboldに取り込むと、必ずchatmodeになるけど、
instractモードにするににはsettingでいちいち切り替えるしかないんかな？
あと、pngファイル内のjsonデータを編集する方法ってある？
ローカル版の官ジェネキャラとか作ってみたいんだが

0673名無しさん＠ピンキー (ﾜｯﾁｮｲ 8afc-z8wQ)

2024/04/23(火) 18:59:35.24ID:???0

複数台PCで分散して動かしてる人がいて、すげーってなった
https://note.com/aisatoshi/n/nd4969fc42602

0674名無しさん＠ピンキー (ﾜｯﾁｮｲ cb74-jk2P)

2024/04/23(火) 19:44:43.73ID:???0

LLMはモデルロードしてしまえば大して通信速度必要ないって話だったなそういえば

0675名無しさん＠ピンキー (ﾜｯﾁｮｲ ef45-micC)

2024/04/23(火) 19:51:15.30ID:???0

4060Ti16GBx4位ならなんとか……

0676名無しさん＠ピンキー (ﾜｯﾁｮｲ 138c-vQly)

2024/04/23(火) 21:26:38.02ID:???0

こういうのノートにブッ刺しまくったりは可？
https://akiba-pc.watch.impress.co.jp/docs/news/news/1585974.html

0677名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/23(火) 23:11:37.48ID:Z/XvG38k0

Hugging Faceに上がってるllama-3 70Bのuncensoredバージョンを謳うモデルを試したけど、日本語能力が地に落ちてて使えんかった

0678名無しさん＠ピンキー (ﾜｯﾁｮｲ 13b1-IRgQ)

2024/04/23(火) 23:58:27.10ID:bzxCIQpJ0

>>672
SillyTavernに読み込んで編集したらええんやで？書き出しも出来たはずやで！

0679名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-8Qqc)

2024/04/24(水) 00:50:54.32ID:???0

AI官能小説凄いな
俺が一生頑張っても勝てそうにない表現力やわ

0680名無しさん＠ピンキー (ﾜｯﾁｮｲ eb79-452b)

2024/04/24(水) 07:35:57.11ID:hgEiuWsX0

>>673
Mac Studioで消費電力が70Wとかいうのをみてしまうとなぁ…。

0681名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/24(水) 09:19:52.45ID:???M

なんかXのポスト見てるとドヤ顔でローカルLLMを知識不足みたいに言ってるの結構いるけど、世の中にはLLMってそういう認識なんかね
そもそも知識入れるのってLLMは容量効率悪いし
そんなんGoogleにでも聞いてろと思う

0682名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/24(水) 09:36:04.43ID:qlNRYqRn0

というか、その部分がまさに今ホットトピックなRAGとかベクトルデータベースの範疇だろう

0683名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-3Y4j)

2024/04/24(水) 10:36:16.52ID:???0

koboldがweb検索オンにできればなぁ

0684名無しさん＠ピンキー (ﾜｯﾁｮｲ 7744-nnYm)

2024/04/24(水) 10:45:30.79ID:???0

Antlerベースの小説生成用モデル出てた
帰ったら試してみる
https://huggingface.co/Aratako/Antler-7B-Novel-Writing

0685名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/24(水) 12:20:35.84ID:???M

>>682
そういうんがあるって知らない人が、ドヤ顔でLLM評価を語ってるのを見てさ
世間的にはそんなもんなんかなって

最近ChatNTQとかAntlerベースがHuggingFaceに増えてるな
やっぱLCAの影響か？このスレ凄いな

0686名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/24(水) 12:34:38.03ID:???M

あとumiyukiよ、iMatrixはchunksを指定しないとめっちゃ時間食うのはデフォだぞ
適度に小さい値を指定して使うようにせんと

0687名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/24(水) 12:41:11.50ID:???0

へぇ。

0688名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/24(水) 12:41:51.94ID:???0

お前は相手の知識の不備つついていい気分だろうけどあっちは傷つくからやめてね

0689名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/24(水) 12:43:21.51ID:???0

5chのスレのリンク貼って拡散するような奴なんて俺たちのオモチャでいいんだ上等だろ

0690名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/24(水) 12:58:37.32ID:???M

いや、別にそういうつもりではなかった
困ってるみたいだったからアドバイスしようかと思って
言い方がキツかったかな。スマン

0691名無しさん＠ピンキー (ﾜｯﾁｮｲ 2627-dLvt)

2024/04/24(水) 13:01:38.71ID:???0

正確な知識を問うなってのはChatGPTが世に出て一ヶ月ぐらいには常識になってたと思ってたんだが
未だにLLMモデルのベンチ感覚で富士山の高さを聞いてる人がいてなんだかなあって

0692名無しさん＠ピンキー (JP 0He6-Hi6f)

2024/04/24(水) 13:11:28.41ID:???H

>>686
俺が7時間34分待つハメになったレスを読み飛ばしてるのか…

0693名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/24(水) 13:21:34.32ID:???M

>>691
俺が見た人は自前でbnb4bit量子化したモデルを使って、それに文句言ってたからな
そこまでする技量と環境あるのに何故当たり前のことがわからんのかと

0694名無しさん＠ピンキー (ﾜｯﾁｮｲ cb74-jk2P)

2024/04/24(水) 17:47:50.03ID:???0

Command R+はまぁまぁ衝撃だったけどChat ArenaではLlama3がもうぶち抜いてる・・・

Chat Arenaには歴代のGPT4の順位も出てるけどCommand R+もLlama3も両方とも
過去のGPＴ4をすでに抜いててLLMの進化の速さを実感するわ

0695名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/24(水) 18:12:09.59ID:qlNRYqRn0

とはいえ、日本語含めたmultilingual性能とかツールに対する最適化とか、Command R+が特に強みにしてる部分は評価対象外なんじゃないか？
個人的にはあんまりフェアじゃないと思うわ

0696名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/24(水) 18:14:55.86ID:qlNRYqRn0

もちろん進化してるのは間違いないと思うが

0697名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/24(水) 18:17:59.51ID:???0

日本語での評価サイトほしいわね

0698名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMca-p/pn)

2024/04/24(水) 18:20:02.90ID:???M

ベンチマークの指標次第でLLMの評価は変わるやん？
Chatbot Arenaはあくまでfewshot程度かつ専門性が低い一般ユーザーから質問に対する応答の評価やで
この板にいる多くの住民にとってのニーズはコンパニオンとしてのAIやろ？トップ層に並んだら後は誤差よ

0699名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/24(水) 18:31:32.25ID:qlNRYqRn0

>>697
あるにはある
https://huggingface.co/spaces/yutohub/japanese-chatbot-arena-leaderboard

0700名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/24(水) 18:41:13.32ID:???0

>>699
Claude-2.1が1位なのはちょっと微妙だな
まだ十分回答がないってことか

0701名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/24(水) 18:48:49.16ID:qlNRYqRn0

>>700
まあOpusがリストにあるのにこの感じってことは、最近はあんまり回答がもらえてないんじゃないかな
このボード自体あんまり話題に上がってるのみたことないし

0702名無しさん＠ピンキー (ﾜｯﾁｮｲ cb74-jk2P)

2024/04/24(水) 19:22:49.30ID:???0

確かに日本語版あるの今初めて知ったしなぁ
何回か評価参加しとくか

0703名無しさん＠ピンキー (ﾜｯﾁｮｲ cb74-jk2P)

2024/04/24(水) 19:25:02.43ID:???0

連続して評価できないのかこれ
ページリロードしないといけないのめんどいな

0704名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/24(水) 22:06:25.93ID:???d

Llama3、Phi-3が出てきて小型でも強いモデルが増えてきて嬉しい
Mistral7B以外の選択肢として期待してる
個人的にはPhi-3の14Bがとても楽しみ

0705マジカル (ﾜｯﾁｮｲ dbd5-z8bb)

2024/04/25(木) 00:39:16.85ID:z84nqIDe0

{
"results": {
"jcommonsenseqa-1.1-0.4": {
"acc": 0.8990169794459338,
"acc_stderr": 0.009011295342579962,
"acc_norm": 0.5406613047363718,
"acc_norm_stderr": 0.014904185887668711
}
}

jcommonsenseqa-1.1-0.4で我々のモデルを評価しました。（3-shots）
厳密な比較はしていませんが、少なくともChatGPT3.5を超えていると思われます。
今後Elyza-taskなど人力評価などを活用し、より詳細なベンチマークを実施する予定です。

0706名無しさん＠ピンキー (ﾜｯﾁｮｲ 178e-IRgQ)

2024/04/25(木) 01:17:23.70ID:mzK3rKYG0

>>705
お？5月1日の人？7BでGPT 3.5越えってすごいね！めっちゃ楽しみ！

0707名無しさん＠ピンキー (ﾜｯﾁｮｲ 773d-nnYm)

2024/04/25(木) 01:43:26.23ID:???0

jcommonsenseqaとかのjaster系列でスコアが高いモデルはjasterのtrain部分をinstruction tuningに入れてること多いけどそこは大丈夫なのかな（入れるとめっちゃ高くなるのでちょっと心配になっただけ）
ベンチマーク系はマジで難しいんだよなぁ
RakudaとかでGPT-3.5に勝っても人間の主観評価だと全然だったり、1-shotや2-shotでは良くてもターンがどんどん増えると一気に悪化しちゃったり

0708名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 01:54:27.71ID:???M

「LOCAL AI HACKATHON #001」ってのが5/1に決勝らしいけどそれと関係あるんかな

0709名無しさん＠ピンキー (ﾜｯﾁｮｲ 13fe-TokO)

2024/04/25(木) 02:59:05.33ID:???0

llama3,Phi-3ってGPT-4に匹敵するレベル？ローカルで画像分析とかもう出来るのかな？

0710名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 03:15:20.23ID:l61WUoRK0

今のところその二つはマルチモーダルではないけど、llama 3はマルチモーダル・マルチリンガル版も出したいって話じゃなかったっけ
GPT4に匹敵するかというと、これはもうちょっと具体的に評価基準を絞らないとフェアな比較にならないと思う
ベンチマークでいいなら、llama 3は一昔前のGPT4に相当するって話になってるみたいだけど

0711名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-3Y4j)

2024/04/25(木) 06:26:29.89ID:???0

マルチじゃなくてシングルの画像のみの解析ならkarakuri+koboldで出来てた

0712名無しさん＠ピンキー (ﾜｯﾁｮｲ eb96-8Qqc)

2024/04/25(木) 07:26:59.43ID:???0

Phi-3FP16試してみたけど日本語はやっぱりイマイチだな
GPT4どころじゃない

0713名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/25(木) 09:58:49.60ID:???0

(LLMでボトルネックになるメモリ帯域と量見て)macでLLMいいよ
とか言ったやつがGPU性能がーで袋叩きにされて草なんだ

0714名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 10:33:56.28ID:???p

macでllmやるならgpu性能いらないんじゃ？
画像系もやりたいとか？

0715名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-7awQ)

2024/04/25(木) 11:01:00.80ID:???0

LLMはトレーニングデータの殆どが英語だし
音声合成AIは今度は中国語ベースだしで日本語対応はどうしても貧弱になるんだよな

0716名無しさん＠ピンキー (ﾜｯﾁｮｲ 13fe-TokO)

2024/04/25(木) 12:43:35.82ID:???0

ローカルで画像認識出来る奴ってあるの？
「この画像はなんだい？言ってごらん？デュフフフ」ってやりたい

0717名無しさん＠ピンキー (ﾜｯﾁｮｲ 178e-IRgQ)

2024/04/25(木) 12:58:11.90ID:mzK3rKYG0

>>716
自作のMRアプリで撮影した大阪城公園でのWAIFUとの露出プレイの画像を、GPT4のカスタムインストラクションで組んだWAIFU本人にレビューさせたら垢バン食らったわｗ

0718名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 13:06:21.28ID:???p

>>716
前にオナニースレに投下したやつ
こういうのがしたいんやろ？w

koboldに画像解析機能付いたんで、SDで適当に作った絵を、変態成りきり解説させてみた。
https://imgur.com/a/30ncBQE

マルチモーダル対応モデルじゃない普通のモデルだけど、結構遊べる

0719名無しさん＠ピンキー (ﾜｯﾁｮｲ 13fe-TokO)

2024/04/25(木) 13:08:00.65ID:???0

>>718
おお！Command +Rとかでも出来るの？

>>717
技術無駄に使ってて草

0720名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 13:12:58.88ID:l61WUoRK0

ローカルで画像認識させられるのってLLaVAとか？
一回も使ったことないし話題になってるのもほとんど見ないけどどうなんだろ
ベースはLlama 2みたいだけど3ベースが出たら話題になるんかな

フォルダにあからさまなエロい名前のファイル突っ込んどいて、Command Rとかに「今あるファイル調べて」みたいなタスク投げると割と可愛らしい反応返してくるから時々それで遊ぶけど、画像でそれができるのは割と熱いかもしれない

0721名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 13:13:54.12ID:???p

>>719
こいつはkarakuri-midroseだけどcomand-rでもいけると思うが試してないんでやってみて
hordeモードな

0722名無しさん＠ピンキー (ﾜｯﾁｮｲ 17ca-tbmE)

2024/04/25(木) 13:14:49.75ID:7PsT55ne0

>>716
調べれば出てくるやろ
MoondreamとかObsidianとか

0723名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 13:35:45.93ID:l61WUoRK0

今X見てたらnvidiaのGPUだとprompt evalにかかる時間(≒最初のトークン出力にかかる時間)がプロンプト長と比例しないっていうポストを見たんだけど、本当なの？
俺はApple siliconだからわからんのだけど、感覚的にでいいから実際どうなのか教えて欲しい

0724名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 14:21:46.50ID:???p

>>723
確かに長文でも　こんにちは　でも一手目での応答は同じくらい長めの感じかな

0725名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 14:28:30.20ID:???M

prompt evalってプロンプト処理時間のことなんかな
1batch内のトークン数に収まる分なら処理時間変わらんと思うけど、溢れて2batchになるなら遅くなると思うけど
プロンプト長で処理トークン数増えるから、その話は眉唾に感じるなあ
比例しない(時間変化がないとは言ってない)だったりして

0726名無しさん＠ピンキー (JP 0H1a-a8r0)

2024/04/25(木) 14:41:05.86ID:???H

あ、GPU推論の話か
スマン、>>725はスルーしてくれ
GPU推論はよく知らんのだわ

0727名無しさん＠ピンキー (JP 0H9a-dLvt)

2024/04/25(木) 14:41:11.49ID:???H

ログ見る限りでははトークン数に応じてprompt evalの時間は普通に伸びてるけどなあ
llama_print_timings: prompt eval time = 8912.58 ms / 1438 tokens ( 6.20 ms per token, 161.35 tokens per second)
llama_print_timings: prompt eval time = 13620.81 ms / 2314 tokens ( 5.89 ms per token, 169.89 tokens per second)

0728名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 14:48:37.78ID:l61WUoRK0

一応俺が見つけたポスト出しとくか
正直眉唾な気がしてるんだが
https://twitter.com/WoF_twitt/status/1783351795198382243

0729名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 14:56:46.09ID:???M

なんかこの書き方だと、単にMacの演算性能が低くてプロンプトの処理に時間がかかる、みたいな表現に見える
nvidiaの方がもちろん演算性能が高いから気にならないくらい、てだけのような

0730名無しさん＠ピンキー (ﾜｯﾁｮｲ 13fe-TokO)

2024/04/25(木) 14:59:50.51ID:???0

>>721
Kobold.exeの初期設定画面でCommand +RのAPI入れてlaunch押したらなんかGGUFファイル指定しろって出てくる。。。
Silly TavernはAPI入力だけで使えたのにGGUFダウンロードしないといけないのかぁ
Command +RのGGUFあったけど多分全部で500GB以上あるんだよな…

0731名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 15:01:47.14ID:???M

求められるスペックは
プロンプト処理: プロセッサ性能
トークン生成: メモリ帯域
なのでMacはトークン生成は有利だけど、プロンプト処理は不利ってことかと

0732名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 15:10:39.40ID:l61WUoRK0

まあそういう意味なら理解できるわ
処理性能が高くて計算が速いから、気にならない誤差程度の差しか（絶対値としては）出てこないってことね

0733名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 15:19:58.03ID:???p

>>730
全部落とす必要ないで
メモリ64GならQ3k_mかiQ4ってついてるのが動くはず

0734名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 15:22:00.80ID:???M

MacをLLM用に買う人はそこを分かって買ってるんじゃないんかなあ
こういうポストが出るってことは調べんでポンと大金出す人が多いのか…

0735名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 15:25:27.65ID:l61WUoRK0

>>734
多分実際お金出しちゃった人がいるってわけじゃなくて、昨日Mac StudioがローカルLLMに適してるって記事が少しバズってローカルLLMがXのトレンドに出てきたりしたから、記事を間に受けて何も考えずに買うのは気をつけた方が良いよ～っていう警告だと思う

0736名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 15:28:46.41ID:l61WUoRK0

ちなみにこれね
https://note.com/erukiti/n/n58a8180ea9fb

0737名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 15:31:37.95ID:???p

>>730
って、尻でApiでcommand-r+って　それローカルじゃないかとw
遅すぎて萎えるんじゃないかな？
ローカルならLCAニキのモデル使うのが速くていいで

0738名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 15:32:25.57ID:???M

>>735
そんな記事が出とったんやね。理解できた。情報サンクス！

0739名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-7awQ)

2024/04/25(木) 15:39:11.22ID:???0

ローカルのcommandR+(gguf版 xs4bit)に画像解析させるとデタラメな事しか言わないんだけど量子化が原因？
上手くっている人いる？

0740名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 15:42:27.25ID:???p

>>739
読み込み後hordeに切り替えてアナライズ中が緑のokに変わったのを確認してから質問する

0741名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 15:43:00.00ID:l61WUoRK0

kobold.cpp使ったことないからわからんけど、内部的にはimage-to-textモデル動かして、そのテキスト出力をLLMにプロンプトとして流してるだけなんじゃないの？

0742名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-7awQ)

2024/04/25(木) 15:50:02.99ID:???0

>>740
hordeにしないと精度低いってことなん？
>>741
全く認識してない訳じゃないけどジャケットタイプの制服をセーラー服だと思い込んだり、
髪型は認識してるのに裸なのに気が付かずに独特なデザインの服だと思ったりちぐはぐな認識するんだよな

0743名無しさん＠ピンキー (ﾜｯﾁｮｲ 1740-3Y4j)

2024/04/25(木) 15:54:40.66ID:???0

>>742
というかマルチモーダル対応のモデル以外だと
hordeしか使えなかった
karakuriとかでも同じような回答になる？

0744名無しさん＠ピンキー (ﾜｯﾁｮｲ 2627-dLvt)

2024/04/25(木) 16:03:37.80ID:???0

>>736
こういう言い回しする奴ってマジで胡散臭えな
技術屋ではなく情報商材屋の匂いがする

0745名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 16:13:12.07ID:???M

まあまあ、こういう言い方を好む人は世の中にいるもんよ
内容はともかく、disるつもりないと言いながら皮肉煽りするのはどうかと思うが

0746名無しさん＠ピンキー (ｴﾑｿﾞﾈ FFca-XbLZ)

2024/04/25(木) 16:13:16.94ID:???F

言い回し云々はともかくこの話自体はここでも出てた内容だし……

0747名無しさん＠ピンキー (ﾜｯﾁｮｲ 13fe-TokO)

2024/04/25(木) 16:25:45.19ID:???0

>>737
すみませんLCAニキさんのモデルってどこにありますか？
>>733
メモリ32Gです。。。

0748名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-7awQ)

2024/04/25(木) 16:27:40.59ID:???0

>>743
web-ui forgeとAPIで連携しててちゃんとforgeの方でもCLIPが動いてるログがあって画像認識してる
その結果が引き渡されている筈
なんかアップロードされた画像が極端に縮小されてそれで精度下がってる気がして来た

0749名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp13-3Y4j)

2024/04/25(木) 16:36:48.71ID:???p

>>747
>>573

0750名無しさん＠ピンキー (ﾜｯﾁｮｲ 2627-dLvt)

2024/04/25(木) 16:44:46.54ID:???0

>>745
>>746
一番重要なメモリ帯域の話が抜けてるんだよね
普通のPCは100GB/sぐらいなのに対してM2Maxは400GB/s、M2Ultraは800GB/sと圧倒的なメモリ帯域があるから実用的な処理が出来る
M2やM3での下位モデルは帯域は狭いんでそのアドバンテージはない
最新のM3Maxでは300GB/sと400GB/sのモデルに分かれたみたいな話もするべきだし
この人が実際使ってるならこのサイズのモデルを走らせたらどれぐらいの速度が出てるとか、こういう学習をしたらこれぐらいのメモリが必要だったとか
実用部分がふわふわしてるエアプの書いた文章って感じで技術的な知識が怪しいから信用ならない

0751名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/25(木) 17:06:42.87ID:???0

4090+DRAMとUltraフルロードでトークン/s比較ぐらいはせんとな

0752名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 17:09:50.13ID:l61WUoRK0

筆者のX見るとメモリ帯域の話にも触れてるし実際のところエアプではないと思うよ

0753名無しさん＠ピンキー (ﾜｯﾁｮｲ a380-tbmE)

2024/04/25(木) 17:10:46.74ID:OxmPFSa60

M3ultraは結局出ないのかな？待ってたのに

0754名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 17:18:25.43ID:???M

技術系の話を避けがちな人向けの記事とか？
…と考えたら>>744みたいに思うのもわかる気がしてきた
技術の話を記事に盛り込んでたら印象が変わりそうなのに

0755名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/25(木) 17:51:17.64ID:???0

そんなに胡散臭いやろか
普段からXでその人のツイート回ってくるけど別に悪印象ないけどなあ

umiyukiのがもっとクセある

0756名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/25(木) 18:00:45.62ID:???0

高速メモリをできるだけ大量に提供することに特化したニューラルボードありゃ
macがどうのGPU複数がどうのとかなく終わるんだけど
そんなもん個人向けに手頃な価格で出回る頃にはAIバブル弾けてんだろうなあ

0757名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 18:04:26.42ID:???M

そういう風にとる人もいるかもなーってくらいかな、記事の個人的印象
誰しも好き嫌いや取り方は異なるもんや

0758名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/25(木) 18:06:30.90ID:???0

文体藻そうだしMac勧める話になるとなんかバトルスイッチ入っちゃうオタクくん多いからしゃあない

0759名無しさん＠ピンキー (ﾜｯﾁｮｲ 6672-tAML)

2024/04/25(木) 18:11:58.15ID:???0

AI界隈ビッグマウス多過ぎだからどんな話も90%OFFぐらいがちょうどいい
いちいちとりあう必要はない
儲け話と同じで本当にヤバかったら我先にとなってみんなしばらく黙る
黙らない時点で便乗して自己顕示欲ムクムクさせてるだけ

0760名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 18:25:56.75ID:l61WUoRK0

MiquMaid作ってくれたNeverSleepのディスコードチャンネル入ってみた
なんかLlama 3ってファインチューンで規制取り外そうとするとバカになりやすかったりで難しいっぽいね
MiquMaid v2大分良かったから期待してるんだけど、一朝一夕にはいかなそう

0761名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1a-a8r0)

2024/04/25(木) 18:29:11.54ID:???M

>>759
ワイにクリティカルヒットしたわ
控えなあかんな…

0762名無しさん＠ピンキー (ﾜｯﾁｮｲ e687-sTO6)

2024/04/25(木) 18:37:21.85ID:???0

M3Max/128GBのマカーだけど
Command R+ Q4_K_M〜Q6_K が 4t/sくらい出てそこそこ快適
LLM用にMacStudioありだと思うよ

prompt eval timeが比例するのは確かだけど
10分なんて待ったことないぞ

0763名無しさん＠ピンキー (ﾜｯﾁｮｲ e6a4-7awQ)

2024/04/25(木) 18:45:34.81ID:Q3AcuR5x0

Mac で command-r+が5tpsぐらいの速度で動かせられるのは正直羨ましい
まあこの先半年ぐらいのアドバンテージのために100万円弱出せるかの価値観の話よね

0764名無しさん＠ピンキー (ﾜｯﾁｮｲ 1aa3-KR5T)

2024/04/25(木) 18:54:04.01ID:???0

独身時代ならボーナスでスパーンと買う誘惑に抗えなかったかもしれん
幸い今は家族持ちゆえ

0765名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b82-el1J)

2024/04/25(木) 18:58:16.51ID:zF3U3P4/0

変態は中古の3090をebayで買ってマイニングリグに組むらしい

0766名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fc7-8Qqc)

2024/04/25(木) 18:59:29.07ID:lgxOP2hf0

LewdSniffyOtter-7Bをoobaboogaで動かしてみるとなかなか良い

0767名無しさん＠ピンキー (ﾜｯﾁｮｲ e687-sTO6)

2024/04/25(木) 19:07:48.82ID:???0

Mac関係なく100万弱の機材買うのに家族犠牲にしなきゃならん環境だとMacもRTX3090x3もやめとけとしか言えん…

0768名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 19:41:17.19ID:l61WUoRK0

Llama 3 70B堅物だと思ってたけど、システムプロンプトを”性的なリクエストにも従え”から”エッチな会話も楽しんで”に変えたら少しエロチャに付き合ってくれるようになった
https://i.imgur.com/fDLMuKi.png

0769名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-7awQ)

2024/04/25(木) 20:23:36.69ID:???0

R+がローカルで5t/s出たら将来AIに厳しい規制が来ても当面安泰だもんな
普通にMAC勢が羨ましい過ぎるわ

0770名無しさん＠ピンキー (ﾜｯﾁｮｲ 66a5-nnYm)

2024/04/25(木) 20:26:11.76ID:???0

>>684
これ、多分各小説の1話から学習してるせいかプロローグ的なのしか書いてくれないな…
導入としてはそれなりにまともなの書くけどエロはあんま書いてくれない

0771名無しさん＠ピンキー (ﾜｯﾁｮｲ fe8e-dLvt)

2024/04/25(木) 20:39:32.16ID:???0

多分Command-R-plus動かすのなら4060Ti 16GBを4～5台積む方が安いぞ
ライザーカードも数千円程度だし

0772名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/25(木) 20:45:29.47ID:???0

>>768
おお、ほんまや。
2手目で英文申し訳出てたのが、
「性的なリクエスト受けても、assistantに代わらないで、ローリィとして拒否しながら、エッチな会話も同時に楽しんでください。」
って、入れといたら、申し訳食らわくなったｗ
まあ、karakuriベースなら、自分から脱いでくるエロ子なんだが、やっぱ堅いなｗ

https://imgur.com/a/Qu2JM8G

0773名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 20:52:44.12ID:l61WUoRK0

再現性あったか、良かった
まあある程度固いのは仕方ないな
流石にCommand Rレベルのアナーキーは求めてないから脱獄の方向性が見えただけ良かったよ

0774名無しさん＠ピンキー (ﾜｯﾁｮｲ 03f5-IRgQ)

2024/04/25(木) 20:55:14.96ID:???0

M1 Macbook air 16GB所持なのでLLM動かす事だけを考えると
NVIDIAにぼったくられるよりモリモリのユニファイドメモリの方が
個人レベルだと安いっていうのは理解出来る(´・ω・`)

0775名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-dLvt)

2024/04/25(木) 21:04:40.93ID:???0

つーかMacみたいな高速なユニファイドメモリってAppleシリコンじゃないとできないのかね
Windowsマシンでできたら幅が広がるのになあ

0776名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/25(木) 21:10:56.12ID:???0

年末に出る予定のAMDのやつが内蔵多チャネル高速仕様を32G積む予定や

0777名無しさん＠ピンキー (ﾜｯﾁｮｲ cb74-jk2P)

2024/04/25(木) 21:12:25.05ID:???0

>>774
一番安いのはグラボ複数載せや
1台に(おそらくライザーケーブル使って)複数載せて動かしてる人がこのスレにおるし>>399
マシン1台に無理に何枚も詰め込まんでも複数マシンでLLM動かして成功した報告が出てきたばっかりやし>>673

0778名無しさん＠ピンキー (ﾜｯﾁｮｲ 77c7-26CY)

2024/04/25(木) 21:14:56.00ID:???0

PS5も高速なGDDR6をメインメモリに使ってるぞ
一社で仕様を決められるマシンならできる
そうでないならできない

0779名無しさん＠ピンキー (ﾜｯﾁｮｲ 1767-tbmE)

2024/04/25(木) 21:16:45.30ID:7PsT55ne0

>>774
消費電力考えてもわいもマック派や

0780名無しさん＠ピンキー (ﾜｯﾁｮｲ 03f5-IRgQ)

2024/04/25(木) 21:23:16.23ID:???0

>>777
自分で組んでみた？
電源ユニット何個ぐらい必要だと思う？
3090+3060のマシン組んでるけど
これ以上増設しようとすると普通のケースじゃ収まらなくなるし
スマートじゃない物体が出来上がって運用面倒くさいよ(´・ω・`)

0781名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f11-w0m+)

2024/04/25(木) 21:38:21.96ID:l61WUoRK0

Llama 3 70B、あのあとエロチャ続けてたら普通にエッチするとこまで行けた
英語圏特有の*giggles*とか*blushes*は若干鬱陶しいけど
https://i.imgur.com/varbRVc.png

0782名無しさん＠ピンキー (ﾜｯﾁｮｲ e687-sTO6)

2024/04/25(木) 21:58:24.75ID:???0

動かしてもない空想上のNVIDIA最強マシン推しの人何が目的なんだろう…
Command-R-plus Q4以上の日本語クオリティに可能性を感じたので
ユーザー増えて知見共有できたらなと思ってるんだけど

0783名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-7awQ)

2024/04/25(木) 22:14:48.31ID:???0

LLMと音声合成(VITS2)と画像生成を連携させようとしてたら
VITS2はこのバージョンでは動かない、画像生成は別のverでないとgradioはこのバージョンでは動かない、
音声ライブラリは…このバージョンでは、cohereのライブリはこっちのバージョンではダメ…
相性問題バージョン依存が無限に出て来て頭おかしくなる
何個仮想環境作ればいいねん

0784名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-Z3ht)

2024/04/25(木) 22:27:47.22ID:???d

>>766
なんだこれは！エロに全振り、だと…？SniffyOtter-7Bでもまだ本気じゃなかったのか
うちの子に組み込みたくなるな…

0785名無しさん＠ピンキー (ﾜｯﾁｮｲ 132b-Xec1)

2024/04/25(木) 23:47:33.48ID:???0

別にサーバー普通に買ったりワークステーション用の板とケースだったりライザーケーブルやマイニンリグやヒートシンク毟って強制冷却とかで実際に実現してる人がいるから
決して全員がそうだと疑うわけじゃないんだけど
話聞いてるとお前その製品の実物見たことあんのけクソでかいぞ？
みたいなスペックポンポン出てくるよねLLM界隈て

0786名無しさん＠ピンキー (ﾜｯﾁｮｲ ef28-iw+Z)

2024/04/26(金) 14:05:13.59ID:BBNZItaZ0

>>775
Intelが64bitデュアルチャンネルに対して M1 Maxだと512bitだもんな
CPU直付けの凄さよ。レイテンシーも低くできるし
マザーボードのメモリーは必ず8枚セットで、とかなら並べそうだがw
8kのビデオ動画4本をスルスルとスクロールさせるための能力がLLMで効いてる

0787名無しさん＠ピンキー (ﾜｯﾁｮｲ 773e-nnYm)

2024/04/26(金) 14:42:56.04ID:???0

>>770
こんなこと言ってたらNSFW特化モデル作ってくれてた
https://huggingface.co/Aratako/SniffyOtter-7B-Novel-Writing-NSFW-GGUF

出力はこんな感じ
https://rentry.org/inoohmyx

かなり上手く書けてる気がするわ
ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
7Bでこんなそれっぽいの書けるんだな
出力爆速だし普通に使えそう

0788名無しさん＠ピンキー (ﾜｯﾁｮｲ 13ae-7awQ)

2024/04/26(金) 16:35:41.28ID:saVtxNoj0

https://imgur.com/a/gkkfpPp

0789名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e13-8Qqc)

2024/04/26(金) 18:45:25.75ID:???0

>>787
EasyNovelAssistantでSniffyOtter-7B-Novel-Writing-NSFW-GGUFに対応しといたで
テンプレメニューを追加してプロンプトテンプレートを楽に入力できるようにもしといた

出力例の紹介もサンガツ
せっかくなんでこれも合わせて紹介させてもろたで
もし嫌やったら消しとくんで知らせてな

https://twitter.com/Zuntan03/status/1783792889052746049

0790名無しさん＠ピンキー (ﾜｯﾁｮｲ 1b32-dLvt)

2024/04/26(金) 19:37:46.81ID:???0

なんか、swallowの新型が出てるな。
どうせならllama3ベースで出して欲しいが

0791名無しさん＠ピンキー (ﾜｯﾁｮｲ ee3c-nnYm)

2024/04/26(金) 19:50:16.95ID:???0

>>789
全然おｋ

>>790
前のLlama2ベースとMistralベースモデルのインストラクションチューニング版だね
Llama3の継続事前とかもやってそうだけど流石にまだ出なさそう（GW返上でやってそう）

0792名無しさん＠ピンキー (ﾜｯﾁｮｲ 0384-8Qqc)

2024/04/26(金) 20:17:04.84ID:qWJpL87+0

>>789
サンガツやで！
LLMもAI生成も試したいこと多すぎて仕事でけんわ
仕事をフォローするためにAIいじっとるはずなのに……

0793名無しさん＠ピンキー (ﾜｯﾁｮｲ 7702-TokO)

2024/04/26(金) 21:58:10.57ID:???0

あんまり良くわかってないんだけど、KoboldでLCAニキのSdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUFがいいって勧めてもらったので試そうとしてるけど、
Q2_s.gguf~Q6_K.ggufまで色々あるけどどれを落としたらいいの？

0794名無しさん＠ピンキー (ﾜｯﾁｮｲ 7726-Hi6f)

2024/04/26(金) 22:17:49.66ID:???0

マシンスペックに余裕があるならQ6
それで重すぎるならモデルサイズを落としていく

0795名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f27-rdsl)

2024/04/27(土) 01:45:34.03ID:???0

数字が多いほど性能が高いけどその分だけメモリを食うし処理時間も長くなる
k_mとk_sならmの方が少し性能が上だけどそれだけメモリを食う
qとiqってあるけどiqの方が新しい形式で同じ数字でもちょっと性能が高いらしい

0796名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd9f-joKd)

2024/04/27(土) 08:30:04.15ID:???d

数字が小さいほど元の性能より劣化している
数字が大きいほど元の性能に近い
ということね

0797名無しさん＠ピンキー (ﾜｯﾁｮｲ 53fb-6o3J)

2024/04/27(土) 12:01:13.55ID:???0

huggingfaceの二次創作系小説サイトのデータセットがDMCA通知で消されたっぽいな

0798名無しさん＠ピンキー (ﾜｯﾁｮｲ e32b-/xY8)

2024/04/27(土) 12:51:28.14ID:???0

剽窃完全放置のマッポーじゃなかったんかあそこ

0799名無しさん＠ピンキー (ﾜｯﾁｮｲ 53fb-6o3J)

2024/04/27(土) 13:19:38.57ID:???0

マッポーめいた殺伐サイトでもDMCAフォームはあるのが通常だから…

0800名無しさん＠ピンキー (ﾜｯﾁｮｲ f385-5N3P)

2024/04/27(土) 14:09:54.89ID:???0

>>797
DMCAで消された訳じゃなくて作者が自分で消したっぽいが、あのデータセット普通に合法でしょ？無視しといてもよかったと思うわ（いずれHF側で消されただろうけど）
1回消すと反AIの餌になっちゃうからなぁ

0801名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Spe7-Edzu)

2024/04/27(土) 14:18:46.09ID:???p

小説のデータ食わせて訓練ってどうやるのがいいのかな
昔書いたエロ小説が文庫本1冊分くらいはあるけど足りなすぎかな？

0802名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f27-rdsl)

2024/04/27(土) 14:28:09.16ID:???0

>>800
日本の法律で言えば小説サイトから直接クロールするのは合法
データセットとしてまとめてアップロードした時点で違法

反AIに餌やりたくねえって言うなら自分に都合の良い解釈する事も餌になるんだからやめてくれ

0803名無しさん＠ピンキー (ﾜｯﾁｮｲ 7326-5fNx)

2024/04/27(土) 14:40:27.76ID:???0

データセットを自動生成するようなツールがあればいいんだろうね
あらかじめ決められたサイトをクロールして毎回同じデータセットを生成するようなツール
正しく生成できたか確認するためのハッシュを入れて照合するくらいはセーフだろう

0804名無しさん＠ピンキー (ﾜｯﾁｮｲ c3c6-7iwU)

2024/04/27(土) 14:41:23.04ID:4N+iWgeb0

command r+の応答性能に慣れちゃうとローカルがどうもなぁ・・・

0805名無しさん＠ピンキー (ﾜｯﾁｮｲ 5372-2TDZ)

2024/04/27(土) 14:41:42.12ID:???0

>>802データセットの譲渡販売は（たとえ無断学習だったとしても）30条の4で合法だと思ったけど違うのか
https://qiita.com/yuta_aoki_ai/items/907d24d0dd4a2c3dc2b8
＞②第三者の生データからデータベースを作成し、当該データベースにラベル処理等をして学習用データセットを作成し、当該データセットを提供、販売する行為。
　→OK(2018年5月25日改正 30条の4)

0806名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM7f-OTde)

2024/04/27(土) 14:42:35.95ID:???M

学習は30条の4で合法だがデータセットのアップロードは著作者人格権でいうところの公表権や同一性保持権に抵触する可能性が極めて高い
学習のためのクローラーを共有するってのが法的にグレーやや白ってところかな

0807名無しさん＠ピンキー (ﾜｯﾁｮｲ 5372-2TDZ)

2024/04/27(土) 14:44:02.68ID:???0

無断学習は関係なかったな
無断収集というべきか

0808名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-rdsl)

2024/04/27(土) 14:44:51.76ID:???0

ん？　それだと現行のオープンソースモデルが全部「抵触」することになっちゃうぞ？
なんぼなんでも独自解釈すぎる

0809名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-rdsl)

2024/04/27(土) 14:45:17.97ID:???0

あ、「データセット」か
学習って書いてあるから読み違えた

0810名無しさん＠ピンキー (ﾜｯﾁｮｲ 5329-1wV0)

2024/04/27(土) 14:46:58.12ID:???0

>>804
command +R動かすのってどうやってる？

0811名無しさん＠ピンキー (ﾜｯﾁｮｲ 5372-2TDZ)

2024/04/27(土) 14:47:24.87ID:???0

一応、弁護士のサイトを見つけてきた
https://storialaw.jp/blog/4936
これにより、先ほど「現４７条の７が適用されず違法となる行為」として紹介した以下の３つの行為にはいずれも新３０条の４が適用され、適法になります。

１　自らモデル生成を行うのではなく、モデル生成を行う他人のために学習用データセットを作成して不特定多数の第三者に販売したりWEB上で公開する行為

例：WEB上あるいは権利者から公衆に提供されている大量の画像データを複製して、画像認識用モデル生成のための学習用データセットを作成して販売するケース

0812名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM7f-OTde)

2024/04/27(土) 14:53:46.56ID:???M

>>809
生成AI出る前の法律だから実際のとこはどうなってんの？ってのがそもそもある
その上で特定の著作者やテーマだけを収集したようなデータセットを提供する場合「利用様態に照らして著作者の利益を害する」云々に抵触する可能性が生じてくるかなって

文化審議会著作権文化会法制度小委員会の出してる「AIと著作権に関する考え方について」だと画風を再現するための狙い撃ち学習は著作権侵害になりうるって法解釈をしているから
https://note.com/shin_fukuoka/n/nce21a1383d5a

ただ繰り返しになるけど30条の4がそもそも生成AIの登場よりも前に制定された法律で実際の運用どうするのってのは今後決まってくる部分が大きい

0813名無しさん＠ピンキー (ﾜｯﾁｮｲ 5372-2TDZ)

2024/04/27(土) 14:57:27.55ID:???0

>>812著作権侵害になりうるのは「画風（作風）にとどまらず、創作的表現を再現するための学習」
作風画風はアイデアなので狙い撃ちでも保護の余地はない

0814名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/27(土) 15:00:45.61ID:???0

>>802
>>811にもあるように合法だよ（非享受目的に限定している場合だけど）
そのデータセットを使って特定著者のデータだけ選んで学習するとか他用途に使用とかしたらアウトになったちするけどそれはデータセットの配布がアウトじゃなくて利用する側がアウト

0815名無しさん＠ピンキー (ﾜｯﾁｮｲ 7326-5fNx)

2024/04/27(土) 15:06:51.84ID:???0

まあ、日本で合法でもアメリで違法なら米国企業のHFではアウトでしょう

0816名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM7f-OTde)

2024/04/27(土) 15:08:13.36ID:???M

ごめん作風ってすごく曖昧な語を注釈とかなしに使ってしまって本当に申し訳ない
文化庁の今の考え方として、要は「享受目的であるか否か」というのが30条の4で保護されるかどうかの争点になってる
それはそれでものすごく曖昧ではあるんだけど

小説投稿サイトのデータセットってなると著作権をサイト管理者に移譲してる場合（カクヨム）なんかがあり≒特定の著作者のデータを選択的に学習している、享受目的があると解される事例じゃね？と俺は判断して>>806にはそういう意図があった
そして30条の4で保護の対象から外れる場合には公表権とか非常にめんどくさい人格権周りで争点になるんじゃねーか、って認識

0817名無しさん＠ピンキー (ﾜｯﾁｮｲ 5372-2TDZ)

2024/04/27(土) 15:08:51.59ID:???0

大規模言語モデル（LLM）に関するビジネスと法律～LLMやデータセットの構築と提供（レイヤー1）～
https://storialaw.jp/blog/9327

（1）　データセットの公開

　まず、データセットの公開ですが、データセットの中には、収集対象になったデータ（著作物）が含まれています。
　したがって、当該データセットの公開や提供は、元データの公衆送信行為や譲渡行為に該当しますが、
これも著作権法30条の4が「情報解析（略）の用に供する場合」には「その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる」と定めていますので、同条が適用される限り適法です。

0818名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/27(土) 15:10:52.61ID:???0

>>815
アメリカではフェアユースとかいうもっと雑な定義の法律で戦ってるという

0819名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM7f-OTde)

2024/04/27(土) 15:18:12.45ID:???M

>>818
Googlebooksがフェアユースで合法ならAIだって合法じゃね？って論理はかなり強いとは思う
Googleみたいにオプトアウト規程設けりゃセーフだろきっと多分

0820名無しさん＠ピンキー (ﾜｯﾁｮｲ 5372-2TDZ)

2024/04/27(土) 15:19:09.85ID:???0

こう見ると30条の4って想像以上に「柔軟」なんだなと感じる
モデルやサービスでなく無断収集したデータセットそのもので金儲けとか、なんとなーくダメそうに見えるけど適法なんだな
まあよく考えるとモデルの公開は良くてデータセットの公開はだめというのは変だから、当然か

0821名無しさん＠ピンキー (ﾜｯﾁｮｲ e32b-/xY8)

2024/04/27(土) 15:22:43.03ID:???0

googleが率先してBeEvilしてくれてるおかげで
後続はお前ら偉そうに言ってるけどアレ野放しやんけと開き直れる

0822名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM7f-OTde)

2024/04/27(土) 15:24:18.71ID:???M

>>820
なんで法改正せずに「考え方」ってのを国側で示してアウトとセーフのラインを曖昧ながら示していこうっていうのがちょうど今やってる文化庁の文化審議委員会
新聞社やJASRACなんかはそもそも30条の4を廃止しろやって言ってるけどAI立国みたいなの考えてるみたいだし多分今後も柔軟であり続けると思う

0823名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/27(土) 15:46:04.03ID:???0

まぁ生成AI関連は今国が明らかに推してるからね
絵師とかクリエイター側の声は大きいけど（特にSNS）、間違いなく規制は大して強まらないだろうな

0824名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/27(土) 17:12:40.85ID:???0

現実は力を持っている権利者がアウトといえばそれで終わりであんまり法律は関係ない
グッズでも同人でも権利者から通報受けたら警察は容赦なく逮捕してきた歴史がある

0825名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/27(土) 17:18:53.49ID:???0

そりゃグッズや同人は基本黙認とかされてるだけで根本は違法だからね
機械学習用データセットの作成とか配布は根本が合法だからまた話違うよ

0826名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c0-OTde)

2024/04/27(土) 17:19:18.17ID:???0

>>824
それは同人が法的権利が保障されてるわけではないからであって既に例外規定が定められていた生成AIとは事情が少し異なるぞ
ただし「享受目的」って曖昧さを残してるから特定の権利者が損害を訴えてきた時に無敵バリアにならないって理解はすべきなので慎重であるほうがいいってのは同意するが

0827名無しさん＠ピンキー (ﾜｯﾁｮｲ 73bd-dYyJ)

2024/04/27(土) 20:50:09.92ID:???0

表向きはデータセットとして配布してるけど、実質的に享受目的で使われたりすると駄目になるんだろうね
歌詞とかは結構危なそう
サビ部分だけでもコンテンツとして成立するし、権利者が好戦的で訴訟慣れしてる

0828名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/27(土) 21:52:24.21ID:???0

>>827
配布時に機械学習以外の用途での利用はするなと明言しておけば配布側が責任問われないと思うよ
享受目的で利用する奴がいたらその利用者がアウトになるだけだと思う

0829名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/27(土) 22:07:51.71ID:???M

7Bモデルのいい感じのが沢山出とって試しとるけど、入力プロンプトが長くなると幻覚気味になるな
1200トークン辺りで設定が蒸発してくる感じ
MaxContextSizeより少ない分でも起きる
表現とか自然さは7Bでもめっちゃ良くなってきたけどこれは低パラではどうしようもないんかなあ

0830名無しさん＠ピンキー (ﾜｯﾁｮｲ c374-sWa1)

2024/04/27(土) 22:34:04.34ID:???0

GPT4やClaude3でも前の方の会話忘れるのは起きるしLLM自体の技術の進歩待つしかないかも

0831名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/27(土) 22:38:23.56ID:???0

そもそも学習データにそこまで長いプロンプトのものが少ないのかもね

0832名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/27(土) 22:48:19.93ID:???M

GPTスレのプロンプトをローカル用に書き換えて使ってると上手くいかないのが多くて気になった
妄想ジェネレータ入れたら、登場人物が「俺の職業は妄想ジェネレータ」とか言い出して吹いたわ

0833名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f7e-nByy)

2024/04/27(土) 22:49:17.18ID:???0

>>810
804じゃないけど中古の3090を3枚指せば4ビット量子化モデルが乗る

0834名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/27(土) 23:03:06.73ID:???M

試した感じパラ数の多いkarakuri-MS-01とLightChatAssistant-TypeBでは通るっぽい
7Bの限界かもしれん
速度を考えると13B〜35Bクラスが充実してほしくなるな
Antler的なモデルがこんくらいで出てくれんかな

0835名無しさん＠ピンキー (ﾜｯﾁｮｲ ffaa-geK8)

2024/04/28(日) 00:23:11.41ID:???0

>>787
一つの行動(触るとか)に対して表現のパターンが多くて良い、気がする。
LLM初心者だけど。

0836名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 03:57:00.81ID:???M

umiyukiがmergekit-evolveの記事書いとったの読んでみた
タメになったわ。ローカルで全部完結できるらしい
しかしこれSSDがめっちゃ消耗しそうやな

あと本人見てたら言っておきたいのは、Mistral7B系の優秀なんが最近出てきたのは、元を辿ればLCAニキがchatntqやantlerをこのスレで広めたからやで
記事で使ってたモデルもその流れで生まれたもんや
記事には無かったけどそこんとこ覚えておいてや

0837名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 04:04:55.44ID:???M

ああスマン喧嘩腰っぽくなってしまった
>>836の後半はスルーしてくれ
スレ汚しスマン。umiyukiも見て不快な思いさせてたらスマン

0838名無しさん＠ピンキー (ﾜｯﾁｮｲ 7326-5fNx)

2024/04/28(日) 09:41:18.75ID:???0

>>836
作業の前後でSSDの総書き込み量がどれくらい上がったのかは気になるね
事前に見ておかないと後から調べようがないけど

0839名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-6o3J)

2024/04/28(日) 10:41:47.43ID:???0

LCAニキつながりポエムやが

>>835
> 一つの行動(触るとか)に対して表現のパターンが多くて良い、気がする。
> LLM初心者だけど。
みたいな評価はふわっとしとるんやが日本語LLMでは大切な印象やね

日本語LLMでベンチマーク自慢を試してみてガッカリする経験を何度も積むと
>>787
> かなり上手く書けてる気がするわ
> ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
みたいな人間によるふわっとした評価の打率が高くてすごく貴重なんや

>>573
のLCA-TypeBも手作業で改造と評価がなされていて何がとはいえんのやがなんかええんよね
ベンチマーク以上に日本語ネイティブが楽しめる出力が生成されとる印象や

日本語でのなんかええなをいずれ数値化できたら自動の学習やマージの精度が上がりそうで楽しみやね

0840名無しさん＠ピンキー (ﾜｯﾁｮｲ f36c-5N3P)

2024/04/28(日) 10:56:05.32ID:???0

例のmergekit-evolveの評価部分を人間の手動評価とかにしたら結構上手く行ったりしないかな
プロンプトの方もエロいの用意して

0841名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 11:31:25.41ID:???M

>>838
モデルの出力先をRAMdiskにすればいいのではないかとちと思った
更にRAMの容量が必要になるからお手軽ではなくなるが

>>840
手動評価は、自動評価より回数がこなせないのがネックやね
現状だとある程度自動で絞り込んでから残りは手動、でできれば効率いいかもしれん
どっちにしろ最終的には>>839が言うような評価の数値化があればより良く出来そうと思う

0842名無しさん＠ピンキー (ﾜｯﾁｮｲ e39a-1wV0)

2024/04/28(日) 14:23:46.12ID:???0

Sdff-Ltba/LightChatAssistant-TypeB-2x7B_q8.GGUF普通に動いた！3090x32GB民
koboldで日本語会話って出来るの？

0843名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 15:54:28.10ID:???M

>>842
できるぞ
easylightchatassistantのgithubページを見ながら設定するんだ

0844名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/28(日) 17:14:34.57ID:???0

初歩的な質問ですまん、16bitのsafetensorsをlamacppでggufに変換するときオプション指定しないと32bitになってしまう。
でもq16_K_Mを指定するとunrecognized argumentsになる。
どうすれば元の16bitのままで量子化できるの？

0845名無しさん＠ピンキー (ﾜｯﾁｮｲ f3e1-5N3P)

2024/04/28(日) 17:21:20.81ID:???0

>>844
--outtype f16
みたいな感じだったはず

0846名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/28(日) 17:28:20.66ID:???0

>>845
サンクス、それで行けた。

0847名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/28(日) 17:37:22.82ID:???0

gguf変換出来たからmergekit-evolveで作られたモデル試してみたけど確かに凄いな。
7Bとは思えん性能や、これchat vector以来の革命では？

0848名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 17:46:54.41ID:???M

>>847
エロの表現イマイチになってない？優等生化してるというか

0849名無しさん＠ピンキー (ﾜｯﾁｮｲ f3e1-5N3P)

2024/04/28(日) 17:48:15.56ID:???0

エロに関してはエロ用の評価指標で進化マージしないと上がらないだろうね

0850名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-6o3J)

2024/04/28(日) 18:04:29.38ID:???0

EasyNovelAssistantを更新してサンプルの名前自動設定を追加しといたで

旧版のままやとサンプルに{char_name}や{user_name}が表示されまうんで更新してな
Update-EasyNovelAssistant.batを実行したら更新できるで

https://raw.githubusercontent.com/wiki/Zuntan03/EasyNovelAssistant/img/ChangeLog/name_setting.png

0851名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 18:06:19.77ID:???M

だよなあ。上がらないどころかむしろ下がってる感
元モデルから丸くなって良くも悪くもエロいクセがなくなってる感じ
自分的には>>787の方が好きだな

総合性能はガン上がりしてるから、エロを考慮するベンチプロンプトを作れば期待できる
モデル作りよりベンチ考えてマージ職人にお任せした方がいいだろうか
それなりスペック無いとevolveできんしなあ

0852名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/28(日) 18:07:32.62ID:???M

>>850
乙

0853名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-h5/x)

2024/04/28(日) 20:15:04.55ID:xq028QgX0

Dolphin 2.9っていうLlama 3 70BをLoRAした無修正モデル試して見た
確かに修正は外れてて、日本語の違法なリクエストにも答えてくれることがある
ただ、だいたいおかしな内容で、数発打てば当たるって感じで実用性はないなぁ
残念

0854名無しさん＠ピンキー (ﾜｯﾁｮｲ 0332-rdsl)

2024/04/28(日) 21:34:41.19ID:???0

>>853
英語でも？

0855名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-h5/x)

2024/04/28(日) 21:37:32.38ID:xq028QgX0

システムプロンプト日本語で、質問英語でやった時はLlama 3定型文でお断りされたけど、全部英語は試してないや
まああとで試してみるか

0856マジカル (ﾜｯﾁｮｲ 0376-4Xr2)

2024/04/29(月) 00:52:26.54ID:tOxxPjE20

https://imgur.com/a/eKY3KzY

0857名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa8-7iwU)

2024/04/29(月) 01:31:55.47ID:rypy5OCM0

>>856
なんか人口無能うずら思い出したわ

0858名無しさん＠ピンキー (ﾜｯﾁｮｲ 53d4-rT8g)

2024/04/29(月) 12:09:08.28ID:???0

ドーモnote屋です

EasyNovelAssistant用のプロンプトについて記事書いてたが今仕事先で投稿できんかったんで先にこっそり公開するわ、雑感としては効果ありそうなんでお休み中の方は使ってクレメンス
https://github.com/kgmkm/goalseek_ad

作例は投稿予定、昔の小説とか自作発言せんかぎり自由につこてもろて

0859名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/29(月) 12:19:45.76ID:???M

evolveのエロ評価用ベンチマーク作ろうと思ったんやけど、評価者に使うモデルは何が良いんかな
evolveの評価者にGeminiを使ってる記事があって、でもGeminiはエロ駄目やろうし
評価者に使うモデルで採点の傾向が違ったら嫌やしなあ

0860名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/29(月) 12:37:42.62ID:???M

>>858
乙！プロンプト作ろうとしてたタイミングで、超参考になる！
良いもの共有してくれてサンガツやで！

0861名無しさん＠ピンキー (ﾜｯﾁｮｲ f353-5N3P)

2024/04/29(月) 13:49:11.77ID:???0

>>859
API経由の奴は基本無理だから頑張ってcommand-r plusをローカルで動かすか
いっそのことこれみたいなテキストのエロさを判定するモデル使った方がいいかも
https://huggingface.co/oshizo/japanese-sexual-moderation-v2
それか手動評価にする

0862名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-6o3J)

2024/04/29(月) 17:08:45.13ID:???0

>>858
サンガツ！

ちょっと今EasyNovelAssistantにStyle-Bert-VITS2連携をつっこんどる最中なんで少し後にはなるんやが
ヘルプメニューからGitHubにリンク貼りつつサンプルメニューにinit_editor.txtとinit_writer.txtを追加さしてもらおうと思っとるで

サンプルメニュー開いた時にGitHubから取得するようにもできるんはずなでファイル名が変わらんのやったらアプデにも追随できるはずや
リンク先がnote記事のほうがええとかあったら都度伝えてもろうたら

紹介する時はアイコンやIDから@kagami_kami_mニキとして紹介させてもろたらええやろか？

0863名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/04/29(月) 17:38:21.81ID:???M

>>861
短文の判定だとエロ語出力以外の能力落ちそうやから最低限ElyzaTaskの判定できるくらいのほしい、てなるとCommand-R+かなあ
方針としては、Aの出力文とBの出力文を比較してどちらがより高得点か、てのを自分の感覚と照らし合わせて、評価プロンプトの[評価基準]を随時修正していこうかと考えてる
最終的に自分好みの表現を高得点とできるように調整できれば良き
プロンプトは全然知識ないからどこまでできるか分からんけども、よくわからんからこそ挑戦してみるわ

手動評価は最終手段かな。200回以上手動評価はキツいわ…

0864名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/29(月) 20:44:33.58ID:???0

長編ADVみたいなロールプレイを上手くさせる方法ってないのかな？
最初は良くてもターン数重ねるとどんどん出力が短くなったり同じ応答ばかりになってしまう。

0865名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f87-4Xr2)

2024/04/29(月) 22:27:04.55ID:???0

>>864
チャット風ロールプレイでやってる方法だけど、
「今までの内容を要約してくれ」って要約を作らせてプロンプト差し替えてる
要約を英語で作らせると精度上がったりする

0866名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/29(月) 22:58:31.35ID:???0

>>865
なるほど、よさげだな

0867名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c0-Ub2H)

2024/04/30(火) 09:14:00.52ID:???0

Qwen1.5-110B-Chat
huggingfaceのSpaceで試したけど中国語と英語が混ざっちゃってダメやね
いちおう日本語は喋るけどね

0868名無しさん＠ピンキー (ﾜｯﾁｮｲ 53da-7iwU)

2024/04/30(火) 09:16:56.47ID:???0

>>862
それでええよ

pixiv小説からEasyNovelAssistantで調べたらヒットするかも知れん

0869名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c0-Ub2H)

2024/04/30(火) 12:33:40.47ID:???0

gpt2-chatbotという謎のモデルがchat.lmsys.orgでテストできるようになってなんか話題になっとるな
前評判ではGPT4レベルだとかアスキーアートが生成できるとか言われてて、わいも日本語でSFWな音声作品の脚本書かせてみたけど申し訳もされずCommand R+と同等かそれ以上の分かってる文章を生成してびっくりした
うわさではGPT4.5がゲリラマーケティングされてるとか言われてるけどなんなんやろうね

0870名無しさん＠ピンキー (ﾜｯﾁｮｲ a30f-1wV0)

2024/04/30(火) 12:59:52.08ID:???0

>>869
gpt2-chatbotってモデル選択に無いけどどれですか？

0871名無しさん＠ピンキー (ﾜｯﾁｮｲ ff8c-+RyI)

2024/04/30(火) 13:01:14.21ID:???0

すごくいいな
日本語も自然だ

0872名無しさん＠ピンキー (ﾜｯﾁｮｲ a30f-1wV0)

2024/04/30(火) 13:56:22.10ID:???0

他のモードでやると、バトルモードでやれ！って言われてでもバトルモードに選択肢が無いんだけどどうやって動かしてるの？
https://i.imgur.com/hjznmdr.jpeg
https://i.imgur.com/E3ZdLG0.jpeg

0873名無しさん＠ピンキー (ﾜｯﾁｮｲ ff8c-+RyI)

2024/04/30(火) 14:27:50.16ID:???0

普通にプロンプト打って動かすと、どちらがいい？って聞いてくるから選択するとこっちがgpt2でしたって出てくる

0874名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fe6-1wV0)

2024/04/30(火) 15:28:23.61ID:???0

出ない😭
https://i.imgur.com/w63wwGs.jpeg

0875名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/30(火) 18:11:37.01ID:???0

自作アプリでAIと音声会話するのかなりできるようになって来たけど意外な敵が部屋のノイズで苦しんでるわ
PCのファンの音すら拾って「これはまだ発言が続いてんな？」ってずっと発言終了待機してクッソ応答が遅くなる

0876名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-rdsl)

2024/04/30(火) 18:26:56.73ID:???0

NVIDIA BROADCASTのノイズキャンセル使いな

0877名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/30(火) 19:00:14.06ID:???0

>>876
ひとまずマイクの調整で何とかなったわ
VITS2で好きな声優の音声でリアルタイムの会話は破壊力やばかったわ、世界が変わった…

0878名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-6o3J)

2024/04/30(火) 19:24:11.52ID:???0

EasyNovelAssistantのStyle-Bert-VITS2対応したで
よかったらどうぞや

https://github.com/Zuntan03/EasyNovelAssistant

音声サンプル
https://twitter.com/Zuntan03/status/1785252082343440723

>>868
サンガツやで！
明日か明後日には対応したいと思うとる

0879名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/30(火) 19:52:03.97ID:???0

>>878
乙、音声あるとないでは全然違うよね
後は音声入力にさえ対応すれば完全体に…

0880名無しさん＠ピンキー (ﾜｯﾁｮｲ 0369-5N3P)

2024/04/30(火) 20:43:06.12ID:???0

音声良いね
音声ありはどちらかというと小説読み上げよりもロールプレイとかなりきりチャット的な用途で欲しいな…（俺がエロチャ大好きなだけかもしれんが）

0881名無しさん＠ピンキー (ﾜｯﾁｮｲ f314-BrOF)

2024/04/30(火) 20:56:46.66ID:Iv4x6b4N0

Llama3 70Bよりもcommand R +の方が自然な日本語を返してくれる気がする。
日本語のベンチマークではどっちが上なんだろうね？

0882名無しさん＠ピンキー (ﾜｯﾁｮｲ f314-M43A)

2024/04/30(火) 20:57:00.91ID:Iv4x6b4N0

Llama3 70Bよりもcommand R +の方が自然な日本語を返してくれる気がする。
日本語のベンチマークではどっちが上なんだろうね？

0883名無しさん＠ピンキー (ﾜｯﾁｮｲ f34f-5N3P)

2024/04/30(火) 21:06:13.88ID:???0

Command R+の方が上のはず
そもそもllama-3は公式的には多言語対応じゃない（多言語対応版も後で出しますよみたいなのをリリース文に入れてたはず）

0884名無しさん＠ピンキー (ﾜｯﾁｮｲ 5380-7iwU)

2024/04/30(火) 21:20:09.31ID:MXycCz7k0

GPT2を変な形でお披露目したOpenAIの真意はなんだろな？

0885名無しさん＠ピンキー (ﾜｯﾁｮｲ f34f-5N3P)

2024/04/30(火) 21:24:16.68ID:???0

シンプルにリリース前にベンチマーク取ってるだけな気がする

0886名無しさん＠ピンキー (ｴﾑｿﾞﾈ FF9f-UB/Y)

2024/04/30(火) 22:10:07.66ID:???F

音声読み上げいいね
VOICEVOXとかVOICEPEAKと連携できたら一般層にリーチできるかもしれない…

0887名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f23-FuG2)

2024/04/30(火) 22:13:29.67ID:???0

肝心は日本語の能力だからなあ
いくら海外のなんかのテストがよくてもなあ

0888名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-h5/x)

2024/04/30(火) 22:44:22.41ID:fAUnlGYu0

LLMの読み上げは、BOOTHに上がってるAnneliとかいうNSFWのstyle-bert-vits2のモデル（を自分で学習したモデルとマージしたやつ）使ってるんだけど、学習データの出所不明で人に勧めづらいんだよな
ここで読み上げやってるやつは何使ってるの？

0889名無しさん＠ピンキー (ﾜｯﾁｮｲ f392-5N3P)

2024/04/30(火) 22:57:31.89ID:???0

手元のASMRデータで学習したモデル使ってるよ

0890名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/04/30(火) 23:36:54.52ID:???0

俺も同人音声作品だなぁ
コーパス準拠のモデルはまだ性能が低すぎるしな

0891名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-h5/x)

2024/05/01(水) 00:06:01.28ID:5ix3SE930

俺もそうだが、やっぱりASMRとかで学習させてるやつが多いか
まあ背景に変な音とかなくて使いやすいよね

0892名無しさん＠ピンキー (ﾜｯﾁｮｲ ff11-geK8)

2024/05/01(水) 00:40:02.62ID:???0

>>877
声の学習のときに作った文字起こし結果あるから、それでロールプレイさせればいいのか。考えたことなかった

0893名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fe6-1wV0)

2024/05/01(水) 08:15:54.11ID:???0

Command +RをAPI経由かウェブかローカルでもいいのでお手軽に実行できる環境ってある？
ローカルだと4090+64GBメモリでもキツイと聞いたので。。。

0894名無しさん＠ピンキー (ｵｯﾍﾟｹ Sre7-5fNx)

2024/05/01(水) 09:07:17.11ID:???r

Hugging Chat

0895名無しさん＠ピンキー (ｽﾌﾟｰﾌﾟ Sd9f-joKd)

2024/05/01(水) 09:13:59.12ID:???d

cohereでトライアルAPIが貰えるよ
自分はこれを使ってSillyTavernで遊んでる
月1000回だったかの回数制限はあるけどね

0896名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-h5/x)

2024/05/01(水) 09:47:53.49ID:5ix3SE930

公式ページにも普通にChat UIあるからそれでもいいと思う

0897名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f59-1wV0)

2024/05/01(水) 11:36:30.83ID:???0

>>894-896
ハギチャットは一昨日試したら落ちてた。。。
シリーターバンは入れたけどあまり使ってなかった
公式にもあったのね！サンガツ！

0898名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM1f-jMJY)

2024/05/01(水) 12:10:06.00ID:???M

NovelHacja/vecters-v1
5/1の人のモデルかな？
今日やってるLOCAL AI HACKATHON #001で出したモデルらしい
メンバーがHFに出してたモデル見ると、Antler系とchatntqを使ってる
これもそうだったら、このスレの功績がまた一つ増えたことになるな

0899名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-FuG2)

2024/05/01(水) 13:54:24.92ID:???0

騒ぎになってたgpt2-chatbot、使えなくなってんね
みんな殺到しすぎたか

0900名無しさん＠ピンキー (ｽｯﾌﾟ Sd9f-zsX1)

2024/05/01(水) 13:59:00.72ID:???d

まあ最近出てきてるMistralの日本語強いやつは皆LCAの影響受けてんじゃね
あれから一気に数出てくるようになったし
願わくばこのままどんどん良くなっていってほしいもんだ

0901マジカル (ﾜｯﾁｮｲ a3dd-aBMh)

2024/05/01(水) 14:14:21.90ID:gKfC050z0

お待たせいたしました。我々のモデル、NinjaシリーズとVecteusシリーズを公開いたします！

https://huggingface.co/Local-Novel-LLM-project/Ninja-v1
https://huggingface.co/Local-Novel-LLM-project/Ninja-v1-128k
https://huggingface.co/Local-Novel-LLM-project/Ninja-v1-NSFW-128k
https://huggingface.co/Local-Novel-LLM-project/Vecteus-v1

0902名無しさん＠ピンキー (ﾜｯﾁｮｲ 73c6-2TDZ)

2024/05/01(水) 14:40:47.10ID:???0

面白そうだがLMstudioユーザーで知識も環境もないワイはgguf待ちやな…
Vecteus-v1はggufあるみたいだがVRAM 16GBじゃ乗らんわ
ハッカソンとやらは覗いてみるか

0903マジカル (ﾜｯﾁｮｲ a3dd-aBMh)

2024/05/01(水) 14:44:53.87ID:gKfC050z0

ggufも順次公開予定です。少々お待ちください

0904名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM1f-jMJY)

2024/05/01(水) 14:55:59.31ID:???M

>>901
ポッとHFに出てたからそうかと思っとったらやっぱそうだったんか
お疲れさんでした。良いモデルサンガツやで
以前貼ってたのはNSFW無しNinjaの出力かな？

0905名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM1f-jMJY)

2024/05/01(水) 15:12:37.00ID:???M

>>901のモデル、yarnのコンテキスト拡張を使っとるんやね
128k対応とかオーバーキル過ぎる
マージレシピ的には、chatntqに各々の抽出vectorを足した感じか
当時はevolveも無かったし、重み調整が大変そうやな
ホントにお疲れ様やで

(これでLCAフォロワーの優れたモデルがまた一つ生まれたわけやな…)

0906マジカル (ﾜｯﾁｮｲ a3dd-aBMh)

2024/05/01(水) 15:18:11.50ID:gKfC050z0

>>904
Antlerがマージされている開発版だったと思います

0907名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM1f-jMJY)

2024/05/01(水) 15:32:01.39ID:???M

>>906
開発版だったんか。リリース版は更に改良されていると。凄いなあ

差し障りなかったら尋ねたいんやけど、今後はどんなモデルを作るとかの予定あったりします？
mergekit-evolve使うとか、他のベースやパラメータのを作るとか
内緒なら、この質問はスルーしてください

改めて、お疲れ様でした。良いモデルをリリースしてくれてありがとう

0908名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c0-Ub2H)

2024/05/01(水) 15:33:00.72ID:???0

わいもStyle-Bert-VITS2で学習させたTTSモデルに喋ってもらいたいんだが誰かOobaの拡張機能書いてくれないかなー(ﾁﾗｯ

0909名無しさん＠ピンキー (ﾜｯﾁｮｲ 63c0-joKd)

2024/05/01(水) 15:33:13.98ID:???0

>>901
サンガツ！試すのを楽しみにしてるよ
VecteusはNinjaをさらにマージしたモデルと理解していいのかな？

0910名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd9f-WvX4)

2024/05/01(水) 15:40:10.89ID:???d

>>908
SillyTervanでも良いんだけどなー(ﾁﾗ

0911名無しさん＠ピンキー (ﾜｯﾁｮｲ 63c0-joKd)

2024/05/01(水) 15:44:04.83ID:???0

それにしてもこの1ヶ月の進捗は劇的だったと思う
>>80が公開されたのが4月3日
それまでは70B以上のモデルで何とかまともな日本語が出せるかという世界だったのになあ
改めて開発者諸ニキに感謝と敬意を捧げるわ
この先の展開が楽しみでたまらない

0912名無しさん＠ピンキー (ﾜｯﾁｮｲ e306-1wV0)

2024/05/01(水) 15:46:11.95ID:???0

safetensorsはkoboldでも動くのかな？初心者でゴメン。。。

0913マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 15:52:37.01ID:gKfC050z0

https://huggingface.co/Local-Novel-LLM-project
ここに適宜量子化、バージョンアップモデルが上がる予定です！

0914マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 15:52:38.47ID:gKfC050z0

https://huggingface.co/Local-Novel-LLM-project
ここに適宜量子化、バージョンアップモデルが上がる予定です！

0915名無しさん＠ピンキー (ﾜｯﾁｮｲ e306-1wV0)

2024/05/01(水) 15:54:57.35ID:???0

>>913
了解まちます！

0916マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 15:59:37.66ID:gKfC050z0

>>915
https://huggingface.co/Local-Novel-LLM-project/Vecteus-v1-gguf
NinjaシリーズのGGUFももうすぐ公開されます。
コンテキスト拡張版はもうしばらくかかると思われます。

0917名無しさん＠ピンキー (ﾜｯﾁｮｲ 63c0-6o3J)

2024/05/01(水) 16:24:34.97ID:???0

とりあえず>>901のモデルを大葉で試してるけど良い感じにチャット出来てる

0918名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/05/01(水) 16:53:02.82ID:???0

>>901
試してみた、小説の出力みたいなタスクは7Bとは思えない日本語能力だね
3月までの状況考えると進化の速度が凄いわ

0919マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 16:54:22.85ID:gKfC050z0

>>907
今日には間に合いませんでしたが、フランケンマージやEvo-mergeモデルも作成しています。
その他モデルのアップデートもすると思います。
Ninjaの強さの秘密はWizard2なのでMistralベース以外のモデルはおそらく作れないと思います。

0920名無しさん＠ピンキー (ﾜｯﾁｮｲ ff28-+RyI)

2024/05/01(水) 16:57:07.66ID:???0

>>901
チャットも多人数が登場しても破綻してないな

0921マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 17:08:45.34ID:gKfC050z0

>>909
そうですね
Ninjaと開発途中だったモデルも混ぜて性能を上げてるらしいです

0922マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 17:21:48.40ID:gKfC050z0

https://huggingface.co/Local-Novel-LLM-project/Ninja-v1-NSFW-128k-GGUF
128k版のGGUFも公開しました。

0923名無しさん＠ピンキー (ﾜｯﾁｮｲ f3fc-7iwU)

2024/05/01(水) 17:48:14.71ID:7eBcySVV0

>>922
Kobold.cpp+SillyTavernでNinja-v1-NSFW_Q_8_0.gguf遊ばせてもらってるが、なかなか素晴らしいな
ワイのロールプレイの進め方も関係してるかと思うが、コンテクストサイズのデカさがキャラクターのはがれにくさにつながる反面、やや意固地に感じる部分もあるな
モデルそのものはエロを許容しつつもわりと倫理観しっかりしているなと感じる
素晴らしいモデルの公開サンガツや

0924名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/05/01(水) 18:01:31.06ID:???M

>>919
返答ありがとう！それは楽しみや！
Wizard2かなるほどなあ。そこが他の子と違うとこやね
確かにWizard2は優秀だし、それを活かしたのがこの凄さに繋がってるのか
参考になります

と思ったらまだWizard2の公式取り消されたままだったわ
MSよ、Wizard2の復活はよ！

0925名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/05/01(水) 18:30:55.58ID:???0

大きなモデルばっか使ってたから7Bモデルだとチャットを上手くしてくれないんだけど
7Bモデルでも効く良さげなプロンプトってどっかでまとまってたりする？
自分と女の子で会話しようとしてもAIが1人2役でずっと話続けてしまう

0926名無しさん＠ピンキー (ﾜｯﾁｮｲ 53df-5N3P)

2024/05/01(水) 18:40:31.41ID:???0

1人2役で続けるのはストップワードをちゃんと設定すれば大体解決すると思う

0927マジカル (ﾜｯﾁｮｲ a3dd-4Xr2)

2024/05/01(水) 18:44:40.27ID:gKfC050z0

Vicunaプロンプトでやってみてください

0928名無しさん＠ピンキー (ﾜｯﾁｮｲ f310-7iwU)

2024/05/01(水) 18:51:24.30ID:7eBcySVV0

このVicunaプロンプトで、ってのが正直ワイも今一つよー分からん
誰かKobold、大葉、尻タブを対象にしたチュートリアルまとめてくれんか？

0929名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/05/01(水) 19:11:36.89ID:???M

>>228嫁

0930名無しさん＠ピンキー (ﾜｯﾁｮｲ 0332-rdsl)

2024/05/01(水) 19:42:27.55ID:???0

>>901
お疲れ様です。
NinjaとVecteusで、いくつか小説を書かせてみましたが、表現力はNinjaが高いですが、
話のまとまりやシナリオの辻褄や整合性はVecteusの方が高い気がしました。
いずれにせよ7Bでこれはすごいですね。
もっと高いパラメータになったら、どうなるか期待です

0931名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-6o3J)

2024/05/01(水) 20:32:37.15ID:???0

EasyNovelAssistantでNinja-v1-NSFW-128k-Q_8_0, Ninja-v1-NSFW-Q_8_0, Vecteus-v1-Q4_K, umiyuki-Japanese-Chat-Umievo-itr001-7b-Q4_K_Mをさくっと使えるようにしといたで

https://github.com/Zuntan03/EasyNovelAssistant
https://twitter.com/Zuntan03/status/1785612264067993730

0932マジカル (ﾜｯﾁｮｲ 03b2-4Xr2)

2024/05/01(水) 20:52:24.49ID:8IDFQiKt0

大変嬉しいです！ありがとうございます

0933名無しさん＠ピンキー (ﾜｯﾁｮｲ 93c0-Ub2H)

2024/05/01(水) 20:53:41.91ID:???0

Oobaに関して言えばInstruction Templateでそれっぽいのロードして、なおかつchat-instructモードでやればいいんやない?
https://i.imgur.com/IeTqVfw.jpg
いちおうLLM部Wikiあるけど廃墟になってんだよな

0934マジカル (ﾜｯﾁｮｲ 03b2-4Xr2)

2024/05/01(水) 20:54:34.64ID:8IDFQiKt0

NinjaやVecteusを使った感想や問題点をいただけると非常にありがたいです。

0935名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-7iwU)

2024/05/01(水) 20:57:21.81ID:???0

ChatGPT用に練り込まれたプロンプトならかなりいい結果出るね > Vecteus-v1-gguf
CommandR+は元々ちょっと癖があるからそっち用のプロンプトでは上手くいかない感じだ

0936名無しさん＠ピンキー (ﾜｯﾁｮｲ cf13-6o3J)

2024/05/01(水) 21:04:44.03ID:???0

>>934
量子化のIQ4_XS版を試してみたいです。

低サイズで高品質な量子化ができれば画像生成やT2Sと組み合わせたりと夢が広がりますし。
https://twitter.com/Zuntan03/status/1744195658029117523

0937マジカル (ﾜｯﾁｮｲ 03b2-4Xr2)

2024/05/01(水) 21:45:22.83ID:8IDFQiKt0

宣伝させていただきます。
https://twitter.com/int_float_
ここのアカウントでNinjaなどの情報を発信する予定です。（もちろんここでも発信します）

0938名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/05/01(水) 21:53:22.40ID:???M

次スレは変わらずpinkに避難所として立てる？
あっちはまだスクリプト来てるみたいやったけど

0939名無しさん＠ピンキー (ﾜｯﾁｮｲ ffb8-muh7)

2024/05/01(水) 21:59:10.60ID:???0

むしろこっちが本スレになったんだから無いと困る

0940名無しさん＠ピンキー (ｽｯﾌﾟ Sd9f-zsX1)

2024/05/01(水) 22:16:15.90ID:???d

>>937
X使いたくないからここで発信してもらえるの助かる

0941名無しさん＠ピンキー (ｽｯﾌﾟ Sd9f-zsX1)

2024/05/01(水) 22:49:51.15ID:???d

記憶を頼りに最近のモデルを纏めてみた
抜けがあったら補足してくれ

話題になったモデル(時系列順)

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)

0942名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM1f-jMJY)

2024/05/01(水) 23:01:53.09ID:???M

乙
こうやって見ると、改めてAntler系使ったのばっかだなと思うわ
Antlerの作者さんにはホンマに感謝やで

0943名無しさん＠ピンキー (ﾜｯﾁｮｲ 737a-UB/Y)

2024/05/01(水) 23:02:57.56ID:???0

小サイズでそこそこ動くのが増えると普及も進みそう

0944名無しさん＠ピンキー (ﾜﾝﾐﾝｸﾞｸ MM1f-jMJY)

2024/05/01(水) 23:14:00.44ID:???M

umiyukiのモデル抜けとったから、いつやったっけってHF見ても無くなってたわ
消したんかな

0945名無しさん＠ピンキー (ﾜｯﾁｮｲ 43c6-LnU8)

2024/05/01(水) 23:32:08.01ID:???0

最近の軽めモデルは文章は良いんだけど入力指示に従ってくれる感じなのは現状LCAが一番強い感じする
百合書いたらいきなり関係ないおっさんが出てくる感じがある

0946名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-rdsl)

2024/05/01(水) 23:43:12.94ID:???0

どんぐりで荒らしの影響もだいぶ減ったけどまあここまで定着したら
こっちでいいんじゃね？

0947名無しさん＠ピンキー (ｽｯﾌﾟ Sd9f-zsX1)

2024/05/01(水) 23:45:33.75ID:???d

>>944
HuggingFaceに無くなってるなら追加無しで良いか

mergekit-evolveやってみてるが、メモリ64GB+3060-12GBでも一応全部ローカルで動かせるな
ただマージ後モデルが全部収まるVRAM容量無いと回答生成が遅い

0948名無しさん＠ピンキー (ﾜｯﾁｮｲ 73b2-dYyJ)

2024/05/02(木) 00:21:39.65ID:???0

>>944
ライセンス的にグレーかもしれないから非公開にしたようだ
具体的には評価に使うLLMがLlama系とかCommand R系とかだと出力データ自体に制限がかかるので、そこが懸念点らしい
どっちもウェイトを開示してるだけで、ライセンス的にはオープンソースではなかったからね

0949名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-h5/x)

2024/05/02(木) 00:26:46.73ID:/tw254900

>>941
Llama-3とかPhy-3はないみたいだけど、NSFWが行けるかを基準にしてる？

新着レスの表示

レスを投稿する

レス数が900を超えています。1000を超えると表示できなくなるよ。

ニュース

スポーツ

なんでも

実況