なんJLLM部避難所

987コメント404KB

なんJLLM部避難所

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0002名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:50:26.11ID:???0

初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)ここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

0003名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:52:49.51ID:???0

日本語特化モデル作ってるとこのまとめ
https://huggingface.co/pfnet
https://huggingface.co/stabilityai
https://huggingface.co/elyza
https://huggingface.co/cyberagent
https://huggingface.co/rinna
https://huggingface.co/llm-jp

0004名無しさん＠ピンキー (ﾜｯﾁｮｲ cf32-3PPy)

2023/12/17(日) 21:53:42.32ID:???0

おつー
ここも20制限あり？

0005名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:00:16.52ID:???0

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki

0006名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:01:22.12ID:???0

今期待の日本語特化モデル

TheBloke/japanese-stablelm-instruct-beta-70B-GGUF ・ Hugging Face
https://huggingface.co/TheBloke/japanese-stablelm-instruct-beta-70B-GGUF

0007名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:01:56.06ID:???0

oobabooga/text-generation-webui
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui

0008名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:02:23.54ID:???0

stabilityai/japanese-stablelm-instruct-gamma-7b
比較的小サイズで高性能なおすすめの日本語モデルやで
https://huggingface.co/stabilityai/japanese-stablelm-instruct-gamma-7b

0009名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:02:48.96ID:???0

●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

0010名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:03:14.11ID:???0

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

0011名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:03:36.26ID:???0

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで

0012名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:03:58.23ID:???0

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

0013名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:04:27.41ID:???0

高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで

0014名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:04:40.05ID:???0

モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで

0015名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:04:54.47ID:???0

70Bの大型モデルはLlama 2というMeta社が開発したモデルが元になってるものが多いで
メモリが48GB以上あれば動くけど、速度はかなり遅いで

0016名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:05:06.50ID:???0

18：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ ff79-XI6K)：2023/11/11(土) 11:13:26.81 ID:0B0rgEfx0
ドライバやミドルウェア周りのインストールがだいたいこんな感じ
https://rentry.co/rd9xf/raw
python3.11を別途入れて基本的にそっちを使っていく

0017名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:05:18.42ID:???0

7：今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ ff7a-EFnx)：2023/11/11(土) 10:54:35.49 ID:Gp6hELJv0
日本語特化モデル以外のおすすめ。これもはっとこ

更新の速い世界だからお勧めモデルも逐次変わっていくけど取りあえず前スレ後半で話題になってたモデルたち(たぶんまだある)
総合力高い系：
Xwin-LM-70B
upstage-Llama2-70B (=poeのSOLOR)
あとは古典だがwizardLMとかairoboros系もまだまだいける
エロ特化系：
spicyboros
Kimiko
Mythomax

0018名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:05:32.75ID:???0

10 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ 7f1d-ZlS5) sage 2023/11/11(土) 11:00:57.86 ID:DSO3hy+d0
Koboldcpp+ggufで動かす時に必要なメインメモリの目安
7Bモデル -> 8GB
13Bモデル -> 16GB
33Bモデル -> 32GB
70Bモデル -> 64GB
180Bモデル -> いっぱい

0019名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:06:49.64ID:???0

導入の参考に

Kobold.cppで小説っぽいのを作る
https://w.atwiki.jp/localmlhub/pages/19.html
Kobold.cppでAIとチャットしてみる
https://w.atwiki.jp/localmlhub/pages/20.html

0020名無しさん＠ピンキー (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 22:07:47.65ID:???0

24 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ﾜｯﾁｮｲ ff7a-EFnx) 2023/11/11(土) 11:24:55.41 ID:Gp6hELJv0
長い事kobold使ってて、バージョンアップの度に上書きしてたんだが、
いつの間にか推奨セッティングが大きく変わってることに気付いた！

>使用するのに適した既定値は、Top-P=0.92、RepPen=1.1、Temperature=0.7、およびサンプラーの次数 [6,0,1,3,4,2,5] で、それ以外はすべて無効 (デフォルト) のままにします。
>デフォルトの[6,0,1,3,4,2,5]から変更することは、出力が非常に悪くなる可能性があるため、強くお勧めしません。

だそうなんで、長い事使ってる人は、一度セッティングをReset all settingボタンでクリアしとくことをお勧めする

0021名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM5f-2ZAr)

2024/02/20(火) 12:51:24.84ID:???M

もしかして日本でローカルllmチャットで遊んでるの自分だけかというほど無風な気がしてる

0022名無しさん＠ピンキー (ﾜｯﾁｮｲ 9332-eqlr)

2024/02/20(火) 16:21:42.11ID:???0

ここは避難所だからｗ
本スレ行きなされ

0023名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp0f-QfA5)

2024/03/16(土) 07:53:30.70ID:???p

tes

0024名無しさん＠ピンキー (ﾜｯﾁｮｲ 8749-5GeV)

2024/03/16(土) 11:11:21.10ID:???0

本スレ死んでるな

0025名無しさん＠ピンキー (ﾜｯﾁｮｲ c711-DUyd)

2024/03/16(土) 12:59:04.10ID:iqepmufp0

次スレ立てた

0026名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b14-gVJy)

2024/03/16(土) 20:23:32.27ID:???0

この規模だったらもういっそ移住しちゃえば？
一定の勢いある板スクリプトで使い物にならんし

0027名無しさん＠ピンキー (ﾜｯﾁｮｲ fb95-5GeV)

2024/03/16(土) 20:34:42.11ID:???0

俺もそう思う

0028名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/16(土) 20:54:20.99ID:???0

早々にスクリプト来てやがる

0029名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b4d-lINt)

2024/03/16(土) 23:58:29.82ID:???0

移住するとしたらどこ？

0030名無しさん＠ピンキー (ﾜｯﾁｮｲ 57b5-ACJr)

2024/03/17(日) 00:03:12.81ID:???0

ここじゃ駄目なん？

0031名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/20(水) 15:26:47.23ID:???0

動画撮ったぞ。
スクリプトで流れるの嫌なので、保管用にこっちに書くね。
６分くらい撮ったけど、60秒以内にしろって怒られたから切り貼り編集したけど、体感は分かると思う
ローカルに期待して64Gメモリ買ったけど、こんなスピードじゃ抜けんぞっ！って怒られる前にｗ
よく見ると分かると思うけど、基本１トークン全角１文字だけど、文によっては１トークン３～４文字出力してる。
これが日本語対応のトークナイザーのおかげなんだな
英語モデルで日本語書かせると、１トークン半角１文字、つまり全角１文字で２トークンもかかるから、激遅になる

https://imgur.com/a/SvIMoFl

i7 7700K + rtx3080ti メモリ64G
この化石ＰＣ以上なら、スピードはもっと期待できると思うよ（グラボはあまり関係ないけどVram12Gは欲しい）

ちなみに、ローリィの画像は、ローリィにお前の姿をＳＤで描くから、自分のプロンプトを書けって指示して書かせたものを
そのままＳＤにぶち込んで生成したｗ

0032名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/20(水) 15:28:26.70ID:???0

ああ、↑の感想や意見は本スレの方に頼むね

0033名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-ACJr)

2024/03/20(水) 19:31:20.74ID:???0

↑重要な事を書き忘れてたので追記

使っているモデルは、Q6_k という64Gメモリでギリギリ動かせる量子化モデルで一番重たいやつ
だから、Q4_k_m とかなら、精度はやや落ちるけど、もっと速くなる
動画はモデル名も撮ってたんだけど、60秒にするために切り取ってた

0034名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fc5-6GLF)

2024/03/20(水) 21:57:36.02ID:nCB+9jEE0

LLM部も避難所あったんか、主な情報ここのニキらから得てるから助かるわ

0035名無しさん＠ピンキー (ﾜｯﾁｮｲ bb7d-2Hj1)

2024/03/28(木) 22:17:06.29ID:???0

もうこっちでいいだろ

0036名無しさん＠ピンキー (ﾜｯﾁｮｲ 6342-mfFe)

2024/03/28(木) 22:36:03.62ID:???0

ログ漁ったら8割グロとか嫌やん？

0037名無しさん＠ピンキー (ﾜｯﾁｮｲ 8744-0o/Z)

2024/03/29(金) 01:49:51.63ID:???0

構わないよ

0038名無しさん＠ピンキー (ﾜｯﾁｮｲ 1eb5-1OiZ)

2024/03/29(金) 06:45:48.52ID:???0

進化的アルゴリズムによる基盤モデルの構築
https://sakana.ai/evolutionary-model-merge-jp/

これが個人のPCで出来るようになったら盛り上がりそう

0039名無しさん＠ピンキー (ﾜｯﾁｮｲ 63ba-Qu5W)

2024/03/29(金) 18:48:33.38ID:???0

本スレ503へのレスだけど、
ツールは何使ってる？大葉？

koboldを日本語モデルで長文出力できてる人いたら設定教えてオクレ
今はinstractモードで
max tokens 最大
amount to gen 最大
他は初期値でやってる
英語モデルはこれで十分なんだが

0040名無しさん＠ピンキー (ﾜｯﾁｮｲ 63ba-Qu5W)

2024/03/29(金) 18:55:25.17ID:???0

本スレ504へのレス

とりあえずq4 k mで試した
メモリ32Gでも乗ると思うよ

0041名無しさん＠ピンキー (ﾜｯﾁｮｲ 87b7-0o/Z)

2024/03/29(金) 19:48:10.94ID:???0

なるほど
ちょっと俺も試してみるありがとう

0042名無しさん＠ピンキー (ﾜｯﾁｮｲ 9f11-WdHl)

2024/03/29(金) 22:36:17.94ID:0+xOxA3r0

>>39
ツールはllama-cpp-python使ってるよ

0043名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f5e-moi/)

2024/03/30(土) 07:54:11.00ID:???0

karakuri70bを1ビット量子化で試した
0.9t/sとヘボpcでも速くはなったが(6Qなら0.5t/s)やはり劣化が無視できないレベルだ
そこへいくとcommand-rは6Qで1t/s以上叩き出すし性能はkarakuriに匹敵する(特にエロw)
これ量子化次第ではvram20Gくらいあればgpuフルロードできるからチャットでも十分使える速度になるんじゃないかな？
性能はcohereと同じだから使ってる人なら分かると思う

0044名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fa7-q9+D)

2024/03/30(土) 08:50:57.93ID:???0

>>42
ありがとう
Python赤ちゃんだから敷居高そうだね
手順書いてくれてるサイトあるから腰据えてやってみるわ
（といいつつkoboldを起動してしまう）

0045名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/03/30(土) 09:17:58.78ID:GNvq1wKq0

>>44
あんまりこのスレでは需要なさそうだけど、Python使えるとLLMでパソコン操作できるようになってできることの幅拡がるから、是非こっちの世界にもきてくれ

0046名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/03/30(土) 20:34:30.69ID:GNvq1wKq0

1.58bitの再現モデル(3Bまで)上がってるね
https://huggingface.co/1bitLLM/bitnet_b1_58-large

0047名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/03/31(日) 21:20:59.25ID:BapgGA9yd

Mistralベースが気になって日本語が達者な小さいモデルをいろいろ試してみてたんだけど、以下のモデルが7Bで結構良いの出してくれた

NTQAI/chatntq-ja-7b-v1.0
例のテストプロンプトを出力した結果:
https://rentry.org/4pztendu

Q8_0でも7.2GBなので速度は速く、VRAMオフロードもフルにしやすい
使ってみた個人的所感としてはサイズの小さいkarakuriみたいな印象を受けた

0048名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bf7-XxRK)

2024/03/31(日) 21:36:33.21ID:???0

はえー参考になるわ

0049名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f7d-Q0e0)

2024/03/31(日) 22:05:14.02ID:???0

tabbyAPI (exllamav2-0.0.16) でturboderp/command-r-v01-35B-exl2 3.75bpw をロードできた
oobabooga/text-generation-webuiはexllamav2のバージョンが古いせいかロードできない
VRAM消費がmax_seq_len=4000で32GBなので消費量が多い気がする
ちょっと調べたら、GQAを使ってないからコンテキストに使うVRAMが多いようなことが書かれていた → https://zeux.io/2024/03/15/llm-inference-sol/
日本語性能は既に言われているとおり良さそうな感じ

0050名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/03/31(日) 22:20:40.40ID:luYcF9RI0

command-r使ってると、なんかチャットの最後に唐突に記号とかシステム系のトークン出力すること多くない(#とか<!―とか)？
出力をjsonとかで構造化すると抑制できるからとりあえずそうしてるけど
webui使ったことないからわからんけど、そういうのだと裏で走ってるプロンプトで上手くやってるのかな

0051名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-OIDP)

2024/04/01(月) 06:24:53.60ID:???0

hugでggufの最新順でみてたら、703bのmodelを発見
なにかの誤記かな？と思ったらホンマだった
240bなんかはあるの見かけたけど、もはや家庭用とかそんなチャチなものじゃないんだな

0052名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/01(月) 11:19:43.13ID:???0

>>51
abacaj/phi-2-super
こいつをフランケンマージしまくったのか
作者も再生でんやろｗ

xverse/XVERSE-65B-Chat-GGUF
こっちはモデル自体は4か月前と古いけど、最近ようやくllama.cppが対応して量子化できたんだが・・・
日本語性能かなりいい！
karakuriの出る２ヵ月前に、こんなものが出てたとは・・・
量子化が早かったら祭りになってたレベル

0053名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/01(月) 12:17:48.09ID:Ix0xQs0e0

今って日本語使えるローカルモデルで最高性能のやつってこのスレ的にコンセンサスあるんかな？
まだkarakuri推してるやつが多いのかな

0054名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-moi/)

2024/04/01(月) 12:59:32.09ID:???0

>>53
ん？
karakuri以外になんかある？

0055名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/01(月) 13:03:48.80ID:Ix0xQs0e0

個人的にはcommand-r推してるのと、最近だとSwallow 8x7とかao-karasuとか？
まあ最後のやつは微妙って言う意見の方が多いと思うけど

0056名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-moi/)

2024/04/01(月) 13:07:03.33ID:???0

ああcommand-rはスピード面でもかなりいいね
はよkobold対応してくれんかなぁ　

0057名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f86-6cSz)

2024/04/01(月) 13:22:36.68ID:MrxdVkCc0

rakutenAI

0058名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b14-969t)

2024/04/01(月) 13:25:48.32ID:???0

command-rは初めて聞いたな
swallow 8x7Bは微妙ってよく聞くから避けてたけど
動かしてみるか・・・

0059名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f86-6cSz)

2024/04/01(月) 14:19:39.91ID:MrxdVkCc0

privateLLM(Mac•iOS )で今日rakutenAI-7b-chatが入れられたから試してみてくれ　開発者に頼み込んで入れてもらった

0060名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f86-6cSz)

2024/04/01(月) 15:16:19.60ID:MrxdVkCc0

自分で試したらGPT4ALLにgguf突っ込んんだ方が精度良かったわ...
日本語モデルをOmniQuantで扱うのはまだ無理ということか

0061名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/01(月) 17:05:09.66ID:hvSu9GSod

>>58
aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
Swallow8x7Bは本家よりこっちがおすすめ

出力例
https://rentry.org/3fuq49ct

0062名無しさん＠ピンキー (ﾜｯﾁｮｲ 4baa-oxdg)

2024/04/01(月) 23:18:25.67ID:???0

MixtralベースのSwallowはInstruction Tuning版が公式から出るの待つのが良いんじゃない

0063名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f5c-Q0e0)

2024/04/02(火) 03:09:24.83ID:???0

oobabooga/text-generation-webuiでcommand-rを使うなら、このissueが参考になりそう
https://github.com/oobabooga/text-generation-webui/issues/5762

0064名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/02(火) 08:06:28.32ID:kiLZihx60

>>59
rakuten AIについて書いてるけど実際どう？
7Bと高を括っててあんまり使う気無かったんだけど、話ぶりだと意外と良かったりするのかな？

0065名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/02(火) 15:56:51.71ID:???0

command-rでimatrix.dat作れた人いる？
なんか途中で止まってしまう。（tokenizing the inputの辺）
koboldで動かせるようになったんで、i-quants で量子化して
vram12Gでもフルロードできるようにしたいんだけど

0066名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 02:14:13.94ID:1MfM6C64d

Mistral7Bベースのモデルをいじくって良い感じのものができた！ので投下
日本語対応の7BをChatVectorで対話能力上げて、mergekitでフランケンMoEにしてみた
以下、ダウンロードリンクです(pCloud)

https://u.pcloud.link/publink/show?code=kZLvUz0Z1JHO9j2jnH7f7kvD2Mt0bkWfGr5y

出力例(いつものプロンプト)
https://rentry.org/do22ubeg

特徴としては、
・Contextが32kまで対応
・モデルサイズが小さくContextSize32kでもVRAM12GBでフルオフロード可能、高速
・ざっと試した感じでは日本が流暢
・ノベルを書かせると強いかも
・素材に使ったモデルの影響でエロエロな文章を書きたがるｗ

良さげなのできてテンション上がってたが、さすがに疲れた…寝ます…

0067名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b7a-+3Pw)

2024/04/03(水) 04:58:11.04ID:???0

これは驚いた７Ｂとは思えないほどだ
少し試しただけだけど、日本語がまともだ・・・

0068名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-eoXq)

2024/04/03(水) 06:22:35.72ID:uDta8W680

あらら…試そうかと思ったらダウンロードできなかった、残念
ChatVectorの調べてみたら興味深いな
70bモデルあたりじゃないとだめかと思ってggufでスペック不足で挫折したけど、軽量モデルでもいいなら遊べそう

0069名無しさん＠ピンキー (ﾜｯﾁｮｲ cb79-ElCo)

2024/04/03(水) 06:32:20.53ID:???0

>>66
Chat Vector、興味があって色々試してるけど
instとbaseで引いたChat Vectorと既存モデルの重みを足してる感じ？
シンプルに足すのと、元の論文にもある0.5の割合で足すのとか
以下でやったような層ごとに最適比率を進化戦略で出したとか、色々あってどれが良いかわからん
https://huggingface.co/napopoa32/swallow-hermes-st-v1

0070名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 07:37:28.23ID:1MfM6C64d

うお、トラフィック集中でダウンロード制限されるんか
おはようございます
どこかいいアプロダかクラウドないものだろうか

>>69
うちは>>61がいい感じだったので参考にして、0.8掛けして足しました

0071名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 07:53:50.71ID:???0

>>66
pCloud無課金だとダウンロードできんかった
huggingfaceに上げてくだされー

0072名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bdb-oxdg)

2024/04/03(水) 09:59:17.05ID:???0

Chat VectorっていわゆるTask Vectorだよね？（MergekitでいうTask Arithmetic）
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな？面白いわ

0073名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 10:27:44.40ID:???0

>>66
見よう見まねで差分マージ試したけど、トークナイザー関連は元のモデルからコピーすればいいのかな？
cp_model.save_pretrained("G:/merge/CVtest01")
だと、トークナイザーは作られなかった

あと、0.8掛けって
chat_vector = 0.8 * inst_model.state_dict()[k] - base_model.state_dict()[k]
こんな感じですればいいん？

パイソン初心者なんでよくわからん
できればpyファイルも公開してくれるとありがたい

0074名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 13:18:54.17ID:1MfM6C64d

需要あるかわからんからサクッと必要な人に提供して終わりにしようと思ってたけど、ありそうなのでhuggingfaceに登録してみる(ダウンロード数を見てビビったｗ)
夜にする予定なので少々お待ちを

>>72
そうそう。今回だと (Mistral7Binst - Mistral7B) を日本語可能モデルに加算処理した
実際に出力を比較したら明確に対話能力が向上して自分も驚いた

>>73
tokenizer関係は日本語可能モデルから流用した
0.8掛けは、new_vの代入式をnew_v = v + ( 0.8 * chat_vector.to(v.device) )　に変更した
詳しくはhuggingfaceにpy含めやったことを全て書く予定なのでお待ちください
(と言っても大したことはしてないと思う)

0075名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 13:23:51.29ID:1MfM6C64d

書き忘れてたけど、今回MoEの素材にしたのは以下2モデルのChatVectorしたやつ

NTQAI/chatntq-ja-7b-v1.0
Elizezen/Antler-7B

特にAntler-7Bが(エロ)ノベル生成能力高くて凄い
自前でできる人は是非試してみてくれ

0076名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bee-iwwG)

2024/04/03(水) 13:31:26.27ID:???0

>>75
サンキュー、週末にでもためしてみる

0077名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 13:49:52.53ID:???0

>>74
ありがとう！
待ってますー

0078名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 14:04:35.41ID:???0

しかし、pCloudって、買い切りもあるんだな。
こっちにも興味惹かれるわｗ

0079名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-k+SB)

2024/04/03(水) 18:56:30.78ID:icC4hlB2M

絵のSDで言うnsfw-sfw差分マージとかコピー機Lora法みたいなことがLLMでも出来るってこと？

0080名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 19:54:57.17ID:1MfM6C64d

お待たせ！huggingfaceに登録してアップロード完了したので公開します
今はGGUFだけ取り急ぎアップロードしています

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B　(モデルカードのみアップロード済)
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF

safetensorsの方はもうちょっと待ってくれ
モデルカードにやったことは全て書いてある(はず)ので、情報としては現状で出し切っているはず
参考になれば幸い

0081名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-OIDP)

2024/04/03(水) 20:08:37.00ID:???0

>>80
わざわざすみません
参考にさせていただきます

0082名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-eoXq)

2024/04/03(水) 21:08:38.80ID:0JWLeUr80

>>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう

0083名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/03(水) 21:13:23.14ID:???0

GJ! そして感謝
試させてもらうよ！

0084名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/03(水) 21:43:42.07ID:???0

使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う

0085名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 21:47:01.95ID:???0

>>80
ありがとう！
STでのチャットの様子をオナニースレに投下しました（内容がちょっとアレなので(;´Д｀)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。

0086名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b7a-+3Pw)

2024/04/03(水) 21:50:13.79ID:???0

>>84
俺の言いたい事が先に言われてた

0087名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:06:54.85ID:???0

日本語エロやりとりのデータセットを集合知で作る話があったけど
これくらいのモデルをベースにしてもらうといいのかもな

0088名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f5a-Ygoy)

2024/04/03(水) 22:11:23.88ID:???0

もはやAI技術者やん

0089名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b59-2ZW3)

2024/04/03(水) 22:12:17.03ID:???0

>>87
商業モデル使ってるROM勢だけどそういう形で集合痴集めたいって話やるなら協力したいな

0090名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:24:42.37ID:???0

前もあったけど

「男のセリフ」「女のセリフ」

この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし

0091名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-RIgS)

2024/04/03(水) 22:26:45.08ID:???M

coboldばっかり使ってるんですが、皆さんはどのwebuiを使ってるんでしょうか
そもそもLLM用のwebuiがどのくらいあるのか把握しきれてないけど

0092名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:29:18.80ID:???0

7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし

そのために必要なのは喰わせるテキストってことよな

0093名無しさん＠ピンキー (ｽｯﾌﾟ Sdff-hs76)

2024/04/03(水) 22:31:29.78ID:???d

そこで例のデータセットですよ

0094名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 22:35:45.69ID:???0

正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Ｇでいけるか不安ｗ

0095名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:38:22.51ID:???0

メモリ64ならいけるでしょ
32だと厳しいだけで

0096名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b5b-qhHw)

2024/04/03(水) 22:39:45.56ID:???0

ローカルでLLM動かすソフトウェア聞くのここであってる？
LM StudioとText generation web入れてるけど情報少ないし
ここの主流を参考にしたい

0097名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:41:41.11ID:???0

kobold.cppで何も困らないしなあ
絵を出したい人はSillyTavernやろけど

0098名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 22:41:44.30ID:???0

>>95
7Bのモデルで試したが、３モデルの読み込みが必要だから、結構メモリ食ってた。
まあ、SSD空けて週末に試してみるわ

0099名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 22:49:03.87ID:1MfM6C64d

おお、予想より反響が！作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です

>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねｗ

このスレも結構人がいたんだな…

0100名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-eoXq)

2024/04/03(水) 23:02:17.40ID:0JWLeUr80

kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん

新着レスの表示

レスを投稿する