なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0043名無しさん@ピンキー (ワッチョイ 4f5e-moi/)2024/03/30(土) 07:54:11.00ID:???0
karakuri70bを1ビット量子化で試した
0.9t/sとヘボpcでも速くはなったが(6Qなら0.5t/s)やはり劣化が無視できないレベルだ
そこへいくとcommand-rは6Qで1t/s以上叩き出すし性能はkarakuriに匹敵する(特にエロw)
これ量子化次第ではvram20Gくらいあればgpuフルロードできるからチャットでも十分使える速度になるんじゃないかな?
性能はcohereと同じだから使ってる人なら分かると思う
0045名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/03/30(土) 09:17:58.78ID:GNvq1wKq0
>>44
あんまりこのスレでは需要なさそうだけど、Python使えるとLLMでパソコン操作できるようになってできることの幅拡がるから、是非こっちの世界にもきてくれ
0047名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/03/31(日) 21:20:59.25ID:BapgGA9yd
Mistralベースが気になって日本語が達者な小さいモデルをいろいろ試してみてたんだけど、以下のモデルが7Bで結構良いの出してくれた

NTQAI/chatntq-ja-7b-v1.0
例のテストプロンプトを出力した結果:
https://rentry.org/4pztendu

Q8_0でも7.2GBなので速度は速く、VRAMオフロードもフルにしやすい
使ってみた個人的所感としてはサイズの小さいkarakuriみたいな印象を受けた
0049名無しさん@ピンキー (ワッチョイ 6f7d-Q0e0)2024/03/31(日) 22:05:14.02ID:???0
tabbyAPI (exllamav2-0.0.16) でturboderp/command-r-v01-35B-exl2 3.75bpw をロードできた
oobabooga/text-generation-webuiはexllamav2のバージョンが古いせいかロードできない
VRAM消費がmax_seq_len=4000で32GBなので消費量が多い気がする
ちょっと調べたら、GQAを使ってないからコンテキストに使うVRAMが多いようなことが書かれていた → https://zeux.io/2024/03/15/llm-inference-sol/
日本語性能は既に言われているとおり良さそうな感じ
0050名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/03/31(日) 22:20:40.40ID:luYcF9RI0
command-r使ってると、なんかチャットの最後に唐突に記号とかシステム系のトークン出力すること多くない(#とか<!―とか)?
出力をjsonとかで構造化すると抑制できるからとりあえずそうしてるけど
webui使ったことないからわからんけど、そういうのだと裏で走ってるプロンプトで上手くやってるのかな
0051名無しさん@ピンキー (ワッチョイ 3b9f-OIDP)2024/04/01(月) 06:24:53.60ID:???0
hugでggufの最新順でみてたら、703bのmodelを発見
なにかの誤記かな?と思ったらホンマだった
240bなんかはあるの見かけたけど、もはや家庭用とかそんなチャチなものじゃないんだな
0052名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/01(月) 11:19:43.13ID:???0
>>51
abacaj/phi-2-super
こいつをフランケンマージしまくったのか
作者も再生でんやろw

xverse/XVERSE-65B-Chat-GGUF
こっちはモデル自体は4か月前と古いけど、最近ようやくllama.cppが対応して量子化できたんだが・・・
日本語性能かなりいい!
karakuriの出る2ヵ月前に、こんなものが出てたとは・・・
量子化が早かったら祭りになってたレベル
0053名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/01(月) 12:17:48.09ID:Ix0xQs0e0
今って日本語使えるローカルモデルで最高性能のやつってこのスレ的にコンセンサスあるんかな?
まだkarakuri推してるやつが多いのかな
0055名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/01(月) 13:03:48.80ID:Ix0xQs0e0
個人的にはcommand-r推してるのと、最近だとSwallow 8x7とかao-karasuとか?
まあ最後のやつは微妙って言う意見の方が多いと思うけど
0057名無しさん@ピンキー (ワッチョイ 5f86-6cSz)2024/04/01(月) 13:22:36.68ID:MrxdVkCc0
rakutenAI
0059名無しさん@ピンキー (ワッチョイ 5f86-6cSz)2024/04/01(月) 14:19:39.91ID:MrxdVkCc0
privateLLM(Mac•iOS )で今日rakutenAI-7b-chatが入れられたから試してみてくれ 開発者に頼み込んで入れてもらった
0060名無しさん@ピンキー (ワッチョイ 5f86-6cSz)2024/04/01(月) 15:16:19.60ID:MrxdVkCc0
自分で試したらGPT4ALLにgguf突っ込んんだ方が精度良かったわ...
日本語モデルをOmniQuantで扱うのはまだ無理ということか
0061名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/01(月) 17:05:09.66ID:hvSu9GSod
>>58
aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
Swallow8x7Bは本家よりこっちがおすすめ

出力例
https://rentry.org/3fuq49ct
0064名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/02(火) 08:06:28.32ID:kiLZihx60
>>59
rakuten AIについて書いてるけど実際どう?
7Bと高を括っててあんまり使う気無かったんだけど、話ぶりだと意外と良かったりするのかな?
0065名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/02(火) 15:56:51.71ID:???0
command-rでimatrix.dat作れた人いる?
なんか途中で止まってしまう。(tokenizing the inputの辺)
koboldで動かせるようになったんで、i-quants で量子化して
vram12Gでもフルロードできるようにしたいんだけど
0066名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 02:14:13.94ID:1MfM6C64d
Mistral7Bベースのモデルをいじくって良い感じのものができた!ので投下
日本語対応の7BをChatVectorで対話能力上げて、mergekitでフランケンMoEにしてみた
以下、ダウンロードリンクです(pCloud)

https://u.pcloud.link/publink/show?code=kZLvUz0Z1JHO9j2jnH7f7kvD2Mt0bkWfGr5y

出力例(いつものプロンプト)
https://rentry.org/do22ubeg

特徴としては、
・Contextが32kまで対応
・モデルサイズが小さくContextSize32kでもVRAM12GBでフルオフロード可能、高速
・ざっと試した感じでは日本が流暢
・ノベルを書かせると強いかも
・素材に使ったモデルの影響でエロエロな文章を書きたがるw

良さげなのできてテンション上がってたが、さすがに疲れた…寝ます…
0068名無しさん@ピンキー (ワッチョイ 3b9f-eoXq)2024/04/03(水) 06:22:35.72ID:uDta8W680
あらら…試そうかと思ったらダウンロードできなかった、残念
ChatVectorの調べてみたら興味深いな
70bモデルあたりじゃないとだめかと思ってggufでスペック不足で挫折したけど、軽量モデルでもいいなら遊べそう
0069名無しさん@ピンキー (ワッチョイ cb79-ElCo)2024/04/03(水) 06:32:20.53ID:???0
>>66
Chat Vector、興味があって色々試してるけど
instとbaseで引いたChat Vectorと既存モデルの重みを足してる感じ?
シンプルに足すのと、元の論文にもある0.5の割合で足すのとか
以下でやったような層ごとに最適比率を進化戦略で出したとか、色々あってどれが良いかわからん
https://huggingface.co/napopoa32/swallow-hermes-st-v1
0070名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 07:37:28.23ID:1MfM6C64d
うお、トラフィック集中でダウンロード制限されるんか
おはようございます
どこかいいアプロダかクラウドないものだろうか

>>69
うちは>>61がいい感じだったので参考にして、0.8掛けして足しました
0072名無しさん@ピンキー (ワッチョイ 9bdb-oxdg)2024/04/03(水) 09:59:17.05ID:???0
Chat VectorっていわゆるTask Vectorだよね?(MergekitでいうTask Arithmetic)
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな?面白いわ
0073名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/03(水) 10:27:44.40ID:???0
>>66
見よう見まねで差分マージ試したけど、トークナイザー関連は元のモデルからコピーすればいいのかな?
cp_model.save_pretrained("G:/merge/CVtest01")
だと、トークナイザーは作られなかった

あと、0.8掛けって
chat_vector = 0.8 * inst_model.state_dict()[k] - base_model.state_dict()[k]
こんな感じですればいいん?

パイソン初心者なんでよくわからん
できればpyファイルも公開してくれるとありがたい
0074名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 13:18:54.17ID:1MfM6C64d
需要あるかわからんからサクッと必要な人に提供して終わりにしようと思ってたけど、ありそうなのでhuggingfaceに登録してみる(ダウンロード数を見てビビったw)
夜にする予定なので少々お待ちを

>>72
そうそう。今回だと (Mistral7Binst - Mistral7B) を日本語可能モデルに加算処理した
実際に出力を比較したら明確に対話能力が向上して自分も驚いた

>>73
tokenizer関係は日本語可能モデルから流用した
0.8掛けは、new_vの代入式をnew_v = v + ( 0.8 * chat_vector.to(v.device) ) に変更した
詳しくはhuggingfaceにpy含めやったことを全て書く予定なのでお待ちください
(と言っても大したことはしてないと思う)
0075名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 13:23:51.29ID:1MfM6C64d
書き忘れてたけど、今回MoEの素材にしたのは以下2モデルのChatVectorしたやつ

NTQAI/chatntq-ja-7b-v1.0
Elizezen/Antler-7B

特にAntler-7Bが(エロ)ノベル生成能力高くて凄い
自前でできる人は是非試してみてくれ
0079名無しさん@ピンキー (オイコラミネオ MM7f-k+SB)2024/04/03(水) 18:56:30.78ID:icC4hlB2M
絵のSDで言うnsfw-sfw差分マージとかコピー機Lora法みたいなことがLLMでも出来るってこと?
0080名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 19:54:57.17ID:1MfM6C64d
お待たせ!huggingfaceに登録してアップロード完了したので公開します
今はGGUFだけ取り急ぎアップロードしています

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B (モデルカードのみアップロード済)
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF

safetensorsの方はもうちょっと待ってくれ
モデルカードにやったことは全て書いてある(はず)ので、情報としては現状で出し切っているはず
参考になれば幸い
0082名無しさん@ピンキー (ワッチョイ dbc0-eoXq)2024/04/03(水) 21:08:38.80ID:0JWLeUr80
>>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう
0084名無しさん@ピンキー (ワッチョイ 1fa3-hs76)2024/04/03(水) 21:43:42.07ID:???0
使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う
0085名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/03(水) 21:47:01.95ID:???0
>>80
ありがとう!
STでのチャットの様子をオナニースレに投下しました(内容がちょっとアレなので(;´Д`)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。
0090名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/03(水) 22:24:42.37ID:???0
前もあったけど

「男のセリフ」「女のセリフ」

この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし
0092名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/03(水) 22:29:18.80ID:???0
7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし

そのために必要なのは喰わせるテキストってことよな
0094名無しさん@ピンキー (ワッチョイ 3b32-YqhJ)2024/04/03(水) 22:35:45.69ID:???0
正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Gでいけるか不安w
0099名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/03(水) 22:49:03.87ID:1MfM6C64d
おお、予想より反響が!作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です

>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねw

このスレも結構人がいたんだな…
0100名無しさん@ピンキー (ワッチョイ dbc0-eoXq)2024/04/03(水) 23:02:17.40ID:0JWLeUr80
kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん
0101名無しさん@ピンキー (ワッチョイ dbc0-k+SB)2024/04/04(木) 00:15:55.70ID:7CBc0q770
apiで動かしてlibrechat派はいるんだろうか
0102名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/04(木) 00:20:04.98ID:SFg9G6gw0
多少敷居高いのは承知だけど、直にpython叩く勢がほぼいなくて悲しい
バックエンドが対応さえしてくれれば最新のモデルも割とすぐ使えるし、ツール組み合わせ放題なのに
0105名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/04(木) 00:31:56.54ID:SFg9G6gw0
>>104
一番わかりやすい所だと、style-bert-vits2でちょっとエッチなボイス学習させた音声合成モデル作ってLLMに喋らせたり、テキストと一緒に感情を生成させて立ち絵の表情とか音声の声色と連動させる、とかやってる

あと、LLMが書いたpythonコードを自動実行できるようにしてるから、普通にアシスタントとして使ったりしてる
トリッキーな内容だけど、LLMの判断でpythonの変数確保できるから、好感度パラメータみたいなのを作らせて、ギャルゲーシミュレーションみたいなことも(質はともかく)できるようになる
0107名無しさん@ピンキー (ワッチョイ eb11-qjsq)2024/04/04(木) 00:56:43.50ID:SFg9G6gw0
今度動画でもあげてみようかな
コードの方はまあ、スパゲティになってるから需要があれば
0109名無しさん@ピンキー (ワッチョイ eb11-yUXY)2024/04/04(木) 02:28:17.76ID:SFg9G6gw0
ちょっとデモとして思いついたやつ
服の枚数とか保持させてミニゲーム的な感じで野球拳やってみた
https://i.imgur.com/ttNbUbr.png
0110名無しさん@ピンキー (ワッチョイ 9be0-LdzR)2024/04/04(木) 02:29:43.78ID:Xd35agVK0
青空文庫の吉川英治を全部読ませて欲しいわー
三国志演義での罵りあいも美しいんだよな
0111名無しさん@ピンキー (テテンテンテン MMff-mCjS)2024/04/04(木) 02:44:44.55ID:???M
>>80
お疲れさまでした
3060でも使ってみたけど12GB勢には助かると思うのです
ところでtokenizerが合わないらしくtokenカウントがスワロー系の倍くらいに膨れちゃうんだけど
単純にctxの最大値8192とかにすればいいんですかね?
0112名無しさん@ピンキー (ワッチョイ cb79-ElCo)2024/04/04(木) 06:39:39.17ID:???0
>>80
Swallow-MSで試してたけど、語彙拡張があるから、Chat Vectorの次元数違いで無理があるんではと思ってたんよね。
シンプルに語彙拡張無しの日本語FTモデルで足すのが、筋が良いやり方やったんかな。
やろうとしてたこと、既にやっててすごいわ。参考にさせてもらいます!
0113名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/04(木) 07:46:08.99ID:e1I1qEPtd
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B

こちらにも全部アップロードが完了したので報告

>>111
そう言ってもらえると作った甲斐があった
消費トークンがSwallow系の倍になるのは、日本語の語彙拡張が行われていないモデルの仕様です
今回のモデルは英語モデルからVocabが据え置きなので、Vocab拡張済みのSwallow系より消費トークンがどうしても増えてしまいます

>>112
自分は試してませんが、日本語語彙拡張済みモデルに適用したい場合は以下のページが参考になるかもしれません
https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4
0114名無しさん@ピンキー (スプッッ Sdff-Ltba)2024/04/04(木) 07:53:20.67ID:e1I1qEPtd
>>111
あと今回のモデルはctxが最大32768まで対応している(つもり)なので、そちらで対応いただければと
0115名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/04(木) 08:39:15.94ID:???0
そういえばmergekitでMoEする時、2モデルしか使わない場合はpositive_promptとかに何書いても変わらないと思ってたけど合ってるかな
デフォだと2エキスパート必ず使うようになってるから、2モデルMoEだとgateの意味がなかったような
011696 (スフッ Sdff-qhHw)2024/04/04(木) 10:41:44.28ID:???d
情報どうも
webuiメインにやることにするわ
0121名無しさん@ピンキー (ワッチョイ dfbf-eoXq)2024/04/04(木) 14:31:13.22ID:ZuC/rh5R0
LLMの開発に興味あるんやけどどっから勉強すらええんや?
Pythonは少し書けるけど、AIとか機械学習とかの知識は今の所皆無や
0123名無しさん@ピンキー (ワッチョイ dfbf-eoXq)2024/04/04(木) 14:37:33.38ID:ZuC/rh5R0
>>122
とりあえず規制回避したドスケベな日本語エロ小説を書けるような
LLMが欲しい
0126名無しさん@ピンキー (ワッチョイ 4baa-XxRK)2024/04/04(木) 14:43:37.87ID:vl3Nntgi0
うーん、まあFine-tuningとかモデルマージあたりの知識があればなんとかなるんちゃう?
0130名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/04(木) 16:00:55.96ID:???0
なんUのスレのりんな時代からずっと言われてたことやけど「このデータセットで
このサービス(orローカル)でこういうコードでFine-tuningをこうやったら
こういう風なデータができて出力はこういう風な感じでに成功したで!」っていう
事例がもうちょっとほしいのよな

ござる口調とかだけではちょっと
0131名無しさん@ピンキー (ワッチョイ fb8e-oun9)2024/04/04(木) 16:16:05.47ID:RYURyKh10
https://i.imgur.com/PQkNtJI.jpeg
それでgenを大きくしたらとりあえず長い文章が出てくるようになった気がするわ
tokenも影響あるんかな
0136名無しさん@ピンキー (ワッチョイ 0f7a-YqhJ)2024/04/04(木) 16:44:53.32ID:???0
まあすんなり上手くいくかは別にして旗艦になりそうなモデルが
5chの人間から出てきたのは大きいんちゃうかなって

暇つぶしでデータ作成に協力くらいはしようかなと思ってるわ
匿名性維持しつつ削除されないためにはrentryが一番ええんかなあ
0137名無しさん@ピンキー (ブーイモ MMff-2ZW3)2024/04/04(木) 17:27:02.37ID:???M
>>135
まさしくそっちのスレの住人で現時点でローカルに手を出してないしなんJも行かんからROM専やってるのよ
データの正規化とか音頭を取れるほど詳しくもないから何かやるなら協力できることがあるならその範囲で何かやりたいなってだけかな
将来的にはローカルに移行したいけどみんなの開拓の成果タダ乗りってのはちょっと気が引けるじゃん?
0138名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/04(木) 17:49:29.98ID:???0
>>120
どのエキスパートを使うかに影響する
例えばコード特化、数学特化、ロールプレイ特化、小説特化の4つでMoEする場合はそれぞれのPositive Promptに
「プログラムを書いてください」
「次の計算問題を解いてください」みたいに各モデルの得意なタスクとかを書くと、推論時の入力の意味をある程度解釈して適切にgatingしようとする
だけど、mergekitで2モデルでMoEする場合はデフォルトだと常に2モデル使うような設定で出力されるから、どんなgate_modeでも理論上変わらん…はず
0139名無しさん@ピンキー (ワッチョイ 4b13-oxdg)2024/04/04(木) 18:50:39.51ID:???0
>>80
今更だがベースモデルの片方のNTQAI/chatntq-ja-7b-v1.0はすでにInstruction Tuning済みなのか
Instruction Tuning済みのモデルにMistral-instructのベクトル足して上手くいくってのも割とわけわからんな
NTQAI/chatntq-ja-7b-v1.0はそのまま、Antler-7BはChat Vector足してMoEとかも試した感じ?
0140名無しさん@ピンキー (ブーイモ MMff-mCjS)2024/04/04(木) 18:54:21.36ID:???M
先週マイニング用の4分岐のライザーカードasm1184を用意した
最初のモデルのロードは遅い、busロード80%(おそらく分岐チップの制約でマックス速度)
初期プロンプト流し込み、ジェネレート中はbusロード20%は超えなかった
これの意味するところはマイニングライザーでグラボ増やす形でもあまり問題はなさそう
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況