なんJLLM部避難所

1002コメント411KB

なんJLLM部避難所

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0067名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b7a-+3Pw)

2024/04/03(水) 04:58:11.04ID:???0

これは驚いた７Ｂとは思えないほどだ
少し試しただけだけど、日本語がまともだ・・・

0068名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-eoXq)

2024/04/03(水) 06:22:35.72ID:uDta8W680

あらら…試そうかと思ったらダウンロードできなかった、残念
ChatVectorの調べてみたら興味深いな
70bモデルあたりじゃないとだめかと思ってggufでスペック不足で挫折したけど、軽量モデルでもいいなら遊べそう

0069名無しさん＠ピンキー (ﾜｯﾁｮｲ cb79-ElCo)

2024/04/03(水) 06:32:20.53ID:???0

>>66
Chat Vector、興味があって色々試してるけど
instとbaseで引いたChat Vectorと既存モデルの重みを足してる感じ？
シンプルに足すのと、元の論文にもある0.5の割合で足すのとか
以下でやったような層ごとに最適比率を進化戦略で出したとか、色々あってどれが良いかわからん
https://huggingface.co/napopoa32/swallow-hermes-st-v1

0070名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 07:37:28.23ID:1MfM6C64d

うお、トラフィック集中でダウンロード制限されるんか
おはようございます
どこかいいアプロダかクラウドないものだろうか

>>69
うちは>>61がいい感じだったので参考にして、0.8掛けして足しました

0071名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 07:53:50.71ID:???0

>>66
pCloud無課金だとダウンロードできんかった
huggingfaceに上げてくだされー

0072名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bdb-oxdg)

2024/04/03(水) 09:59:17.05ID:???0

Chat VectorっていわゆるTask Vectorだよね？（MergekitでいうTask Arithmetic）
元論文だと同じベースモデルから別のタスクにファインチューニングされたもののTask Vectorを加算してそのタスクへの適応能力を得るみたいな話だったと思うけどベースある程度違ってもうまくいくのおもしろいな
ベースモデルAとB、AのインストラクションチューニングモデルA’があって、A’-AをBに加算して上手く行ってるってことだよな？面白いわ

0073名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 10:27:44.40ID:???0

>>66
見よう見まねで差分マージ試したけど、トークナイザー関連は元のモデルからコピーすればいいのかな？
cp_model.save_pretrained("G:/merge/CVtest01")
だと、トークナイザーは作られなかった

あと、0.8掛けって
chat_vector = 0.8 * inst_model.state_dict()[k] - base_model.state_dict()[k]
こんな感じですればいいん？

パイソン初心者なんでよくわからん
できればpyファイルも公開してくれるとありがたい

0074名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 13:18:54.17ID:1MfM6C64d

需要あるかわからんからサクッと必要な人に提供して終わりにしようと思ってたけど、ありそうなのでhuggingfaceに登録してみる(ダウンロード数を見てビビったｗ)
夜にする予定なので少々お待ちを

>>72
そうそう。今回だと (Mistral7Binst - Mistral7B) を日本語可能モデルに加算処理した
実際に出力を比較したら明確に対話能力が向上して自分も驚いた

>>73
tokenizer関係は日本語可能モデルから流用した
0.8掛けは、new_vの代入式をnew_v = v + ( 0.8 * chat_vector.to(v.device) )　に変更した
詳しくはhuggingfaceにpy含めやったことを全て書く予定なのでお待ちください
(と言っても大したことはしてないと思う)

0075名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 13:23:51.29ID:1MfM6C64d

書き忘れてたけど、今回MoEの素材にしたのは以下2モデルのChatVectorしたやつ

NTQAI/chatntq-ja-7b-v1.0
Elizezen/Antler-7B

特にAntler-7Bが(エロ)ノベル生成能力高くて凄い
自前でできる人は是非試してみてくれ

0076名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bee-iwwG)

2024/04/03(水) 13:31:26.27ID:???0

>>75
サンキュー、週末にでもためしてみる

0077名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 13:49:52.53ID:???0

>>74
ありがとう！
待ってますー

0078名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 14:04:35.41ID:???0

しかし、pCloudって、買い切りもあるんだな。
こっちにも興味惹かれるわｗ

0079名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM7f-k+SB)

2024/04/03(水) 18:56:30.78ID:icC4hlB2M

絵のSDで言うnsfw-sfw差分マージとかコピー機Lora法みたいなことがLLMでも出来るってこと？

0080名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 19:54:57.17ID:1MfM6C64d

お待たせ！huggingfaceに登録してアップロード完了したので公開します
今はGGUFだけ取り急ぎアップロードしています

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B　(モデルカードのみアップロード済)
Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B-GGUF

safetensorsの方はもうちょっと待ってくれ
モデルカードにやったことは全て書いてある(はず)ので、情報としては現状で出し切っているはず
参考になれば幸い

0081名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b9f-OIDP)

2024/04/03(水) 20:08:37.00ID:???0

>>80
わざわざすみません
参考にさせていただきます

0082名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-eoXq)

2024/04/03(水) 21:08:38.80ID:0JWLeUr80

>>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう

0083名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/03(水) 21:13:23.14ID:???0

GJ! そして感謝
試させてもらうよ！

0084名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/03(水) 21:43:42.07ID:???0

使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う

0085名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 21:47:01.95ID:???0

>>80
ありがとう！
STでのチャットの様子をオナニースレに投下しました（内容がちょっとアレなので(;´Д｀)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。

0086名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b7a-+3Pw)

2024/04/03(水) 21:50:13.79ID:???0

>>84
俺の言いたい事が先に言われてた

0087名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:06:54.85ID:???0

日本語エロやりとりのデータセットを集合知で作る話があったけど
これくらいのモデルをベースにしてもらうといいのかもな

0088名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f5a-Ygoy)

2024/04/03(水) 22:11:23.88ID:???0

もはやAI技術者やん

0089名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b59-2ZW3)

2024/04/03(水) 22:12:17.03ID:???0

>>87
商業モデル使ってるROM勢だけどそういう形で集合痴集めたいって話やるなら協力したいな

0090名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:24:42.37ID:???0

前もあったけど

「男のセリフ」「女のセリフ」

この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし

0091名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-RIgS)

2024/04/03(水) 22:26:45.08ID:???M

coboldばっかり使ってるんですが、皆さんはどのwebuiを使ってるんでしょうか
そもそもLLM用のwebuiがどのくらいあるのか把握しきれてないけど

0092名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:29:18.80ID:???0

7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし

そのために必要なのは喰わせるテキストってことよな

0093名無しさん＠ピンキー (ｽｯﾌﾟ Sdff-hs76)

2024/04/03(水) 22:31:29.78ID:???d

そこで例のデータセットですよ

0094名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 22:35:45.69ID:???0

正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Ｇでいけるか不安ｗ

0095名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:38:22.51ID:???0

メモリ64ならいけるでしょ
32だと厳しいだけで

0096名無しさん＠ピンキー (ﾜｯﾁｮｲ 6b5b-qhHw)

2024/04/03(水) 22:39:45.56ID:???0

ローカルでLLM動かすソフトウェア聞くのここであってる？
LM StudioとText generation web入れてるけど情報少ないし
ここの主流を参考にしたい

0097名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/03(水) 22:41:41.11ID:???0

kobold.cppで何も困らないしなあ
絵を出したい人はSillyTavernやろけど

0098名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/03(水) 22:41:44.30ID:???0

>>95
7Bのモデルで試したが、３モデルの読み込みが必要だから、結構メモリ食ってた。
まあ、SSD空けて週末に試してみるわ

0099名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/03(水) 22:49:03.87ID:1MfM6C64d

おお、予想より反響が！作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です

>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねｗ

このスレも結構人がいたんだな…

0100名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-eoXq)

2024/04/03(水) 23:02:17.40ID:0JWLeUr80

kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん

0101名無しさん＠ピンキー (ﾜｯﾁｮｲ dbc0-k+SB)

2024/04/04(木) 00:15:55.70ID:7CBc0q770

apiで動かしてlibrechat派はいるんだろうか

0102名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/04(木) 00:20:04.98ID:SFg9G6gw0

多少敷居高いのは承知だけど、直にpython叩く勢がほぼいなくて悲しい
バックエンドが対応さえしてくれれば最新のモデルも割とすぐ使えるし、ツール組み合わせ放題なのに

0103名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f82-hhrs)

2024/04/04(木) 00:20:39.47ID:???0

人気なさそうだけど、CPUで処理するならllamafileというのが速いらしい。

0104名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/04(木) 00:24:27.56ID:???0

>>102
実は気にはなってるんだ。
どんなうひょーなことできるのか
具体的な使用例とか晒してくれると嬉しいんだが

0105名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/04(木) 00:31:56.54ID:SFg9G6gw0

>>104
一番わかりやすい所だと、style-bert-vits2でちょっとエッチなボイス学習させた音声合成モデル作ってLLMに喋らせたり、テキストと一緒に感情を生成させて立ち絵の表情とか音声の声色と連動させる、とかやってる

あと、LLMが書いたpythonコードを自動実行できるようにしてるから、普通にアシスタントとして使ったりしてる
トリッキーな内容だけど、LLMの判断でpythonの変数確保できるから、好感度パラメータみたいなのを作らせて、ギャルゲーシミュレーションみたいなことも（質はともかく）できるようになる

0106名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr7f-KEQi)

2024/04/04(木) 00:50:08.02ID:???r

デモを公開してくれてもええんやで？😤

0107名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-qjsq)

2024/04/04(木) 00:56:43.50ID:SFg9G6gw0

今度動画でもあげてみようかな
コードの方はまあ、スパゲティになってるから需要があれば

0108名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b80-2OPG)

2024/04/04(木) 01:19:41.43ID:???0

やっぱエロは量より質なんか
そんで脱コンプラ

0109名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/04(木) 02:28:17.76ID:SFg9G6gw0

ちょっとデモとして思いついたやつ
服の枚数とか保持させてミニゲーム的な感じで野球拳やってみた
https://i.imgur.com/ttNbUbr.png

0110名無しさん＠ピンキー (ﾜｯﾁｮｲ 9be0-LdzR)

2024/04/04(木) 02:29:43.78ID:Xd35agVK0

青空文庫の吉川英治を全部読ませて欲しいわー
三国志演義での罵りあいも美しいんだよな

0111名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-mCjS)

2024/04/04(木) 02:44:44.55ID:???M

>>80
お疲れさまでした
3060でも使ってみたけど12GB勢には助かると思うのです
ところでtokenizerが合わないらしくtokenカウントがスワロー系の倍くらいに膨れちゃうんだけど
単純にctxの最大値8192とかにすればいいんですかね？

0112名無しさん＠ピンキー (ﾜｯﾁｮｲ cb79-ElCo)

2024/04/04(木) 06:39:39.17ID:???0

>>80
Swallow-MSで試してたけど、語彙拡張があるから、Chat Vectorの次元数違いで無理があるんではと思ってたんよね。
シンプルに語彙拡張無しの日本語FTモデルで足すのが、筋が良いやり方やったんかな。
やろうとしてたこと、既にやっててすごいわ。参考にさせてもらいます！

0113名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/04(木) 07:46:08.99ID:e1I1qEPtd

Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B

こちらにも全部アップロードが完了したので報告

>>111
そう言ってもらえると作った甲斐があった
消費トークンがSwallow系の倍になるのは、日本語の語彙拡張が行われていないモデルの仕様です
今回のモデルは英語モデルからVocabが据え置きなので、Vocab拡張済みのSwallow系より消費トークンがどうしても増えてしまいます

>>112
自分は試してませんが、日本語語彙拡張済みモデルに適用したい場合は以下のページが参考になるかもしれません
https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4

0114名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/04(木) 07:53:20.67ID:e1I1qEPtd

>>111
あと今回のモデルはctxが最大32768まで対応している(つもり)なので、そちらで対応いただければと

0115名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/04(木) 08:39:15.94ID:???0

そういえばmergekitでMoEする時、2モデルしか使わない場合はpositive_promptとかに何書いても変わらないと思ってたけど合ってるかな
デフォだと2エキスパート必ず使うようになってるから、2モデルMoEだとgateの意味がなかったような

011696 (ｽﾌｯ Sdff-qhHw)

2024/04/04(木) 10:41:44.28ID:???d

情報どうも
webuiメインにやることにするわ

0117名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 12:03:43.24ID:???0

https://twitter.com/mutaguchi/status/1775548837786185862
なんか褒められてるけどこれもこのもオナテク板の住人なんかな

0118名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 13:58:40.41ID:???0

うみゆきまでこのスレを捕捉しとるやんけ
なんかこいつ露悪的なんだよなあ

0119名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b43-2OPG)

2024/04/04(木) 14:04:51.37ID:???0

あれは露悪じゃないんや
色んなものを隠せてないだけや

0120名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Sp7f-moi/)

2024/04/04(木) 14:14:34.29ID:???p

>>115
moeのpositive_promptって何に影響するのかよく分かってないんだが
あれは日本語にした方がいい事あるのかな？

0121名無しさん＠ピンキー (ﾜｯﾁｮｲ dfbf-eoXq)

2024/04/04(木) 14:31:13.22ID:ZuC/rh5R0

LLMの開発に興味あるんやけどどっから勉強すらええんや？
Pythonは少し書けるけど、AIとか機械学習とかの知識は今の所皆無や

0122名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 14:32:55.43ID:???0

開発と言っても幅が広すぎひんか
どういうレベルのことをやれるようになりたいかとか

0123名無しさん＠ピンキー (ﾜｯﾁｮｲ dfbf-eoXq)

2024/04/04(木) 14:37:33.38ID:ZuC/rh5R0

>>122
とりあえず規制回避したドスケベな日本語エロ小説を書けるような
LLMが欲しい

0124名無しさん＠ピンキー (ﾜｯﾁｮｲ 4baa-XxRK)

2024/04/04(木) 14:37:44.29ID:vl3Nntgi0

>>121
とりあえずTransformerを自分で実装してみて悪いことはないと思うで
https://zenn.dev/yukiyada/articles/59f3b820c52571

0125名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 14:39:35.42ID:???0

多分>>124はディープすぎるんちゃうかな……
そして>>123の目的は高すぎる気がする

0126名無しさん＠ピンキー (ﾜｯﾁｮｲ 4baa-XxRK)

2024/04/04(木) 14:43:37.87ID:vl3Nntgi0

うーん、まあFine-tuningとかモデルマージあたりの知識があればなんとかなるんちゃう？

0127名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b8f-tQsm)

2024/04/04(木) 15:05:27.62ID:???0

この板まで来ると『ChatGPTでオナニー』スレと被っとるような気がしてくるな
あっちはwebが多いけど

0128名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 15:15:48.33ID:???0

>>127
なんか色々ズレてる気がするで・・・
ここは派生スレやし元スレとはだいぶ中身がちゃうで

0129名無しさん＠ピンキー (ﾜｯﾁｮｲ fb8e-oun9)

2024/04/04(木) 15:59:55.50ID:???0

試させてもらうには
デカいRAMかVRAMがあるPCを用意して
>>2のkoboldに>>80ニキのggufモデルを読み込ませればええのかな
とりあえず動いた気がするわ

0130名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 16:00:55.96ID:???0

なんUのスレのりんな時代からずっと言われてたことやけど「このデータセットで
このサービス（orローカル）でこういうコードでFine-tuningをこうやったら
こういう風なデータができて出力はこういう風な感じでに成功したで！」っていう
事例がもうちょっとほしいのよな

ござる口調とかだけではちょっと

0131名無しさん＠ピンキー (ﾜｯﾁｮｲ fb8e-oun9)

2024/04/04(木) 16:16:05.47ID:RYURyKh10

https://i.imgur.com/PQkNtJI.jpeg
それでgenを大きくしたらとりあえず長い文章が出てくるようになった気がするわ
tokenも影響あるんかな

0132名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bf5-SNbJ)

2024/04/04(木) 16:17:57.62ID:???0

>>130
自分で事例を出すでござる(´・ω・`)

0133名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 16:18:29.84ID:???0

>>132
何度も失敗して挫折した上に金欠で遊んでいる場合じゃないでござる・・・

0134名無しさん＠ピンキー (ﾜｯﾁｮｲ fb4d-hs76)

2024/04/04(木) 16:24:27.07ID:???0

>>123
それはある意味最終目標やな

0135名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f7a-vaup)

2024/04/04(木) 16:39:05.01ID:???0

>>89
別のスレでエロチャットの学習用データ集めようとして頓挫してたけどこっちのスレで再挑戦するの？

0136名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 16:44:53.32ID:???0

まあすんなり上手くいくかは別にして旗艦になりそうなモデルが
5chの人間から出てきたのは大きいんちゃうかなって

暇つぶしでデータ作成に協力くらいはしようかなと思ってるわ
匿名性維持しつつ削除されないためにはrentryが一番ええんかなあ

0137名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMff-2ZW3)

2024/04/04(木) 17:27:02.37ID:???M

>>135
まさしくそっちのスレの住人で現時点でローカルに手を出してないしなんJも行かんからROM専やってるのよ
データの正規化とか音頭を取れるほど詳しくもないから何かやるなら協力できることがあるならその範囲で何かやりたいなってだけかな
将来的にはローカルに移行したいけどみんなの開拓の成果タダ乗りってのはちょっと気が引けるじゃん？

0138名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/04(木) 17:49:29.98ID:???0

>>120
どのエキスパートを使うかに影響する
例えばコード特化、数学特化、ロールプレイ特化、小説特化の4つでMoEする場合はそれぞれのPositive Promptに
「プログラムを書いてください」
「次の計算問題を解いてください」みたいに各モデルの得意なタスクとかを書くと、推論時の入力の意味をある程度解釈して適切にgatingしようとする
だけど、mergekitで2モデルでMoEする場合はデフォルトだと常に2モデル使うような設定で出力されるから、どんなgate_modeでも理論上変わらん…はず

0139名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/04(木) 18:50:39.51ID:???0

>>80
今更だがベースモデルの片方のNTQAI/chatntq-ja-7b-v1.0はすでにInstruction Tuning済みなのか
Instruction Tuning済みのモデルにMistral-instructのベクトル足して上手くいくってのも割とわけわからんな
NTQAI/chatntq-ja-7b-v1.0はそのまま、Antler-7BはChat Vector足してMoEとかも試した感じ？

0140名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMff-mCjS)

2024/04/04(木) 18:54:21.36ID:???M

先週マイニング用の4分岐のライザーカードasm1184を用意した
最初のモデルのロードは遅い、busロード80%(おそらく分岐チップの制約でマックス速度)
初期プロンプト流し込み、ジェネレート中はbusロード20%は超えなかった
これの意味するところはマイニングライザーでグラボ増やす形でもあまり問題はなさそう

0141名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b7a-q9+D)

2024/04/04(木) 19:06:44.47ID:???0

GPU4GBじゃさすがに厳しくなってきたなあ

0142名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/04(木) 19:10:00.94ID:???0

3060買いなよ
画像生成もバンバンいけるぞ

0143名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b6f-XxRK)

2024/04/04(木) 19:54:26.72ID:???0

RADEONはここでも蚊帳の外？

0144名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bc6-R/WD)

2024/04/04(木) 20:12:15.76ID:???0

LLM用のデータセットの話題があったみたいだけど、npakaさんの昔のデータセットっていうか会話集みたいだったけど、
（スマホアプリの中で使った会話っぽかった）あれ改造１回試みたんだけど頓挫してるんだよね。
昔の女子高生の会話みたいなやつ。データ使ったの前過ぎてどこにあるか忘れた。多分削除してしまったと思う。
まだネットに落ちてるかな。全部読んでみたんだけど肝心の所が削除されてたんだけどね。

0145名無しさん＠ピンキー (ﾜｯﾁｮｲ 4bc6-R/WD)

2024/04/04(木) 20:26:05.88ID:???0

使えるか使えないかは別として、まだあった。npakaさんの　あかねとーくっていう携帯アプリ？で使った会話。
https://github.com/npaka3/akane-talk

0146名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/04(木) 21:29:40.63ID:e1I1qEPtd

>>139
その組合せは試してない。理由としては以下のように進行したからです。

素のchatntq-ja-7bを試したが、こちらの指示通りに書かないことがある
→ChatVector適用するとどうなる？出力がおかしくなるか？求めるものに近づくか？
→ChatVector適用済モデル(MoE化前)で実験、好みの動作に近づいたと判断

なので適用済をMoEの素材にした。Antler-7Bも同様

今回の処理について自分が期待していたことは、

ChatVector: Instruct強化をすると、ユーザーの指示に従いやすくなったり、話を理解しやすくなるのではないか
MoE化: パラメータ数の増加による基本能力の向上と、7Bモデル同士の短所の補強及び長所の相乗効果(言葉合ってる？)

いろいろなモデルでマージしてしばらく遊んだ個人的経験から、上記2点の可能性を見たので試して、偶然できたのが今回のモデルです
LLMはkarakuriが公開されたころ(今年2月？)に触れたばかりで、理論的なことは正直さっぱりだったりする

0147名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b69-eoXq)

2024/04/04(木) 21:51:18.01ID:???0

ローカル勢でllama.cpp + LibreChat 勢をみたことないな。存在しないのか...

0148名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 00:01:23.50ID:???0

>>146
chatntqはMistral-instruct派生じゃなくてMistral-baseから改めてインストラクションチューニングされてるモデルだから加算しても上手く行ってる感じかな、面白い

0149名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 00:33:11.31ID:???0

llama.cppを最新版にしたらMoEしてMixtralになったものをquantizeしたモデルをKoboldcppでロードできなくなったんだがこれって対処法ある？
Koboldは最新のものにしたけどダメだった
経験者いたら教えてくれ
どうやらconvertするときの重みの名前の付け方が変わったっぽいが

0150名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 00:51:50.44ID:???0

>>149
どのモデル使った？

0151名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdff-Ltba)

2024/04/05(金) 00:51:55.57ID:XJ7BCY1md

>>148
あ、確かに自社のデータセットでファインチューニングしたって書いてある
なるほどそれで二重にならなくて上手くいったのか…

そういやChatVectorしたかった理由で一番重要だった「Context32k対応」を忘れていたので、追加で
素のMistral系日本語モデルたちは32kまでじゃないんよ
これをしたかったからMistral系を漁っていたんだった

>>149
過去のバージョンにロールバックできれば…
git cloneで過去バージョンでコピーできないかな
しかしそんなことがあるのか。迂闊に最新にできないなあ

0152名無しさん＠ピンキー (ﾜｯﾁｮｲ fbbc-XxRK)

2024/04/05(金) 01:32:09.97ID:???0

CohereForAI/c4ai-command-r-plus
https://huggingface.co/CohereForAI/c4ai-command-r-plus

104Bはちょっと重いなあ
ここで試せる
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

0153名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MMff-CG+a)

2024/04/05(金) 01:42:41.94ID:???M

4090が一個あれば、AIで遊ぶのにどれぐらいのことができますか?教えてください先輩

0154名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 01:45:41.38ID:???0

4090だけだと画像生成で無双できるやろけどLLMだとなあ……

>>80ニキのモデル動かすだけなら爆速やろから、それが進化して
13Bモデルとかになっても爆速にはなりそう

0155名無しさん＠ピンキー (ﾜｯﾁｮｲ 3b32-YqhJ)

2024/04/05(金) 01:50:23.76ID:???0

>>152
やっべ　かなりいいなこれ
IQ3XXSで量子化すればなんとか

0156名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-YqhJ)

2024/04/05(金) 02:51:36.31ID:???0

動かせたニキがおったら環境教えてほしいわね
基本的にはMacじゃないと快適じゃなさそうやが・・・

0157名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fa3-hs76)

2024/04/05(金) 07:02:27.53ID:???0

>>153
33Bくらいのモデルなら必要メモリ量が20GB前後なので、それだとちょうど4090にフルロードできて恩恵を実感できると思うが…
実際に話題になるモデルの多くは70Bクラスが中心なので、それだと4090といえどもフルロードはできない
溢れた分はCPU+RAMで動かすことになるので、そこが速度上のボトルネックになって、正直1070だろうが3060だろうが4090だろうがそれほど速度は変わらない(多少は変わるが劇遅→爆速で快適！とはならない)
勘違いしないで欲しいのは「4090程度じゃダメ」と否定しているのではなく、十分遊べるしそれなりの恩恵もある
ただ画像生成のような劇的な恩恵は無く、下位グラボじゃできなくて4090ならできるという場面はあまり無いよということ
現状はCPUとRAM側が重要

0158名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 08:01:41.15ID:???0

>>150
>>80のモデルを普通にQ6とかで量子化したけどダメだった
>>149
gitで過去バージョンに戻して再ビルドすれば良さそうだね

0159名無しさん＠ピンキー (ﾜｯﾁｮｲ 4b13-oxdg)

2024/04/05(金) 08:01:59.77ID:???0

>>158
>>151だった

0160名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bf5-SNbJ)

2024/04/05(金) 08:43:22.79ID:???0

>>156
https://i.imgur.com/421LeM6.png

0161名無しさん＠ピンキー (ﾜｯﾁｮｲ fb4c-WvGX)

2024/04/05(金) 09:03:12.34ID:SnnzYuXf0

昨日公開された新しいモデル、日本語もちゃんと出ますね。
https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

官能小説家としての能力を試したらいい感じでした。

0162名無しさん＠ピンキー (ﾜｯﾁｮｲ df75-eoXq)

2024/04/05(金) 09:13:28.78ID:ah2keZ830

流石にエロ小説をいきなり出すのは厳しいか……
何らかのキャラクターになり切って応答させる
とかの方が敷居は低い感じで良い？

0163名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 10:19:50.57ID:XKPqXMvA0

すごいなこいつ
うちのMac 64GBだと相当縮めないとダメだろうが・・・
そもそも小さい方のやつもめちゃくちゃ性能いいけど、日本語だけ学習させるより、多言語で学習させた方が能力落ちにくいとかあるのかな

0164名無しさん＠ピンキー (ﾜｯﾁｮｲ cb21-0Q84)

2024/04/05(金) 10:36:19.22ID:???0

そりゃそうだろ

0165名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 10:52:57.45ID:XKPqXMvA0

全般の能力に関しては納得できるんだけど、日本語単体の能力でみても日本語特化モデルより能力高い感じしない？

0166名無しさん＠ピンキー (ﾜｯﾁｮｲ eb11-yUXY)

2024/04/05(金) 10:54:58.20ID:XKPqXMvA0

ああ、でもそもそも世の中の日本語モデルは事前学習自体はほぼ英語ってのも影響してるか

■ このスレッドは過去ログ倉庫に格納されています