なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured >>80
わざわざすみません
参考にさせていただきます >>80
ひとまず健全なチャットに使ってみてるけど良い感じ
アップロードしてくれてありがとう 使ってみた
既に言われてるけどこのサイズでこのレベルの日本語を出力できてることに感嘆
もちろん速度も文句ない
当然だがGPT4やOpusと比較するものではない、でも大袈裟かもしれないが光明を見た気持ちだ
作りようによっては軽さと両立させながら実用レベルの(エロ)日本語モデルを生み出せる、そういう可能性を示してくれたと思う >>80
ありがとう!
STでのチャットの様子をオナニースレに投下しました(内容がちょっとアレなので(;´Д`)
小説よりもチャットに威力発揮しそうですね。
自分もいろいろなモデルで試してみることにします。 日本語エロやりとりのデータセットを集合知で作る話があったけど
これくらいのモデルをベースにしてもらうといいのかもな >>87
商業モデル使ってるROM勢だけどそういう形で集合痴集めたいって話やるなら協力したいな 前もあったけど
「男のセリフ」「女のセリフ」
この1対1を集められればとりあえずええと思うねん
悪い回答例としては「申し訳ありませんが」とか「やだ」「したくない」「聞かないで」とか入れておけばええやろし coboldばっかり使ってるんですが、皆さんはどのwebuiを使ってるんでしょうか
そもそもLLM用のwebuiがどのくらいあるのか把握しきれてないけど 7Bなのが勿体ないよな
33Bクラスまでいけばともかく、13Bくらいまでは速度的に何の問題もないんやし
そのために必要なのは喰わせるテキストってことよな 正確には2×7BをIQ3XXSの量子化で高圧縮してるんだよね
だからmistralのswallow13Bとかをベースにして同じ手法でやれば面白そう
小説用にkarakuri70Bでも試したいが、メモリ64Gでいけるか不安w ローカルでLLM動かすソフトウェア聞くのここであってる?
LM StudioとText generation web入れてるけど情報少ないし
ここの主流を参考にしたい kobold.cppで何も困らないしなあ
絵を出したい人はSillyTavernやろけど >>95
7Bのモデルで試したが、3モデルの読み込みが必要だから、結構メモリ食ってた。
まあ、SSD空けて週末に試してみるわ おお、予想より反響が!作った身としては嬉しくなります
割とお手軽なグラボで動かせる日本語"エロ"モデルが欲しかったので作ってみました
Mistral系は性能良いけどお堅くてエロがいまいちなものが多かった中、今回素材になったモデルたちを発見しました
この2モデルの作者さん方に感謝です
>>85
内容拝見しました
チャットよりになってたのは初めて知りました。自前テストは適当な小説を書いてもらっていたので
いいやり取りですねw
このスレも結構人がいたんだな… kobold.cppはなんだか馴染めなくて大葉webui派
sillyは多機能すぎてこれまた分からん apiで動かしてlibrechat派はいるんだろうか 多少敷居高いのは承知だけど、直にpython叩く勢がほぼいなくて悲しい
バックエンドが対応さえしてくれれば最新のモデルも割とすぐ使えるし、ツール組み合わせ放題なのに 人気なさそうだけど、CPUで処理するならllamafileというのが速いらしい。 >>102
実は気にはなってるんだ。
どんなうひょーなことできるのか
具体的な使用例とか晒してくれると嬉しいんだが >>104
一番わかりやすい所だと、style-bert-vits2でちょっとエッチなボイス学習させた音声合成モデル作ってLLMに喋らせたり、テキストと一緒に感情を生成させて立ち絵の表情とか音声の声色と連動させる、とかやってる
あと、LLMが書いたpythonコードを自動実行できるようにしてるから、普通にアシスタントとして使ったりしてる
トリッキーな内容だけど、LLMの判断でpythonの変数確保できるから、好感度パラメータみたいなのを作らせて、ギャルゲーシミュレーションみたいなことも(質はともかく)できるようになる 今度動画でもあげてみようかな
コードの方はまあ、スパゲティになってるから需要があれば ちょっとデモとして思いついたやつ
服の枚数とか保持させてミニゲーム的な感じで野球拳やってみた
https://i.imgur.com/ttNbUbr.png 青空文庫の吉川英治を全部読ませて欲しいわー
三国志演義での罵りあいも美しいんだよな >>80
お疲れさまでした
3060でも使ってみたけど12GB勢には助かると思うのです
ところでtokenizerが合わないらしくtokenカウントがスワロー系の倍くらいに膨れちゃうんだけど
単純にctxの最大値8192とかにすればいいんですかね? >>80
Swallow-MSで試してたけど、語彙拡張があるから、Chat Vectorの次元数違いで無理があるんではと思ってたんよね。
シンプルに語彙拡張無しの日本語FTモデルで足すのが、筋が良いやり方やったんかな。
やろうとしてたこと、既にやっててすごいわ。参考にさせてもらいます! Sdff-Ltba/chatntq_chatvector-MoE-Antler_chatvector-2x7B
こちらにも全部アップロードが完了したので報告
>>111
そう言ってもらえると作った甲斐があった
消費トークンがSwallow系の倍になるのは、日本語の語彙拡張が行われていないモデルの仕様です
今回のモデルは英語モデルからVocabが据え置きなので、Vocab拡張済みのSwallow系より消費トークンがどうしても増えてしまいます
>>112
自分は試してませんが、日本語語彙拡張済みモデルに適用したい場合は以下のページが参考になるかもしれません
https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4 >>111
あと今回のモデルはctxが最大32768まで対応している(つもり)なので、そちらで対応いただければと そういえばmergekitでMoEする時、2モデルしか使わない場合はpositive_promptとかに何書いても変わらないと思ってたけど合ってるかな
デフォだと2エキスパート必ず使うようになってるから、2モデルMoEだとgateの意味がなかったような うみゆきまでこのスレを捕捉しとるやんけ
なんかこいつ露悪的なんだよなあ あれは露悪じゃないんや
色んなものを隠せてないだけや >>115
moeのpositive_promptって何に影響するのかよく分かってないんだが
あれは日本語にした方がいい事あるのかな? LLMの開発に興味あるんやけどどっから勉強すらええんや?
Pythonは少し書けるけど、AIとか機械学習とかの知識は今の所皆無や 開発と言っても幅が広すぎひんか
どういうレベルのことをやれるようになりたいかとか >>122
とりあえず規制回避したドスケベな日本語エロ小説を書けるような
LLMが欲しい 多分>>124はディープすぎるんちゃうかな……
そして>>123の目的は高すぎる気がする うーん、まあFine-tuningとかモデルマージあたりの知識があればなんとかなるんちゃう? この板まで来ると『ChatGPTでオナニー』スレと被っとるような気がしてくるな
あっちはwebが多いけど >>127
なんか色々ズレてる気がするで・・・
ここは派生スレやし元スレとはだいぶ中身がちゃうで 試させてもらうには
デカいRAMかVRAMがあるPCを用意して
>>2のkoboldに>>80ニキのggufモデルを読み込ませればええのかな
とりあえず動いた気がするわ なんUのスレのりんな時代からずっと言われてたことやけど「このデータセットで
このサービス(orローカル)でこういうコードでFine-tuningをこうやったら
こういう風なデータができて出力はこういう風な感じでに成功したで!」っていう
事例がもうちょっとほしいのよな
ござる口調とかだけではちょっと https://i.imgur.com/PQkNtJI.jpeg
それでgenを大きくしたらとりあえず長い文章が出てくるようになった気がするわ
tokenも影響あるんかな >>130
自分で事例を出すでござる(´・ω・`) >>132
何度も失敗して挫折した上に金欠で遊んでいる場合じゃないでござる・・・ >>89
別のスレでエロチャットの学習用データ集めようとして頓挫してたけどこっちのスレで再挑戦するの? まあすんなり上手くいくかは別にして旗艦になりそうなモデルが
5chの人間から出てきたのは大きいんちゃうかなって
暇つぶしでデータ作成に協力くらいはしようかなと思ってるわ
匿名性維持しつつ削除されないためにはrentryが一番ええんかなあ >>135
まさしくそっちのスレの住人で現時点でローカルに手を出してないしなんJも行かんからROM専やってるのよ
データの正規化とか音頭を取れるほど詳しくもないから何かやるなら協力できることがあるならその範囲で何かやりたいなってだけかな
将来的にはローカルに移行したいけどみんなの開拓の成果タダ乗りってのはちょっと気が引けるじゃん? >>120
どのエキスパートを使うかに影響する
例えばコード特化、数学特化、ロールプレイ特化、小説特化の4つでMoEする場合はそれぞれのPositive Promptに
「プログラムを書いてください」
「次の計算問題を解いてください」みたいに各モデルの得意なタスクとかを書くと、推論時の入力の意味をある程度解釈して適切にgatingしようとする
だけど、mergekitで2モデルでMoEする場合はデフォルトだと常に2モデル使うような設定で出力されるから、どんなgate_modeでも理論上変わらん…はず >>80
今更だがベースモデルの片方のNTQAI/chatntq-ja-7b-v1.0はすでにInstruction Tuning済みなのか
Instruction Tuning済みのモデルにMistral-instructのベクトル足して上手くいくってのも割とわけわからんな
NTQAI/chatntq-ja-7b-v1.0はそのまま、Antler-7BはChat Vector足してMoEとかも試した感じ? 先週マイニング用の4分岐のライザーカードasm1184を用意した
最初のモデルのロードは遅い、busロード80%(おそらく分岐チップの制約でマックス速度)
初期プロンプト流し込み、ジェネレート中はbusロード20%は超えなかった
これの意味するところはマイニングライザーでグラボ増やす形でもあまり問題はなさそう LLM用のデータセットの話題があったみたいだけど、npakaさんの昔のデータセットっていうか会話集みたいだったけど、
(スマホアプリの中で使った会話っぽかった)あれ改造1回試みたんだけど頓挫してるんだよね。
昔の女子高生の会話みたいなやつ。データ使ったの前過ぎてどこにあるか忘れた。多分削除してしまったと思う。
まだネットに落ちてるかな。全部読んでみたんだけど肝心の所が削除されてたんだけどね。 使えるか使えないかは別として、まだあった。npakaさんの あかねとーくっていう携帯アプリ?で使った会話。
https://github.com/npaka3/akane-talk >>139
その組合せは試してない。理由としては以下のように進行したからです。
素のchatntq-ja-7bを試したが、こちらの指示通りに書かないことがある
→ChatVector適用するとどうなる?出力がおかしくなるか?求めるものに近づくか?
→ChatVector適用済モデル(MoE化前)で実験、好みの動作に近づいたと判断
なので適用済をMoEの素材にした。Antler-7Bも同様
今回の処理について自分が期待していたことは、
ChatVector: Instruct強化をすると、ユーザーの指示に従いやすくなったり、話を理解しやすくなるのではないか
MoE化: パラメータ数の増加による基本能力の向上と、7Bモデル同士の短所の補強及び長所の相乗効果(言葉合ってる?)
いろいろなモデルでマージしてしばらく遊んだ個人的経験から、上記2点の可能性を見たので試して、偶然できたのが今回のモデルです
LLMはkarakuriが公開されたころ(今年2月?)に触れたばかりで、理論的なことは正直さっぱりだったりする ローカル勢でllama.cpp + LibreChat 勢をみたことないな。存在しないのか... >>146
chatntqはMistral-instruct派生じゃなくてMistral-baseから改めてインストラクションチューニングされてるモデルだから加算しても上手く行ってる感じかな、面白い llama.cppを最新版にしたらMoEしてMixtralになったものをquantizeしたモデルをKoboldcppでロードできなくなったんだがこれって対処法ある?
Koboldは最新のものにしたけどダメだった
経験者いたら教えてくれ
どうやらconvertするときの重みの名前の付け方が変わったっぽいが >>148
あ、確かに自社のデータセットでファインチューニングしたって書いてある
なるほどそれで二重にならなくて上手くいったのか…
そういやChatVectorしたかった理由で一番重要だった「Context32k対応」を忘れていたので、追加で
素のMistral系日本語モデルたちは32kまでじゃないんよ
これをしたかったからMistral系を漁っていたんだった
>>149
過去のバージョンにロールバックできれば…
git cloneで過去バージョンでコピーできないかな
しかしそんなことがあるのか。迂闊に最新にできないなあ 4090が一個あれば、AIで遊ぶのにどれぐらいのことができますか?教えてください先輩 4090だけだと画像生成で無双できるやろけどLLMだとなあ……
>>80ニキのモデル動かすだけなら爆速やろから、それが進化して
13Bモデルとかになっても爆速にはなりそう >>152
やっべ かなりいいなこれ
IQ3XXSで量子化すればなんとか 動かせたニキがおったら環境教えてほしいわね
基本的にはMacじゃないと快適じゃなさそうやが・・・ >>153
33Bくらいのモデルなら必要メモリ量が20GB前後なので、それだとちょうど4090にフルロードできて恩恵を実感できると思うが…
実際に話題になるモデルの多くは70Bクラスが中心なので、それだと4090といえどもフルロードはできない
溢れた分はCPU+RAMで動かすことになるので、そこが速度上のボトルネックになって、正直1070だろうが3060だろうが4090だろうがそれほど速度は変わらない(多少は変わるが劇遅→爆速で快適!とはならない)
勘違いしないで欲しいのは「4090程度じゃダメ」と否定しているのではなく、十分遊べるしそれなりの恩恵もある
ただ画像生成のような劇的な恩恵は無く、下位グラボじゃできなくて4090ならできるという場面はあまり無いよということ
現状はCPUとRAM側が重要 >>150
>>80のモデルを普通にQ6とかで量子化したけどダメだった
>>149
gitで過去バージョンに戻して再ビルドすれば良さそうだね 流石にエロ小説をいきなり出すのは厳しいか……
何らかのキャラクターになり切って応答させる
とかの方が敷居は低い感じで良い? すごいなこいつ
うちのMac 64GBだと相当縮めないとダメだろうが・・・
そもそも小さい方のやつもめちゃくちゃ性能いいけど、日本語だけ学習させるより、多言語で学習させた方が能力落ちにくいとかあるのかな 全般の能力に関しては納得できるんだけど、日本語単体の能力でみても日本語特化モデルより能力高い感じしない? ああ、でもそもそも世の中の日本語モデルは事前学習自体はほぼ英語ってのも影響してるか くそっ、2年前の俺。
なぜあのとき3060tiの8Gを買ってしまったのか!
12Gのモデル買っておけば…悔やんでも悔やみきれないw 7Bモデルなら別にCPUで動かしてもそれまでちゃうかな
全然速度的に不満ないし command-r+はまだllama.cppに完全対応してないっぽいね
通常の量子化もだけど、imatrixにしたいから、こっちの問題も解決してほしい(command-rでもまだ無理だったし) そういえばデータセットはcommand r+とかに出力してもらえばいいのか。 動かせる環境がある奴ならな・・・
M2Macの奴がバンバン動かしてくれたらデータセットすごい速度でできるかも? 4bqのCMDR+がこのスピード、M2 Ultra欲しくなりますなぁ……。
https://twitter.com/awnihannun/status/1776081238467768493
しかし唐突なグリーンってのは何なんだw 3bqならうちのmacでもギリギリ動かせそうだが、劣化が気になる >>162
WEB UIのキャラクター設定に学校の委員長入れたら頑なにエロ拒絶された
学校の部分消したらうまくいったので設定にもよるみたい そういや>>80の手法、0.8掛けて重み足してるけどそのままでいいのかな
直感的には1.8で割って元の分布に近づけたほうが良さそうな気がするんだが >>80のモデルの名前が長い、というのをいくつか見かけたのでもっと短い名前を付けようと思います
LightChatAssistant(LCA)って変更したので、今後huggingfaceを見る方は以下のリポジトリをご参照ください
Sdff-Ltba/LightChatAssistant-2x7B
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
それと量子化版にもっと大きいbit数のものを随時上げていく予定です
手始めにQ6_K版を上げました。非iMatrixです
もっと精度劣化してないの欲しい!という方はこちらをどうぞー >>179
乙です
時に、そちらの環境では70Bの差分マージは可能でしょうか?
karakuri=miqumaid-llama を試しましたが、64Gでは無理でした ■ このスレッドは過去ログ倉庫に格納されています