なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0272名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:07:18.28ID:SYErmO0F0
>>271
画像だと見切れてるけど、一応それも書いてあるよ
0273名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:10:08.76ID:SYErmO0F0
全文としては
""<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|># System Preamble
## Basic Rules
Answer user's request.
Language consistency should keep and should not be mixed in the answer.
You must put tag </s> at the last of your answer.<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>
Q:{prompt}
A:"""
0275名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 02:29:59.04ID:SYErmO0F0
llama.cppがまだ新アーキテクチャーに対応し切れてない可能性もあるから、とりあえずmasterがリリースされて上手くいかなかった時に考え直すよ
0278名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/07(日) 08:39:03.31ID:SYErmO0F0
>>277
速度は全然問題ないよ
感覚としてはkarakuriとかと一緒かな?

あとなんか昨日command-r-plusのimatrixあげてた人(dranger003
/
c4ai-command-r-plus-iMat.GGUF)、全部消して上げ直してるみたいだね
何かあったんだろうか
0280名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/07(日) 09:30:07.64ID:???0
そういやCommand Rは話題になるけどその前に発表されてたDBRXはあんま話題にならんなって思ってたけど
実性能の評判あんま良くない感じなのか(英語でも)
0284名無しさん@ピンキー (ワッチョイ bbdf-xKEp)2024/04/07(日) 11:37:02.19ID:???0
>>228
解説めっちゃ有り難いんだが、出力トークンが512上限なのって私だけ?
32k対応モデルでContextsizeも32kに設定してるのに出力512じゃ意味ないやん…と

昔、koboldは出力512トークン固定は仕様だと見た気もするけど、
設定分かる人いたら教えてください
0286名無しさん@ピンキー (ワッチョイ 27fc-TGoQ)2024/04/07(日) 11:44:20.31ID:???0
Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる
初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね
0287名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/07(日) 12:08:20.62ID:???0
>>284
>>285
質問と回答サンガツ
長々と出力する前に止めて修正することが多かったんで気にしてなかったわ
READMEに以下を追記しといたで

> Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。
> スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。
> Amount to Gen.: 512 (256 や 2048 などお好みで)

>>286
ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理?っぽいんよね
よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ
0288名無しさん@ピンキー (ワッチョイ b613-TGoQ)2024/04/07(日) 13:32:20.53ID:???0
EasyLightChatAssistantに
>>281 の4x7B Q4_K_M対応いれといたで
https://github.com/Zuntan03/EasyLightChatAssistant

更新はEasyLightChatAssistant-*.batを削除してから
再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら

2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで
4x7Bのiq4xs_imatrixも見てみたいね
0291名無しさん@ピンキー (ワッチョイ bb67-eYV/)2024/04/07(日) 14:35:27.01ID:???0
専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな
ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい
Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという
0293名無しさん@ピンキー (オイコラミネオ MMb3-06W9)2024/04/07(日) 15:16:00.24ID:GRwfgW99M
人間の感性に響くか否かを定量評価出来たら苦労しないわな
エロだけじゃなくいろんな業界が欲しがるだろう
0296名無しさん@ピンキー (ワッチョイ 1fc0-xKEp)2024/04/07(日) 17:14:05.88ID:???0
>>285
>>286
>>287
サンガツ!なんだけど、
launch前とsettingsの両方で最大トークン32kにしてるのに
いざinstractモードで書かせると512トークン上限(xxx/512)になってしまうんよ…

トークンのカウントアップが(512/512)
になったら生成終了してしまうってことね
0298名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/07(日) 18:01:43.80ID:u4fva5Rsd
>>296
それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず
>>285>>287もそれを指している
落ち着くんだ
0305名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/07(日) 21:01:21.07ID:???0
Sdff-Ltba氏のアプローチは
日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、
じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた

https://rentry.org/7ukv2kcp

期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで
何が言いたいかというと、この理屈で
karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・
メモリ、つよつよの方、ためしてー
0307名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/07(日) 22:17:41.85ID:???0
てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね?
パイソン、良く知らんけど少しずつ読み込んで処理できないのかな?
mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね?
教えて、パイソンマスター
0309名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/08(月) 00:16:44.66ID:9g6SRvr1d
>>308
連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう

なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい
AIっぽくないと言われてた。そんなポテンシャルがあるとは
0310名無しさん@ピンキー (ワッチョイ bb8c-eYV/)2024/04/08(月) 00:28:22.23ID:???0
手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね
ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ
普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね
それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ
0311名無しさん@ピンキー (ワッチョイ 127f-ycXU)2024/04/08(月) 00:29:39.19ID:???0
マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。
(処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする)
0312名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/08(月) 00:47:21.54ID:9g6SRvr1d
AntlerのChatVector版をテストしたときはすごく驚いた思い出
「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ??」てなったw
設定を何も吹き込んでないのに対してこの反応
Antlerを素材に使おうと決めた瞬間だった
0313名無しさん@ピンキー (ワッチョイ bb8c-eYV/)2024/04/08(月) 01:25:37.12ID:???0
LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな
NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう
それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか
0314名無しさん@ピンキー (ワッチョイ 537a-hBD6)2024/04/08(月) 08:15:10.30ID:???0
かなり初歩的な質問で申し訳ないのですが


>>308
308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう

エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。
エラーの内容は以下の通りです。

---


Error Encountered

Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable

---

以上がエラーの内容です。

自分でエラーの内容を調べたのですが解決しませんでした。

koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。
アドバイスや指摘を頂けたら嬉しいです。
0317名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/08(月) 12:25:42.96ID:YYuFt8A00
ちなみに、一応報告
>>273
>>274
でちょっと話してた、言語が混ざったりして出力がおかしくなる問題はMetal(Apple Silicon)特有で、おそらく原因がわかったとのコメントが5時間前についた
https://github.com/ggerganov/llama.cpp/pull/6491
0318名無しさん@ピンキー (ワッチョイ 021f-hBD6)2024/04/08(月) 12:28:34.93ID:KHI6ZYIK0
>>302
詳しく
0321名無しさん@ピンキー (ワッチョイ be39-mup9)2024/04/08(月) 13:28:48.13ID:???0
>>314
エスパーやが別名のフォルダにインストールして初回起動時のWindowsセキュリティを許可したらどうやろか?

あとウィルスチェックソフトがネットワーク監視してるなら止めてみるとか
0325名無しさん@ピンキー (ワッチョイ 0242-hBD6)2024/04/08(月) 19:27:47.51ID:KHI6ZYIK0
>>323
サンガツ!行けたわ
尻タブはこれまでローカル運用しかしてなかったのでこの辺の仕組みワイもよー分かっとらんかった
0327名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/08(月) 19:54:00.57ID:9g6SRvr1d
>>322
乙です
0329名無しさん@ピンキー (ワッチョイ 9fc6-CBC5)2024/04/08(月) 21:14:36.84ID:???0
続かせたいのに※この文章はフィクションです〜とか後書きみたいな文が出てくる時ってどうしてる?
書き直せな良いんだろうけど一回出ると延々出てくるからうざいっぴ!
0330名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/08(月) 23:21:54.21ID:???0
imatrixのtraindataは日本語モデルなら日本語の方がいいらしいと聞いたが
日本語のテータがほとんどないなぁ
翻訳したやつ使ってみたけど、違いがよくわからん。(commnad-rでは途中で止まるし)
0332名無しさん@ピンキー (ワッチョイ 537a-hBD6)2024/04/09(火) 00:09:04.62ID:???0
>>319
>>321
>>322

ありがとうございます、解決しました

当方の使用環境であるOSのwindows10を再起動後に
再びEasyLightChatAssistantのGithubの解説通りに起動したら問題なく動作しました

発生したエラーについては再現性がなかったので、多分おま環っぽいです

皆様ありがとうございました!
0334名無しさん@ピンキー (ワッチョイ c7c0-9UMa)2024/04/09(火) 10:01:52.50ID:estv7l4p0
LLM版のGapの登場が待たれる
0335名無しさん@ピンキー (ワッチョイ b6fe-hBD6)2024/04/09(火) 11:45:25.62ID:nxpHhfzT0
>>323
あかん、昨日接続確認して、時間切れで試せてなかったんやが、いま実際にプロンプト入力してみたらうまくやり取り出来てない模様
freqesncy penaltyとpresense penaltyが特定できない、ってエラーとともに、”...”って出力返ってくるんやが、ワイは何を見落としとるんやろうか?
0336名無しさん@ピンキー (ワッチョイ 2791-aGYJ)2024/04/09(火) 12:36:56.77ID:???0
>>333
うーん 結局は英語データでも問題ないのかもね
groups_merged.txt
ってのがhfに上がってるけどwiki-trainより軽くて使いやすい
cudaオンにすればimatrixも爆速になるし
0338名無しさん@ピンキー (ワッチョイ d3d2-Vlac)2024/04/09(火) 17:24:16.92ID:???0
Pulled and merged new model support, improvements and fixes from upstream. (Note: Command R Plus support is not yet included yet, it may be added in a future patch release.)

お預けかぁ
まあ予定はあるようだから大人しく待とう
0341名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 20:12:28.55ID:qH+Rz3ZR0
llama.cpp更新されて、mainブランチでcommand-r-plusサポート追加されたっぽいね
0342名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 20:26:01.79ID:qH+Rz3ZR0
すげぇ!ちゃんと動くしM2 Maxでも速い!
0347名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/09(火) 21:16:24.62ID:???0
ああ、てゆうか結合する必要なかったのね
IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね
スピードはうちの環境じゃ大差ないし、こっちを常用するわ
0348名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 21:23:30.29ID:qH+Rz3ZR0
こいつしりとりできるね
70Bクラスだと出来ないイメージだったけど
0350名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 21:37:50.04ID:qH+Rz3ZR0
最近ちょいちょい遊んでるプロンプト
iq3_mで4.3tokens/sec
はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい
https://i.imgur.com/BIpsJsQ.png
0352名無しさん@ピンキー (ワッチョイ 7311-b8U7)2024/04/09(火) 23:21:55.99ID:qH+Rz3ZR0
llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった
0356名無しさん@ピンキー (ワッチョイ d34b-5610)2024/04/10(水) 00:18:01.68ID:???0
赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが
0360名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:32:45.40ID:gYHj2M1xd
>>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと?
0362名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:35:19.15ID:gYHj2M1xd
もしかしてLlamacppの最新で使えないってことだろうか
0365名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 00:45:33.73ID:gYHj2M1xd
>>363
おk
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む
0366名無しさん@ピンキー (ワッチョイ 8f32-M/hT)2024/04/10(水) 00:53:26.23ID:???0
>>365
ん?
koboldはビルド済みだから、環境のllamaに影響されんよ?
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる
0367名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:04:01.43ID:gYHj2M1xd
>>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった
0369名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:26:37.55ID:gYHj2M1xd
どこかで見たと思っていたらそれだ!ありがとう
最新のLlama.cppだとどうなんだろう?そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに

Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな?
時間あるときに確認してみるわ
0370名無しさん@ピンキー (スプッッ Sdf2-VDpj)2024/04/10(水) 01:33:33.91ID:gYHj2M1xd
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ!って人がいたら報告していただけると助かります
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況