なんJLLM部避難所

1002コメント411KB

なんJLLM部避難所

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ e249-iArR)

2023/12/17(日) 21:48:59.66ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0285名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 11:40:46.67ID:???0

Koboldcppの出力トークンはなぜかバー上だと512までしか動かせないけど
数値欄のところに直接入力するとそれ以上いけるという謎仕様がある

0286名無しさん＠ピンキー (ﾜｯﾁｮｲ 27fc-TGoQ)

2024/04/07(日) 11:44:20.31ID:???0

Koboldのexeを起動してLaunch押す前の設定画面でtokenの数字を増やしておけば次回起動でも楽になる
初歩的なチュートリアルが足りなくて新規が彷徨ってるっぽいよね

0287名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 12:08:20.62ID:???0

>>284
>>285
質問と回答サンガツ
長々と出力する前に止めて修正することが多かったんで気にしてなかったわ
READMEに以下を追記しといたで

> Web ブラウザに Kobold AI Lite が表示されましたら、画面上部の Settings から KoboldCpp の初期設定をします。
> スライダーでなく数値入力欄を直接編集することで、スライダーの範囲を超えた値を入力できます。
> Amount to Gen.: 512 (256 や 2048 などお好みで)

>>286
ランチャのContext SizeとWebUIのSettingsのMax Ctx. Tokensが別管理？っぽいんよね
よくわかっとらんので起動時引数とSettingsの両方で32K設定するように案内してるわ

0288名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 13:32:20.53ID:???0

EasyLightChatAssistantに
>>281 の4x7B Q4_K_M対応いれといたで
https://github.com/Zuntan03/EasyLightChatAssistant

更新はEasyLightChatAssistant-*.batを削除してから
再ダウンロードしたInstall-EasyLightChatAssistant.batを上書き実行してもろたら

2x7Bでは軽く試した範囲ではq4_k_mよりiq4xs_imatrixのほうが印象が良かったんで
4x7Bのiq4xs_imatrixも見てみたいね

0289名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/07(日) 13:41:09.35ID:???M

superswallowとMoEしてた人のモデルなら期待できそう
個人的に前までお世話になってました。

0290名無しさん＠ピンキー (ﾜｯﾁｮｲ 2717-gtJT)

2024/04/07(日) 13:52:11.76ID:???0

モデルの能力の定量化でいろんな指標出てきてるけど
エロ力の定量化ってどうすりゃええんやろな

0291名無しさん＠ピンキー (ﾜｯﾁｮｲ bb67-eYV/)

2024/04/07(日) 14:35:27.01ID:???0

専用のプロンプト用意してそれを元に回答させて、別のLLMで評価させるのが一番ありかな
ただGPT-4とかのAPI経由のものは基本エロ不可だから判定用にも使うのが難しい
Command R Plusとかに判定させるのはいけそうだけどそもそも普通のPCじゃロードできんから判定させられないという

0292名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 15:00:51.10ID:???p

>>291
性癖多々あるから尚難しいw

0293名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MMb3-06W9)

2024/04/07(日) 15:16:00.24ID:GRwfgW99M

人間の感性に響くか否かを定量評価出来たら苦労しないわな
エロだけじゃなくいろんな業界が欲しがるだろう

0294名無しさん＠ピンキー (ﾜｯﾁｮｲ 2717-gtJT)

2024/04/07(日) 15:53:28.06ID:???0

まあ倫理力のなさなら定量化できそうだけどどう考えてもこれ下回ったら許さんみたいな運用しかされんやろな

0295名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/07(日) 16:11:19.21ID:???p

自前のマージモデルが増えてきたんで倉庫替わりにhfにアップしたら怒られるかな？
回線的に量子化済みのモデルしか上げられないけど

0296名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc0-xKEp)

2024/04/07(日) 17:14:05.88ID:???0

>>285
>>286
>>287
サンガツ！なんだけど、
launch前とsettingsの両方で最大トークン32kにしてるのに
いざinstractモードで書かせると512トークン上限（xxx/512）になってしまうんよ…

トークンのカウントアップが（512/512）
になったら生成終了してしまうってことね

0297名無しさん＠ピンキー (ﾜｯﾁｮｲ d395-J+Gx)

2024/04/07(日) 17:49:52.14ID:???0

>>295
マージモデルなんて山ほどすでに上がってない？？

0298名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/07(日) 18:01:43.80ID:u4fva5Rsd

>>296
それは"Max Ctx. Tokens"の方。それじゃなくて、"Amount to Gen."の方の数字を直指定するんだ。それでできるはず
>>285と>>287もそれを指している
落ち着くんだ

0299名無しさん＠ピンキー (ﾜｯﾁｮｲ 1fc0-xKEp)

2024/04/07(日) 18:13:43.80ID:???0

>>298
マジか！
完全に勘違いしてたよサンガツ！

0300名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/07(日) 18:17:12.72ID:???0

Max Ctx. Tokensはコンテキストサイズ
いわゆる記憶量だね

0301名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/07(日) 18:19:31.61ID:???0

SillyTavernでcomand r+使うのにはオープンルーターなるものを使えばいいんです？

0302名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/07(日) 18:42:18.32ID:???0

>>301
ごめん自己解決した

0303名無しさん＠ピンキー (ﾜｯﾁｮｲ 32b1-gtJT)

2024/04/07(日) 20:33:22.53ID:???0

macがHBM256とか積んでLLM番長にならねえかなあ

0304名無しさん＠ピンキー (ﾜｯﾁｮｲ 62a3-Vlac)

2024/04/07(日) 20:41:39.89ID:???0

>>281
4x7B試したけどいいね
かなり実用レベルだわ
速度も4T/s以上出るしバランスがいいな

0305名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/07(日) 21:01:21.07ID:???0

Sdff-Ltba氏のアプローチは
日本語インストラクタモデルへのchatvectorによる指示力強化でしたが、
じゃあ、素の日本語ベースモデルに、英語のエロエロモデルをchatvectorしたらどうなるか試してみた

https://rentry.org/7ukv2kcp

期待通り、swallowがドエロいことになった。しかもmoeもしてない7Bで
何が言いたいかというと、この理屈で
karakuriにmiqumaidをかぶせたら、日本語特化のエロモデルが完成するんじゃないかと・・・
メモリ、つよつよの方、ためしてー

0306名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8c-eYV/)

2024/04/07(日) 22:17:21.89ID:???0

>>281
今日これメインで試してたがかなり良いな
GPU使わなくても割と満足できるくらいの速度出るし全然良い

0307名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/07(日) 22:17:41.85ID:???0

てゆうか、import torchで一気にモデルを読み込んでから処理するからメモリ足りなくなるんだよね？
パイソン、良く知らんけど少しずつ読み込んで処理できないのかな？
mergekitって、そうやってるから64Gでも70Bのモデルを処理できるんだよね？
教えて、パイソンマスター

0308名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/07(日) 23:24:32.53ID:???0

LightChatAssistant 4x7BがIQ4_XSに対応してもらえてたんでEasyLightChatAssistantに追加しといたで

アプデ方法はこちら
https://github.com/Zuntan03/EasyLightChatAssistant#%E3%82%A2%E3%83%83%E3%83%97%E3%83%87%E3%83%BC%E3%83%88%E6%96%B9%E6%B3%95

0309名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/08(月) 00:16:44.66ID:9g6SRvr1d

>>308
連日お疲れ様です。導入の敷居がグッと低くなってローカルLLM民がかなり増えそう

なんかこの子、(良くも悪くも)与えた設定にめっちゃ忠実で、下手するとユーザーを拒否したり責めてくるらしい
AIっぽくないと言われてた。そんなポテンシャルがあるとは

0310名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8c-eYV/)

2024/04/08(月) 00:28:22.23ID:???0

手元で同じレシピで作ったMoE前のモデル単体で試したりしたんだけど、Antlerの方はChat Vector足してもあんまり指示に従う能力獲得できてなさそうだったんだよね
ある程度は従うけど、あくまで事前学習だけしたベースモデルって感じで基本続きをずっと生成しちゃう感じ
普通のインストラクションチューニングでは良くも悪くも出力が「真面目」になっちゃって表現力が失われちゃってるってことかね
それと比べてこのモデルはMoEしたもう一個のモデルの指示追従力とChat Vector加算によって多少得た能力を使いつつ、持ち前の表現力を保ってる感じなのかなぁ

0311名無しさん＠ピンキー (ﾜｯﾁｮｲ 127f-ycXU)

2024/04/08(月) 00:29:39.19ID:???0

マージでメモリ足りないなら、OSの仮想メモリを速いSSD上に200GBぐらい作るんじゃだめなのかな。
(処理内容によっては遅すぎてだめそう。あと、WSLだと一定以上仮想メモリ増やすのは面倒だった気がする)

0312名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/08(月) 00:47:21.54ID:9g6SRvr1d

AntlerのChatVector版をテストしたときはすごく驚いた思い出
「こんにちは」ってこっちが言ったのに対して、「やっと帰ってきてくれたあ。ご主人様を思いながらオナニーしてお待ちしていましたあ♡」とか一言目で言い出して、噴き出して「えっ？？」てなったｗ
設定を何も吹き込んでないのに対してこの反応
Antlerを素材に使おうと決めた瞬間だった

0313名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8c-eYV/)

2024/04/08(月) 01:25:37.12ID:???0

LightChatAssistantにまともなデータで追加のインストラクションチューニングとかもちょっと試してみたんだが、出力が急にまともになっちゃってエロ系あんまり出さなくなったり普通のモデルにだいぶ近づいちゃったんだよな
NSFWモデルをファインチューニングで作るには専用のデータセットが必要そう
それの代替となり得るのがマージベースでインストラクションに従う能力を獲得する手法ってところか

0314名無しさん＠ピンキー (ﾜｯﾁｮｲ 537a-hBD6)

2024/04/08(月) 08:15:10.30ID:???0

かなり初歩的な質問で申し訳ないのですが

>>308
308様の説明通りにインストール後、KoboldCppでのwebUIで何かしらチャットを入力するとエラーが出てしまう

エラーが出るのはおま環だと思うのですが、調べても解決方法が見つからなかったので、スレ住民達にこのエラーメッセージを見て頂きたく書き込みしました。
エラーの内容は以下の通りです。

---

Error Encountered

Error while submitting prompt: Error: Error occurred while SSE streaming: Service Unavailable

---

以上がエラーの内容です。

自分でエラーの内容を調べたのですが解決しませんでした。

koboldのインストール先ははCドライブの直下にフォルダを配置してそこにインストールをしています。
アドバイスや指摘を頂けたら嬉しいです。

0315名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/08(月) 12:00:51.12ID:YYuFt8A00

HFにディスカッション立てたんだけど、llama.cppでcommand-r-plusのimat量子化読む時にエラー吐いて読めない問題にあたってるやつおらん？

一応詳細
https://huggingface.co/dranger003/c4ai-command-r-plus-iMat.GGUF/discussions/7

0316!donguri (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/08(月) 12:10:43.78ID:???0

どんぐりってピンクスレにもあるんかな？
テスト

0317名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/08(月) 12:25:42.96ID:YYuFt8A00

ちなみに、一応報告
>>273
>>274
でちょっと話してた、言語が混ざったりして出力がおかしくなる問題はMetal(Apple Silicon)特有で、おそらく原因がわかったとのコメントが5時間前についた
https://github.com/ggerganov/llama.cpp/pull/6491

0318名無しさん＠ピンキー (ﾜｯﾁｮｲ 021f-hBD6)

2024/04/08(月) 12:28:34.93ID:KHI6ZYIK0

>>302
詳しく

0319名無しさん＠ピンキー (ﾜｯﾁｮｲ be39-mup9)

2024/04/08(月) 13:10:55.41ID:???0

>>314
起動用batのkoboldcpp.exeを呼んでいる行の末尾に
--noavx2
を足したら動かんやろか？

あと知らんかったんやがWin7はサポート外らしい

0320名無しさん＠ピンキー (ﾜｯﾁｮｲ be39-mup9)

2024/04/08(月) 13:22:31.30ID:???0

>>319
おっとSIMDのSSEかと思ったら違うっぽいね
ならnoavx2は意味がないね
ネットワークの問題っぽいけど出先なこともあって今はようわからん

0321名無しさん＠ピンキー (ﾜｯﾁｮｲ be39-mup9)

2024/04/08(月) 13:28:48.13ID:???0

>>314
エスパーやが別名のフォルダにインストールして初回起動時のWindowsセキュリティを許可したらどうやろか？

あとウィルスチェックソフトがネットワーク監視してるなら止めてみるとか

0322名無しさん＠ピンキー (ﾜｯﾁｮｲ b613-TGoQ)

2024/04/08(月) 16:28:28.48ID:???0

EasyLightChatAssistantにkoboldcpp.exeの直接起動の説明を追加しといたで

https://github.com/Zuntan03/EasyLightChatAssistant#koboldcppexe-%E3%81%AE%E7%9B%B4%E6%8E%A5%E8%B5%B7%E5%8B%95

>>314
みたいな場合にKoboldCppの設定を直接いじったら解決の糸口があるやもしらん

0323名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-06W9)

2024/04/08(月) 16:39:11.67ID:???0

>>318
APIのChat Completionのところににcohereの項目があるのに気付かなくて延々何か拡張機能とかあるのかな…？と探してたというだけの話しなんだ

0324名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e27-M/hT)

2024/04/08(月) 17:46:04.09ID:???0

https://huggingface.co/aixsatoshi/Honyaku-Multi-Translator-Swallow-ms7b
GGUF
https://huggingface.co/mmnga/aixsatoshi-Honyaku-Multi-Translator-Swallow-ms7b-gguf
この翻訳モデル結構良くね
会話文だとGoogle翻訳ぐらいの性能は出てる気がする

0325名無しさん＠ピンキー (ﾜｯﾁｮｲ 0242-hBD6)

2024/04/08(月) 19:27:47.51ID:KHI6ZYIK0

>>323
サンガツ！行けたわ
尻タブはこれまでローカル運用しかしてなかったのでこの辺の仕組みワイもよー分かっとらんかった

0326名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f0a-EtAA)

2024/04/08(月) 19:33:46.67ID:5X/3p/3h0

https://matsuolab-community.connpass.com/event/315810/

ここら辺の人なら楽勝？

0327名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/08(月) 19:54:00.57ID:9g6SRvr1d

>>322
乙です

0328名無しさん＠ピンキー (ﾜｯﾁｮｲ be47-eYV/)

2024/04/08(月) 20:48:05.24ID:???0

エロの文脈でもキャラ設定とか世界観設定を上手く使おうとするとRAGっぽい実装になるんかな

0329名無しさん＠ピンキー (ﾜｯﾁｮｲ 9fc6-CBC5)

2024/04/08(月) 21:14:36.84ID:???0

続かせたいのに※この文章はフィクションです～とか後書きみたいな文が出てくる時ってどうしてる？
書き直せな良いんだろうけど一回出ると延々出てくるからうざいっぴ！

0330名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/08(月) 23:21:54.21ID:???0

imatrixのtraindataは日本語モデルなら日本語の方がいいらしいと聞いたが
日本語のテータがほとんどないなぁ
翻訳したやつ使ってみたけど、違いがよくわからん。（commnad-rでは途中で止まるし）

0331名無しさん＠ピンキー (ﾜｯﾁｮｲ 3299-xKEp)

2024/04/09(火) 00:08:35.16ID:???0

>>308
4x7BのIQ4_XSようやく試せた
自分的に日本語ローカルの現時最高峰だわ
小説もチャットも期待以上の満足度

>>305のメソッドも面白そうだし
シンギュラリティに立ち会ってる気分

0332名無しさん＠ピンキー (ﾜｯﾁｮｲ 537a-hBD6)

2024/04/09(火) 00:09:04.62ID:???0

>>319
>>321
>>322

ありがとうございます、解決しました

当方の使用環境であるOSのwindows10を再起動後に
再びEasyLightChatAssistantのGithubの解説通りに起動したら問題なく動作しました

発生したエラーについては再現性がなかったので、多分おま環っぽいです

皆様ありがとうございました！

0333名無しさん＠ピンキー (ﾜｯﾁｮｲ bb72-eYV/)

2024/04/09(火) 02:06:48.14ID:???0

>>330
http://www.lsta.media.kyoto-u.ac.jp/resource/data/wikitext-ja/
これのTrain_Data_FとTrain_Data_Gを結合したので試したことあるけどあんま変わらなかったわ
T
Testの方に対するPPL測ってみたりもしたけどむしろ英語のやつ使ったものより（ごく僅かだけど）悪化してた

0334名無しさん＠ピンキー (ﾜｯﾁｮｲ c7c0-9UMa)

2024/04/09(火) 10:01:52.50ID:estv7l4p0

LLM版のGapの登場が待たれる

0335名無しさん＠ピンキー (ﾜｯﾁｮｲ b6fe-hBD6)

2024/04/09(火) 11:45:25.62ID:nxpHhfzT0

>>323
あかん、昨日接続確認して、時間切れで試せてなかったんやが、いま実際にプロンプト入力してみたらうまくやり取り出来てない模様
freqesncy penaltyとpresense penaltyが特定できない、ってエラーとともに、”...”って出力返ってくるんやが、ワイは何を見落としとるんやろうか？

0336名無しさん＠ピンキー (ﾜｯﾁｮｲ 2791-aGYJ)

2024/04/09(火) 12:36:56.77ID:???0

>>333
うーん　結局は英語データでも問題ないのかもね
groups_merged.txt
ってのがhfに上がってるけどwiki-trainより軽くて使いやすい
cudaオンにすればimatrixも爆速になるし

0337名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 16:07:40.93ID:???0

koboldうぷで来たね
R+は次回か

0338名無しさん＠ピンキー (ﾜｯﾁｮｲ d3d2-Vlac)

2024/04/09(火) 17:24:16.92ID:???0

Pulled and merged new model support, improvements and fixes from upstream. (Note: Command R Plus support is not yet included yet, it may be added in a future patch release.)

お預けかぁ
まあ予定はあるようだから大人しく待とう

0339名無しさん＠ピンキー (ﾜｯﾁｮｲ 2784-gtJT)

2024/04/09(火) 17:26:02.43ID:???0

赤ちゃんだからkoboldが実行環境としてなにやってくれてるのか未だに理解してない

0340名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 19:21:27.58ID:???0

R＋は64Gでの70Bの遅さが我慢できるのならIQ4_XSがよさそうだな

0341名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 20:12:28.55ID:qH+Rz3ZR0

llama.cpp更新されて、mainブランチでcommand-r-plusサポート追加されたっぽいね

0342名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 20:26:01.79ID:qH+Rz3ZR0

すげぇ！ちゃんと動くしM2 Maxでも速い！

0343名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 20:27:11.01ID:???0

koboldうぷで早すぎーｗ
早速試したが、IQ4xsは起動せんかった
IQ3_xxsはいけた

0344名無しさん＠ピンキー (ﾜｯﾁｮｲ f67a-M/hT)

2024/04/09(火) 20:27:44.54ID:???0

>>342
さらっとM2 Max民がおるんやな・・・

0345名無しさん＠ピンキー (ﾜｯﾁｮｲ 2784-gtJT)

2024/04/09(火) 20:27:57.59ID:???0

m3studio256盛りultra1200帯域とかいつ出るんやろ

0346名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 20:42:58.22ID:???0

ありゃ？
どうやらオフィシャルのsplittoolを使って合体させんとあかんらしい　gguf
くそ　元ファイルまた落とさな

0347名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 21:16:24.62ID:???0

ああ、てゆうか結合する必要なかったのね
IQ3_xxsよりIQ4_xsの方が安定した文章書く感じだね
スピードはうちの環境じゃ大差ないし、こっちを常用するわ

0348名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 21:23:30.29ID:qH+Rz3ZR0

こいつしりとりできるね
70Bクラスだと出来ないイメージだったけど

0349名無しさん＠ピンキー (ﾜｯﾁｮｲ f6b5-M/hT)

2024/04/09(火) 21:28:45.89ID:???0

IQ3_xxsは9.3GBでIQ4_xsは12.9GBだから
結局サイズが物を言うってことか

0350名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 21:37:50.04ID:qH+Rz3ZR0

最近ちょいちょい遊んでるプロンプト
iq3_mで4.3tokens/sec
はよ自分のアシスタントアプリにも組み込みたいからllama-cpp-python対応してほしい
https://i.imgur.com/BIpsJsQ.png

0351名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/09(火) 21:42:00.13ID:???0

うーん、ダメだ
R+試してたけど、karakuri-midroseに及ばない
おそらくimatrixによる量子化が上手くいってない気がする

0352名無しさん＠ピンキー (ﾜｯﾁｮｲ 7311-b8U7)

2024/04/09(火) 23:21:55.99ID:qH+Rz3ZR0

llama-cpp-pythonもgithubの方はcommand-r-plus対応したわ
pypiはまだっぽいけど、普通に使えるようになった

0353名無しさん＠ピンキー (ﾜｯﾁｮｲ a60b-xKEp)

2024/04/09(火) 23:58:29.16ID:???0

>>350
業が深くてワロタ

0354名無しさん＠ピンキー (ﾜｯﾁｮｲ 52dc-flrs)

2024/04/09(火) 23:59:47.02ID:???0

>>344
おるで、スレに何人かいる

0355名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:14:49.78ID:???0

M3 Extremeがほすぃぃ（妄想中

0356名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:18:01.68ID:???0

赤ちゃんレベルの超初心者ですまないんやが
koboldで使うのには>>169のどのファイルをダウンロードしたらいいのか分からん…
昔大葉使った時は何かURLみたいなのを入れて一括して落としてたような記憶あったんやが

0357名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:19:45.41ID:???0

>>356は>>179の間違いやすまん

0358名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:25:44.73ID:???0

>>357
間違えられたから、代わりに答えておくわｗ

https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B-GGUF

↑行って

速度重視なら
LightChatAssistant-2x7B_iq3xxs_imatrix.gguf

精度重視なら(q8はなんか問題あったって情報あったので）
LightChatAssistant-2x7B_q6_k.gguf

こいつをkoboldで読み込むだけ

0359名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:30:28.03ID:???0

>>358ありがとう。GGUFじゃない方見てたわ
ちなみにGGUFじゃないほうは何か3つに分割されてるけどこれどうやって扱えばいいんだろうか

0360名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:32:45.40ID:gYHj2M1xd

>>358
Q8_0うちではKoboldで問題なく動いているけどな
問題ってどんなこと？

0361名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:34:54.03ID:???0

>>359
あっちは、自分で量子化したり、マージに使ったり、大葉で使ったりする素のデータ群

0362名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:35:19.15ID:gYHj2M1xd

もしかしてLlamacppの最新で使えないってことだろうか

0363名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:36:07.30ID:???0

>>360
すまん、command-rの情報と間違えたｗ
こっちは問題ないわ

0364名無しさん＠ピンキー (ﾜｯﾁｮｲ d34b-5610)

2024/04/10(水) 00:39:58.90ID:???0

>>361そうなんだ。GGUFのほう入れとくわ。ありがとう。

0365名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 00:45:33.73ID:gYHj2M1xd

>>363
おｋ
でもLlamacppの最新で動かない問題があるってのは見た
しかしそれに対処するとKoboldで動かなくなるかもしれんという
別ファイルとしてLlamacpp用のを上げればいいのだろうか
意見求む

0366名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 00:53:26.23ID:???0

>>365
ん？
koboldはビルド済みだから、環境のllamaに影響されんよ？
ちな、ワイはllama.cppをバージョンアップする時は、過去版いつでも使えるように既存のフォルダ名変えて
新規でllama.cppをビルドし直してる

0367名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:04:01.43ID:gYHj2M1xd

>>366
あ、いやHuggingFaceのリポジトリに置いておくファイルのことを言ってたんだ。わかりにくくてスマン
Llamacppで使いたい人は、今上がっているGGUFだと使えないみたいなんよ
現在は、Kobold〇Llamacpp×のファイルを置いているけど、Kobold×Llamacpp〇のファイルも上げた方がいいかと思って
それで意見を聞いてみたかった

0368名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f32-M/hT)

2024/04/10(水) 01:15:09.46ID:???0

>>367
ああ、そういうことか

それって、>>149の話？
というか、今時点の最新のllama.cppでも動かないのかな？

0369名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:26:37.55ID:gYHj2M1xd

どこかで見たと思っていたらそれだ！ありがとう
最新のLlama.cppだとどうなんだろう？そもそも名前変更で動かなくなったのは不具合扱いなのかどうか
仕様変更だとしたら突然互換性がなくなったってことに

Koboldの最新で、Llama.cppのアップデート内容は適用されているのかな？
時間あるときに確認してみるわ

0370名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 01:33:33.91ID:gYHj2M1xd

Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のGGUFがLlama.cppで動かねーよ！って人がいたら報告していただけると助かります

0371名無しさん＠ピンキー (ﾜｯﾁｮｲ 1f7d-lDMG)

2024/04/10(水) 11:09:11.30ID:???0

Mistral 8x22Bだと…

0372名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/10(水) 11:39:04.13ID:???0

いくらMoEで推論は軽めとはいえ流石にデカすぎてロードができんｗｗｗ

0373名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/10(水) 19:46:29.02ID:iP2KkLqed

>>365の検証できた
>>149の話の通り、最新Llama.cppで量子化したMoEモデルはKobold-v1.61.2だと読込エラーになる模様
v1.62.1ならエラーにならないことも確認(v1.62.1は新旧量子化どちらも読み込めた)
またLlama.cppのmain.exeでの動作は、旧量子化は読込エラーになった

纏めると、
　　　　　　　　　　　最新ver量子化　旧ver量子化
Kobold-v1.62.1　　　　〇　　　　　　〇
Kobold-v1.61.2　　　　×　　　　　　〇
Llama.cppのmain.exe　〇　　　　　　×

この結果を受けて
Sdff-Ltba/LightChatAssistant-2x7B-GGUF
のファイルは随時、最新ver量子化に置き換えていく予定です

>>322
Koboldが旧バージョンだと読込エラーになるので、最新バージョンへのアップデート促しをお願いいたします

0374名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/10(水) 19:56:49.30ID:???0

最新版の方がMoEの推論早いみたいだしそっちの方がいいだろうな（2x7Bとかなら誤差なのかもしれんが）

0375名無しさん＠ピンキー (ﾜｯﾁｮｲ bb14-eYV/)

2024/04/11(木) 10:24:48.92ID:???0

LightChatAssistant-2x7Bの改良版っぽいのが出てた
Chat Vectorの割合をレイヤごとに最適化したらしい
最適化不足っぽいこと書いてるけど、それでも全部0.8で雑に加算してた元モデルよりは良さそうだがどうなんだろう
家帰ったら試すか

https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental-GGUF

0376名無しさん＠ピンキー (ｽﾌﾟｯｯ Sdf2-VDpj)

2024/04/11(木) 12:42:52.97ID:MNHhi1l8d

>>375
すごいな
githubのスクリプトの説明を読んだけど、さっぱり頭に入ってこなかった。やってることもざっくりとしか
ガチな人にかかるとこれくらいするのが普通なのかな
娘が嫁に行く父親ってこんな気分なのかな…なんかモヤる…

0377名無しさん＠ピンキー (ﾜｯﾁｮｲ d356-hBD6)

2024/04/11(木) 15:15:44.53ID:Grsx0tAb0

>>376
娘嫁に出すって捉えるとモヤかもしれんな
でもちょっと視点を変えて精子バンクに預けといた精子に引き合いがあった、って捉え方ならどうや？

ちな、376の精子はエロくて賢くて既に最高やで？お世話になっとるで、ありがとさんや

0378名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 15:19:31.45ID:???p

>>376
新大陸発見したのは貴方や
これからも何かを発見して行こうー･:*+.\(( °ω° ))/.:+

0379名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e63-EtAA)

2024/04/11(木) 15:58:15.53ID:???0

超初心者な質問ですまん
pc買い替え検討中だがkoboldが動かんpcなんや
paperspaceやクラウド環境で一度動かしたいが
やり方がわからなくてな…ノートからkobold
ｕｐさせたらええんか？一度試したらupで時間切れになってもうた

0380名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 16:17:21.10ID:???p

>>379
ノートのメモリいくつ？
あとkoboldは公式から単一のexeファイル落とすだけやで　upが何を指してるかよく分からんけど

0381名無しさん＠ピンキー (ｻｻｸｯﾃﾛﾗ Spb7-aGYJ)

2024/04/11(木) 16:18:45.40ID:???p

ああ意味わかった
↑のは忘れてくれ

0382名無しさん＠ピンキー (ﾜｯﾁｮｲ bb65-eYV/)

2024/04/11(木) 16:37:14.59ID:???0

>>376
まぁOSSの界隈ではあるあるだし、新領域最初に切り拓いた人が一番偉い世界だから大きく構えとくのがベスト

0383名無しさん＠ピンキー (ﾌﾞｰｲﾓ MMd2-4QwI)

2024/04/11(木) 17:21:33.51ID:???M

0を1にした人も1を100にした人もどっちもめっちゃ偉いじゃんね？
これがバチクソすげえオープンモデルの開発に活かされたりしたら一生ふんぞり返れるって気持ちでいるのがいいと思うぞ！

0384名無しさん＠ピンキー (ﾃﾃﾝﾃﾝﾃﾝ MM3e-yiir)

2024/04/11(木) 19:54:23.43ID:???M

>>376
少なくともLCAの命名者で、日本語のローカルLLM環境には大きな革命を与えたよ。
コンセプトを決めてリリースもした。それってすごいことだよ
いきなり注目されて、疲れちゃったと思うし、休憩してもいいと思うよー
少し寝て休むといい、また寝不足になってそうだからさ

■ このスレッドは過去ログ倉庫に格納されています