なんJLLM部避難所 ★3

1002コメント349KB

なんJLLM部避難所 ★3

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ 93c0-oLG6)

2024/06/09(日) 07:37:14.82ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★2
https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0771名無しさん＠ピンキー (ﾜｯﾁｮｲ 26a8-wWBb)

2024/08/02(金) 20:59:43.19ID:???0

>>770
了解です。
とりあえず調べながらやってみます。

0772名無しさん＠ピンキー (ｼｬﾁｰｸ 0C47-YM+E)

2024/08/03(土) 12:45:13.56ID:???C

kobold最新版でsseの問題解消されたっぽいな　
まだ試してないが

0773名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-a6cz)

2024/08/03(土) 19:19:36.19ID:???0

頭の良さと創造力が反比例してるのが画像生成AIと同じ傾向だな
あっちも新しいモデルになる程クオリティ上がる代わりに出せる絵の幅がどんどん減っていく
人間は頭良いほど創造力が高くなるからAIはやっぱ原理的に別物なんだな

0774名無しさん＠ピンキー (ﾜｯﾁｮｲ cfbc-eXHE)

2024/08/03(土) 19:23:03.40ID:EbmL5lWm0

AI初心者なんですがトラブってるので教えてください

OllamaでモデルNinja-v1-NSFW-GGUFを実行した場合は正常にやり取りできるんですが
OllamaでモデルNinja-v1-NSFW-128k-GGUFを実行した場合は、やり取りの途中から勝手に意味不明な文字列を垂れ流すようになってしまいます
一旦こうなるとセッションを保存せずに終了して新しいセッションを開始しても意味不明な文字列を垂れ流すようになり、モデルを一旦削除するしか修正方法がなくなります

これって、モデルを作成する際のModelFileなど設定が悪いのしょうか？
それとも128kモデルの方はチャットボットのような使用目的では向いていないのでしょうか？
ダウンロード数は圧倒的に128kの方が多いのでモデルが原因の問題だとは思えないんですけども
AI初心者すぎて、なにをどうすれば問題を修正できるのか検討もつかない状態です

0775名無しさん＠ピンキー (ﾜｯﾁｮｲ 8fcf-mQXs)

2024/08/03(土) 23:03:12.97ID:RggQ7Em20

>>770
初歩的な質問で申し訳ないのですが、インストール後の起動方法がよくわからないのですがどうすればいいですか？

0776名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-oRc+)

2024/08/04(日) 00:00:08.92ID:IVhBltvZ0

>>775
コマンドラインで”jupyter lab”を実行するとJupyterっていうWebアプリが開くと思います
そしたら、chat_gui.ipynbを左側のペインから開いて下さい
そしたら、”上部メニュー -> Run -> run all cells”とクリックすると、起動するはず
途中デフォルトのモデルダウンロードのメッセージとかあると思うけど、GGUFをすでに持ってるなら、飛ばして下さい

今ちょっと調べたら出てきたJupyterの使い方
https://qiita.com/y-matsunaga/items/2c7efdae8777f15059e0

0777名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7c-5fMY)

2024/08/04(日) 04:53:53.79ID:???0

llama-3-elyza-jp-8bをLM Studioで使ったらちょっとでもエロ要素があると
"I cannot create explicit content."しか言わへんガチガチ倫理観で
どんだけ説得してもビクともせんのやが
koboldcppで使うと何故かユルユル倫理観なんや
最初はkoboldcppのChat PrePrompt機能がjailbreakになっとるんか？と思ったら
そうやなくてInstruct Tag Presetを(適切であろう)llama3 chatにしたらガチガチ倫理観になったんや
今度は逆にLM Studioの方でPresetをMistral Instractにしてみたらユルユル倫理観になった
これどういう仕組みなんや？？

0778名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7c-5fMY)

2024/08/04(日) 05:32:16.88ID:???0

いやLM StudioはDefault LM Studio Presetでもユルユルやったわ
わざわざllama3 V2プリセットを選んどったからガチガチになってたんか
何にしても適切な書式の指定が検閲のオン・オフを左右してることには変わらへんけど

0779名無しさん＠ピンキー (ﾜｯﾁｮｲ a332-a6cz)

2024/08/04(日) 06:26:00.65ID:???0

>>772
1.72に更新したけど全然直ってないや

0780名無しさん＠ピンキー (ﾜｯﾁｮｲ 83a0-6w4f)

2024/08/04(日) 12:28:07.52ID:???0

mmnga/Llama-3.1-70B-Japanese-Instruct-2407-ggufはまったく申し訳しないよ
逆に素直過ぎて、あれこれゲスいこと指示してやらないとエロくしてくれないまであるけど

0781名無しさん＠ピンキー (ﾄﾝﾓｰ MMc7-vkhg)

2024/08/04(日) 12:43:01.68ID:???M

EZO規制強すぎて笑う
rinnaのほうがそういう方面では使いやすいかも

0782名無しさん＠ピンキー (ﾜｯﾁｮｲ cfbc-eXHE)

2024/08/04(日) 20:54:04.53ID:MD/t9U/C0

>>774
一応、自己解決したので同じ症状が発生した人用に書き残しておきます

Hugging FaceでLocal-Novel-LLM-projectが公開しているNinja-v1-NSFW-128k-GGUFを使用すると>>774の症状が発生していました
これを、Hugging Faceでmmngaが公開しているNinja-v1-NSFW-128k-ggufに変更したところ症状が発生しなくなりました

モデルが原因の問題のように思えましたが、もしかしたら使用したモデルと実行ツールの組み合わせなどが原因の可能性もあるかもしれません
とりあえず以上

0783名無しさん＠ピンキー (ﾜｯﾁｮｲ 03c6-e/SC)

2024/08/05(月) 13:38:10.01ID:???0

てすと

0784名無しさん＠ピンキー (ﾜｯﾁｮｲ 83a0-6w4f)

2024/08/05(月) 15:32:33.02ID:???0

よし為替がいい感じの時にグラボをいっぱい買うのだ

0785名無しさん＠ピンキー (ﾜｯﾁｮｲ 83a0-6w4f)

2024/08/05(月) 15:40:58.23ID:???0

RTX4090-24Gがどれくらい安くなるか

0786名無しさん＠ピンキー (ﾜｯﾁｮｲ 83a0-6w4f)

2024/08/05(月) 16:01:30.19ID:???0

RTX4090-24G、今３３万円くらいで今日下がり具合だと３０万円切るくらい安くなるやろな
120円まで行ったら２５万円くらいになるか

0787名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-6w4f)

2024/08/05(月) 16:02:03.94ID:???0

個人輸入するんか？

0788名無しさん＠ピンキー (ﾜｯﾁｮｲ 83a0-6w4f)

2024/08/05(月) 16:14:49.22ID:???0

というか今グラボの在庫持ってる店、早く在庫を手放さないと死ぬぞ

0789名無しさん＠ピンキー (ﾜｯﾁｮｲ 83be-a6cz)

2024/08/05(月) 21:01:25.46ID:???0

頭が悪いモデルほどけれんみのある文章出せる、
頭良くなるほど指示には従ってくれるけど文章から面白みも創造力も失われていく
両立は難しいんだな…

0790名無しさん＠ピンキー (ﾜｯﾁｮｲ 136a-6MSl)

2024/08/05(月) 21:03:02.20ID:???0

人と同じ

0791名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7c-5fMY)

2024/08/05(月) 21:36:36.12ID:???0

>>789
別にそんなことないで
claude3 opusは頭もええしエロ描写もぶっ飛んでる
最新のＧｅｍｉｎｉに小説書かせたら表現のレベルが違う
性能が悪いモデルの方が創造力があるなんて感じるのは
子供が描いたラクガキを見て大人が天才やと思うようなバイアスと一緒や

0792名無しさん＠ピンキー (ﾜｯﾁｮｲ 7371-Hqc2)

2024/08/05(月) 22:52:20.37ID:WdbSQo1T0

8月中旬でGENIACのLLM開発が一旦区切りつくっぽいからそこで色々なモデル出てきそうだね

0793名無しさん＠ピンキー (ﾜﾝﾄﾝｷﾝ MM1f-uyn2)

2024/08/05(月) 23:27:17.45ID:???M

頭が悪いモデルと呼んでてるものはいわゆる過学習を起こしてて
学習元の作品のフレーズをコピペしたりしてるから一見ケレン味が出てるように見えるんだ
悪い事は言わないから個人で楽しむ範囲に抑えとくのが吉だ

0794名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-oRc+)

2024/08/05(月) 23:44:42.08ID:UXi1kagk0

L3.1ベースのモデルとかMistral Large 2とか色々試したけど、やっぱCommand R+の方がしっくりくるなぁ

0795名無しさん＠ピンキー (ﾜｯﾁｮｲ 0332-6w4f)

2024/08/06(火) 00:51:18.85ID:???0

俺はまだkarakuri超えたと思えるモデルに出会えない

0796名無しさん＠ピンキー (ﾜｯﾁｮｲ e3e0-kh9I)

2024/08/06(火) 22:44:58.26ID:dijUXKMI0

本体の性能とは別にAI開発者が出力時にどういう制限かけるか，何で学習するかで出力結果だいぶ変わると思われる
エロ完全に潰すためにエロと関係ない用語まで不適切連発するGeminiやらおそらく温度低く設定してるからつまらん内容しか話せなくなってるGPTとかいるし

0797名無しさん＠ピンキー (ﾜｯﾁｮｲ 03ed-a6cz)

2024/08/07(水) 03:35:27.82ID:???0

これエラー出て使えないんやけど、おま環かな？
https://huggingface.co/joujiboi/gemma-2-9b-anime-lora-test

0798名無しさん＠ピンキー (ﾜｯﾁｮｲ 136a-6MSl)

2024/08/07(水) 04:50:48.86ID:???0

エロ会話だけなら膨大な埋め込み空間の極々狭いところしか使わないからそりゃ小さいモデルでもいいでしょ
新規性のある会話も不要だし同じようなところをウロウロサンプリングしてくれればいいから

0799名無しさん＠ピンキー (ﾜｯﾁｮｲ a332-a6cz)

2024/08/07(水) 06:26:28.58ID:???0

エロ会話も反応が一辺倒だと飽きるんだよな……

0800名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f6f-U9zy)

2024/08/07(水) 09:10:21.72ID:???0

それじゃもう予め返答が決まってるロボットを相手にしてるのと同じじゃん
まあ究極的にはAIも生身の人もそうだけど、それを感じさせないのがAIエロチャの魅力だろうに

0801名無しさん＠ピンキー (ﾜｯﾁｮｲ 03b2-J1cL)

2024/08/07(水) 09:32:30.28ID:???0

silly tavernのグループ会話でなんか打ち込んだら各キャラがずらずら返事してくるけど、これを1人だけにする設定ってあるんかな？
5人が返事してきても最初の1人が変な事言ってると後の4人まで変な話始めちゃうから1人ずつチェックしていきたいんだよね

0802名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7c-5fMY)

2024/08/07(水) 10:48:52.82ID:???0

>>795
学習コストがたった750万らしいな
それ聞くと割とLLMの未来明るいんちゃうかって思うわ

0803名無しさん＠ピンキー (ﾍﾞｰｲﾓ MMff-NY0I)

2024/08/07(水) 11:31:42.98ID:???M

>>801
右側のキャラリストでその場にいないキャラは会話オフにしてる

0804名無しさん＠ピンキー (ﾜｯﾁｮｲ d311-oRc+)

2024/08/07(水) 13:10:33.39ID:5pIkYmmo0

>>768が立ててくれた本スレ、多分>>20行かなかったからだと思うけど落ちてるね

0805名無しさん＠ピンキー (ﾜｯﾁｮｲ ff7c-5fMY)

2024/08/07(水) 19:04:47.99ID:???0

このスレの流れもそない速ないししゃーない

0806名無しさん＠ピンキー (ﾜｯﾁｮｲ 53d3-ZBjZ)

2024/08/07(水) 20:46:30.62ID:???0

あまり話題になってないけどEx-karakuri-8x12B-chat-v1はどうよ
俺はなんかイマイチ出力安定しないから最適な設定を探してる

0807名無しさん＠ピンキー (ﾜｯﾁｮｲ cfa9-3qL1)

2024/08/07(水) 21:09:31.86ID:cY5a4aED0

これからはllama-70b日本語ベースのgguf悪魔合体モデルを中心に話を進めてくれ

0808名無しさん＠ピンキー (ﾜｯﾁｮｲ a332-a6cz)

2024/08/08(木) 05:56:43.24ID:???0

興味のある話題があるなら自分で振ればええんやで

0809名無しさん＠ピンキー (ﾜｯﾁｮｲ ff5e-6MSl)

2024/08/08(木) 09:14:26.76ID:???0

会話するくらいであればwikipediaの情報を満遍なく記憶しておかなくていいし
もっと小さいモデルでも人工無能以上の反応を引き出せるはず

0810名無しさん＠ピンキー (ﾜｯﾁｮｲ cf7a-NY0I)

2024/08/08(木) 11:52:57.06ID:???0

射精の効果音を生成させるとモデルの良し悪しがわかる

0811名無しさん＠ピンキー (ﾜｯﾁｮｲ 73a0-6w4f)

2024/08/08(木) 13:52:33.82ID:???0

もしかしてwikipediaにエロい情報を沢山登録しておくと、沢山のモデルがエロくなったりするのかな

0812名無しさん＠ピンキー (ﾜｯﾁｮｲ a332-a6cz)

2024/08/08(木) 14:44:14.81ID:???0

オホ声について詳しく書いておくと多くのモデルでオホ声を出すようになるかもしれないのか……

0813名無しさん＠ピンキー (ﾜｯﾁｮｲ 73a0-6w4f)

2024/08/08(木) 15:02:39.16ID:???0

エロを後付けするのではなく、ウィキペディアに種をまいておく作戦

0814名無しさん＠ピンキー (ﾜｯﾁｮｲ 136a-6MSl)

2024/08/08(木) 21:58:58.55ID:???0

オノマトペの生成もパターンが限定されるからなあ

0815名無しさん＠ピンキー (ｵｯﾍﾟｹ Sre7-GNpj)

2024/08/09(金) 09:49:15.65ID:???r

でも、英語版のWikipediaでやるのはハードル高くね？
日本語の擬音表現を英語版でやるのは許されるのか？

0816名無しさん＠ピンキー (ﾜｯﾁｮｲ bf2a-1TAy)

2024/08/09(金) 13:58:13.30ID:???0

最近sillyを使い始めて、キャラカード探してきて遊んでいるんだが、基本英語だから翻訳機能を噛ませると違和感のある内容が多い。
日本語対応モデルに直接日本語で回答してもらうとだいぶマシなんだけど、良いやり方なんかあるかな？
今はキャラカードの最初の挨拶を自力で翻訳するのが良い気がしているけど、やはりちょい面倒なんよな

0817名無しさん＠ピンキー (ﾜｯﾁｮｲ e37d-YM+E)

2024/08/09(金) 14:02:11.21ID:???0

>>816
ワイは英語のキャラ参考に自分好みの言葉遣い等を入れ込んで日本語版キャラ作ってる

0818名無しさん＠ピンキー (ﾜｯﾁｮｲ bf2a-1TAy)

2024/08/09(金) 15:02:35.13ID:???0

>>817
ありがとう。やっぱある程度の翻訳作業は避けては通れないか

以降のやり取りは日本語で～みたいに書いてもあんま効かんしな

0819名無しさん＠ピンキー (ﾜｯﾁｮｲ a332-a6cz)

2024/08/09(金) 15:19:38.58ID:???0

deeplで翻訳した文章をそのままコピペするだけでもあんまり問題なかったりする
ただ対話例だけはちゃんと修正した方がいいかも

0820名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f74-WEU8)

2024/08/09(金) 16:41:01.32ID:???0

Mistral Large 2407が急にchatbot arenaの上位に食い込んできたな
日本語でローカルではぶっちぎりの性能

123bだから量子化してもだいぶキッツいけど選択肢が増えるのはいいことだ

0821名無しさん＠ピンキー (ﾄﾝﾓｰ MMc7-vkhg)

2024/08/09(金) 19:31:42.83ID:???M

翻訳自体が敬語になりやすかったりするのと、喘ぎ声なんかは適正無いに等しい。対策は難しいのではないか。api叩いて置き換えで言葉遣い整えて出力するプログラム自作するぐらいしか思い付かない。

0822名無しさん＠ピンキー (ｵｯﾍﾟｹ Sre7-GNpj)

2024/08/09(金) 19:43:18.28ID:???r

喘ぎ声専用の言語モデルがあればいいのではないだろうか？
用途を特化させればモデルの規模を小さくすることができる

0823名無しさん＠ピンキー (ﾜｯﾁｮｲ 7f14-J1cL)

2024/08/09(金) 19:52:22.62ID:???0

調べたらみさくら語に変換されるやつが3年前くらいにもうあって草

0824名無しさん＠ピンキー (ﾄﾝﾓｰ MMc7-vkhg)

2024/08/09(金) 19:54:00.63ID:???M

喘ぎ声出させるだけなら7bモデルでいけそうなので、モデル2つ動かしておいて、メインモデルで主文を出力、喘ぎモデルに文章を渡して文章に合った喘ぎ声を出力すれば理論上できるとは思う。一応2回生成するので相応の時間は掛かるだろうけど

0825名無しさん＠ピンキー (ﾜｯﾁｮｲ cf2d-3qL1)

2024/08/09(金) 21:19:32.26ID:ObnGNhk00

エロい表現を徹底的にWikipediaに叩き込む
喘ぎ方の全てや、仕草など

0826名無しさん＠ピンキー (ﾜｯﾁｮｲ 53f0-ZBjZ)

2024/08/09(金) 21:25:28.12ID:???0

command-r-plusをIQ2_Sで動かしてみたけど普通に良い感じやな・・・

0827名無しさん＠ピンキー (ﾜｯﾁｮｲ e314-kh9I)

2024/08/09(金) 21:38:11.76ID:TS/RW5pn0

喘ぎ声とかエロ用語をちゃんと使ってもらうならまず日本語対応してるAIであること
加えてオープンソースならファインチューニングで喘ぎ声とか大量に覚えさせることで対応できると思う
感じ始めてる時、強く感じてる時，イッてる時とか喘ぎ声ごとのタグ付けも必要かもしれんな

0828名無しさん＠ピンキー (ﾜｯﾁｮｲ 8f60-vTjq)

2024/08/09(金) 23:56:44.22ID:???0

>>820
普通のやり取りはともかくロールプレイとかさせるとぶちゃけ微妙じゃない？

0829名無しさん＠ピンキー (ﾜｯﾁｮｲ ee60-+3y4)

2024/08/10(土) 00:01:11.85ID:???0

そろそろcohereの新作が欲しい

0830名無しさん＠ピンキー (ﾜｯﾁｮｲ 3ede-giDl)

2024/08/11(日) 03:58:04.74ID:Ue5bmtEh0

ブルームバーグが1ドル100円まで円高行くって言ってる
早くなってくれRTX4090ほしい
ついでにiPhoneも買い替える

0831名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f6a-vCAx)

2024/08/11(日) 11:40:43.48ID:???0

しばらく円安でしょ

0832名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-NNUV)

2024/08/11(日) 13:33:41.24ID:???0

>>830
情報が古いよ、日銀が株価維持のために利上げしませんって記者会見しちゃってるじゃん

0833名無しさん＠ピンキー (ﾜｯﾁｮｲ 7776-Jj2t)

2024/08/11(日) 18:05:46.99ID:???0

利上げしないとは言ってないぞ
金融市場が不安定なら利上げを遅らせると言った
つまり金融市場が安定したら利上げされる

あと、日銀が利上げしなくてもFRBは利下げするから金利差は確実に縮小していく

0834名無しさん＠ピンキー (ﾜｯﾁｮｲ eff8-/pw1)

2024/08/11(日) 19:07:32.21ID:???0

3090じゃあかんのか？

0835名無しさん＠ピンキー (ﾜｯﾁｮｲ efc4-UDdm)

2024/08/11(日) 22:23:58.74ID:???0

LLMならコア性能の影響をあまり受けないから3090で十分
画像生成するなら4090だが

0836名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-nSnY)

2024/08/11(日) 23:02:18.66ID:???0

株で儲けてグラボ買ったほうがええやん

0837名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f74-V/Qk)

2024/08/11(日) 23:18:45.91ID:???0

VRAMにおさまりさえすればLLMもコアの性能に左右されるんやけどな
RTX A6000と4090で1.5倍くらいはちゃうような感覚やな
でも4090のVRAMに収まるLLMなんて正直ワイは使わんのやけどな

あとTensorRT使い始めたら恐らくH100とかのサーバー向けのやつのが伸びしろがすごいと思う

0838名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-BHTg)

2024/08/12(月) 12:47:01.94ID:???0

出力受け渡して逐次的に分割処理できるなら
前から順々に読み込んで処理するような方式作ればVRAM要らずじゃね？

高速ストレージだけあれば実用的に使える奴そろそろ頼むわ。

0839名無しさん＠ピンキー (ﾜｯﾁｮｲ 8a35-l564)

2024/08/12(月) 15:20:24.91ID:MPZQ/+gL0

ちょっとスレチかもしれんがsilly tavernのdisco鯖の認証ってどう書いたら正解なんだ？
incinerator no cyrillic profile noって書いても不正解になってしまう

0840名無しさん＠ピンキー (ﾜｯﾁｮｲ ef3d-Hj8W)

2024/08/12(月) 16:47:02.10ID:???0

Mistral 7B系列のMoE試してるんだけどどんなモデルでやってもコンテキスト8kくらいで出力おかしくなってしまう
RoPEやYaRN回りの設定が関係してるのかなと推測してるけど拡張方法についてどなたかご存知でしょうか？

0841名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f6a-vCAx)

2024/08/12(月) 16:51:29.24ID:???0

量子化は？

0842名無しさん＠ピンキー (ﾜｯﾁｮｲ ca06-UDdm)

2024/08/12(月) 17:26:35.86ID:???0

VRAMを少しずつ使って処理をわけるのはvLLMっていうライブラリがあったような

0843名無しさん＠ピンキー (ﾜｯﾁｮｲ 3efa-giDl)

2024/08/12(月) 22:22:36.45ID:n41SnXM50

それって動くことは動くけど激遅ってことでしょ

0844名無しさん＠ピンキー (ﾜｯﾁｮｲ 7fc8-EwOg)

2024/08/12(月) 22:31:24.49ID:???0

kagemusya作者様へ

v1.5はv1よりかなり使いやすくなっておりました
ありがとうございます
v2やv1.6の予定はありますでしょうか
またデータセットの構造はどのように
変化したのでしょうか

0845名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f74-V/Qk)

2024/08/13(火) 09:12:10.70ID:???0

vllmは秒間何十アクセスあるような業務向けのライブラリやで
1個の推論流すだけなら特に早いというわけではないけど、
複数の推論を同時に流すというときにこのスレで使われているようなライブラリとは
段違いの速度が出るはずや

0846名無しさん＠ピンキー (ﾜｯﾁｮｲ f7a0-EwOg)

2024/08/13(火) 10:46:59.24ID:???0

Rocket.Chatとllama.cppを繋げることできますか？
>>845複数のアクセスがある場合そういうの必要になりますか？

0847名無しさん＠ピンキー (ｽﾌﾟｯｯ Sd6a-qGVU)

2024/08/13(火) 12:50:19.32ID:???d

Llama.cppの作者さんが、セットアップ無しですぐ使える量子化ツールを公開してた
HuggingFaceにログインすれば誰でもすぐにGGUF変換ができるみたい!すご!
https://huggingface.co/spaces/ggml-org/gguf-my-repo

0848名無しさん＠ピンキー (ﾜｯﾁｮｲ f7a0-EwOg)

2024/08/13(火) 12:53:22.24ID:???0

悪魔合体するツールも作ってくれないかな

0849名無しさん＠ピンキー (ﾜｯﾁｮｲ ef3d-Hj8W)

2024/08/13(火) 14:23:30.78ID:???0

>>840
自レスだけど"sliding_window"に"max_position_embeddings"と同じ32768を設定して"rope_theta"を100000.0にしたところ拡張できた気がする
gguf化したの上げてみた
https://huggingface.co/Tuitou/Ninja-v3-Vecteus-v1-MoE-2x7B
プロンプト指定無しのgate_mode: randomでやって悪くなさげだから微調整したらもっと良くなりそう

0850名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a77-CWIW)

2024/08/13(火) 16:37:27.91ID:???0

お、触らせてもらおう

0851名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f74-V/Qk)

2024/08/13(火) 19:26:00.64ID:???0

>>846
「複数アクセス」の頻度によると思うで

例えば社員10人程度の会社で社内検索に利用しますとかだと同時に複数の推論が走ることはそんなになさそうやし
あったとしてもたまに遅いくらいなら待てるしって感じやけど、100人とか1000人という規模になるとどうなんやろうとか、
チャットとして利用するなら1回のGPU使用時間は少なくなりそうやけど文章翻訳とかで利用しようとしたら
1回のGPU使用時間長くなりそうやから同時に複数の推論が走る可能性も高くなりそうやとか

ケースバイケースやからこれと言えるものはないと思うんやけど、
常時同時に2推論以上回ることが想定される環境ではvLLMを検討しても良いんとちゃうかな
あとvLLM以外にもTensorRTも検討しても良いと思うやで

0852名無しさん＠ピンキー (ﾜｯﾁｮｲ bbbe-NNUV)

2024/08/14(水) 15:00:25.36ID:???0

4GBGDDRの卸価格は1枚2千円で製造コストは数百円なんだと
それを3枚程度余分に組む込むだけでほんまエゲツナイ値段にしてくるよな
本来64GB程度のVRAMなんて余裕で搭載できる筈なのに

0853名無しさん＠ピンキー (ﾜｯﾁｮｲ 13e8-vCAx)

2024/08/14(水) 15:09:38.23ID:???0

それHBMじゃないよね？

0854名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-NNUV)

2024/08/14(水) 15:10:46.05ID:???0

卸価格が2000円なら俺らの手元に届く間に10倍以上になってるんじゃねえの

0855名無しさん＠ピンキー (ﾜｯﾁｮｲ 17e7-V9jh)

2024/08/14(水) 15:22:20.91ID:???0

末端価格やべー
麻薬かよ

0856名無しさん＠ピンキー (ﾜｯﾁｮｲ 7e7a-2hvn)

2024/08/14(水) 16:04:55.75ID:???0

このスレや相方のスレの住民にとっては実際麻薬みたいなもんやなw

0857名無しさん＠ピンキー (ﾜｯﾁｮｲ 77ed-Jj2t)

2024/08/14(水) 16:33:07.45ID:???0

後載せできないもので価格差付けるのはよくある手法だからね
スマホのストレージとか

0858名無しさん＠ピンキー (ﾜｯﾁｮｲ ee49-nSnY)

2024/08/14(水) 21:39:02.16ID:???0

そのコストの話が本当なら新参のintelがVRAM盛らないの謎だよな　4080ぐらいの性能と48GBあれば$2000以上で売れるだろうに噂レベルですらそんな話出てこない　技術的な障壁があるんかな
AMDやNvidiaはドル箱のHPC向けと競合するからコンシュマー向けのVRAMをケチるのは分かる

0859名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7c-wEgr)

2024/08/14(水) 22:03:52.91ID:???0

intelがそこまで冒険せんのは分かるけどAMDはせめてVRAMではnVidiaを圧倒すべきや

0860名無しさん＠ピンキー (ﾜｯﾁｮｲ eedc-l564)

2024/08/15(木) 03:47:48.34ID:W672SyLg0

ただの談合だったりして
1社がVRAMを盛りまくると儲からなくなっちゃうからね

0861名無しさん＠ピンキー (ﾜｯﾁｮｲ 0a7c-wEgr)

2024/08/15(木) 05:39:32.51ID:???0

まあAMDはとにかくRocmをCUDAに対抗できるレベルに育てるのが最重要やけどな…

0862名無しさん＠ピンキー (ﾜｯﾁｮｲ f7a0-EwOg)

2024/08/15(木) 06:21:48.11ID:???0

VRAMはめっちゃ高いのに、DRAMはゴミのようだ

0863名無しさん＠ピンキー (ﾜｯﾁｮｲ efae-oC+7)

2024/08/15(木) 16:03:12.76ID:???0

具体的な生産量を調べたわけじゃないけどGDDRはニッチだもんな
普通のPCはDDRだしグラフィックで超高帯域が欲しければHBM2使うし
インテルはCPUの処理をGPUに持っていかれるのを極端に嫌ってる気がする
バス幅考えるとGPUにはまるで追いつかないんだからどっさり積んで欲しいよね

0864名無しさん＠ピンキー (ﾜｯﾁｮｲ ee2d-NNUV)

2024/08/16(金) 10:27:25.77ID:3L/dQ32E0

申し訳を防ぐには申し訳されるような文章に対して真面目に回答するような文章を作ってFTすればいいのかな？
もしすでにあるのなら教えてほしい。無いなら作って実験する。

0865名無しさん＠ピンキー (ﾜｯﾁｮｲ 8332-YMr0)

2024/08/17(土) 06:21:26.35ID:???0

vectous-v1ってエロいことはいくらでもしてくれるのに
住所はプライバシー保護がどうたらってことで教えてくれないんだな
まあ住所をあらかじめ設定しておけば普通に教えてくれるようになるんだけど

0866名無しさん＠ピンキー (ﾜｯﾁｮｲ 23b4-TGwR)

2024/08/17(土) 06:44:46.44ID:???0

大葉をrocmで動かす場合に大葉の独自リポジトリにあるllama.cppのrocm用のバイナリが古すぎて自動イントールに任せると最新のrocm>=6.0だと動かない問題踏んだ
ワークアラウンドとしてはllama-cpp-pythonの公式パッケージをpipで入れてrequirement_amd.txtのllama関係全部コメントアウトしてpip install -r requirement_amd.txt
んでmodules/llama_cpp_python_hijack.pyの29行目をコメントアウトでいけた
Radeonで動かそうとするやつなんか滅多にいないからissue上がってるけど放置されてる模様

0867名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr47-6Mul)

2024/08/18(日) 08:25:42.01ID:???r

SBVits対応させるためにSillytavernをアップデートしてからAIの会話の先頭に半角スペースが入ってどんどん増えていくようになってしまったのだけど、同じような症状の人いる？
ちなみにSBVitsに読ませることはできた。上にも書いている人がいたようにSBvitsはApp.batとserver_fastapi.pyの両方を立ち上げないといけないようだね。

0868名無しさん＠ピンキー (ﾜｯﾁｮｲ ff83-ZnLy)

2024/08/18(日) 13:38:06.11ID:???0

>>867
俺はSBV2のserver.batを立ち上げるだけで連携されるしスペースが増えるような不具合は1度も出てないぞ

0869名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr47-6Mul)

2024/08/18(日) 13:55:28.10ID:???r

>>868
前に作ってあったbotでは起こらないけど、チャットデータを削除して新しく始めると再現された。
あとSBvitsにserver.batってある？server.pyかな？

0870名無しさん＠ピンキー (ﾜｯﾁｮｲ ff83-ZnLy)

2024/08/18(日) 14:17:01.91ID:???0

>>869
あるよ
githubでも確認できる

https://i.imgur.com/adgIMfN.jpeg

■ このスレッドは過去ログ倉庫に格納されています