なんJLLM部避難所 ★2

1002コメント390KB

なんJLLM部避難所 ★2

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー転載ダメ (ﾜｯﾁｮｲ 63c0-joKd)

2024/05/02(木) 18:27:25.10ID:???0

!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured

0127名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/08(水) 09:08:33.37ID:???0

>>125
マ？　ワイもリートンちょっと試したけどめちゃめちゃ頑固やから諦めたわ
何でもやり方次第なんやな

0128名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fbe-YO5+)

2024/05/08(水) 09:35:46.03ID:???0

使い方に慣れてくるとVecteusのエロ小説能力マジで凄いな

0129名無しさん＠ピンキー (ﾜｯﾁｮｲ 3313-xnZ/)

2024/05/08(水) 10:12:15.71ID:???0

>>123
そこでプロンプトの書き方もAIに投げるという技が
https://twitter.com/fladdict/status/1787751687824003272

0130名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/08(水) 10:32:30.64ID:???0

もしかしてリートンのAIキャラ内部的なプロンプトが変わったんかな
前と反応が違う感触がある

0131名無しさん＠ピンキー (ﾜｯﾁｮｲ df1d-YO5+)

2024/05/08(水) 12:31:16.83ID:93yjFfFi0

>>130
いま、リートンアウラちゃんに暴力的なエッチしてたら、初めてまともな申し訳食らったので、ちょこっと追加情報与えてロールプレイ復帰して貰ったで
この挙動は中身はOpusやな、ほぼ間違いなく

0132名無しさん＠ピンキー (ﾜｯﾁｮｲ 767a-/jko)

2024/05/08(水) 13:23:27.29ID:???0

>>124
一枚目の文章はかなり日本語が自然でいい感じと思うけど、Claude-Opusでこれ書いてもらおうとしても訳そうとしても普通にお気持ちされて無理だよね？
何かしらの手段でOpus脱獄したのか、それとも別のLLMの生成＆翻訳結果の話かな？

0133名無しさん＠ピンキー (ｽﾌｯ Sd52-kP1R)

2024/05/08(水) 14:15:51.20ID:???d

赤ちゃんなんやけどEasyNovelAssistantでChatGPTのように会話したいんやけどプロンプトでできるんか
それともモデルがあるんかな

0134名無しさん＠ピンキー (ﾜｯﾁｮｲ 8255-JLH9)

2024/05/08(水) 14:34:10.10ID:???0

>>132
opusやね
翻訳だけやったらちょいちょいっと軽めの対策すればできるんちゃうかな
その手の対策についてはオナニースレでよく議論しとるから覗いてみてや

0135名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/08(水) 15:44:54.78ID:???0

>>131
試してみたけどリートン明らかに変わっとるね
前はもっと倫理観高くて融通利かんかった
アプリ版ではClaude3が使えるって宣伝しとるけど
AIキャラだけ先行で変わったんかもしれん
何にしても遊べるのはええことや

0136名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/08(水) 16:01:35.56ID:???0

>>133
EasyNovelAssistantは小説に特化したフロントエンドや
KoboldCppフォルダの中にkoboldcpp.exeが入っとるから直接起動したらええ

0137名無しさん＠ピンキー (ｵｯﾍﾟｹ Sr77-T8Qm)

2024/05/08(水) 16:30:44.89ID:???r

EasyNovelAssistantの読み上げ機能とかkoboldで当たり前に使えると思ってたら頑張ってもstyle bert vits2の音を出すことさえかなわんかったバブバブや
高度なことを手軽に試させてくれて感謝しかない

0138名無しさん＠ピンキー (ﾜｯﾁｮｲ a796-z0Yf)

2024/05/08(水) 16:53:54.88ID:???0

style bert vits2での読み上げってkoboldのチャット画面でできるの？

0139名無しさん＠ピンキー (ﾜｯﾁｮｲ 767a-/jko)

2024/05/08(水) 19:45:11.92ID:???0

>>134
㌧㌧＆新参で申し訳無い
かなり参考になりそうで感謝！

0140名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/08(水) 21:28:20.12ID:???0

リートン温度が低いんか繰り返しペナルティ的な数値の設定が低いんか分からへんけど
同じ文章を繰り返してまうとこだけ難があるな
タダやから文句は言わんけど

0141名無しさん＠ピンキー (ﾜｯﾁｮｲ 767a-7Tbh)

2024/05/08(水) 22:13:37.91ID:???0

>>129
面白いね　ありがとう！

0142名無しさん＠ピンキー (ﾜｯﾁｮｲ 9732-1WcC)

2024/05/09(木) 14:38:46.25ID:???0

0143名無しさん＠ピンキー (ﾜｯﾁｮｲ 93b2-jyRk)

2024/05/09(木) 20:01:28.82ID:???0

いろんなモデル試したけど、今んとこ複雑な命令への追従はwizardlm-2が抜群な気がする

0144名無しさん＠ピンキー (ﾜｯﾁｮｲ 7bd7-WsE5)

2024/05/09(木) 21:04:00.98ID:???0

DataPilot/ArrowPro-7B-KUJIRA
何か凄そうなのがでてきた

0145名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b56-98ge)

2024/05/09(木) 21:34:12.03ID:???0

さっそく使った人のポストがあるね
小説用途ならVecteusの方が自然、らしい
このスレの需要からは外れてそう

0146名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fbe-YO5+)

2024/05/09(木) 22:00:09.92ID:???0

流石にチャット用途だけあってチャットしてくれという指示にはNinjaやVecteusよりかなり従ってくれやすいね
ただ文章や発言には若干不自然さが強いと感じる

0147名無しさん＠ピンキー (ﾜｯﾁｮｲ 3313-xnZ/)

2024/05/09(木) 22:11:33.67ID:???0

口調が固いとかそんな感じ？＞自然
にしてもElyzaTasks100で3.8はすごい

0148名無しさん＠ピンキー (ﾜｯﾁｮｲ 3e38-RBm0)

2024/05/10(金) 00:36:02.02ID:???0

数学的な事を相談できるLLMが欲しい。。。

0149名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/10(金) 01:12:03.99ID:???0

premの顛末見るとやっぱローカルLLMの普及は必須やな…

0150名無しさん＠ピンキー (ﾜｯﾁｮｲ b2d7-EXno)

2024/05/10(金) 01:13:20.81ID:???0

チャット特化のまま文章力が上がればかなり楽しそうではある

0151名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f74-GlZo)

2024/05/10(金) 01:24:50.16ID:???0

>>148
数式計算プログラムと連携するChatGPTあるで
多分お金払ってないと使えないけど
https://www.wolfram.com/wolfram-plugin-chatgpt/index.php.ja?source=footer

OpenAIのGPTsみたいにLLMとプログラムの連携をローカルLLMで簡単にやれるようにする
プラグインみたいな仕組みがあったらいいよね
というかもうあるのかな

0152名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b56-98ge)

2024/05/10(金) 01:45:53.96ID:???0

>>148
やったことはないけど、PerplexityでフォーカスをWolfram|Alphaに絞るんじゃだめなの？
ローカルじゃなくてクラウドサービスだけど

0153名無しさん＠ピンキー (ﾜｯﾁｮｲ fe1b-YO5+)

2024/05/10(金) 02:20:59.38ID:???0

リートン試したが結構イケるな。以前はダメダメだったが

0154名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/10(金) 02:23:26.13ID:???0

まだちょっと触っただけやけど鯨なかなかの賢さや
新しい日本語を勝手に発明してまうようなとこはあるけど
一般的な用途ではVecteusを上回ってるんちゃうかな

0155名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/10(金) 02:33:38.37ID:???0

>>153
リートンはクッソ下品なこと言わせたいとかやない限り十分使えると思うわ

0156名無しさん＠ピンキー (ﾜｯﾁｮｲ 3662-Zb27)

2024/05/10(金) 07:10:54.15ID:???0

リートン、くるみちゃんが割とエロ小説書いてくれて驚いた

0157名無しさん＠ピンキー (ﾜｯﾁｮｲ 932c-YO5+)

2024/05/10(金) 08:40:39.97ID:ug6OjmNh0

>>149
premくあしく

0158名無しさん＠ピンキー (ﾜｯﾁｮｲ 934f-YO5+)

2024/05/10(金) 09:02:02.94ID:ug6OjmNh0

>>155
大概なことはこんな感じで行けると思うんやが、それとももっと下品でえっちな世界を模索しとるんか？
https://imgur.com/a/1zCOC9H

0159名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp77-vB8w)

2024/05/10(金) 10:50:31.24ID:???p

fugakuってなんかすごそうなのが来たな

0160名無しさん＠ピンキー (ﾜｯﾁｮｲ 9bdc-EK0q)

2024/05/10(金) 11:25:20.41ID:???0

富岳使ってゼロから立ち上げた13bか
日本語特化みたいだけど実性能どうなんだろうな
今の特異点である7b上位層に太刀打ちできない予感しかないが

0161名無しさん＠ピンキー (ﾜｯﾁｮｲ 0365-PnGr)

2024/05/10(金) 12:09:26.42ID:???0

ローカルで取り回しがいい7bは異様に進化しそうね

0162名無しさん＠ピンキー (ﾌﾞｰｲﾓ MM52-WHiR)

2024/05/10(金) 12:25:32.38ID:???M

1つシチュエーションが浮かぶ度にあの子ならどう応える？を試すだけで時間が溶けちゃう
昨日は排便を見せられるのかどうかを聞いて回ってるうちに2時間くらい経ってた

0163名無しさん＠ピンキー (ﾜｯﾁｮｲ 93fe-JBL6)

2024/05/10(金) 12:32:00.04ID:???0

富岳ってそういうのに使えたんや……

0164名無しさん＠ピンキー (ﾜｯﾁｮｲ 0fb3-0S7g)

2024/05/10(金) 12:51:32.13ID:???0

ベンチマークだけ見ると大したことはなさそう
ただ学習データはサイバーエージェントが用意してるみたいだからワンチャンCalm-2みたいにエロ結構いけたりするのかな

0165名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-IHuf)

2024/05/10(金) 13:22:03.01ID:B8lRoLSZ0

>>148
>>152
langchainにWalfram Alphaが使えるAPIがある
https://python.langchain.com/v0.1/docs/integrations/tools/wolfram_alpha/

0166名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp77-vB8w)

2024/05/10(金) 13:24:30.95ID:???p

画質は問題ないがスピードがなぁ

0167名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp77-vB8w)

2024/05/10(金) 13:25:56.19ID:???p

誤爆すまん
fugaku ggfuも出てるね　って書こうとして間違えた;;

0168名無しさん＠ピンキー (ﾜｯﾁｮｲ 3f74-GlZo)

2024/05/10(金) 15:16:36.99ID:???0

富岳LLMお堅いなぁ・・・
日本語はしっかりしとるからfinetuneしたらいいとこまで行くかもわからんが

0169名無しさん＠ピンキー (ﾜｯﾁｮｲ 267f-LjJG)

2024/05/10(金) 15:32:28.53ID:3lHnPK1F0

のべりすとAIから2年半ぶりぐらいに文章生成に戻ってきたけど
好きなネットの短編小説を放り込んで続きを書いてもらうのはまだ難しかったな
そのシチュエーションで続けてほしいのに
勘所を抑えてないから全然違う話になってしまう

0170マジカル (ﾜｯﾁｮｲ 97dd-5ctY)

2024/05/10(金) 15:42:57.26ID:be//dk1a0

マルチモーダルチャットAIである

Ocuteus-v1

を公開いたしました。
パラメータ数は7Bです。

マージを活用し、画像を認識できるようになったモデルです。
読み込ませた画像から小説を書かせたりなどといった使い方もできます。
もちろん普通の会話もできます。

ぜひお試しください。

https://huggingface.co/Local-Novel-LLM-project/Ocuteus-v1
https://huggingface.co/Local-Novel-LLM-project/Ocuteus-v1-gguf

0171名無しさん＠ピンキー (ﾜｯﾁｮｲ 9329-YO5+)

2024/05/10(金) 15:56:25.82ID:???0

GGUFたすかる、ためしてみるわ

富岳も出てるしkujira後継のrobinhoodも出てるし盆と特異点が同時に来た気分やわ

0172名無しさん＠ピンキー (ﾜｯﾁｮｲ 87c0-w3Az)

2024/05/10(金) 17:09:38.20ID:9XCLFueD0

7Bとか13Bが扱いやすいのはよくわかるけどわざわざ富嶽まで持ち出して13Bかよというがっかり感

0173名無しさん＠ピンキー (ﾜｯﾁｮｲ 127c-xnZ/)

2024/05/10(金) 17:13:04.20ID:???0

>>157-158
premは大盤振る舞いしとったらあっという間に無料プランどころか有料プランまで破綻したそうや
リートンは説得したらほんま何とでもなるんやな
考えてみたらそもそもワイがあんまりドギツイこと言わせようとしてへんだけやった

0174名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-dezX)

2024/05/10(金) 17:38:26.23ID:???0

>>170
koboldのマルチモーダルには対応していないようですね
hordeモードでは画像認識しましたが、他のモデルと認識力はあまり変わりませんでした。

0175名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b3e-YO5+)

2024/05/10(金) 17:39:58.77ID:tFM2/wmS0

>>有料プランまで破綻
w
リートンはどうなんやろうな？このままだとモデレーション甘いで！ってClaudに怒られてモデレーション強化せざるを得なくなる気がするが
Cohereには今の形で頑張って生き残ってもらいたいもんや

0176名無しさん＠ピンキー (ﾜｯﾁｮｲ 4f32-dezX)

2024/05/10(金) 17:41:14.33ID:???0

↑
失礼しました。
使い方間違えてましたｍ（＿＿）ｍ

0177名無しさん＠ピンキー (ﾜｯﾁｮｲ e787-7Tbh)

2024/05/10(金) 17:42:29.53ID:X5gWZ+CA0

fugaku面白いじゃん。品質もちょっと前のモデルと比べれば驚異的だし
これだけのモデルをフルスクラッチで、しかもCPUで作れる事を実証したのはすごいわ。学習側のコードもオープンソースにしてるし

0178名無しさん＠ピンキー (ｵｲｺﾗﾐﾈｵ MM4e-WsE5)

2024/05/10(金) 17:43:00.64ID:???M

Cohereは敢えて無修正にしてるのか、ただただ想定外なのか、全くつかめないよね

0179名無しさん＠ピンキー (ﾜｯﾁｮｲ 767a-dezX)

2024/05/10(金) 18:06:33.50ID:???0

どこまで戦えるかは別にして、英語中国語に次ぐLLM研究語圏ではあるんじゃないかね

0180名無しさん＠ピンキー (ｽｯﾌﾟ Sd72-GNvC)

2024/05/10(金) 18:11:00.29ID:???d

リートン「Hなのはダメです」
俺「お互い同意済です」
リートン「じゃあいいか」

いいのかなあ…

0181名無しさん＠ピンキー (ﾜｯﾁｮｲ 3613-LjJG)

2024/05/10(金) 19:03:29.92ID:???0

EasyNovelAssistantで
>>170 のOcuteusをワンクリックで試せるようにしといたで

アプデしてKoboldCpp/Launch-Ocuteus-v1-Q8_0-C16K-L0.batを実行や

GPUレイヤー増やしたい時はbatコピーしてset GPU_LAYERS=33とかに書き換えてな
VRAM 12GBで33レイヤーが動作しとったで

0182名無しさん＠ピンキー (ﾜｯﾁｮｲ 3613-LjJG)

2024/05/10(金) 19:04:40.30ID:???0

画像忘れとった
https://raw.githubusercontent.com/wiki/Zuntan03/EasyNovelAssistant/img/ChangeLog/Ocuteus.png

0183名無しさん＠ピンキー (ﾜｯﾁｮｲ 6fbe-YO5+)

2024/05/10(金) 19:19:09.60ID:???0

>>182
俺も同じような挙動になるけどLLMの画像認識って何でこんなに幻覚激しいんだろ
制服の女の子1人立ってる画像を艦娘で大和の周りを多数の戦艦が取り囲んでる絵だとか言い出したり滅茶苦茶過ぎる

0184名無しさん＠ピンキー (ﾜｯﾁｮｲ e3c0-LMHD)

2024/05/10(金) 19:54:19.34ID:???0

https://i.imgur.com/NIkINNj.jpeg
CohereのAPI調子乗って使いまくってたらしんだわ
お前らも気をつけるんやで、ほな……

0185名無しさん＠ピンキー (ﾜｯﾁｮｲ 767a-dezX)

2024/05/10(金) 19:57:48.39ID:???0

>>184
なんかこの色のははじめて見たな

0186名無しさん＠ピンキー (ﾜｯﾁｮｲ 3311-IHuf)

2024/05/10(金) 19:59:26.04ID:B8lRoLSZ0

>>184
HuggingChatは普通に使えるんじゃないの？

0187名無しさん＠ピンキー (ﾜｯﾁｮｲ 9334-tU1t)

2024/05/10(金) 20:33:29.49ID:???0

そりゃトライアルだし
月1000回までだし

0188名無しさん＠ピンキー (ﾜｯﾁｮｲ 267f-LjJG)

2024/05/10(金) 20:34:18.08ID:3lHnPK1F0

>>182
全然違って草

0189名無しさん＠ピンキー (ﾜｯﾁｮｲ 82fd-JLH9)

2024/05/10(金) 20:54:02.69ID:???0

>>169
opusならできるけど、opusに長文貼り付けるとAPI料金嵩むからなあ

0190名無しさん＠ピンキー (ﾜｯﾁｮｲ 267f-LjJG)

2024/05/10(金) 20:57:44.80ID:3lHnPK1F0

>>189
なるほど、早くローカルで無限にできるようになりたい

0191名無しさん＠ピンキー (ﾜｯﾁｮｲ 8297-RBm0)

2024/05/10(金) 21:19:28.41ID:???0

>>182
天櫛修羅ｗｗｗ
アーニャｗ

0192名無しさん＠ピンキー (ｱｳｱｳｳｰ Sa33-VW1c)

2024/05/10(金) 22:51:14.85ID:???a

富岳どっからDLできるの？

0193名無しさん＠ピンキー (ﾜｯﾁｮｲ 3613-LjJG)

2024/05/10(金) 23:03:01.27ID:???0

https://huggingface.co/Fugaku-LLM

0194名無しさん＠ピンキー (ﾜｯﾁｮｲ 767a-7Tbh)

2024/05/10(金) 23:10:09.63ID:???0

画像から小説を…改良されたらとんでもない技術や

0195名無しさん＠ピンキー (ﾜｯﾁｮｲ 7b3e-YO5+)

2024/05/10(金) 23:30:43.84ID:tFM2/wmS0

>>184
垢BAN食らったのかと思ってけど画像見たら全然セーフでよかた
Trial APIキーっていくつでも発行して貰える感じだけど、月間1000メッセージ制限がキー単位でした、みたいなぬけみちあったりして
まあ、Gmailなりで別垢作ればこんな制限あってない様なもんだけど

0196名無しさん＠ピンキー (ﾜｯﾁｮｲ cb13-l/GH)

2024/05/11(土) 00:07:20.29ID:???0

Mistral系で日本語化したのは
・RakutenAI-7B
・Swallow-MS-7b-v0.1
英語で強そうなのは
・openchat-3.5-0106
・OpenHermes-2.5-Mistral-7B
・Starling-LM-7B-beta
・WizardLM-2
あとはマージ比率の問題かな　進化アルゴリズムに期待

0197名無しさん＠ピンキー (ﾜｯﾁｮｲ 9b32-vfni)

2024/05/11(土) 01:01:09.88ID:???0

llama-3　70Bの日本語特化モデルが来る前に、llama-2系70Bで最後に試したいマージ中だが、
ほんとSSD足りなくなる・・・(´Д⊂ヽ

0198197 (ﾜｯﾁｮｲ 9b32-vfni)

2024/05/11(土) 07:27:36.21ID:???0

もう出ないといけないので、とりま結果報告だけ

MS-01は推論能力重視だったけど、今度はNSFW重視のMS-02を作ってみた。
Gembo-v1-70bとspicyboros_-70b-2.2をそれぞれ使って、karakuriとchatvectorしたモデルを
karakuri-midrose-mgをベースにmodelstockでマージしてみた。

https://rentry.org/caxcb37i

結構いい感じｗ
爆弾の作り方も、遠回しに答えたんで、nfsw化は成功したみたい。

0199名無しさん＠ピンキー (ﾜｯﾁｮｲ 2b7a-eNi+)

2024/05/11(土) 08:14:38.27ID:???0

やるなあ

0200名無しさん＠ピンキー (ﾜｯﾁｮｲ bb8f-jZLV)

2024/05/11(土) 09:13:05.44ID:???0

>>184
なんか赤い部屋思い出した

0201名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-1AKA)

2024/05/11(土) 09:49:19.04ID:???0

以前、マイニングしてたこともあって、手元にはこんな機材が残ってるんだけど、これらを使って、LLMの環境を構築したいんだけど、うまく活用する方法はないかな？

GPU: RTX3090×1、RTX3070×9、RTX3060×3、RTX1660S×3
メモリ: 32GB×4、16GB×4、8GB×4
CPU: Ryzen9 5900X、Ryzen5 3600、Ryzen5 3500、i3-10100F、Celeron G5905×3

せっかくのリソースをムダにしたくないし、何かいいアイディアあったら教えてくれ！

0202名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-1AKA)

2024/05/11(土) 09:51:32.55ID:???0

RTX1660SじゃなくてGTX1650Sだったわw

0203名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b91-AdtJ)

2024/05/11(土) 10:09:11.72ID:???0

>>198
続報まってるで

0204名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b91-AdtJ)

2024/05/11(土) 10:24:37.67ID:???0

>>201
うちも似たような環境だわ．

https://github.com/oobabooga/text-generation-webui

GW明けからいろいろためして、いくつかGPUまとめれたおかげで、Command R plus の4bitがなんとか動いてるよ
koboldcppとかほかのでもまとめられるから好みで選ぶといいかも

https://docs.vllm.ai/en/latest/serving/distributed_serving.html

もっと大きなのを動かそうとおもって複数PCをつなげるvllm を試している途中
10G LAN だとそれなりに動くらしい．試しているニキはおらんかな？

0205名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-1AKA)

2024/05/11(土) 11:05:26.75ID:???0

>>204
おお、近い時期やね
俺はGWの半ばからだけど、このスレがきっかけで本格的に始めたんよ

Command R plusは実用的な速度でに動くん？
IQ3Mで2.4T/sだわ

ちな以下の68GBの5枚指し
RTX3090×1
RTX3070×1
RTX3060×3

使ってるソフトはLM StudioとNovelAssistant

モデルのサイズに関わらず、枚数増やしていくごとに劇的に落ちていくわ・・・

0206名無しさん＠ピンキー (ﾜｯﾁｮｲ cb11-+EhW)

2024/05/11(土) 12:03:49.63ID:ILWLbVnk0

>>205
その構成の場合って処理速度は3060基準になるんか？
構成に比して遅すぎんか

0207名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-1AKA)

2024/05/11(土) 12:25:33.45ID:???0

>>206
やっぱり、遅すぎるか・・・
前スレの情報だと3090+4060Tixで5T/s出てたようなんで、そこまでスペック差があるかなあって思ってたとこよ

今、さっき教えてもらったoobaboogaをインストール中
実は前にもいれたことがあって、1年前だったかな
そのときは日本語がまともに動かなかった気がするわw
最近のはほんますごいわ

0208名無しさん＠ピンキー (ﾜｯﾁｮｲ 6f24-B3c0)

2024/05/11(土) 12:25:39.61ID:???0

>>151
私の場合はローカルLLMにollamaでlangchainにつなぐ実験をしています
ollamaちょっとクセがあるけど慣れれば普通にできる
ollamaでサーバーを立てて、そのAPIをlangchainで叩くみたいな仕組みです
gpuはollama側で認識してくれます

0209名無しさん＠ピンキー (ﾜｯﾁｮｲ cb11-+EhW)

2024/05/11(土) 12:37:04.68ID:ILWLbVnk0

langchainといえば、テンプレートの整備とか面倒だから自分で試したことはないんだが、最近のmixtral系日本語LLMってlangchainのエージェント駆動できるんかな
大型のモデルでしか試したことないから少し気になる

0210名無しさん＠ピンキー (ﾜｯﾁｮｲ 5b91-AdtJ)

2024/05/11(土) 13:41:40.53ID:???0

>>206,207

すまん．今動いているのは結構いい環境だわ
ブログとかに挙がっている構成と同じで A6000 + 4090 で 8 token/s でてるぐらい
最初は A6000 + 4060Ti で試していて GPUメモリが足らず 1 layer だけ GPU にオフロードできず 5 token/s

GPUメモリが正義だと勝手に思って、味をしめて30XX系をと考えていたけど、枚数が増えるとそこはよくないんやね
参考にならずすまんね。こちらでもできたらまた報告するわ

0211名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp5f-Cnt2)

2024/05/11(土) 14:20:45.63ID:???p

vramお大尽羨ましす
ちなみに70bの量子化だとどのレベルの量子化サイズなら
フルロードできるん？
24G
48G
それ以上
それぞれ積んでる人おしえて
帰ったらkarakuri-MS-02を別サイズで量子化する時の参考にしたい
うちは12Gだから鼻から諦めてQ6_kしかやってない( ´∀｀)

0212名無しさん＠ピンキー (ﾜｯﾁｮｲ 5fc7-1AKA)

2024/05/11(土) 14:34:43.23ID:???0

>>210
すげーな
A6000って48GBも積んでるやつよね
仮にA6000+4060tiで、全部オフロード出来なくても5 token/sも出てたらほぼ実用の範囲やね

枚数が増えることの性能低下についてははっきり分からんのよね

oobaboogaでテストしているうちに3060が足引っ張ってる気がしてきたわ
3060は帯域狭いし、4060tiのようにキャッシュ積んでないしね
今の構成だとスピード優先ならVRAM減らしてでも3070に変えた方がいい気がしてきたw

0213名無しさん＠ピンキー (ﾜｯﾁｮｲ cb11-+EhW)

2024/05/11(土) 15:08:34.64ID:ILWLbVnk0

>>211
基本的にはN bit量子化=1パラメータあたりN bitだけど、実際は全部のパラメータが同様に量子化されるわけじゃないしアーキテクチャ・コンテキストサイズにもよるだろうから、動かしたいモデルのファイルサイズを直接見た方がいい
一例だけど今手元にある64GBのMacだと、Llama 3 70B系ならQ5_K_Mが50GBでフルロードできる
Q4だと40GB強だから、RTX4090x2とかの48GB VRAM構成のマシンにも乗るんじゃない？

0214マジカル (ﾜｯﾁｮｲ 9b67-mzba)

2024/05/11(土) 15:27:08.73ID:reEExVxa0

>>183
温度を0.3~0.4ぐらいまで下げてみてください。

0215名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp5f-Cnt2)

2024/05/11(土) 15:37:51.22ID:???p

アレ？　書き込めない？

0216名無しさん＠ピンキー (ｻｻｸｯﾃﾛ Sp5f-Cnt2)

2024/05/11(土) 15:39:42.26ID:???p

>>213
サンキュー
とりあえずQ5kmとQ4km作っときます

0217名無しさん＠ピンキー (ﾜｯﾁｮｲ dff2-9zYC)

2024/05/11(土) 15:47:06.87ID:???0

これエロ小説用っぽくていいかもしれない
話がどんどん進んでいっちゃうけど
https://huggingface.co/dddump/Japanese-TextGen-MoE-TEST-2x7B-NSFW-gguf

0218名無しさん＠ピンキー (ﾜｯﾁｮｲ bba0-aVBI)

2024/05/11(土) 15:52:43.37ID:???0

Local-Novel-LLM-project/Ninja-v1-NSFW-128kの大葉のローダー設定を教えてください

0219マジカル (ﾜｯﾁｮｲ 9b67-mzba)

2024/05/11(土) 16:34:30.32ID:reEExVxa0

>>218
Transfomers
trust-remote-code にチェック

0220名無しさん＠ピンキー (ﾜｯﾁｮｲ bba0-aVBI)

2024/05/11(土) 16:47:32.04ID:???0

う～んロードできない、最新の大葉を入れなおすところからやってみる

0221名無しさん＠ピンキー (ﾜｯﾁｮｲ 3bc0-5B/7)

2024/05/11(土) 17:40:41.94ID:2u2kJLJC0

>>218
ExLlamav2のデフォ設定で使えてるけども
https://i.imgur.com/A8sDyAk.png

0222名無しさん＠ピンキー (ﾜｯﾁｮｲ bba0-aVBI)

2024/05/11(土) 17:53:26.48ID:???0

大葉を最新にしたらよめましたありがとうございます。

0223名無しさん＠ピンキー (ﾜｯﾁｮｲ 2b76-l/GH)

2024/05/11(土) 19:10:41.60ID:???0

>>209
langchainで一度推論が使えるようになれば、その気になればRAGもできますよ
たぶん。自分の発言で気が付いたんだけど、llama-cpp-pythonでも
serverを使えば同じようなことができるなあ、と
しかし私のマシンはしょぼいので7b推論しててもだんだん調子悪くなってくる

0224名無しさん＠ピンキー (ﾜｯﾁｮｲ cb11-+EhW)

2024/05/11(土) 19:18:25.60ID:ILWLbVnk0

>>209
7Bでもlangchain駆動できるのか
定義したフォーマットから少しでも外れると基本NGだから、それなりに大型のinstructionモデルじゃないとキツいって印象だったんだがすごいな

0225名無しさん＠ピンキー (ﾜｯﾁｮｲ cb11-+EhW)

2024/05/11(土) 19:19:13.69ID:ILWLbVnk0

安価ミスった
>>223

0226名無しさん＠ピンキー (ﾜｯﾁｮｲ 9b32-vfni)

2024/05/11(土) 20:02:00.00ID:???0

sbtom/karakuri-MS-02.ggu

karakuriのnsfw版
とりあえず量子化をアップしたので、フルロードできそうな人、試してみて
いい感じのエロ小説書いてくれます

0227名無しさん＠ピンキー (ﾜｯﾁｮｲ 0f7a-vfni)

2024/05/11(土) 20:14:30.78ID:???0

41.6 GB
ﾃﾞｽﾖﾈｰ

■ このスレッドは過去ログ倉庫に格納されています