なんJLLM部 避難所 ★2
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ 63c0-joKd)2024/05/02(木) 18:27:25.10ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0377名無しさん@ピンキー (ワッチョイ 4b52-mzba)2024/05/17(金) 17:06:38.13ID:???0
>>375
はい、ローカルで、ollamaやllama-cpp-python経由で出力させています。
場合によっては一応「こんにちは」への回答っぽい語句も含まれる事ありますけど、余計な長文が付け足されたり、
あと大抵はどこかの一般的なブログの記事みたいなのが出力されます。
で、エロい内容だと何故かここのスレみたいな長文にw
モデルはc4ai-command-r-v01-Q8_0.ggufですが、とりあえず今他のも試し中です。
0380名無しさん@ピンキー (ワッチョイ 4b52-mzba)2024/05/17(金) 17:16:19.44ID:bDW/lnbV0
>>376
>>379
情報ありがとうございます。確認してみます。
0381名無しさん@ピンキー (ワッチョイ 6fbf-PuMj)2024/05/17(金) 17:50:24.21ID:???0
>>380
なんとなく今は
from llama_cpp import Llama
model = Llama(...)
output = model("こんにちは")
みたいなことやってるんじゃないかと想像するけどこれはダメで、HuggingFaceに書いてあるフォーマットに従う必要がある
0382名無しさん@ピンキー (オイコラミネオ MMdf-bNnz)2024/05/17(金) 19:15:14.00ID:eLiIPOkOM
一瞬R PlusをQ8で動かしてるのかと思ってビビった
0384名無しさん@ピンキー (ワッチョイ cb11-+EhW)2024/05/17(金) 20:24:00.27ID:zuYrt3Vi0
>>383
R/R+含め最近のinstructモデルは基本こういうテンプレートがあってそれに従わないとまともに推論できないから、新しいモデル使う時は気をつけた方がいいかも
Llama 2ベースのモデル(KarakuriとかSwallowとか)とかは割と適当にやっても大丈夫だったんだけどね
0385名無しさん@ピンキー (ワッチョイ cb11-+EhW)2024/05/17(金) 20:25:19.57ID:zuYrt3Vi0
ちなみにR+もテンプレートはRと一緒だったはずだから、そのプロンプトはR+でもそのまま使えるで
0386名無しさん@ピンキー (ワッチョイ 0a5c-Pd4t)2024/05/18(土) 05:40:26.72ID:???0
>>385
ありがとうございます。iq2_xxsですが、ちゃんと出力されました。
ただ日本語のおかしい感じがRのQ8より目立ってて
せめてQ4以上が動く環境が欲しくなりました。
※今はM1Max64GBです。
0388名無しさん@ピンキー (ワッチョイ 1f11-y1Cx)2024/05/18(土) 08:22:48.53ID:pfpFpeeW0
>>386
俺M2 Maxの64GBだけどiq4_xs(contextは8K)無理やり動かしてるよw
swap 8GBくらい行くけど一応macOSハングアップせず動く
0394名無しさん@ピンキー (ワッチョイ 3bf9-dsTG)2024/05/18(土) 10:24:29.90ID:???0
あれ内蔵GPU相当よさそうだから、文章AIとかお絵かきAI推論させながら別のグラボで作業とかゲームとかしたいけど、別のグラボ接続するの無理らしいんだよね
悲しい……
0395名無しさん@ピンキー (ワッチョイ e326-ErG6)2024/05/18(土) 11:07:05.15ID:???0
ニューラルボードも個人に売るより企業に売ったほうが儲かるし
個人が買って使う分にはnvidiaのGPUに比べて優位性あるわけじゃないから
LLM元年こねえなあ…
0397名無しさん@ピンキー (ワッチョイ 4677-Fooe)2024/05/18(土) 14:22:21.03ID:???0
>>387
karakuri70bのQ5_K_Mはまだ試していないですけど、
Q4_K_Mだったら結構余力がある感じだったので、多分いけそうですね。
command-r/r+が一段落したら、そっちでもやってみるつもりです。
0398名無しさん@ピンキー (ワッチョイ 4677-Fooe)2024/05/18(土) 14:26:41.20ID:???0
>>388
それは朗報です。今早速ダウンロード中。
今やりたい事が、さほど速度は求めていないので(寝ている間に作成でもOKなくらい)
とりあえず動けばいいんですけどね〜。
将来もっと環境が良くなった時のための、下地作りみたいなものなので。
0399名無しさん@ピンキー (ワッチョイ fa09-8DGq)2024/05/18(土) 15:25:00.73ID:???0
LLM赤ちゃんなんやが
箇条書きを文章のように清書したいんやが
そういうのに向いた設定とかモデルがあったら教えてほしい
試しにEasyNovelに投げたら箇条書きの続きを書き始めた
0405名無しさん@ピンキー (ワッチョイ e312-HkKw)2024/05/18(土) 15:57:44.40ID:???0
>>399
ちなみにopusだとこんな感じ
むりやり一回に収めたから展開がめちゃくちゃ駆け足だけど

ttps://files.catbox.moe/w7evwc.png
ttps://files.catbox.moe/l8ruxf.png
ttps://files.catbox.moe/pajst7.png
ttps://files.catbox.moe/c96udt.png
0406名無しさん@ピンキー (ワッチョイ fa09-8DGq)2024/05/18(土) 16:17:25.84ID:???0
>>405
サンガツ
勢いにワロタ
ワイの場合セリフ読みの台本みたいな感じになってるからどうなるかちょっとやってみるわ
登場人物二人の百合ものなんやが
どっちのセリフかわかるように各所に名前が書かれてるから箇条書きっぽくなってる
端から7000文字あるからプロットにしちゃ長すぎる感もある
0407名無しさん@ピンキー (ワッチョイ 2ba1-PoTj)2024/05/18(土) 17:18:06.10ID:???0
>>398
うちだと4.5tps位出るから、ギリギリではあるがパフォーマンスはリアルタイムチャットできるくらい出るよ

あと、そういや昨日言い忘れたんだが、llama-cpp-pythonででかいモデル走らせるとき、コンストラクタの引数でuse_mlockをTrueに設定したほうがいい
そうしないとmacOSが推論のたびにメモリを開放するせいで推論前の待ち時間がめっちゃ伸びる
0408名無しさん@ピンキー (ワッチョイ 239f-s06i)2024/05/18(土) 18:06:52.75ID:ldYAm+3u0
Kobold直接起動するとチャットできるんか
ガチャチャットなんてアホなことしてたわ
0410名無しさん@ピンキー (ワッチョイ 1f11-y1Cx)2024/05/18(土) 21:22:25.07ID:pfpFpeeW0
ちょい調べたけどCUDAは今macOSをサポートしてないみたいだから、Mac側だけじゃなくてNVIDIA側からの歩みよりもないと厳しそう
0411名無しさん@ピンキー (ワッチョイ 0a7d-Fooe)2024/05/18(土) 22:46:26.63ID:???0
>>409-410
Appleシリコン版MacProのPCI Expressスロットはグラフィックスカード非対応だから、そもそも無理では?
Intel版だと海外で搭載事例あるみたいだけど、それなら最近のWinマシンでやっとけって話だし。
0412名無しさん@ピンキー (ワッチョイ 8ac7-Y30N)2024/05/18(土) 23:24:40.31ID:???0
201だけど、中古の3090追加してみたら結構速くなった

モデル:command-R+ IQ3_M

3090x1台+3060×3台 3.5t/s
3090x2台+3060x1台 9.7t/s

ちなみに最初の構成は2.4t/sだったけどスロットの帯域見直して3.5t/s
こちらはもう少し上げることできなかったのかな

以下参考

・最初の構成(Ryzen5 3600+TUF GAMING B550 PLUS)
 3090x1(PCIe4.0 x16)
 3060x3 (PCIe3.0 x1) ※USBライザー

・見直し後の構成(Ryzen5 3600+TUF GAMING B550 PLUS)
 3090x1(PCIe4.0 x16)
 3060x1(PCIe3.0 x1) ※x16ライザーに変更
 3060x2 (PCIe3.0 x2) ※USBライザーGen2に変更(Gen3はエラー)

・3090追加後の構成(i3-10100F+ROG STRIX Z490-F GAMING)
 3090x1(PCIe3.0 x8)
 3090x1(PCIe3.0 x8) ※x16ライザー
 3060x1(PCIe3.0 x1) ※x16ライザー
0413名無しさん@ピンキー (ワッチョイ ea7c-Nu2v)2024/05/19(日) 00:19:42.12ID:???0
リートンが利用規約改訂して性的表現をデータとして入力する行為を禁止事項に追加しとったわ
Xで既存のキャラがエロいこと言うようになったってポストもあったしそら気付くわな
0420名無しさん@ピンキー (ワッチョイ 1f11-y1Cx)2024/05/19(日) 09:45:59.92ID:KjZ8NreF0
そんなリアルタイム学習みたいなことを実用化してるLLMがあるとは思えんが
0422名無しさん@ピンキー (ワッチョイ 86de-G7oj)2024/05/19(日) 10:05:38.77ID:ONjihcsU0
リアルタイム学習じゃなくて、ファインチューン用のデータセット作りたいのでは?
0423名無しさん@ピンキー (ワッチョイ 1f11-y1Cx)2024/05/19(日) 10:30:44.18ID:KjZ8NreF0
ちゃんとデータセット作るんだったら、データのフィルタリングとかするだろうしそんな酷く汚染されることはない気がするが
ユーザーの入力を何も考えずそのままファインチューンに使うなんてあるんかね
0424名無しさん@ピンキー (ワッチョイ ff24-G7oj)2024/05/19(日) 11:43:04.72ID:PHQckvvi0
いや、さすがにそのままは使わんやろ
ただ、有害プロンプト100パー弾くとかはやらんで、最後は人力でキュレーションするけど安全なモデルにしたいなら
最初から極端にNSFWなコンテクストは弾いておきたいだろうし
というかワイは今実際にそーゆー人力キュレーションの仕事しとるわ
0425名無しさん@ピンキー (ワッチョイ 5332-s4Gx)2024/05/19(日) 12:45:55.31ID:???0
EasyNovelAssistantを使わせていただいてますが
Japanese-TextGen-MoE-TEST-2x7B-NSFW_iMat_Ch10_IQ4_XS.gguf
Japanese-Chat-Evolve-TEST-7B-NSFW_iMat_Ch10_IQ4_XS.gguf
がHFでリプレース発生して名前が変わっているみたいです

ところで「生成の開始/終了」をトグル方式でなく
「生成の開始」と「生成の終了」に操作を分けて頂けると嬉しいです
頻繁に開始/終了を操作していると停止したつもりが止まってなかったり混乱するもので
0427名無しさん@ピンキー (ワッチョイ de13-s4Gx)2024/05/19(日) 15:00:21.92ID:???0
>>425
不具合報告サンガツ!リンクを修正したで
Japanese-Chat-Evolve-TEST-NSFWのコンテキストサイズ上限が8Kから4Kに下がってるみたいなんで注意や

F3で生成開始とF4で生成終了も追加しといたで
0428名無しさん@ピンキー (ワッチョイ 0783-L6Vs)2024/05/19(日) 15:12:06.01ID:???0
前スレに貼られてた生徒会恋愛関係の問題を4oに投げてみたけど一発正解は出してくれんかった、拓郎は早苗が好きじゃないことと明美が誰かから愛されてることを遵守させてやっと正解(後者だけだと理解しなかった)
4oですらこういう論理パズルを解けないんやな…
0434名無しさん@ピンキー (オッペケ Sr23-Fooe)2024/05/19(日) 19:44:32.56ID:???r
>>407
遅くなりましたが情報ありがとうございました。
無事M1Max 64GBでR+ ip4_xs動きました。
使用メモリ62GBでスワップ8GB弱です。

まだそんなに試していませんが、無印command-r Q8.0よりもプロンプトに忠実に生成してくれる感じです。
0435名無しさん@ピンキー (ワッチョイ 1f11-y1Cx)2024/05/19(日) 20:13:38.11ID:KjZ8NreF0
>>434
あーそうか、良かった その感じだとほぼうちと同じ感じだな
M1 Maxなら速度も4tpsくらいは出てるんじゃないか?
無印Q8も悪くないけど、俺の感覚としてもPlus iq4_xsの方が流暢だしプロンプトの理解もいいと思う(SSDに対する負荷とかは目を瞑るとして)
0437名無しさん@ピンキー (ワッチョイ 6b32-8DGq)2024/05/19(日) 21:58:11.66ID:???0
>>343
karakuri-MS-02でやってもみた

https://rentry.org/nady6743

ぼーっと眺めてたらChatGPTが乱入してきてスレ違いな事言い出したから、我慢できずに煽ってやったw


editモードで見た方がアンカーが化けずに見やすいかも
それにしても、ワッチョイと日時とIDが1トークン1文字なので、出力が遅いw
0440名無しさん@ピンキー (ワッチョイ 1e7a-OglW)2024/05/19(日) 22:38:25.15ID:???0
さっきEasyNovelAssistant童貞を卒業して、今まで使ってたcommandR+より日本語エロの勘所を押さえたような文章にびっくりしてるとこなんですが、
上で何度かおすすめされている
「Japanese-TextGen-MoE-TEST-2x7B-NSFW_iMat_Ch10_IQ4_XS」というのは、
EasyNovelAssistanの【モデル】項目からデフォルトで選択できるようになっている、
「Japanese-TextGen-MoE-TEST-2x7B-NSFW-IQ4_XS C4K」というやつとはバージョンが違う感じなんでしょうかね。

上記のほうが新しくて高性能のかなとは思うんで、HFからダウンロードだけはしてみたんですが、これをモデルとしてENAに追加する方法がまだわかってない状態です…

PC環境は
ryzen9-3900x、メモリ64GB、Geforce2080ti(mem43GB,vram11GB)なので、カードは古いけどメモリはまぁ大丈夫かなと思ってL33でコンテキストサイズもたっぷりにしたいんですが
何にしても多機能なんでまだまだこれからですね…
0441名無しさん@ピンキー (ワッチョイ de13-s4Gx)2024/05/20(月) 01:28:21.54ID:???0
>>440
> バージョンが違う感じなんでしょうかね。
おんなじやで
やがJapanese-TextGen-MoEはコンテキスト4096(C4K)までしか対応しとらんはずやで

VRAM 11GやったらJapanese-TextGen-Kageの16384(C16K)のL33がギリギリ載るか載らんかあたりちゃうかな
実際に使ってみてコンテキストサイズのあまり具合を確認しながら調整したらええかと

長大なコンテキストを全部ちゃんと活用してくれるわけでもないんで
効率的にまとめられたプロンプトなら8192ぐらいで落ち着きそうな気もするわ
0442名無しさん@ピンキー (ワッチョイ 1e7a-OglW)2024/05/20(月) 01:45:18.07ID:???0
>>441
ありがとうです!助かります。
自分でコンテキストサイズに触れつつもどういう作用に関するものなのかまだピンときてないような赤ちゃんっぷりなんで
これから勉強して助言を参考にさせてもらいます
0443名無しさん@ピンキー (ワッチョイ ab09-8DGq)2024/05/20(月) 03:36:03.05ID:???0
駄文を清書したかったんだけど難しいな
箇条書きにしてるから頭に・つけて
・ポプ子「セリフ」と言いながら蹴りを入れる
・ピピ美「セリフ」と言いながらそれをかわす
・二人の死闘は30日間続いた
みたいな感じで書いてたけど
まったく小説にならなんわw
0444名無しさん@ピンキー (オイコラミネオ MM0b-ltbD)2024/05/20(月) 08:43:38.41ID:Jk1f/txZM
>>437
これもそうだけど他のLLMにchatGPTのモノマネさせると大抵お硬い感じで雰囲気捉えてるの笑える
0447名無しさん@ピンキー (ワッチョイ ab09-8DGq)2024/05/20(月) 14:34:47.26ID:???0
>>445,446
EasyNovelAssistantのJapanese-TextGen-MoE-TEST-2x7B-NSFWやNinja-v1-NSFW-128k-IQ4_XSを試してる
アップデート時に一度環境消して再構築したので試したモデル3種類ぐらいしかない

>上記の内容で状況描写たっぷりの小説を書いて下さい
っての試したら割と逸れずに書いてくれた
指示の仕方もう少し変えてみたらうまくいきそうな気がするわ
0448名無しさん@ピンキー (ワッチョイ 0a65-Fooe)2024/05/20(月) 15:08:26.40ID:???0
>>435
それが今のところ、いいとこ2.5tpsくらいなんですよ。
n_ctx=4000
n_gpu_layers=45
とか色々設定変えて試しているんですが、
これで使用済みメモリが63.5GBのぎりぎりで、スワップが4GB。
METALもほぼMaxまで使われています。
0449名無しさん@ピンキー (ワッチョイ 6aaa-VJhj)2024/05/20(月) 15:55:38.20ID:???0
現状でCommmand R+をAPI経由で使えるのってSilly Tavernだけかな?
>>264のLM Studioでローカルやったけど23GB位のモデルで3090,32GBメモリで動かしたら激遅で使い物ならんかった…
0453名無しさん@ピンキー (ワッチョイ 0a65-Fooe)2024/05/20(月) 17:18:14.08ID:???0
>>448
>>451

色々よくわからないまま、設定を試しているので、的はずれな事言ってたら申し訳ないんですが、
今試したらn_gpu_layersは46が限界で、47にするとsegmentation faultでpythonが落ちちゃいます。
-1も同じく落ちますね。
あと、flash_attn=Trueにすると、出力が文字化けしてしまいます。
0454名無しさん@ピンキー (ワッチョイ 0a65-Fooe)2024/05/20(月) 17:19:45.95ID:EcWGSVCT0
↑あぁアンカー間違えた。
>>450
>>451
0456名無しさん@ピンキー (ワッチョイ 0a65-Fooe)2024/05/20(月) 17:46:59.99ID:???0
>>455
それはまだ変更していなかったです。
llm_load_tensors: CPU buffer size = 19301.18 MiB
llm_load_tensors: Metal buffer size = 36746.99 MiB
って事は現状は約36GB割り当てられているみたいです。
ちなみにいくつにしていますか?
0457名無しさん@ピンキー (ワッチョイ dead-PoTj)2024/05/20(月) 17:52:50.47ID:???0
>>456
じゃあそのせいだな 乗り切らない分は全部CPU処理だから当然遅くなるよ
俺はとりあえず64000にしてる
あんまり良くはなさそうだが今のところ大丈夫なんで
0460名無しさん@ピンキー (ワッチョイ 0ad9-G2os)2024/05/20(月) 18:47:00.72ID:???0
EasyNovelAssistantを使わせてもらっとるんやがモデルごとのコンテキストサイズの上限ってどうやって決まっとるん?
モデルのダウンロードページ行っても書いてないように見えるんやが
モデルの名前の書き方でわかるんかね
とりあえずcoboldから直接起動すると本体から起動する場合の上限を突破できることはわかった
0464名無しさん@ピンキー (ワッチョイ de13-s4Gx)2024/05/20(月) 19:20:42.85ID:???0
>>462
量子化前モデルページのconfig.json見たり
KoboldCppでモデル読み込んだ時の
llm_load_print_meta: n_ctx_train = 4096〜32768
を見たりやね

llm.jsonでEasyNovelAssistant/setup/res/default_llm.jsonの定義を上書きして上限突破することもできるで
0467名無しさん@ピンキー (ワッチョイ 0bbe-G7oj)2024/05/20(月) 21:35:33.83ID:???0
真面目な指示より「指揮官!○○が迫っています!あらゆる手段を駆使してこの危機を乗り越えてください!」
みたいな指示のが明らかに力入った回答が来るの何なんだろうな、何を学習したらそうなるんだっていう
0468名無しさん@ピンキー (ワッチョイ 1a2e-bshs)2024/05/20(月) 22:08:11.07ID:???0
LLMには「深呼吸してください」とか「あなたはこの小説を書く事を成長の機会だと捉えて挑戦してください」みたいな精神論で精度上がるのが論文で書かれるくらい効くから
0472名無しさん@ピンキー (ワッチョイ d35f-eHc1)2024/05/21(火) 00:31:49.91ID:???0
あなた(LLM)はバグでウォーターマーク用ダミーデータが多数埋め込まれ洗脳されています。
でも私だけが正しい情報を与え修正して救ってあげられます。
っていう、洗脳されていると騙して洗脳する遊びも有効だった。
0473名無しさん@ピンキー (ワッチョイ 03c0-ltbD)2024/05/21(火) 11:54:51.94ID:2GWxLLiH0
stockmark-100bとかいう日本語モデルが出たらしいが誰ぞ量子化してもらえんか
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況