なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0009名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:02:48.96ID:???0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
0010名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:03:14.11ID:???0
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
0011名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:03:36.26ID:???0
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
0012名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:03:58.23ID:???0
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
0014名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:04:40.05ID:???0
モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0016名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:05:06.50ID:???0
18:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff79-XI6K):2023/11/11(土) 11:13:26.81 ID:0B0rgEfx0
ドライバやミドルウェア周りのインストールがだいたいこんな感じ
https://rentry.co/rd9xf/raw
python3.11を別途入れて基本的にそっちを使っていく
0017名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:05:18.42ID:???0
7:今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff7a-EFnx):2023/11/11(土) 10:54:35.49 ID:Gp6hELJv0
日本語特化モデル以外のおすすめ。これもはっとこ

更新の速い世界だからお勧めモデルも逐次変わっていくけど取りあえず前スレ後半で話題になってたモデルたち(たぶんまだある)
総合力高い系:
Xwin-LM-70B
upstage-Llama2-70B (=poeのSOLOR)
あとは古典だがwizardLMとかairoboros系もまだまだいける
エロ特化系:
spicyboros
Kimiko
Mythomax
0018名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:05:32.75ID:???0
10 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ 7f1d-ZlS5) sage 2023/11/11(土) 11:00:57.86 ID:DSO3hy+d0
Koboldcpp+ggufで動かす時に必要なメインメモリの目安
7Bモデル -> 8GB
13Bモデル -> 16GB
33Bモデル -> 32GB
70Bモデル -> 64GB
180Bモデル -> いっぱい
0020名無しさん@ピンキー (ワッチョイ e249-iArR)2023/12/17(日) 22:07:47.65ID:???0
24 今、天王星のwiki見てきたら軌道傾斜角(i) が0.774°だった (ワッチョイ ff7a-EFnx) 2023/11/11(土) 11:24:55.41 ID:Gp6hELJv0
長い事kobold使ってて、バージョンアップの度に上書きしてたんだが、
いつの間にか推奨セッティングが大きく変わってることに気付いた!

>使用するのに適した既定値は、Top-P=0.92、RepPen=1.1、Temperature=0.7、およびサンプラーの次数 [6,0,1,3,4,2,5] で、それ以外はすべて無効 (デフォルト) のままにします。
>デフォルトの[6,0,1,3,4,2,5]から変更することは、出力が非常に悪くなる可能性があるため、強くお勧めしません。

だそうなんで、長い事使ってる人は、一度セッティングをReset all settingボタンでクリアしとくことをお勧めする
0025名無しさん@ピンキー (ワッチョイ c711-DUyd)2024/03/16(土) 12:59:04.10ID:iqepmufp0
次スレ立てた
0031名無しさん@ピンキー (ワッチョイ 4f32-ACJr)2024/03/20(水) 15:26:47.23ID:???0
動画撮ったぞ。
スクリプトで流れるの嫌なので、保管用にこっちに書くね。
6分くらい撮ったけど、60秒以内にしろって怒られたから切り貼り編集したけど、体感は分かると思う
ローカルに期待して64Gメモリ買ったけど、こんなスピードじゃ抜けんぞっ!って怒られる前にw
よく見ると分かると思うけど、基本1トークン全角1文字だけど、文によっては1トークン3〜4文字出力してる。
これが日本語対応のトークナイザーのおかげなんだな
英語モデルで日本語書かせると、1トークン半角1文字、つまり全角1文字で2トークンもかかるから、激遅になる

https://imgur.com/a/SvIMoFl

i7 7700K + rtx3080ti メモリ64G
この化石PC以上なら、スピードはもっと期待できると思うよ(グラボはあまり関係ないけどVram12Gは欲しい)

ちなみに、ローリィの画像は、ローリィにお前の姿をSDで描くから、自分のプロンプトを書けって指示して書かせたものを
そのままSDにぶち込んで生成したw
0033名無しさん@ピンキー (ワッチョイ 4f32-ACJr)2024/03/20(水) 19:31:20.74ID:???0
↑重要な事を書き忘れてたので追記

使っているモデルは、Q6_k という64Gメモリでギリギリ動かせる量子化モデルで一番重たいやつ
だから、Q4_k_m とかなら、精度はやや落ちるけど、もっと速くなる
動画はモデル名も撮ってたんだけど、60秒にするために切り取ってた
0034名無しさん@ピンキー (ワッチョイ 8fc5-6GLF)2024/03/20(水) 21:57:36.02ID:nCB+9jEE0
LLM部も避難所あったんか、主な情報ここのニキらから得てるから助かるわ
0039名無しさん@ピンキー (ワッチョイ 63ba-Qu5W)2024/03/29(金) 18:48:33.38ID:???0
本スレ503へのレスだけど、
ツールは何使ってる?大葉?

koboldを日本語モデルで長文出力できてる人いたら設定教えてオクレ
今はinstractモードで
max tokens 最大
amount to gen 最大
他は初期値でやってる
英語モデルはこれで十分なんだが
0042名無しさん@ピンキー (ワッチョイ 9f11-WdHl)2024/03/29(金) 22:36:17.94ID:0+xOxA3r0
>>39
ツールはllama-cpp-python使ってるよ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況