なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2024/12/26(木) 13:13:11.15ID:Vhp+tTX0
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/
0005名無しさん@ピンキー2024/12/26(木) 13:16:04.96ID:Vhp+tTX0
●Zuntanニキ謹製のツールEasyNovelAssistant

ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant
0006名無しさん@ピンキー2024/12/26(木) 13:17:27.11ID:Vhp+tTX0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0007名無しさん@ピンキー2024/12/26(木) 13:17:39.70ID:Vhp+tTX0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0008名無しさん@ピンキー2024/12/26(木) 13:17:57.73ID:Vhp+tTX0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
0009名無しさん@ピンキー2024/12/26(木) 13:18:04.01ID:Vhp+tTX0
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
0010名無しさん@ピンキー2024/12/26(木) 13:18:12.93ID:Vhp+tTX0
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
0011名無しさん@ピンキー2024/12/26(木) 13:18:20.52ID:Vhp+tTX0
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
0012名無しさん@ピンキー2024/12/26(木) 13:18:28.79ID:Vhp+tTX0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
0013名無しさん@ピンキー2024/12/26(木) 13:18:35.28ID:Vhp+tTX0
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0014名無しさん@ピンキー2024/12/26(木) 13:21:20.99ID:Vhp+tTX0
●ここ最近話題になった日本語ローカルモデル達やで

LightChatAssistant(通称LCA)
このスレのニキが3月にリリースして激震が走った軽量高性能モデルや
>>5のツールもこのモデルの使用がデフォルトやで
非力なPCでも走るしまずはこの辺りから試すのを薦めるで
https://huggingface.co/Sdff-Ltba

Ninja/Vecteus
オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や
リリースされたばかりやがこちらも軽量高性能やで
開発も続いとるようやから今後の動きにも要注目や
https://huggingface.co/Local-Novel-LLM-project
0015名無しさん@ピンキー2024/12/26(木) 13:21:36.48ID:Vhp+tTX0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)
0016名無しさん@ピンキー2024/12/26(木) 13:27:46.54ID:Vhp+tTX0
こんな感じかな
モデル一覧は若干古くなりつつありそう
anthracite-orgのmagnumシリーズとかは追記しておくべきかな?
[anthracite-org (Anthracite)](https://huggingface.co/anthracite-org)
0018名無しさん@ピンキー2024/12/26(木) 13:44:46.69ID:???
乙乙
magnum v4 123bが今の所最強かな
メモリ64Bで動かせるギリ最良量子化サイズがiQ3k_m
0021名無しさん@ピンキー2024/12/26(木) 18:51:50.64ID:jsaRaPor
いちおつ
はよgemma3とかの新モデル出んかねぇ
0022名無しさん@ピンキー2024/12/26(木) 18:51:54.20ID:???
マグナムって日本語ではないよな?
123bだとVRAMに全然収まらんし70Bクラスでいい感じの日本語モデル来て欲しいわ
Llama-3.3-SuperSwallow-70B-Instruct-v0.1 っての出てるから試すぜ
0026名無しさん@ピンキー2024/12/26(木) 20:40:00.50ID:???
5090×2でmagnum123BのiQ3Mがギリ乗るわけか…
帯域も1.8TB/secなんでしょ
4090の1.8倍速かあ
夢が広がりんぐ…
0027名無しさん@ピンキー2024/12/26(木) 20:40:38.68ID:???
ネット記事に
llm-jp-3-172b-instruct3
ってのが流れてきた

日本製なら日本語強いんじゃね?って期待は結構してるんだよなぁ
0029名無しさん@ピンキー2024/12/26(木) 21:38:11.38ID:jsaRaPor
さすがに172bあるからベンチでは最高クラスだよ
学習トークン少ないからモデルサイズで考えるともっといいの出て来るけど
0030名無しさん@ピンキー2024/12/26(木) 21:44:10.35ID:Y9WnaplU
ベンチでは最高クラスに今までどれだけ騙されてきたか、特に日本産は酷い
0031名無しさん@ピンキー2024/12/26(木) 21:47:16.63ID:???
日本産でいままで満足できたのは初代karakuri-70bだけだった

でも興味あるから、どっかでデモできないかな
0032名無しさん@ピンキー2024/12/26(木) 23:23:20.09ID:???
いちおつ

公開してくれるのはとても嬉しいんだけど172bでGPT3級なのね
試してみたいけどいままでの日本語モデルはMetaが片手間に作ってくれたLLMのほうが性能よかったしな...
Metaの新しい言語に(あまり)依存しない研究に期待。来年くらいにでそうだし。
0034名無しさん@ピンキー2024/12/27(金) 00:55:27.43ID:???
>>33
600MAXなわけであって1200W使うかと言われれば多分そうじゃないから安心しとけ。
今までのマルチGPU環境とかデータセンターとかもそうだが無謀なことしない限りはカタログスペック上の消費電力なんてまぁ100パーでも出ることない。

この辺は車の燃費と一緒でちょっとかけ離れてる。ある程度ボーダーで書いておくのはいいことかもしれんが…(CPUは青天井)
0035名無しさん@ピンキー2024/12/27(金) 00:57:49.22ID:???
まぁいうてLLMでGPU100%使い切るかどうかはさておいて500W前後x2あたりだからかなりキツそうではある
0036名無しさん@ピンキー2024/12/27(金) 01:05:18.60ID:???
よそのやつを日本企業がチューニングしたパターンが1番精度良さそうなんやけどな
0037名無しさん@ピンキー2024/12/27(金) 01:19:03.65ID:???
例えば4090ってPL60%にすると消費電力は270W前後まで下がる
そんで性能はというと6%程度しか下がらん
これはゲーミング性能の事だからLLMだともっと影響低いと思う
なので5090もPL60%にすれば多分400W以下で不自由無く使えるはず
0038名無しさん@ピンキー2024/12/27(金) 05:42:43.26ID:mvFMk8yO
7B以下で良いモデルが大量に出てこないかぎりローカルは盛り上がらんだろうなあ
そろそろLLMに食わせるデータが無くなるって話だし
効率化の研究が進むといいんだが
0039名無しさん@ピンキー2024/12/27(金) 08:35:51.08ID:???
賢いままでもっとサイズを圧縮する技術や
ハードウェア側で大きなサイズを高速に動かす技術
この辺の進展に期待したい
0040名無しさん@ピンキー2024/12/27(金) 12:08:31.06ID:axyx5LTS
モデルのファイルが壊れる場合ってハードウェア要因以外である?
koboldでメモリが足りないってエラー出たんで、
ファイル落とし直したら直ったけど、MD5値調べたら一致してなかった
0044名無しさん@ピンキー2024/12/27(金) 22:44:52.73ID:???
>> 43です
軽めのエロだったら拒否されなかったです。明日また試します
0046名無しさん@ピンキー2024/12/28(土) 07:59:44.22ID:???
>> 43,44です
deepseek api。エッチは普通にできた。温度を1.5くらいにすると良くなる
激しいのとか、表現力はまだわからない
頭の良さはgpt-4o並みとのこと
0047名無しさん@ピンキー2024/12/28(土) 10:42:26.66ID:???
>>38
アメリカからグラボ制裁されてる中国が少量の計算資源で効率的に推論する技術を発明するとか、bitnetやphi系モデル開発して小規模言語モデルに注力しるMicrosoftに期待したい
0048名無しさん@ピンキー2024/12/28(土) 15:27:00.62ID:L24a2Ks4
deepseekも感じさせすぎるとcommand r的な言葉の連続になっちゃうな
まあ、しょうがないか
0049名無しさん@ピンキー2024/12/28(土) 16:57:06.37ID:???
cyberagentのMistral-Nemo-Japanese-Instruct使ってる人っている?
日本語RPのベンチ見てたらスコアくそ高かったんで感触いいならabliteratedしてファインチューニングしようと思うんだけれども
0053名無しさん@ピンキー2024/12/29(日) 00:30:02.06ID:???
>>49
あの処理って、70Bクラスのモデルだとどのくらいのメモリ必要なのかな?
0054名無しさん@ピンキー2024/12/29(日) 01:06:43.56ID:???
>>53
モデルサイズ分のメモリがあればいけるよ
やってることは単純で、推論→拒否部分を特定→拒否部分を無効化して保存だから
0055名無しさん@ピンキー2024/12/29(日) 07:48:58.40ID:???
>>54
おー
と言うことは既存のデータセットに日本語でヤヴァイ指示入れまくったらさらに無力化出来るってことか
0056名無しさん@ピンキー2024/12/29(日) 21:39:39.82ID:Xq5dA+eo
それで効果あったら面白いな
どんな質問にもエロを見出す脳内ピンクモデルとか作れそう
0057名無しさん@ピンキー2024/12/29(日) 22:09:43.39ID:wNMTdH61
Mistral-Nemo使ってるよ。普通に賢いし、特に小説の一節を読ませて質問に答えさせるとかの長文読解をさせると、他のモデルと比べて格段に長い問題を読めるし良い感じに解ける
お手軽に使えるサイズのモデルだと今でもトップクラスだと思うよ。日本語トークンを学習してるのも嬉しい所
0058名無しさん@ピンキー2024/12/29(日) 23:53:49.34ID:???
>>57
それは素のmistral-nemo?それともcyberagentが再学習したやつ?
もしcyberagentのなら素のnemoと比べて日本語能力やRP能力に差を感じるか教えてくれると助かる
0059名無しさん@ピンキー2024/12/30(月) 06:46:39.99ID:???
Mistral-Nemo-Japanese-Instruct-2408.Q8_0
Mistral-Nemo-Instruct-2407-Q8_0 (imatrix)
Mistral-Nemo-Instruct-2407-abliterated.i1-Q6_K (imatrix)
の3つ試してきた。
RPじゃなくて、1000文字程度の小説書かせただけだけど。
全部koboldのLegacyの値使ったけど、cyberagentが一番日本語能力低く感じたよ。
ストーリー展開と会話も他2つの方が好み。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況