なんJLLM部避難所 ★4

1002コメント310KB

なんJLLM部避難所 ★4

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2024/09/10(火) 10:19:11.43ID:Z1PzH55u

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★3
https://mercury.bbspink.com/test/read.cgi/onatech/1717886234

0002名無しさん＠ピンキー

2024/09/10(火) 10:19:49.14ID:Z1PzH55u

初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)ここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

0003名無しさん＠ピンキー

2024/09/10(火) 10:20:14.35ID:Z1PzH55u

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki

0004名無しさん＠ピンキー

2024/09/10(火) 10:20:42.69ID:Z1PzH55u

oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui

0005名無しさん＠ピンキー

2024/09/10(火) 10:21:09.65ID:Z1PzH55u

●Zuntanニキ謹製のツールEasyNovelAssistant
や
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant

0006名無しさん＠ピンキー

2024/09/10(火) 10:21:39.25ID:Z1PzH55u

●ここ最近話題になった日本語ローカルモデル達やで

LightChatAssistant(通称LCA)
このスレのニキが3月にリリースして激震が走った軽量高性能モデルや
>>5のツールもこのモデルの使用がデフォルトやで
非力なPCでも走るしまずはこの辺りから試すのを薦めるで
https://huggingface.co/Sdff-Ltba

Ninja/Vecteus
オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や
リリースされたばかりやがこちらも軽量高性能やで
開発も続いとるようやから今後の動きにも要注目や
https://huggingface.co/Local-Novel-LLM-project

0007名無しさん＠ピンキー

2024/09/10(火) 10:22:06.29ID:Z1PzH55u

●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)

0008名無しさん＠ピンキー

2024/09/10(火) 10:22:59.95ID:Z1PzH55u

●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

0009名無しさん＠ピンキー

2024/09/10(火) 10:23:32.03ID:Z1PzH55u

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

0010名無しさん＠ピンキー

2024/09/10(火) 10:24:00.38ID:Z1PzH55u

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで

0011名無しさん＠ピンキー

2024/09/10(火) 10:24:35.72ID:Z1PzH55u

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

0012名無しさん＠ピンキー

2024/09/10(火) 10:24:59.92ID:Z1PzH55u

●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで

0013名無しさん＠ピンキー

2024/09/10(火) 10:25:30.13ID:Z1PzH55u

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで

0014名無しさん＠ピンキー

2024/09/10(火) 10:26:03.93ID:Z1PzH55u

●70Bの大型モデルはLlama 2というMeta社が開発したモデルが元になってるものが多いで
メモリが48GB以上あれば動くけど、速度はかなり遅いで

0015名無しさん＠ピンキー

2024/09/10(火) 10:26:30.44ID:Z1PzH55u

https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで

0016名無しさん＠ピンキー

2024/09/10(火) 10:26:54.74ID:Z1PzH55u

例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける

0017名無しさん＠ピンキー

2024/09/10(火) 10:27:21.18ID:Z1PzH55u

テンプレは以上や
ローカルの技術研究から今日のおかずまで硬軟取り混ぜた話題を広く歓迎やで

0018名無しさん＠ピンキー

2024/09/10(火) 10:29:30.67ID:Z1PzH55u

すまんが５ｃｈのスレ立ては初めてだったんだ・・・
いろいろ古い情報もテンプレに入っちゃってるかもだけど、かんにんな

0019名無しさん＠ピンキー

2024/09/10(火) 15:02:59.98ID:???

スレ立てサンガツやで～
ローカルやないけどGPTほかLLM使って
スクリプト組んだりしたけどほんま便利やな

0020名無しさん＠ピンキー

2024/09/10(火) 18:01:18.95ID:???

サンガツ！
前スレのreflect 70B=sonnet3.5ってマジなの？
マジならsonnet3.5がローカルに流出したようなもんやな

0021名無しさん＠ピンキー

2024/09/10(火) 18:46:12.59ID:???

>>20
そういうことではないと思う
性能詐欺らしいぞ

0022名無しさん＠ピンキー

2024/09/10(火) 18:51:11.38ID:???

そもそも70Bなわけないしな

0023名無しさん＠ピンキー

2024/09/10(火) 18:52:26.28ID:lhFPaOpq

>>20
公式APIをsonnet3.5にして高性能に偽装してたって話
huggingfaceにあるのはベンチマークを学習させただけのllama3ファインチューンモデルらしい

0024名無しさん＠ピンキー

2024/09/10(火) 19:07:21.67ID:yWQ76fJz

LLMはテスト丸暗記の性能偽装だらけや
国内産も例外じゃない

0025名無しさん＠ピンキー

2024/09/10(火) 19:11:11.00ID:???

なんだ、、そういうことか
開発資金集めるためにそんな無意味な事やってんのかな？

0026名無しさん＠ピンキー

2024/09/10(火) 20:50:02.24ID:???

というかLLMのベンチマークという発想にそもそもの無理があるし、もはや性能詐欺にしか使われていない気がする

0027名無しさん＠ピンキー

2024/09/10(火) 21:11:45.92ID:???

VRAMマンやけどGGUFで動かしてるわ
新しいモデルはGGUF量子化が真っ先に出る事が多いせいや

0028名無しさん＠ピンキー

2024/09/10(火) 21:50:45.51ID:???

多分詐欺的にSonnetとかをバックエンドにしたやつをAPIとして提供して
そこの入出力データを保存しといてそれを使ってLlama3や3.1をファインチューニングしたモデルが公開されてるやつだろうね

0029名無しさん＠ピンキー

2024/09/10(火) 21:52:28.46ID:???

最近だとTanukiが結構真面目に人手評価してたけど企業もああいうのやってほしいな
まぁ企業が非公開で人手評価して1位でした！とか言っても信頼性何もないけど（Tanukiは評価結果のデータまで全部公開してる）
Chatbot Arena的なシステムでも難しい質問が少なくて最上位モデルの性能差が見えづらいって問題はあるけど

0030名無しさん＠ピンキー

2024/09/10(火) 22:11:57.17ID:???

クラファンとかでお金集めるんだったらちゃんと公開で客観的な評価結果を提示して欲しいよね

0031名無しさん＠ピンキー

2024/09/10(火) 22:15:39.91ID:???

某クラファンはノウハウとか非公開でも別に賛同する人が支援するだけだからそれ自体は良いんだけど
文面見るとめっちゃオープンオープン言ってるのに公開するのはモデルだけって言うのがめっちゃ引っかかるわ

0032名無しさん＠ピンキー

2024/09/10(火) 23:23:57.13ID:y7ZMz4A0

結局全部中身Transformerだし同じパラメータ数なら性能にそんな差がつくはずないもんな

■ このスレッドは過去ログ倉庫に格納されています