なんJLLM部避難所 ★6

1002コメント332KB

なんJLLM部避難所 ★6

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/02/13(木) 21:16:02.49ID:KkRdf1Mm

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/

0002名無しさん＠ピンキー

2025/02/13(木) 21:16:47.97ID:KkRdf1Mm

初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki

0003名無しさん＠ピンキー

2025/02/13(木) 21:17:08.12ID:KkRdf1Mm

oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui

0004名無しさん＠ピンキー

2025/02/13(木) 21:17:30.81ID:KkRdf1Mm

●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant

0005名無しさん＠ピンキー

2025/02/13(木) 21:17:51.50ID:KkRdf1Mm

https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで

0006名無しさん＠ピンキー

2025/02/13(木) 21:18:05.82ID:KkRdf1Mm

例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける

0007名無しさん＠ピンキー

2025/02/13(木) 21:19:36.29ID:KkRdf1Mm

●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで

0008名無しさん＠ピンキー

2025/02/13(木) 21:25:19.98ID:KkRdf1Mm

●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2

0009名無しさん＠ピンキー

2025/02/13(木) 21:28:23.95ID:KkRdf1Mm

●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで

0010名無しさん＠ピンキー

2025/02/14(金) 07:28:58.21ID:???

楽天もAIやってるんだな
https://huggingface.co/Rakuten/RakutenAI-2.0-8x7B-instruct

0011名無しさん＠ピンキー

2025/02/14(金) 09:48:02.30ID:???

前スレで出てたDeepsexが15万DL記録してて笑った
みんな好きねぇ

0012名無しさん＠ピンキー

2025/02/14(金) 11:20:19.96ID:???

>>11
https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4
これだっけ
名前で笑ったけどまだ試してないや……日本語で使えそう？

0013名無しさん＠ピンキー

2025/02/14(金) 11:36:43.46ID:???

14b R1 QwenにRP用のデータセットTifaを食わしたモデルだから日本語は弱いよ
abliterated版もRP版いくらでもあるから、名前のインパクトだけで注目を集めているか、Tifaデータセットが中国語ベースで中国語で扱いやすいかなのでは

0014名無しさん＠ピンキー

2025/02/14(金) 11:42:07.41ID:???

kagi translate、タブブラウザのひとはメニューバーにブックマークしてURL欄に
https://pastebin.com/ZGsisj5K
この内容を貼り付けて保存すると、テキストを選択→ボタン押すで新しいタブを開いて検索結果を出してくれるはず。便利。

0015名無しさん＠ピンキー

2025/02/14(金) 13:47:56.05ID:???

tifadeepsexはちょっと微妙
一方で楽天のは（企業のイメージ大丈夫なのか？）ってくらい素直で良かった

0016名無しさん＠ピンキー

2025/02/14(金) 18:24:43.13ID:Q927rnVQ

Zonos 文字数増えるとところどころ文字人時期されずにふっとぶな

0017名無しさん＠ピンキー

2025/02/14(金) 19:05:25.74ID:KwPstM72

https://rentry.org/88fr3yr5
Silly TavernのR1 Reasoner用プリセット
コレ結構いいのでは。NSFW周りの指示が分かってる感ある。
どこで拾ったのか分からないのが謎だけど…
[[]]や(())で特定のことやらせるのも出来るっぽい

0018名無しさん＠ピンキー

2025/02/14(金) 20:19:58.81ID:LrKXMJ9a

立て乙
>>5
その他のおすすめフロントエンド
LM Studio：モデルダウンロードから推論テストまでサクサク操作でき、バックエンドとしても使える
OpenWebUI：各種APIやOllama、LM Studio等のバックエンドと連携してChatGPTのようなUIを提供する。DeepSeel R1の推論にもいち早く対応した

0019名無しさん＠ピンキー

2025/02/14(金) 20:30:34.82ID:???

>16
改行があるとアの音が入ったり、色々変なところあるね
ver0.1に完成度求めるほうがおかしいんだけど、思わず実用を考えてしまうものを持ってる

0020名無しさん＠ピンキー

2025/02/15(土) 00:04:34.51ID:???

最近agent AIに興味あるんだけど、やっぱLLMの能力に左右されるよね？

0021名無しさん＠ピンキー

2025/02/15(土) 00:18:16.62ID:???

前スレの情報でDeepSeek-R1 671Bのローカルはエロ無理だと思ってたら
Redditに公式プロバイダー以外は検閲されてないという情報があったんだけど、どういうことなんだろ？
エロ無理なのは量子化版だけで、フルサイズ版ならエロいけたりするんだろうか？
https://www.reddit.com/r/LocalLLaMA/comments/1ifprq1/comment/mb8g88b/

0022名無しさん＠ピンキー

2025/02/15(土) 00:26:23.14ID:???

>>21
量子化関係ないかと
web版は規制掛かってるけど、もローカルとかで動かせば規制緩いとかじゃないのかな？
てゆうか、あれを量子化して動かせたニキいるんか？
新型Mac ultraがユニファイドメモリ512G以上詰めれば実用的な速度で遊べるだろうがｗ

0023名無しさん＠ピンキー

2025/02/15(土) 00:46:39.71ID:???

>>20
clineみたいなコード系なら10B～でできる印象(コードの出来は知らん)
ブラウザ操作みたいなものだとローカルではqwen2.5 vlぐらいしか選択肢がないと思われ

0024名無しさん＠ピンキー

2025/02/15(土) 01:00:49.61ID:???

>>22
前スレにIQ1_Sを動かした人がいたよ
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/598

検閲メッセージじゃなくてエラー落ちだから
量子化によって発生したバグの可能性もありえるかもと思った

0025名無しさん＠ピンキー

2025/02/15(土) 03:10:57.75ID:???

メモリに全部乗ればCPUでもまぁまぁな速度で動く、というのであれば
メモリスロット16本あるようなサーバ用マザボに512GBくらいのっけようかと思うんやが
その確証がないから動き出せへん
たぶん5090買うよりは全然安く組めると思うんやが

今はメモリ64GB VRAM24GBという環境やけど
プロンプト入力後にthinkの1文字目が出てくるのに15分、本回答出てくるのにそこからさらに15分
2行の本回答出しきるのにそこからさらに15分

さすがにこれは使えへん・・・

0026名無しさん＠ピンキー

2025/02/15(土) 04:32:18.70ID:???

DeepSeekはCPUでもそこそこの速度が出るらしい
llamaはGPUの性能が良くないと激遅

0027名無しさん＠ピンキー

2025/02/15(土) 05:16:26.03ID:???

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
こういうのとか、最適化しようぜのフェイズだからある程度結果出てから飛び込むのがよさそう

>>21
deepseekは申し訳と表現を勝手にぼかすnsfw回避傾向の二段構えになってる
公式web版は両方ある
公式API版は申し訳はでないけどnsfw回避傾向がある。これはプロバイダ版も同じ。
nsfw表現回避傾向はバイパス可能で、silly tavern用プリセットとか使うだけで公式APIでなんでも書かせられる

動かすだけなら前スレで誰かが書いてくれたバッチファイルを叩くだけでSSDに展開して起動するけど、unslothの671bは申し訳を出してくるのでAPI版とは仕様が違うね

0028名無しさん＠ピンキー

2025/02/15(土) 09:06:10.92ID:???

ChatGPTのDeep Researchは何がすごいの？Geminiのとは全然違うの？

0029名無しさん＠ピンキー

2025/02/15(土) 10:59:23.64ID:???

>>25
わいのCPUでの実行結果
Ryzen5950X+128GB DeepSeek-R1-UD-IQ1_S 1.49tokens/s
Xeon 2475x+256MB DeepSeek-R1-UD-Q2_K_XL 3.95tokens/s

メモリ帯域に比例すると思う(´・ω・`)

0030名無しさん＠ピンキー

2025/02/15(土) 11:08:53.87ID:???

どっちの環境もGPU乗ってるけど
GPUlaygersを0で動かしてる(´・ω・`)

■ このスレッドは過去ログ倉庫に格納されています