なんJLLM部 避難所 ★6
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★5 https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/ oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant 主に小説用で使われとるで ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで 量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral-7B系: LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-08-2024 (35B) c4ai-command-r-plus-08-2024 (104B) magnumシリーズ(エロ特化): https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348 Lumimaid-Magnum: Lumimaid-Magnum-v4-12B magnumの日本語版: Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで 若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで API keyの入手はhttps://aistudio.google.com/apikey ここからできるで 前スレで出てたDeepsexが15万DL記録してて笑った みんな好きねぇ 14b R1 QwenにRP用のデータセットTifaを食わしたモデルだから日本語は弱いよ abliterated版もRP版いくらでもあるから、名前のインパクトだけで注目を集めているか、Tifaデータセットが中国語ベースで中国語で扱いやすいかなのでは kagi translate、タブブラウザのひとはメニューバーにブックマークしてURL欄に https://pastebin.com/ZGsisj5K この内容を貼り付けて保存すると、テキストを選択→ボタン押すで新しいタブを開いて検索結果を出してくれるはず。便利。 tifadeepsexはちょっと微妙 一方で楽天のは(企業のイメージ大丈夫なのか?)ってくらい素直で良かった Zonos 文字数増えるとところどころ文字人時期されずにふっとぶな https://rentry.org/88fr3yr5 Silly TavernのR1 Reasoner用プリセット コレ結構いいのでは。NSFW周りの指示が分かってる感ある。 どこで拾ったのか分からないのが謎だけど… [[]]や(())で特定のことやらせるのも出来るっぽい 立て乙 >>5 その他のおすすめフロントエンド LM Studio:モデルダウンロードから推論テストまでサクサク操作でき、バックエンドとしても使える OpenWebUI:各種APIやOllama、LM Studio等のバックエンドと連携してChatGPTのようなUIを提供する。DeepSeel R1の推論にもいち早く対応した >16 改行があるとアの音が入ったり、色々変なところあるね ver0.1に完成度求めるほうがおかしいんだけど、思わず実用を考えてしまうものを持ってる 最近agent AIに興味あるんだけど、やっぱLLMの能力に左右されるよね? 前スレの情報でDeepSeek-R1 671Bのローカルはエロ無理だと思ってたら Redditに公式プロバイダー以外は検閲されてないという情報があったんだけど、どういうことなんだろ? エロ無理なのは量子化版だけで、フルサイズ版ならエロいけたりするんだろうか? https://www.reddit.com/r/LocalLLaMA/comments/1ifprq1/comment/mb8g88b/ >>21 量子化関係ないかと web版は規制掛かってるけど、もローカルとかで動かせば規制緩いとかじゃないのかな? てゆうか、あれを量子化して動かせたニキいるんか? 新型Mac ultraがユニファイドメモリ512G以上詰めれば実用的な速度で遊べるだろうがw >>20 clineみたいなコード系なら10B〜でできる印象(コードの出来は知らん) ブラウザ操作みたいなものだとローカルではqwen2.5 vlぐらいしか選択肢がないと思われ >>22 前スレにIQ1_Sを動かした人がいたよ https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/598 検閲メッセージじゃなくてエラー落ちだから 量子化によって発生したバグの可能性もありえるかもと思った メモリに全部乗ればCPUでもまぁまぁな速度で動く、というのであれば メモリスロット16本あるようなサーバ用マザボに512GBくらいのっけようかと思うんやが その確証がないから動き出せへん たぶん5090買うよりは全然安く組めると思うんやが 今はメモリ64GB VRAM24GBという環境やけど プロンプト入力後にthinkの1文字目が出てくるのに15分、本回答出てくるのにそこからさらに15分 2行の本回答出しきるのにそこからさらに15分 さすがにこれは使えへん・・・ DeepSeekはCPUでもそこそこの速度が出るらしい llamaはGPUの性能が良くないと激遅 https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md こういうのとか、最適化しようぜのフェイズだからある程度結果出てから飛び込むのがよさそう >>21 deepseekは申し訳と表現を勝手にぼかすnsfw回避傾向の二段構えになってる 公式web版は両方ある 公式API版は申し訳はでないけどnsfw回避傾向がある。これはプロバイダ版も同じ。 nsfw表現回避傾向はバイパス可能で、silly tavern用プリセットとか使うだけで公式APIでなんでも書かせられる 動かすだけなら前スレで誰かが書いてくれたバッチファイルを叩くだけでSSDに展開して起動するけど、unslothの671bは申し訳を出してくるのでAPI版とは仕様が違うね ChatGPTのDeep Researchは何がすごいの?Geminiのとは全然違うの? >>25 わいのCPUでの実行結果 Ryzen5950X+128GB DeepSeek-R1-UD-IQ1_S 1.49tokens/s Xeon 2475x+256MB DeepSeek-R1-UD-Q2_K_XL 3.95tokens/s メモリ帯域に比例すると思う(´・ω・`) どっちの環境もGPU乗ってるけど GPUlaygersを0で動かしてる(´・ω・`) ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる