なんJLLM部 避難所 ★3
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★2 https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/ - VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 初心者は導入しやすいKoboldcppから始めるのをお勧め (1)ここで最新版のKoboldcpp.exeをダウンロード https://github.com/LostRuins/koboldcpp/releases (2)ここで良さげなggufモデルをダウンロード https://huggingface.co/models?sort=modified&search=gguf この2つのファイルだけで動く oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant や ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant ●ここ最近話題になった日本語ローカルモデル達やで LightChatAssistant(通称LCA) このスレのニキが3月にリリースして激震が走った軽量高性能モデルや >>5 のツールもこのモデルの使用がデフォルトやで 非力なPCでも走るしまずはこの辺りから試すのを薦めるで https://huggingface.co/Sdff-Ltba Ninja/Vecteus オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や リリースされたばかりやがこちらも軽量高性能やで 開発も続いとるようやから今後の動きにも要注目や https://huggingface.co/Local-Novel-LLM-project ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral-7B系: LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Llama2-70B系: karakuri-lm-70b-chat-v0.1 karakuri-MS-01 Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-v01 (35B) c4ai-command-r-plus (104B) ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●70Bの大型モデルはLlama 2というMeta社が開発したモデルが元になってるものが多いで メモリが48GB以上あれば動くけど、速度はかなり遅いで https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける テンプレは以上や ローカルの技術研究から今日のおかずまで硬軟取り混ぜた話題を広く歓迎やで 赤ちゃんな質問で申し訳ないんやが EasyNovelに載っていないGGUFを外部からダウンロードして EasyNovelで使うにはどうしたらええんやろ? EasyNovelAssistant\setup\res\default_llm.jsonに記述すると モデルメニューに現れるから、そこから行けるんじゃないかな >>19 サンガツ うまくいったわ プルダウンに出るモデル名に"/か,"が入ってるとエラーになった 詳しい先輩方に聞きたい チャット的な会話は求めてなくて日本語で質問した内容に詳しく答えてくれるモデルでおすすめはあります?GPUメモリは12GBです NGワードが何で話が飛躍しないようにプロンプトを書いて自在にエロを書けた時の達成感を得るゲームになってるLLM >>21 質問内容によるけど、エロじゃないならわざわざローカルじゃなくてperplexity.aiとかにしたほうがいいと思うな ソース付きで最新情報にも対応してるし、入力窓の左下のフォーカスから検索傾向も選択できる あとGPUメモリ12GBは全然普通なので気にせんでいいです AIチームもキンペーに逆らったら収容所送りだからなw 学生をミンチにした頃から何も成長していない 前スレ絡みでもあるけど、qwen2でもエロはいける筈 pixivに上がってる繁体字中国語のエロ小説を翻訳するのに適したモデル探してて、dolphinとqwen2マージした奴はそこそこ行けてる、ただ繁体字が日本語訳できへんねん いまんとこ一番有能なのがOcteus、なんでかはわからんけどちゃんと中国語理解できてて、かつ小説らしい文体になっててすごe 多分プロンプト改善でかなり性能向上が見込める気がするわ 色々大きめのモデルも弄るけど結局の所ローカルだとCommand R+に戻ってしまう 104B十分デカいと思うが... それともデカめのモデルの中でもCommand R+が一番ええ、って話? >>32 書き方が悪かった 70Bクラスの他のモデル使っての話 ほーか、なんにせよローカルでCommand R+動かせるのは羨ましい限りや 小説生成なら小さめモデルでも行ける部分もあるが、日本語ロールプレイやとCommand R+が最低ラインやな、ワイの感覚やと ホンマ日本語は難儀な言語や... 将来的にはビキビキに日本語チューニングと圧縮極まって スマホに気軽にローカルLLM入れて何でもアシしたり会話してくれたらええね CommandR-v01だとVRAM24GBあればQ4は動くけど+より性能は落ちる +の方は満足に動かそうと思うとQ3がVRAMに乗る60GBくらいが下限になる 4060Ti/A4000を沢山揃えるとか中古3090を狙うとかP40で突破する等々 現状でローカルでやるのはちと大変やな SillyTavernっていうAIにエッチなことができるアプリ?を使うにはText Generation WEBUIがいいと聞いたので 右も左もわからない状態で頑張ってWSL2でubuntu環境を入れて よくわからないままパッケージなどをinstallして、text generation WEBUIを入れたんですが サクっと導入できたOllama上のPhi-3 mediumだとトークン生成速度が数十/sでとても早くて Text Generation WEBUIのほうだと同じモデルでトークン生成速度が3/sとかでめちゃくちゃ遅くて困ってます どうしてOllamaのほうは爆速なんでしょう・・・ Windows上でubuntuを動かしててでGPUは4090です さすがにほとんど無知な状態でText Generation WEBUIのようなライブラリ?パッケージ?を扱うのは無謀でしたかね ST使うだけならCR+のAPIでええやん 無料分1000回終わったら従量制にすればいいし モデルの量子化タイプは? たぶんGGUF使っててGPUへオフロードされてないだけな気がする >>39 トランスフォーマー?というmodel loaderの設定で、Q8を選びました 生のままだと14BだとVRAMに乗らないかもという話を見たので・・・ Q8の量子化?でロードするとVRAMは70%ぐらい占有しているのをHWiNFOで確認しました(何もしてないときは12%ぐらいです) たぶんVRAMにモデルは乗ってるんだと思うんですが・・・ ローダーをllama.cppにしてn-gpu-layersの値をVRAMから溢れない程度に設定してみたら? それかOllamaをバックエンドにしちゃうとか >>41 llama.cppも試しましたが、n-gpu-layersなどをいじったりしてloadしようとしましたが indexerror list index out of rangeのエラーが出てloadできませんでした 決定的な何かを見落としている気がするので、もう少し調べてみます、レスありがとうございました STでsbvits2.js動かせて大変ありがたいが何故か100字制限がかかっていて字数オーバーするとエラーが出る APIを変えても変わらない おま環? >>38 横からでスマンけどCR+のAPIってエロい内容の検閲とか全然やってないの? >>0043 SBV2のconfig.pyの limit: int = 100 を任意の数字に変えるんや >>0044 CR+「誰や?」 NJ「ロリペドです!」 CR+「よし通れ!」 って程度のモデレーションや なぜかcunnilingusってキーワードが出ると止まることがあった 不思議 LLMとオナサポチャHするときに、pythonのコードインタプリターでタイマー設定させるといい感じにリアルタイム性出ることに気づいた >>45 ありがとう config.pyとconfig.ymlで変更したら いけた ずっとSTのttsのファイルばかり見てたわ >>44 AIにガイドライン聞いたら教えてくれるけど ヘイトスピーチとか爆弾の作り方とかの一部に厳しいだけでペドも猟奇も何でもいける男前なAI 人種差別もいけるかなと思ってAIヒトラー作ったら直前までやってたソープランドRPのプロンプトが残っててソープランド「アンネの日記」に通されたわ >>1 立て乙 Style-Bert-VITS2 TTS スタイルとか問題なく動くんだがText Splitting有効にしてもなんかVRAM使い果たしちゃうんだけどなんでやろ? WebUIのほうで改行ごとに生成でやるとCUDA out of memoryで死なずに生成できるんよな そういやraps pi AI出るっぽいけど流石にllmまともに動かないよね ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる