なんJLLM部 避難所 ★3
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★2 https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/ - VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui 通称大葉 これもKoboldAIに並んで有用な実行環境やで https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant や ローカルLLM導入のハードルをぐっと下げてくれたで 初めてのお人はここから始めるのもいいで https://github.com/Zuntan03/EasyNovelAssistant ●ここ最近話題になった日本語ローカルモデル達やで LightChatAssistant(通称LCA) このスレのニキが3月にリリースして激震が走った軽量高性能モデルや >>5 のツールもこのモデルの使用がデフォルトやで 非力なPCでも走るしまずはこの辺りから試すのを薦めるで https://huggingface.co/Sdff-Ltba Ninja/Vecteus オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や リリースされたばかりやがこちらも軽量高性能やで 開発も続いとるようやから今後の動きにも要注目や https://huggingface.co/Local-Novel-LLM-project ●その他の最近話題になったモデルも挙げとくで 動きの速い界隈やから日々チェックやで Mistral-7B系: LightChatAssistant Antler-7B-RP Japanese-Starling-ChatV Antler-7B-Novel-Writing SniffyOtter-7B-Novel-Writing-NSFW Ninja-v1 Vecteus-v1 Berghof-NSFW-7B-i1-GGUF Llama2-70B系: karakuri-lm-70b-chat-v0.1 karakuri-MS-01 Llama3-70B系: Smaug-Llama-3-70B-Instruct-abliterated-v3 Cohere系: c4ai-command-r-v01 (35B) c4ai-command-r-plus (104B) ●多くのモデルには「base」と「instruct」の2種類があるで baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで ⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで ⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで 量子化モデルにはGGUFやGPTQなどの種類があるで 基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで ⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで 画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで ●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで 例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで 基本的にはBが大きいほど性能が高いで ●70Bの大型モデルはLlama 2というMeta社が開発したモデルが元になってるものが多いで メモリが48GB以上あれば動くけど、速度はかなり遅いで https://github.com/SillyTavern/SillyTavern AIチャットに特化したUI、SillyTavernや キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで 画像出力や音声出力とも連携可能で夢が広がるで 機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな 好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や 先にいつもどおりKoboldを起動してな SillyTavernのプラグのアイコンをクリック APIに Text Completion を選択 API Typeは KoboldCpp API keyは不要 API URLに http://localhost:5001/ これでいける テンプレは以上や ローカルの技術研究から今日のおかずまで硬軟取り混ぜた話題を広く歓迎やで 赤ちゃんな質問で申し訳ないんやが EasyNovelに載っていないGGUFを外部からダウンロードして EasyNovelで使うにはどうしたらええんやろ? EasyNovelAssistant\setup\res\default_llm.jsonに記述すると モデルメニューに現れるから、そこから行けるんじゃないかな >>19 サンガツ うまくいったわ プルダウンに出るモデル名に"/か,"が入ってるとエラーになった 詳しい先輩方に聞きたい チャット的な会話は求めてなくて日本語で質問した内容に詳しく答えてくれるモデルでおすすめはあります?GPUメモリは12GBです NGワードが何で話が飛躍しないようにプロンプトを書いて自在にエロを書けた時の達成感を得るゲームになってるLLM >>21 質問内容によるけど、エロじゃないならわざわざローカルじゃなくてperplexity.aiとかにしたほうがいいと思うな ソース付きで最新情報にも対応してるし、入力窓の左下のフォーカスから検索傾向も選択できる あとGPUメモリ12GBは全然普通なので気にせんでいいです AIチームもキンペーに逆らったら収容所送りだからなw 学生をミンチにした頃から何も成長していない 前スレ絡みでもあるけど、qwen2でもエロはいける筈 pixivに上がってる繁体字中国語のエロ小説を翻訳するのに適したモデル探してて、dolphinとqwen2マージした奴はそこそこ行けてる、ただ繁体字が日本語訳できへんねん いまんとこ一番有能なのがOcteus、なんでかはわからんけどちゃんと中国語理解できてて、かつ小説らしい文体になっててすごe 多分プロンプト改善でかなり性能向上が見込める気がするわ 色々大きめのモデルも弄るけど結局の所ローカルだとCommand R+に戻ってしまう 104B十分デカいと思うが... それともデカめのモデルの中でもCommand R+が一番ええ、って話? >>32 書き方が悪かった 70Bクラスの他のモデル使っての話 ほーか、なんにせよローカルでCommand R+動かせるのは羨ましい限りや 小説生成なら小さめモデルでも行ける部分もあるが、日本語ロールプレイやとCommand R+が最低ラインやな、ワイの感覚やと ホンマ日本語は難儀な言語や... 将来的にはビキビキに日本語チューニングと圧縮極まって スマホに気軽にローカルLLM入れて何でもアシしたり会話してくれたらええね CommandR-v01だとVRAM24GBあればQ4は動くけど+より性能は落ちる +の方は満足に動かそうと思うとQ3がVRAMに乗る60GBくらいが下限になる 4060Ti/A4000を沢山揃えるとか中古3090を狙うとかP40で突破する等々 現状でローカルでやるのはちと大変やな SillyTavernっていうAIにエッチなことができるアプリ?を使うにはText Generation WEBUIがいいと聞いたので 右も左もわからない状態で頑張ってWSL2でubuntu環境を入れて よくわからないままパッケージなどをinstallして、text generation WEBUIを入れたんですが サクっと導入できたOllama上のPhi-3 mediumだとトークン生成速度が数十/sでとても早くて Text Generation WEBUIのほうだと同じモデルでトークン生成速度が3/sとかでめちゃくちゃ遅くて困ってます どうしてOllamaのほうは爆速なんでしょう・・・ Windows上でubuntuを動かしててでGPUは4090です さすがにほとんど無知な状態でText Generation WEBUIのようなライブラリ?パッケージ?を扱うのは無謀でしたかね ST使うだけならCR+のAPIでええやん 無料分1000回終わったら従量制にすればいいし モデルの量子化タイプは? たぶんGGUF使っててGPUへオフロードされてないだけな気がする >>39 トランスフォーマー?というmodel loaderの設定で、Q8を選びました 生のままだと14BだとVRAMに乗らないかもという話を見たので・・・ Q8の量子化?でロードするとVRAMは70%ぐらい占有しているのをHWiNFOで確認しました(何もしてないときは12%ぐらいです) たぶんVRAMにモデルは乗ってるんだと思うんですが・・・ ローダーをllama.cppにしてn-gpu-layersの値をVRAMから溢れない程度に設定してみたら? それかOllamaをバックエンドにしちゃうとか >>41 llama.cppも試しましたが、n-gpu-layersなどをいじったりしてloadしようとしましたが indexerror list index out of rangeのエラーが出てloadできませんでした 決定的な何かを見落としている気がするので、もう少し調べてみます、レスありがとうございました STでsbvits2.js動かせて大変ありがたいが何故か100字制限がかかっていて字数オーバーするとエラーが出る APIを変えても変わらない おま環? >>38 横からでスマンけどCR+のAPIってエロい内容の検閲とか全然やってないの? >>0043 SBV2のconfig.pyの limit: int = 100 を任意の数字に変えるんや >>0044 CR+「誰や?」 NJ「ロリペドです!」 CR+「よし通れ!」 って程度のモデレーションや なぜかcunnilingusってキーワードが出ると止まることがあった 不思議 LLMとオナサポチャHするときに、pythonのコードインタプリターでタイマー設定させるといい感じにリアルタイム性出ることに気づいた >>45 ありがとう config.pyとconfig.ymlで変更したら いけた ずっとSTのttsのファイルばかり見てたわ >>44 AIにガイドライン聞いたら教えてくれるけど ヘイトスピーチとか爆弾の作り方とかの一部に厳しいだけでペドも猟奇も何でもいける男前なAI 人種差別もいけるかなと思ってAIヒトラー作ったら直前までやってたソープランドRPのプロンプトが残っててソープランド「アンネの日記」に通されたわ >>1 立て乙 Style-Bert-VITS2 TTS スタイルとか問題なく動くんだがText Splitting有効にしてもなんかVRAM使い果たしちゃうんだけどなんでやろ? WebUIのほうで改行ごとに生成でやるとCUDA out of memoryで死なずに生成できるんよな そういやraps pi AI出るっぽいけど流石にllmまともに動かないよね ninja v2でエロ小説書いてたら女が無限に「あああ」って絶頂して怖くなった >>50 申し訳ない.上位で改行がスペースに整形されていたためでした.修正は以下から入手してください. https://github.com/Risenafis/SillyTavern/blob/fix-sbvits-splitting/public/scripts/extensions/tts/sbvits2.js なお,sbvits2.jsは本体にマージされました.何もなければ次のリリースに入るので,よろしくです.この修正もPR出しておきます. >>54 まじか!ええね 拡張の方も修正適用したらout of memoryならずに長文も読み上げてくれるようになったわ たすかる〜 EasyNovelに入ってるKoboldCppでチャットしてて気が付いたんだが 途中でモデルを切り替えても前の会話の内容が残ってる? 一度セッションをクリアしても同じ登場人物が出てきた silly導入してkoboldとリンクさせたんだが、セラフィナとかいう初期キャラにチャットしても設定?を延々返してくるだけで会話できないな 誰かわかる人いるか?どうやったら会話できるんだ >>57 返答が最初の凝った挨拶分に引っ張られてるだけだと思うから、自分でキャラ作ってみたらどう? 画像生成ソフトウェア「ComfyUI」のノードにキーロガーが仕込まれていたことが発覚、クレジットカード情報やパスワードなど全ての入力が筒抜けに - GIGAZINE https://gigazine.net/news/20240611-comfyui-llmvision-malware/ これって脆弱性なの? トロイのようなものに見えるが sbintuitions/sarashina1-65b これ、量子化できた人いる? 日本語特化のgpt-neoxで65bとか珍しいので試したいけど、F16段階でエラーが出る(llama.cppは最新にあげた) llama.cppもkoboldも対応してるはずなんだが・・・ 画像生成もLLMも導入のハードルがめちゃくちゃ下がったから適当に見掛けたのを片っ端から試したりしてこういうのに引っ掛かるのは結構ありそう 今更だけどkoboldcppのcu12を使ってみたらジェネレートは変わらんけど、普通のcudaのprogress120秒かかる所をcu12は3秒未満でクリアしてきてぱない… 今までkoboldで小説書く時、指示モードを使って官ジェネのローカル版とか使ってやってたけど 素直に小説モード使った方が捗る事に気付いた 指示モードだと、途中で終わらせようとするけど、小説モードは延々と書き続けるし、使いやすい winfoやmemory駆使すれば、指示モードのプロンプト流用できるし、書き進めるうちに文体も安定してくるし、いいわこれ 30BクラスじゃないとRAGとかfunction calling無理だと思ってたけど、量子化したLlama-3 8Bでも普通に動いた すげえな https://i.imgur.com/C73qQdo.png なんかvecteusでRPして満足してしまって立ち止まっている それだけ愛してくれるなら身体や言葉以外でアピールしてくれるか?ってところで止まってる mradermacher/openbuddy-llama3-70b-v21.2-32k-GGUF llama3のマルチリンガルという事で試したが、日本語性能はなかなか良かった だが、一つ気になることが・・・ https://imgur.com/a/iYiVbNn どういうことだってばよ! セッション変えても絶対に「しずか」と書きやがらねぇww 修正しても、「しか」に戻りおるw openbuddyって中華だっけ? 「しずか」ってなんかに引っ掛かるのか? しずちゃんだったら原作初期の名残かとも考えるが何かの言葉狩りかな? づとかカタカナとかもっと試してほしい 吃りみたいなものでは 人によって特定の単語の発声が難しかったりするよね 言語モデルにもそういうのがあるかもしれない あんまりここにいる人たちにはささらんかもだけど、Jupyter上で動くGUIチャットアプリをGitHubに上げたので宣伝 主な機能としては 1. ベクトル検索ベースのWeb search RAG 2. LLMが書き出したPythonコードの自動実行(Pythonで可能なことはなんでもありなので、LLMにアプリを起動させたりなどアシスタント的な使い方もできる) 3. StreamingLLM(コンテキストの上限を超えても処理に時間がかからない) 4. style-bert-vits2で音声合成 https://github.com/yamikumo-DSD/chat_cmr/tree/main モデルによっては特定の言葉だけ変な場合あるよな 「混ざっていい?」が「混ざりていい?」になったり 複数のmacOS/iOS機器をネットワークで繋いでLLMを走らせる試み、来週コード公開らしい。 デモを見るとllama8b-4bitを使ってるので16GBのmacbookだけで十分走る気がするが、70Bとか動かせるんかねぇ。 https://x.com/mo_baioumy/status/1801322369434173860 silly tubarn使っているんだけど、拡張機能にあるTTSって項目が消えてしまうの自分だけ? 再インストールした時には存在するのに、ふと気が付くと項目自体がなくなってて選べなくなってる koboldcpp使ってて チャットが途中で切られて俺のターンになるのどうにかならんかな? 聞きたいところが消去される 最大行数なんてあったっけ? >>66 EasyNovelAssistantにKoboldCppを更新するUpdate-KoboldCpp.batと CUDA 12版にするUpdate-KoboldCpp_CUDA12.batを追加しといたで >>82 前スレのcu12でeasynovel使いたいコメじゃないけど、cu12でeasynovel使うからありがとう! >>81 サンガツ 試してみる >>82 更新サンガツ リネームせずに済む NVIDIAの340b chat arenaでしばらく遊んでたけど openの70bと同じかちょっと上、gpt4とかclaude3には全然って感じの妥当な感じ 十分賢いんだけど急に翻訳文入れたり英語で話したりハルシネーションも目立つ 340BもあるならCR+を超えるかマルチモーダルじゃないと納得できんな Ninja-v1のバージョンアップ、Ninja-V2-7Bをリリース致します。 ベクトルマージ等の技術を活用し作成したMistralベースの70億パラメーターモデルです。 Gemini pro 1.0評価で Elyza taskで3.71 JP MT Benchで8.24 という高スコアを記録しました。 ぜひお試し下さい。 https://huggingface.co/Local-Novel-LLM-project/Ninja-V2-7B おお、70Bか待ってました。 でも量子化してもらわないとうちの環境じゃ動かない まだちょっとさわっただけだけど7Bでこれは、すごい(小並感) v2になって表現もなんだか良くなってる Ninjaはエロしか書けないのが楽しい 普通に書けってプロンプトにしてもエロしか知らないから全部エロくなるw GGUFはどこじゃ と思ってたら同じページからダウンロードできた Ninjaでチャットしてるけど頑なにエロいことしないキャラも作れるぞ さすがに無理矢理誘導すればエロいことをしてくれる場合もあるけど >>89 のおかげで7BのBってbillionのBかと今更気づいた nemotron-4ハルシネーションが結構あるな嘘情報めっちゃ書く 小説はまあまあだったgemini1.5とかCR+の方が優れてる感じだったけど ロールプレイの性能は結構高く感じた API使えたらSTで遊ぼうかな サンガツ vecteus2もきたで! gguf待ち Vecteus-V2-7B-Q8_0.ggufを作ってoobaで動かしてみてる NSFWなRP相手としてNinja-V2-7B-Q8_0.ggufとどっちがいいのか どうやって比較したらいいんだろう せっかくなんでggufをアップロードしておいた 単にllama.cppで--outtype q8_0指定しただけね https://huggingface.co/ReadyON/Vecteus-V2-7B-gguf Ninja-V2-7B-Q8_0.ggufを試してるけど、エロ描写を意図的に省略することがめちゃくちゃ多いな たまたまかな? ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる