なんJLLM部 避難所 ★6
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★5 https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/ silly tavernにもkoboldにもRAG設定の項目はないみたいや マネタイズnoteの記事がカスッただけみたい LMStudioとOpenWebUIを試してみるで ちょっとズレるけどエディタのObsidianでもLLM導入できるんやね >>643 hotchpotch/static-embedding-japaneseのことであってる? これ、silly tavernのembeddingで使える? config.yamlのextensions→models→embeddingで指定するとtokenizer.jsonが見つからないみたいなエラーが出る >>647 これじゃダメなんか? https://docs.sillytavern.app/usage/core-concepts/data-bank/ 4070sで70bのq4xsを1.2t/sで動かしてるけど、流石につらくなってきた… 32bのq4xsなら3.8t/s出るから、そこそこ快適。 っていう感じなんだけど、>>505 は何か設定ミスってない? 使ってるのはeasy novel assistant(kobold) 70bはL20でギリ、32bはL33で使えてる。コンキストサイズは8k。 >>650 ガチ赤ちゃんだから助け舟ありがたいやで… llama.cppなんやけど、ホンマによくわかってないからネットで拾ってきた起動オプションそのまま使ってるんや↓ llama-server.exe -m [モデルファイル名] -ngl 49 -b 4096 --parallel 2 llama-3.3-swallow-70b-instruct-v0.4 4bit/mlxなら動作してくれた。M1max 64G 以下のurlを30行くらいに要約して ```swallow-llm.github.io/llama3.3-swallow.ja.html``` コンテキスト131072の設定で6t/s。70Bにしては速い感じ しかし上記の文書に対する幻覚は多かったw プログラムの修正はChatGPT4より落ちるけどロジックの確認なら十分使える 残り14GByteあるからVSCodeの開発環境なら動作する llama3.1時代に比べると速いし賢いし進化を感じる >>651 使ったことないから分からんが、数字的に49がレイヤー数で4096はコンテキストサイズ? レイヤー数半分くらいに減らしてみたら? >>648 >>649 サンガツやで! 名前がData Bankで違っとったんか…… 早速static-embedding-japaneseのmodel.safetonsrをD&Dしてみたが容量100Mオーバーやった tokenizer.jsonなら読めたけど機能しとるのかは解らん https://files.catbox.moe/mjhn3z.png PDF (text only) HTML Markdown ePUB TXT JSON、YAML、ソース コードなど、非標準の拡張子を持つテキスト ファイルを添付することもできます。 選択したファイルのタイプから既知の変換がなく、ファイルをプレーン テキスト ドキュメントとして解析できない場合 ファイルのアップロードは拒否されます。つまり、生のバイナリ ファイルは許可されません。 それで電子化した小説一冊(テキスト化)pdf(15M)をD&Dしたのだけど タイトルも内容も理解してなくて「読んだことがないから答えられない」と言われてもうた >>653 アドバイスサンガツ! 時間できたら試してみるわ そういえば、 https://github.com/CG-Labs/SillyTavern-MCP-Extension こいつをつかうとSilly Tavern側からMCP server群の機能を使えるみたいだね そのうち足りない機能はMCP server経由で補う時代になるかもしれない 現状のMCP server群はv0.01的なやつばかりだから高度なことは困難だけど、指定されたURLを読みにいって、リンク先も調べて...ぐらいは出来る ローカルLLMくんが困ったらnotebookLMに話を聴きに行く、くらいやれるようになったらRAG周りも簡単になりそう 「ガサツなお姉ちゃん」を目指してたら AIの利便性を完全に失うハメになったでござるの巻 https://files.catbox.moe/8gbavf.jpg ある意味ChatGPTよりリアル感ある >>654 でトークナイザー食わしたせいかどうかは解らん これでワイも 「ウチの姉貴よりこのスレのニキらのほうが優しいでホンマ」 という姉の愚痴が言える 実際はおらんけど Clineやwindsurfの話が大きく盛り上がってるから再入門、入門のひとが増えてるとか? Deepseek R2が17日に出てくる、R1の欠点=推論が遅いを解消している、ってウワサも出てきてるし、いろんな意味で注目しておくべきタイミングではあるのでは >>654 static-embedding-japaneseの使いかたは自分もわからんが、とりあえずそこにD&Dするものではない 丸投げで済まんがredditのこのスレの通りやればとりあえず問題なく動いてる VongolaJuudaimeHime氏の補足を忘れんようにな https://www.reddit.com/r/SillyTavernAI/comments/1f2eqm1/give_your_characters_memory_a_practical/ 青空文庫から適当な短編小説全文をData Bankに突っ込んでチェリーピックすればこれぐらいは答えてくれる https://litter.catbox.moe/0x7pmd.png https://litter.catbox.moe/cfktce.png https://litter.catbox.moe/78wuz8.png キャラカードは日本語wikiからお借りした RAGの検索に成功してればSillyTavernのコンソールログにヒットした文章が出てくるからそれで確認してみて あとおそらく長編小説全文をData Bankに突っ込むのはあんまり効率的でないから 例えば章ごとに要約するとかした方がよさそう >>662 おおっ丁寧にサンガツやで! ワイの場合、スキャンしたもののPDF化のせいもあるかもしれんね ボリュームあってすぐにできるか解らんけども 青空で試してみるで! 吉川三国志が全巻覚えられるなら それぞれ魏呉蜀ファン三人作って延々とトークバトルさせることも 可能かもしれんね swallow v0.4 いいなこれ QwQの簡易規制解除モデルでも申し訳くらうワイのプロンプトに素で答えてくれる 下手な規制は能力落とすだけだと気付いてくれたかな AI ROGUELITEで遊んでるんだけどおすすめの7bくらいの日本語に強いLLMおしえてください >>665 aya-expanse-8b 正直7bクラスで日本語使ってゲームは厳しいから>>9 にあるgoogleのai使うのが吉 いまはOpenRouterでChutesとTargonがDeepSeekR1 671bを無料で提供してるからそれを試すのもオススメ aya expanseは楽しい メモリぎりぎりの大きさの無修正のやつを1秒1トークンくらいで回してる かつての有人エロチャットの返事を待つ感覚 >>666 ありがとうございます 一応4090ちゃん装備してるんで14Bとかも行けると思います ayaちゃん使ってみます >>667 そちらも調べてみます、ありがとうございます 何をもってしてゴールなのか書いてもらわんと建設的な質問にはならんと思うで…… Grok2が雑談性能高いって聞いたから試してみたけどTwitter食った?わりには微妙 ふつうにClaude Gemini DeepSeekあたりのほうがいいような こいつら3つになんJ民のペルソナを与えてレスバを仕掛けるとスリ切れたボロ布みたいな罵詈雑言あびせてきてホンマ口悪い 人によって雑談の質が違うからね違いが出るのはしょうがないね 画像生成でもそうなんやけど モデルの性能とプロンプトの良し悪しで 何をもって評価できてるのか解らんもんなあ ワイの場合はまず「丁寧語にしない」が目標で 7Bあたりだと無理だったけど 今は違うかもしれん QwQ-32Bだとたまにこっちを息子だと認識してくるのはまだ足りてない どっちが悪いのかはこれからの調査次第やな シチュエーションと用途が分からんからなんとも言えんが チャット形式で丁寧語にしないだけならほとんどの7Bモデルで普通に出来るはず 専門的な評価法知らんので 剣心の世界観を説明させたあとにキャラで雑談させて性能見てる >>676 ChatGPT3.5あたりでも会話長くなるとちょくちょく漏れてたんや 今のverになってからはほぼ完璧になってつい課金してもうた QwQ-32Bはセリフ長くなると後半設定忘れたりするし そのへん破綻しない分量に抑えられればうまく行くかもしれんね そのあたりがワイのプロンプトぢからの無さやろな…… >>678 ええね 生徒会問題みたいにスレ共通のテストテンプレほしいわ そういえば確かにEvalがどうのこうのってLLMの評価を雰囲気で見てはいるけど 実際にどう評価してんのか全然知らんわ 一時期自分でも評価してみたいと調べてみたけどなんもわからんくて投げた記憶がある モデルによって得意なことが違ったり適切な設定が違ったりするから 一概にどれが高性能とは言えんのよな ベンチマークもLLMの進化に対して評価方法の進化が追い付いてないらしいしベンチマークだけ良い肩透かしモデルもあるみたいだし >>662 ニキが試してくれとるように 青空文庫の短編小説を食わせて まとめさせる、 →「120文字以内でまとめて」 感想を聞く 演じさせる →「主人公のモノマネしてみて」 ていうのはどうやろうか? 他に何か判断できる質問や喰わせるにええ小説とかないかな やらせたいジャンルのクイズを出題させると性能や向き不向きが分かるで だいたいボロボロの出力になるからベンチマークにぴったり 1b, 4b, 12b, 27bか 色々選択肢あっていいね QwQ-32Bの後だとプレッシャーが凄そう QwQは今まで試したローカルモデルでは一番賢い気がする zuntanさんのEasyReforgeを使わせてもらってます 起動後ドメインcloudfontサーバーに接続されてるみたいなんですが オフラインで実行したいので接続させないようにしたいです python.exeが接続しているようなのでファイアウォールでこちらを遮断すべきか もしくはReforgeのUI内の設定で接続を切る方法があるのでしょうか(恐らく拡張機能か何かが接続しているのかと思ってます) >>688 競合も何も27bはgemma2からあるサイズ llama.cpp最新でビルドし直してgemma3とりあえず動いたわ まだ画像認識は対応してないけど、雑談用途で動かした感じはかなり好感触 >>693 せやで なんか昨日ぐらいまでは4GBくらいで分割されとってダウンロードめんどくさかったけど いつの間にか結合されとるな 小さいパラメータ数でもかなり使えるレベルまで賢くなってきたな 小さいと言ってもまだ30Bくらいあるが 多分だけどNTTやNECのクローズドLLMより断然賢いと思う😅 UnslothのはDeepseekR1の時みたいな特別なことやっとるんやろか? というかDeepseekR1のGGUFで名前を初めて聞いたけど もともといろんなモデルのGGUFをリリースしてるとこなんやな AIがほとんど同じような返答を繰り返すのは何とかならんのか? mcp経由でLLMにウェブ検索機能を付けるやつ、 1. Firecrawlをdockerでローカル実行 2. Firecrawl MCP Serverをインストールして実行 が強いな ドキュメントがちゃんと用意されてるからclaude君に食わせれば細かい書き方は全部やってくれる ある程度賢いモデルならLibraChat利用してローカルLLMに使わせることもできるはず >>700 同じ返答を繰り返す原因はいくつかあるんだけど どのモデルでどれぐらい会話をしたときにどういう返答を繰り返してるんだ? M4 Max 128Gが使えるようになったので llama-3.3-swallow-70b-instruct の8bit版を試した 速度は4bitの12tk/secから6.6tk/sに落ちたがハルシネーションが激減した llama3.3なら6bit以下だとダメなのかもしんない。部分的な量子化が進んでほしい すごい赤ちゃん質問かもしれんけど gemma-3-27b-it gemma-3-27b-pt て何が違うんや? ワイはスキルないからGGUFじゃなくてファイル分割されとるとお手上げやから なんも試せんけども…… >>701 なにそれめちゃくちゃ楽しそう デスクトップ秘書に質問したらええ感じで検索してくれる……てこともできそう しかしワイdockerすらいじれない低スペやった ちょっと前まで巨大モデル動かすのが目標だったけど最近の新しいモデルを見ると32Bさえ動かせれば十分かもしれんな 60GBあれば足りるか MoEも各専門家がだいたい30B前後だもんね 手動で専門家選ぶか.. >>705 it = Instruction Tuned チャット用 pt = Pre-trained 自分で追加学習したい用 itのほうをおすすめ LM Studioとか使えばファイル分割されてても勝手にやってくれるよ 細かいモデルの違いに対応してなかったりするけど、そこは諦める Vram使わん場合 使っとらんPCが32GあるけどDDR3やからサッパリやろなあ…… メインPCはDDR4やけど n100でDDR5使うminiPCのほうが速いかもしれんなあ >>709 ありがとうやで!普段遣いはitでええのね いつかトレーニングできるとええなあ LM Studioやったことないけどメモっとくで! >>709 横からやけど、jpとかkrとかのノリでイタリア語FT版とポルトガル語FT版とかかな?と勘違いしてたで! サンガツや〜 koboldだと分割再生できるけどメモリ余計に食うから結合させて使ってる いまさっき動画生成試したらメモリ68G消費したわ ちょうど128Gに増設したとこやったんでギリギリセーフ ちゅうてもDDR4やから当面はQwQ-32Bでキャラ設定を詰めていきたい webで量子化による違いが書かれとったんやけど、他のモデルもこんな感じなんやろか? ちょうどQwQ-32Bもええ感じと言われとるんがQ4_K_Mよね obsidianにコピペしといたもので、元記事のリンクまでない、ここのニキが書いたものならスマンやで llama.cppモデルのバリエーション一覧(7Bの例) Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨> Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下 Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下 Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下 Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下 Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】 Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】 Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】 Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下 Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー> Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー> Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー> Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー> Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨> F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨> F32 : 26.00G : - - クソデカ、質低下なし<非推奨> Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。 Kのない4bit/5bit量子化(q4_0, q4_1, q5_0, q5_1)は旧方式のレガシーなので基本的に選ばない。 Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。 Perplexity Lossの値が大きいほど、量子化による劣化も大きい。 例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」 一方で、Q4_K_M〜Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。 QwQ-32Bを日本語向けにチューニングするのがいつ出てくるか q2とかq3て使わなくていいじゃんとか思っちゃう😅 サイズ下げてq5以上使うほうが良いような気がして もしハードがあっても日本語QAデータセットが貧弱なのがネックだなと思う 画像にdanbooru、音声にギャルゲがあったように何か日本語QAデータの金脈を見つければ少しは良くなりそう >>713 基本的に大きいモデルになるほど量子化耐性が強くなるから3bitでも対して劣化しないモデルもある どちらにせよ4bit以下はimatrix量子化はマスト >>650 この間はアドバイスありがとう。 色々試して結局ちょっとしか弄らなかったんだけど、おかげでコマンドの意味について調べるきっかけができたから良かった。 レイヤー数48からVRAMから漏れてるのか急激に遅くなるけど、47までは動くし数字大きい方が早く動くから、早くて安定するレイヤー数45でやっていくことにした。 (モデルはqwq-32b-q4_k_m・コンテキストサイズは4096固定で レイヤー数30で3.0t/s、レイヤー数40で4.0t/s レイヤー数45で4.4t/s程度) もらったアドバイスでもChatGPTに聞いたところでもVRAM的にレイヤー数下げた方が良いって言われてたけど、ほとんどVRAMに乗るからそこだけ謎(レイヤー数30だと専有VRAM10.6GB共有VRAM0.1GB、レイヤー数40で専有13.3共有0.2、レイヤー数45で専有14.0共有0.5) レイヤー数45の時でも専有GPUメモリ2GBほど余裕あるのに共有GPUメモリが使われてるのも不思議に思った。激重になるレイヤー数48でも専有GPUメモリ15.5GB、共有GPUメモリ0.5GBとかだったからVRAM16GBあっても16.0GBまるまる使えるわけじゃないのかな。 ChatGPTに聞いて用語についてある程度理解したからメモ。他の赤ちゃんに役立ったら良いけど間違ってたらすまんこ。 コンテキストサイズ:モデルが一度に処理できるトークン数(≒文章の長さ) VRAMに影響:4070tisの場合4096~8192が推奨 (長期的に話したときの記憶力にも影響?) レイヤー数:推論の精度や速度に影響。LLMモデルは複数レイヤーで構成されているが、そののうち何層目までをVRAMに乗せるかを決める。指定した数の層までがVRAMに乗せられ、それ以外はCPUやRAMに乗せられる。 コンテキストサイズを上げるとVRAMに乗せられるレイヤー数は減る。(同環境だと コンテキスト4096なら25~30層、 8192なら15~20層推奨) >>714 QwQのbakeneko版欲しいな ネーミングが顔文字っぽいし DeepSeekのQ4_K_Sが5.6~5.7t/sで動いて快適だからQwQにも同じのが出たら良いなぁ。 >>719 コンテキストのメモリ使用量はembedding size×トークン長×2(fp16の場合)で求められる あとllama.cppの場合vramに乗せるのはモデルが優先だからトークン長を増やしてもあふれるのはコンテキストだけのはず context size context length context window の違いがよく分からん LLM関連の話はLLMくんが猛烈に詳しいから素直に聞いたほうがはやい m3 ultraでr1動かした動画がyoutubeに上がってる qwqとかgemma3とかのおかげで結局project digitsでええかって心境になってきた project digitsとm3 ultraが出るまでまだ状況変わるやろうからどうなるかわからんけど llama4も上半期って話があったはずやからそろそろやろうしなぁ・・・ いやぁなんか1月以降目まぐるしく状況変わって大変や いろいろ考えてるだけでまだ何も買ってへんから全然ええんやけど どうしようかいろいろ考えてる時が一番楽しい cohereの新型フラグシップモデルが出た 汎用的な推論タスクはdeepseekR1と同等以上とLLMは言ってるが如何に koboldはまだgemma3に対応してないから素のllama.cpp使うしかない cohereちゃん生きとったんか。めちゃくちゃ気になるけど111Bはデカいンゴねぇ…… cohereのCR+からまだ1年しかたってないのか あんなに衝撃的だったCR+(105B)も今や14Bのモデル(Phi-4)と同等性能とか >>732 デモ試したが、いい感じだな。 ところで、qwq化け猫のQ8_0がkoboldで動かない(thinkしか出ない)のはワイだけ? >>726 中国語のやつ? 70Bでめっちゃ速くなってるな 600Bの実演はないかな? >>740 24GBで動かせる上限に近いから4090持っとる様な個人のマニアがボリュームゾーンなんやろな 5090に買い替えたら32BのQ6辺りにTTS組み合わせてもVRAM内で収まるようになると考えるとめちゃ嬉しい >>736 これよ M3 Ultra Runs DeepSeek R1 With 671 Billion Parameters Using 448GB Of Unified Memory, Delivering High Bandwidth Performance At Under 200W Power Consumption, With No Need For A Multi-GPU Setup https://wccftech.com/m3-ultra-chip-handles-deepseek-r1-model-with-671-billion-parameters/ >>743 671BがQ4とはいえ12t/sかよ ずげーな Cohere生きっとんたかワレ! でもGPT-4o and DeepSeek-V3相当で Command A|$2.50 / 1M|$10.00 / 1M はちょっと高すぎやな cohereは富士通と協業しとるみたいやから日本語得意なんか? cr+も日本語得意なイメージはあったけども >>746 というより多言語を前から意識してる感 ブログにも120↑言語を学習してアラビア語もイケるで みたいなこと書いとるし LlamaとかMistralあたりの「ジャップ語?すまんワイら英語話者なんでw」なとこと比べてようやっとる印象 ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる