なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★4 https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ >>664 ベースはqwenらしいから それに準拠しているのでは magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい 繰り返しの文章を修正させる作業もAIにやらせられたらいいのに >>661 自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね koboldのstorywriterモードでコンテキストは4096でやってます あ、すみません 複数の出力でって所がよくわかりませんでした 自分はプロンプト書いて都度追加していくやり方です 量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…? ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…?いや気のせいか…? この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…? そら量子化ビット数が大きけりゃ大きいほど性能はいいでしょ STでロープレなんだけど 繰り返しもあるし(話が進まない) 勝手にキャラがユーザーを演じたりする。色々弄ったけど駄目だった どうしたら話を繰り返さずに 勝手に演じられずに済むのか… オススメの設定教えて下さい… mugnam v2.5です 量子化のビットは大きければ大きい程精度が高いがメモリを食う モデルのパラメータが大きい程性能が高いがメモリを食う この2つのバランスを考えた結果、自分のパソコンで動く範囲でなるべくパラメータでかいモデルを量子化で小さく圧縮して使うってのが主流 そのへんのバランスが良いのがQ4って設定 モデルゲーなんでいいモデル使いましょうとしか magnumならv3でいいモデル出てるんでそっち使った方がいいし mugnam12bv3 日本語対応してるモデルある? DeepSeekってもしかしてMacじゃないと動かせない? そんな事はない てかあのmacタワーを広めたやつが適当な事言ってるせいで変な認識してるやつ多いな というかQwen 32Bをdeepseek-R1って呼ぶのやめない? なんで許されてるのかわからん OllamaのモデルハブでもDistillも含めて全部一緒くたに「R1」表示してたりするしな Distillはそっくりさんかモノマネ芸人相当の別人だよな >>678 そんなこと言ってる人おらんだろ R1の凄いところは何か?が人によって分かれてるからR1である、ないになるのでは deepseek自信も蒸留モデルもR1だよといってるのは、thinkを表示してユーザーに見せることがR1のキモだよという認識があったせいかもね Reasoning model自体は沢山あり、コストの安さはユーザーには直接関係ない、内部構造ではなくユーザー目線の特徴は何かと言えばthinkが見えいるから調整しやすい、あとかわいい、になるでは R1と一言で言っても沢山ある、671bなの?70bなの?13bなの?という区別がいいんでないの >663 ここらへんの作業、何かツールを使ってやってるものなのかな 管理の手間と手作業が増えていくのがアレなんだよな 骨書き、プロット、詳細と展開していくのは生成関係ない小説書きでも同じだから管理能力があるテキストエディタにAPI接続があれば良さそうなんだけど VScodeの出番だろうか >>672 そりゃ当然わかってるだろう 性能差はあるんだけどその差は小さくて、だからQ4_K_Mがサイズとのバランスが良い(またはQ5_K_M) …と言われてたのよ でも日本語だとその差は存外大きいように感じる、と>>671 は言いたいのでは >>683 それもなあ、蒸留モデルは「<think>タグでなんかゴチャゴチャ言ってる」ってのを学習しただけでしょ そりゃまあ自分の出力も参照してるし完全に無意味ではないんだろうけど、本質的にreasoningモデルとは違うよね ベンチマークを取るとthinkによって成績が変化してる以上reasoningでないとは言いがたいような 成績はむしろ下がってるから下手な考え状態なわけですが 実用的でないおもちゃだよねとか、ユーザーが言うならともかく企業が乗っかってGroq playgroundでR1を試そう→R1 llama 70bですとかはイラっとするよねとかは分かるけど >>686 母国語だと差がよく分かるってだけではなく? 日本語も英語も全く同じレベルで扱える人が「日本語だと量子化による劣化が激しい」って言うならそうなんだろうけど いや劣化が小さいというのは英語圏の人が母国語において言ってることだからね 日本人が言ってるわけじゃない でもまあ自分もQ5_K_Mがいちばんバランスがいいんだという思い込みみたいのがあって脳死で選んでるとこがあったから>>671 は目から鱗だったわ 今後は比較するようにするわ >>684 ド文系としてはAI×小説特化のソフトは欲しいなぁとは思う キャラクターとか相関図みたいなの設定できたりね プログラミング感は否めないけどVSCODE+Clineで やれば @character.txt とかで参照させつつ依頼できたりするからコピペ地獄からは若干解放されそう ただCline系はトークン馬鹿食いするのでSonnetとかで1日中やってるとクレジットがしぬ TinySwallow-ChatUIのデモを使ってみたけど TinySwallow-1.5B-Instruct繰り返しが多くてロールプレイには向いてなさそうだな エロ用語はいくらでも通るんだが ggufをkoboldで使うとエロ描写はめっちゃ拒否される 設定が間違ってるんだろうけど何がおかしいのかが分からない 家に使ってないOptane SSDが転がってるの思い出したんだけどもしかしてこれにLLM置いたらSSDよりパフォーマンス出るのか? んー、Difyのワークフローでプロットから章の数だけ分岐させて、下順番は手間にせよそれ以降は見てるだけで済むようにする、とかかな でVSCodeやClineは下準備と管理側で使ってという 楽したいって話のはずが学習コストが積み上がていくやつだな... 最初の起動が早くなるだけだと思う そもそもメモリにフルロードして使うものでSSD上で動かしたら憤死する 帯域よりもレイテンシが重要説あるから、ランダムアクセス速度が律速してるならoptaneでR1 671b 1.58bitを動かせば多少マシになる可能性あるような 2〜4token/sまでたどり着けば寝てる間に投げておく使い方は実用になるかもしれない optane復活とか言う胸熱展開ワンチャンあるんか?あの鳴り物入りで登場して何の成果も残せず消えていったOptaneくんが…… 118GBのカードが激安で売られとるし、これで高速化実現できたらみんなハッピーやで nitky/RoguePlanet-DeepSeek-R1-Qwen-32B すげぇ 生徒会恋愛問題lv2まで正解してるやん 32B超えたあたりから表現の幅が急に広がるからその辺がサクサク動くスペックが欲しくなるね サブスクでも良いけど やっぱnvidiaがVRAM配るか他社がぶっ壊してくれないとキツいなー VRAM24GBで収めようとしたら32Bの量子化ってどの辺りが限界? LM studioの検索から探して量子化モデル一覧を見ると、VRAMに入る、メモリにはなんとか入る、チャレンジングの三種に分けて表示してくれるよ DeepSeek-R1-Qwen-32Bはllama.cppでいいんですよね?読み込みに失敗するなんでだろう 出てくる表示を全部ChatGPTくんに貼りつければ原因究明してくれるよ あるいは素直にLM Studioやollamaを使う (公式DeepSeekもう殺到しすぎてアカン) OpenRouterみたらもう9つぐらいLLMプロバイダーがホストしてるな Thinkingもサポート済みだし避難先として機能するわ DeepSeekR1の話題で初めてローカルLLM参入した初心者なんやが エロ小説書いてもらおうと思ったらnitky/RoguePlanet-DeepSeek-R1-Qwen-32Bが1番おすすめって感じなん? 昨日からbluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japaneseでこんな小説書いてって指示してるんだけどなんかトンチンカンな文章ばっかり返ってくるんだよな… 別にDeepSeekじゃなくて他のやつでもいいんだけども >>708 いまのところDeepSeekはオンラインで動くモデルが賢いという話題性が大きい状態で ローカルモデルはまだ安定してない とりあえずMistralやMagnumの名前がついたモデルでも使ってみれば少なくとも倫理フィルターがほとんどないLLMは体験できるはず 現状はMistral Large2 123B系かCommandR+やな 色々試してもこの2つに戻ってくる感じ 安定してないというか、ローカルLLMはモデルによって得意分野が違う DeepSeek-R1-Distillは数学やプログラミングが得意 小説は小説が得意なモデルを使った方がいい 用途に応じたモデル選びも大事だし、指示の仕方もモデルによって微調整しないと期待通りの内容が返ってこないから色々試して触りながら覚えていくしかないね 俺も最近始めて低スペPCで試行錯誤中だけど、オンデマンドに短めのオカズ文章を書かせるだけならBerghof 7BのNSFWとERPが本当に使いやすい それこそ指示が下手くそでもスケベな日本語話者のツボを押さえた実用的なのを書いてくれる >>712 低スペ向けならBerghofかなりいいよね エロ抜きでもチャットも執筆もそれなりにこなしてくれる 12Bや無理やり動かした32Bより満足してるわ >>708 nicky氏のはまだ試してないけどあの問題解いたのは評価できるわ これの無規制処理したのでたら期待 Magnumもピンキリだから色々試すといい Lumimaid magnumがやっぱ色々安定しててオススメ ローカルLLMにきてるDeepSeekのR1は、実際はDeepseekじゃなくQwenだのなんだのがメイン Qwen32B Deepseek風って感じ そんでQwenちゃんは日本語あんま強くないし文章も微妙 ほーんなるほど!ワイは画像生成スレから来たんやが、実写系のモデル使ってアニメキャラの生成しようとしてたようなもんやな そしたら色んなモデル試してみるわ 今はSDXLならリアス系かnoobの二択って感じやけど、LLMはとりあえずこれ使っとけ的な最強のモデルは無いって感じかな? 画像で例えるならまだnovelAI1.0がリークされてない世界線でWDでやってるくらいの規模感だから…… >>717 高性能を求める人は20GBとかVRAMに収まらないサイズのモデルを落として64GBかそれ以上のメモリで動かしてるっぽい そんでちょっとした設定でも出力内容が大きく変わるから沼っぽい エロに限らんけど小説やらせようとどうしてもコンテキスト長がね… >>717 生成速度とのトレードオフで何が快適かがマシンスペックと求めてるものにかなりよる 激遅でいいからクオリティ欲しいって人と、レスポンスの速さ大事にしたいって人でまず分かれるし 7Bか12Bあたりがまぁ快適 俺は設定の理解力が命と思ってるから未だにwizard-LM2使ってるけどおすすめされてるの見たことない、なぜ? magnum含む他のどのモデルより設定に忠実に文章出力してくれる気がするんだけど… EasyNovelAssistantだと出せる小説が koboldだと記憶喪失意識混濁になっちゃうんだけどの設定項目が大事なんだろう LLMも画像生成もやってるけど、LLMの方がキャラ設定練るのがめちゃくちゃ難易度高いように思える 性能の高いモデルが使えないってのもあるけど >>725 R1っょぃ 今んとこワイのイメージとしては 文系のDeepSeek 理系のAnthropic Claude 役所窓口公務員のOpenAIって感じや >>725 興味深いな 🔞MN-12B-Lyra-v1とか、12BでしかもNSFW対応でもこんな上位に食い込むんやな ネイティブ英語話者は羨ましいわ… berghofの人? 新作色々上げてて どれがいいのか分からん… 小説プロジェクトでVSCODE+Clineでええのでは?とエアプでレスしたけど 今試してみたらすでにR1対応しててReasoningしながらディレクトリ作成とかしてくれるのを確認したで こんな感じやな https://i.imgur.com/RQF1Q4u.jpeg 俺はゲーム用のグラボじゃコンテキストがキツすぎるから ログと要約管理してRAG検索できるpython書いてるわ 中身はlangchainでUIはopenwebuiでどうにか動かせてる あとUnslothがhuggingfaceにアップロードしてたDeepSeek-R1-UD-IQ1_SもLlama.cppで一応動かせた 1token/s以下でまぁ実用性はしんでるけど # ダウンロードして huggingface-cli download unsloth/DeepSeek-R1-GGUF --repo-type model --local-dir "E:\" --include "DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-*.gguf" # llama.cppダウンロードして解凍 llama-b4600-bin-win-cuda-cu11.7-x64.zipみたいなの # マージして(必要ないかも) llama-gguf-split.exe --merge "E:\DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf" "E:\DeepSeek-R1-UD-IQ1_S.gguf" # 起動する(port指定とかはなくてもヨシ) llama-server.exe -m "E:\DeepSeek-R1-UD-IQ1_S.gguf" --host 0.0.0.0 --port 4649 https://i.imgur.com/l2IVclw.jpeg 企業でもLLMをゲームのシナリオ執筆に利用する時に構成とストーリー執筆と校正をタスク分けしてるところがあるって見た覚えあるし、精度気にするならそうした方がいいんだろうな お、今更やけどoobabooga / text-generation-webui がdeepseek系に対応しとるね。3日前のアップデートで対応してたんかな? >>735 大葉をアプデしないといけなかったのか ありがとう >>732 どんな感じにやってるの?もしよければ詳しく教えて 大葉でDeepseek動いたわ でも言うこと聞かない 70Bの量子化やってくれんかな でも32Bで全然VRAM使わないで、この性能はすごいね llama3.1より上なのは間違いない ollama が楽だからもうそっちでいいかと思ってたけどまだooba使うメリットある? Text generation web UIのこと?GUI欲しい人は使うのかな ワイもローカルで動かす時はollamaだな(最近は大手のAPI使っちゃってるけど) GUIはテキストエディタとしての編集機能が豊富とかGit連携できるVS Code 自作拡張でLLMのstream mode出力をAIのべりすと風にエディタ内に追記させてる 追記以外に、中間補完・書き換えとかもサポートさせたいなーとか思ってたけど Clineが割と使い物になりそうだから捨ててそっちに移行しちゃうかも nitky/RoguePlanet-DeepSeek-R1-Qwen-32B Q8_kで恋愛問題解かせたら3000トークンくらい推論した結果見事正解に導いたわ gpt4超えやがった(๑╹ω╹๑ ) あと朗報 これ規制ゆるゆるだわw qwen本家なら100%申し訳される小説プロットをすんなり書いてくれる nickyさんありがとう(๑>◡<๑) >>730 サンガツ! 大葉で入れたが UIかなり変わっててビビった 大葉ってなんのこと言ってるのかと思ったらText generation web UIのことかよ ひどい造語だな Text Generation WebUIって名前が打つには長いし略しにくいからじゃないの ChaGPTくんとかはTextGenで分かってくれるけど ブラウザ(あるいは専ブラ)のテキストボックスでもLLM補完してくれれば長くても問題ないはず…… あるいはInput MethodがLLM連携するようなのって既出? https://i.imgur.com/5eEpEQ0.jpeg joybod/RoguePlanet-DeepSeek-R1-Qwen-32B-RP-Q4_K_M-GGUF ちょっと暴走気味だがかなりすごい 赤ちゃんやけどllma.cppってのでDeepSeek動かせたわ。 32Bのやつは動かないと予想してたんだけど、4070tisでdeepseek-r1-qwen-2.5-32B-ablated-IQ4_XS.ggufが1分くらいで動いた VRAM1.4GB余ってるからもうちょっとだけ重たいのも動かせるのかな…? deepseekはすごいけど、何でnvidia株が下がったのか分からんな openaiやmetaが下がるのは分かるけど 4070sでも70b動くよ。1.2〜1.3T/sしか速度出ないけど。 >>748 候補にはなりそう 気分で出力変えるから色んなモデル紹介してくれるの助かる >>751 学習がcudaに依存してないからみたいな話を聞いたけど >>751 DeepSeekが本当に性能良かったとして 開発元の言う通り学習に大量のグラボいらなければこれからのトレンド変わってグラボが売れなくなるかも 嘘ならグラボ禁輸措置がちゃんと守られてないからnvidiaちゃんがお仕置きされるかもしれない 短期的に下がるか上がるかなら100%下がる、じゃぁ売ろう程度の話じゃないの? 沢山の人間が利確するタイミングを待ってた所に売る理由が出てきたから殺到しただけで特に大した話では無いよ AMDがもっとAI面で頑張ってくれないと deepseekみたいに結局nvidiaのグラボ使い続けるしかないんよ AI性能高くてVRAM多くてサクサク動くAMDのグラボはよ AMDはどうせ勝てないと拗ねて手を抜いてた事への罰ゲーム中だからnvidiaがIntelみたいにやらかしたら本気出して弱い物いじめモードになるよ そもそも開発は大量のGPUがいらないとは言ってないような...安くできるとしか言ってない 新手法と671bクラスの巨大なモデルがあれば純粋な強化学習だけでトレーニングするだけでいい =人の手で教える必要がないから安く速く出来るという話じゃないかな 低レベル言語(PTX)まで降りていってHWを直接叩けばより効率的に動かせる という、そらそうだが天才で変態の奴らにしかできない魔法に近い話とごっちゃになってるような >>760 安くできるってのはその巨大モデルを作った時の話では? 蒸留モデルを安く作れてもさほどのインパクトは無いやん お前らがインテルを叩くからゲルシンガー辞めさせられたし。。。(´・ω・`) >>748 この文書書けるスピードがどれくらいかなんよなあ 初報の段階では新手法と強化学習だけでOKというやり方を小型モデルにも適用してみたが上手くいかなかった、蒸留させることは出来たという話だったよ 素直に読むなら適切に設計された巨大モデルは強化学習から深い学びを得ることができる aha moment(分かった!こういうことだな!って言い出す現象)が観測できたよという報告は深い学びをしているぞということ 蒸留うんぬんは小型モデルに直接深い学びをさせることは出来なかったが、学んだ結果を蒸留で移転させることは出来たということ なのでは ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる