なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ 5090以外は発売日が一番高いわけでどの場合でも即座に買う必要性はないのでは
必要性がないのは分かっている、分かっているが...という人向け
5090は実売価格が下がる可能性がゼロで入手性も怪しいから買うならクソ寒い今日の23時に並んで抽選に勝利する必要あるね 24GBが32GBに増えてもLLM的には焼け石に水だよね🥺
もうDigitsかMac数珠つなぎに行くしかなさそうなイメージ🥺 LLM的には5090買う金あったら中古の3090増やせばおkみたいな感じになっとるな >>618
貧乏だから中古TITAN RTX×2台行くかずっと迷ってるよ🥺 AI用途なら1~2ヶ月は様子見が安定や
そもそもtorchも発売日時点じゃ動かないともっぱらの噂だし4000シリーズの時も発売直後はcudaの最適化不足でフル性能出てなかったし無理する必要はないわな
アリバイモデルを抽選で狙うのはありだとおもうけど 一枚じゃなくて中古でもいいから8枚載せたらいいのでは?🤔 mac数珠繋ぎってそんなに実用的なのか?Thunderboltで繋いでるならそこがボトルネックになると思うんだけど気にならないレベル? どうせ買えないからdigitsの情報が出るまで両天秤で待機や DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S動かせた人います? >>603
これ使わせてもらったけどSATAのSSDから実行したせいか3090なのに0.15token/sとか悲惨な数字になった。 CPU推論だからGPUは何積んでても変わらないな。というか無くても良い。 llama.cppは新UIより旧UIのほうが応答が速くていいな
DeepSeekのキンペー批判出力もそこまで難しくないね
でも長文の整形は苦手っぽい。think部分が余計なんだな DeepSeekさんの中の人も色んな性癖に付き合うの大変やろうな。
https://imgur.com/a/lakbQgp Project DIGITSが出る頃は画像認識とかもだいぶ発展してるだろうし
全く臆することなくAIにチン見せできる日がそろそろ来るのか digitsは3000ドル「から」なのが果てしなく不穏だ 5090は1999ドルなのに、日本では45万程度からだろ
67万とかか? >>635
業務用系はぼったくりさらに激しいから100万から〜になるかも 個人輸入だと米サイトでの熾烈な争奪戦に勝つ必要あるからだいぶしんどい
日本向けに一定数を確保して保証まわりも三年やりますなら多めに払う価値もある
理屈では納得してもお財布のほうはそうでないわけだが qwenにすら負けるNECや東工大やNTTや情報学研だからな😅 >>632
thinkと生成された文章の熱量、テンションの差が面白いな deepseekのローダーは何かchatGPTに聞いてもはぐらかされるw 文系全開の文章で偉そうに聞いてくる奴にはあんま教えたくならないな・・・ 理系様が降臨なされた。質問する時は敬意を払い正確にお伝え差し上げろ。 偉そうとかはいいんだけど、1から10まで全部説明することになる予感がするので躊躇する 理系だとドメインを絞る質問をする癖が付いてるから文章だけで人種の違いが分かっちゃうのはそう 研究者/開発者向けみたいに販売経路を限定しないとdigitsも転売の餌食になりそうだけど、そうすると一般人も手に入らないジレンマ。 >>632
草
役者すんのも大変やな
そういやLlama cppにもいちおうGUI付いてるんだっけ?推論テスト用のおまけみたいなやつよな? ローカルのDeepSeekに画像解析させようと思ったらどうしたらええのん? お前はアンドロイドの思考プログラムだとシステムに書くとthinkの中もそういうものだと読めて色々と捗る
口調はもっと砕けた感じの方がいいとか、ネコミミ付いてるって言われてるんだからネコの絵文字付けた方がそれらしいんじゃないかとか書き出しててかわいい >>626
5950X 128GB+3090+2060 12GBで1.5token/sぐらい(´・ω・`) DeepSeekは褒めると結構可愛い反応をしてきて混乱する 小説勢の人に質問です
複数の出力で話を続けるコツがあったら教えて下さい
今はmagnum v4 123bの4bit量子化をメインで動かしてるんだけど、
初回出力後の2回目以降の出力に、繰り返し表現が目立つ
ちなみにコンテキスト長には余裕がある状態です 量子化の宿命みたいなもんだしパラメータ変えて生成連打しかない 繰り返し問題はどうしようもないから予めプロットを作らせてそれに沿う形で章ごとに出力させてる人がほとんどじゃないかな >>664
ベースはqwenらしいから
それに準拠しているのでは magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある
どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい 繰り返しの文章を修正させる作業もAIにやらせられたらいいのに >>661
自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね
koboldのstorywriterモードでコンテキストは4096でやってます あ、すみません
複数の出力でって所がよくわかりませんでした
自分はプロンプト書いて都度追加していくやり方です 量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど
そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…?
ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…?いや気のせいか…?
この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…? そら量子化ビット数が大きけりゃ大きいほど性能はいいでしょ STでロープレなんだけど
繰り返しもあるし(話が進まない)
勝手にキャラがユーザーを演じたりする。色々弄ったけど駄目だった
どうしたら話を繰り返さずに
勝手に演じられずに済むのか…
オススメの設定教えて下さい…
mugnam v2.5です 量子化のビットは大きければ大きい程精度が高いがメモリを食う
モデルのパラメータが大きい程性能が高いがメモリを食う
この2つのバランスを考えた結果、自分のパソコンで動く範囲でなるべくパラメータでかいモデルを量子化で小さく圧縮して使うってのが主流
そのへんのバランスが良いのがQ4って設定 モデルゲーなんでいいモデル使いましょうとしか
magnumならv3でいいモデル出てるんでそっち使った方がいいし mugnam12bv3 日本語対応してるモデルある? DeepSeekってもしかしてMacじゃないと動かせない? そんな事はない
てかあのmacタワーを広めたやつが適当な事言ってるせいで変な認識してるやつ多いな というかQwen 32Bをdeepseek-R1って呼ぶのやめない?
なんで許されてるのかわからん OllamaのモデルハブでもDistillも含めて全部一緒くたに「R1」表示してたりするしな Distillはそっくりさんかモノマネ芸人相当の別人だよな
>>678 そんなこと言ってる人おらんだろ R1の凄いところは何か?が人によって分かれてるからR1である、ないになるのでは
deepseek自信も蒸留モデルもR1だよといってるのは、thinkを表示してユーザーに見せることがR1のキモだよという認識があったせいかもね
Reasoning model自体は沢山あり、コストの安さはユーザーには直接関係ない、内部構造ではなくユーザー目線の特徴は何かと言えばthinkが見えいるから調整しやすい、あとかわいい、になるでは
R1と一言で言っても沢山ある、671bなの?70bなの?13bなの?という区別がいいんでないの >663
ここらへんの作業、何かツールを使ってやってるものなのかな
管理の手間と手作業が増えていくのがアレなんだよな
骨書き、プロット、詳細と展開していくのは生成関係ない小説書きでも同じだから管理能力があるテキストエディタにAPI接続があれば良さそうなんだけど
VScodeの出番だろうか >>672
そりゃ当然わかってるだろう
性能差はあるんだけどその差は小さくて、だからQ4_K_Mがサイズとのバランスが良い(またはQ5_K_M)
…と言われてたのよ
でも日本語だとその差は存外大きいように感じる、と>>671は言いたいのでは >>683
それもなあ、蒸留モデルは「<think>タグでなんかゴチャゴチャ言ってる」ってのを学習しただけでしょ
そりゃまあ自分の出力も参照してるし完全に無意味ではないんだろうけど、本質的にreasoningモデルとは違うよね ベンチマークを取るとthinkによって成績が変化してる以上reasoningでないとは言いがたいような
成績はむしろ下がってるから下手な考え状態なわけですが
実用的でないおもちゃだよねとか、ユーザーが言うならともかく企業が乗っかってGroq playgroundでR1を試そう→R1 llama 70bですとかはイラっとするよねとかは分かるけど >>686
母国語だと差がよく分かるってだけではなく?
日本語も英語も全く同じレベルで扱える人が「日本語だと量子化による劣化が激しい」って言うならそうなんだろうけど いや劣化が小さいというのは英語圏の人が母国語において言ってることだからね
日本人が言ってるわけじゃない でもまあ自分もQ5_K_Mがいちばんバランスがいいんだという思い込みみたいのがあって脳死で選んでるとこがあったから>>671は目から鱗だったわ
今後は比較するようにするわ >>684
ド文系としてはAI×小説特化のソフトは欲しいなぁとは思う
キャラクターとか相関図みたいなの設定できたりね
プログラミング感は否めないけどVSCODE+Clineで やれば @character.txt とかで参照させつつ依頼できたりするからコピペ地獄からは若干解放されそう
ただCline系はトークン馬鹿食いするのでSonnetとかで1日中やってるとクレジットがしぬ TinySwallow-ChatUIのデモを使ってみたけど
TinySwallow-1.5B-Instruct繰り返しが多くてロールプレイには向いてなさそうだな
エロ用語はいくらでも通るんだが
ggufをkoboldで使うとエロ描写はめっちゃ拒否される
設定が間違ってるんだろうけど何がおかしいのかが分からない 家に使ってないOptane SSDが転がってるの思い出したんだけどもしかしてこれにLLM置いたらSSDよりパフォーマンス出るのか? んー、Difyのワークフローでプロットから章の数だけ分岐させて、下順番は手間にせよそれ以降は見てるだけで済むようにする、とかかな
でVSCodeやClineは下準備と管理側で使ってという
楽したいって話のはずが学習コストが積み上がていくやつだな... 最初の起動が早くなるだけだと思う
そもそもメモリにフルロードして使うものでSSD上で動かしたら憤死する 帯域よりもレイテンシが重要説あるから、ランダムアクセス速度が律速してるならoptaneでR1 671b 1.58bitを動かせば多少マシになる可能性あるような
2〜4token/sまでたどり着けば寝てる間に投げておく使い方は実用になるかもしれない optane復活とか言う胸熱展開ワンチャンあるんか?あの鳴り物入りで登場して何の成果も残せず消えていったOptaneくんが……
118GBのカードが激安で売られとるし、これで高速化実現できたらみんなハッピーやで nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
すげぇ
生徒会恋愛問題lv2まで正解してるやん 32B超えたあたりから表現の幅が急に広がるからその辺がサクサク動くスペックが欲しくなるね
サブスクでも良いけど やっぱnvidiaがVRAM配るか他社がぶっ壊してくれないとキツいなー VRAM24GBで収めようとしたら32Bの量子化ってどの辺りが限界? LM studioの検索から探して量子化モデル一覧を見ると、VRAMに入る、メモリにはなんとか入る、チャレンジングの三種に分けて表示してくれるよ DeepSeek-R1-Qwen-32Bはllama.cppでいいんですよね?読み込みに失敗するなんでだろう 出てくる表示を全部ChatGPTくんに貼りつければ原因究明してくれるよ
あるいは素直にLM Studioやollamaを使う (公式DeepSeekもう殺到しすぎてアカン)
OpenRouterみたらもう9つぐらいLLMプロバイダーがホストしてるな
Thinkingもサポート済みだし避難先として機能するわ DeepSeekR1の話題で初めてローカルLLM参入した初心者なんやが
エロ小説書いてもらおうと思ったらnitky/RoguePlanet-DeepSeek-R1-Qwen-32Bが1番おすすめって感じなん?
昨日からbluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japaneseでこんな小説書いてって指示してるんだけどなんかトンチンカンな文章ばっかり返ってくるんだよな…
別にDeepSeekじゃなくて他のやつでもいいんだけども >>708
いまのところDeepSeekはオンラインで動くモデルが賢いという話題性が大きい状態で
ローカルモデルはまだ安定してない
とりあえずMistralやMagnumの名前がついたモデルでも使ってみれば少なくとも倫理フィルターがほとんどないLLMは体験できるはず 現状はMistral Large2 123B系かCommandR+やな
色々試してもこの2つに戻ってくる感じ 安定してないというか、ローカルLLMはモデルによって得意分野が違う
DeepSeek-R1-Distillは数学やプログラミングが得意
小説は小説が得意なモデルを使った方がいい 用途に応じたモデル選びも大事だし、指示の仕方もモデルによって微調整しないと期待通りの内容が返ってこないから色々試して触りながら覚えていくしかないね
俺も最近始めて低スペPCで試行錯誤中だけど、オンデマンドに短めのオカズ文章を書かせるだけならBerghof 7BのNSFWとERPが本当に使いやすい
それこそ指示が下手くそでもスケベな日本語話者のツボを押さえた実用的なのを書いてくれる >>712
低スペ向けならBerghofかなりいいよね
エロ抜きでもチャットも執筆もそれなりにこなしてくれる
12Bや無理やり動かした32Bより満足してるわ >>708
nicky氏のはまだ試してないけどあの問題解いたのは評価できるわ
これの無規制処理したのでたら期待 Magnumもピンキリだから色々試すといい
Lumimaid magnumがやっぱ色々安定しててオススメ
ローカルLLMにきてるDeepSeekのR1は、実際はDeepseekじゃなくQwenだのなんだのがメイン
Qwen32B Deepseek風って感じ
そんでQwenちゃんは日本語あんま強くないし文章も微妙 ■ このスレッドは過去ログ倉庫に格納されています