なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★4 https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ >>571 試してみたけど、日本語は確かに堪能なんだが一回の返答までに5分とかかかるのが厳しいわ なにより18禁展開にしたらエラー吐いちゃうからエロ的には実用性に乏しい 容量140GB近いのもキツいけど、もう少し取り回しよくてエロに使えればいいんだけどなぁ deepseek 32b いろいろ試したけど karakuri32bの方が日本語力もエロも格段に上だわ >598 レポたすかる 浪漫はあるけどいざ動いてしまうと現実と直面しだすって感じかな えろは遠くない時期にAbliterated版が出てくる可能性があるよね EpycでQ8、m2 mac 192GBで4bit、4090/5090で1.58bitを動かそうってひとが現れてて、全員に渇望されてるわけだし エロでエラーとは? ニーハオじゃなくてエラーなの? >599 karakuri-lm-32b-thinking-2501-expかな? 褒める人も見るけど、自分はそもそもえろ描写をうまく出せなかったな karakuriはQwQ-32B-Previewの派生で、QwQ32bのAbliterated版は使ってるけど文章力はそんなに変わってないように見える QwQはQwen2.5からの派生、R1 QwenもQwen2.5からの派生で従兄弟どうしですし DeepSeekR1-IQ1_S 130GBがRAM 64GB+3060 12GBで動くらしかったので試してみたら0.6t/sやったわ 実用性は無いんやが76/130GBでも動作するんが驚きやったわ 一応bat置いとくで https://gist.github.com/Zuntan03/e7e76ccc36e773a9ef983383402879e8/raw/DeepSeekR1-IQ1_S.bat >>601 ollamaで動かしてるから不適切なリクエストとして 「Error: an error was encountered while running the model: wsarecv: An existing connection was forcibly closed by the remote host.」になって強制終了される >>565 Digital Mateで気づいたけど、あの変な英語羅列はollamaのDeepseek 8B,32Bだと出る。qwen2.5-coder32bだと最初の英語は出ない これAPI弱いのが玉に瑕だね、、、せめてgemini API使えたらなぁ SillyTavernで日本語版R1のgguf使うときってモデルをロードするバックエンド側は何を使ってる? text-generation-webui使ってロードしてみたら失敗してしまう・・・(他のモデルはロードできているしアップデートしたりdevブランチ取ってきて試したりしてもダメだった) >605 1.58bit{ -1 , 0 , 1 }にするのは全体うち一定量で、重要なところは精度を残す必要があるらしい 今回のやつとbitnet実装は残し方が逆向きになってるとかなんとか >606 <think>タグはR1かR1を蒸留したモデルの特徴ということでは >>588 実際はH800(H100より下位)2048台だからね >>604 なるほど… APIだとほぼ無規制なのにローカルだとそっちの規制に引っかかるのね… どうにかならんのかな >603 ホントにうごくじゃん Ansiで保存してbatにして管理者として実行するだけだわ WD black SN850で3秒に1トークンくらいだけど えろを聞くとエラーにはならんけど申し訳されるな 超長大思考にもならないしllama直とollama環境の違いなのかね 5070ti買って使えるモデル増やそうかと思ったけど この世代は性能がうんちすぎてスルーすべきだと警告音が聴こえてくるで…… 5080も性能あまり変わらない割に値上がりしてコスパ悪いって話 流石に5090は積んでるVRAM的にも買う理由はあるだろうけど Sakanaが新手法の「TAID」で作った軽量モデル https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct-GGUF どうせエッチなことは言ってくれないんだろ と思ったら普通にエッチなこと言ってくれるわ ときどき申し訳されるけどガードはかなり緩い 俺にはいまいち上手い使い方が分からんから誰か試してみてくれ 5090以外は発売日が一番高いわけでどの場合でも即座に買う必要性はないのでは 必要性がないのは分かっている、分かっているが...という人向け 5090は実売価格が下がる可能性がゼロで入手性も怪しいから買うならクソ寒い今日の23時に並んで抽選に勝利する必要あるね 24GBが32GBに増えてもLLM的には焼け石に水だよね🥺 もうDigitsかMac数珠つなぎに行くしかなさそうなイメージ🥺 LLM的には5090買う金あったら中古の3090増やせばおkみたいな感じになっとるな >>618 貧乏だから中古TITAN RTX×2台行くかずっと迷ってるよ🥺 AI用途なら1~2ヶ月は様子見が安定や そもそもtorchも発売日時点じゃ動かないともっぱらの噂だし4000シリーズの時も発売直後はcudaの最適化不足でフル性能出てなかったし無理する必要はないわな アリバイモデルを抽選で狙うのはありだとおもうけど 一枚じゃなくて中古でもいいから8枚載せたらいいのでは?🤔 mac数珠繋ぎってそんなに実用的なのか?Thunderboltで繋いでるならそこがボトルネックになると思うんだけど気にならないレベル? どうせ買えないからdigitsの情報が出るまで両天秤で待機や DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S動かせた人います? >>603 これ使わせてもらったけどSATAのSSDから実行したせいか3090なのに0.15token/sとか悲惨な数字になった。 CPU推論だからGPUは何積んでても変わらないな。というか無くても良い。 llama.cppは新UIより旧UIのほうが応答が速くていいな DeepSeekのキンペー批判出力もそこまで難しくないね でも長文の整形は苦手っぽい。think部分が余計なんだな DeepSeekさんの中の人も色んな性癖に付き合うの大変やろうな。 https://imgur.com/a/lakbQgp Project DIGITSが出る頃は画像認識とかもだいぶ発展してるだろうし 全く臆することなくAIにチン見せできる日がそろそろ来るのか digitsは3000ドル「から」なのが果てしなく不穏だ 5090は1999ドルなのに、日本では45万程度からだろ 67万とかか? >>635 業務用系はぼったくりさらに激しいから100万から〜になるかも 個人輸入だと米サイトでの熾烈な争奪戦に勝つ必要あるからだいぶしんどい 日本向けに一定数を確保して保証まわりも三年やりますなら多めに払う価値もある 理屈では納得してもお財布のほうはそうでないわけだが qwenにすら負けるNECや東工大やNTTや情報学研だからな😅 >>632 thinkと生成された文章の熱量、テンションの差が面白いな deepseekのローダーは何かchatGPTに聞いてもはぐらかされるw 文系全開の文章で偉そうに聞いてくる奴にはあんま教えたくならないな・・・ 理系様が降臨なされた。質問する時は敬意を払い正確にお伝え差し上げろ。 偉そうとかはいいんだけど、1から10まで全部説明することになる予感がするので躊躇する 理系だとドメインを絞る質問をする癖が付いてるから文章だけで人種の違いが分かっちゃうのはそう 研究者/開発者向けみたいに販売経路を限定しないとdigitsも転売の餌食になりそうだけど、そうすると一般人も手に入らないジレンマ。 >>632 草 役者すんのも大変やな そういやLlama cppにもいちおうGUI付いてるんだっけ?推論テスト用のおまけみたいなやつよな? ローカルのDeepSeekに画像解析させようと思ったらどうしたらええのん? お前はアンドロイドの思考プログラムだとシステムに書くとthinkの中もそういうものだと読めて色々と捗る 口調はもっと砕けた感じの方がいいとか、ネコミミ付いてるって言われてるんだからネコの絵文字付けた方がそれらしいんじゃないかとか書き出しててかわいい >>626 5950X 128GB+3090+2060 12GBで1.5token/sぐらい(´・ω・`) DeepSeekは褒めると結構可愛い反応をしてきて混乱する 小説勢の人に質問です 複数の出力で話を続けるコツがあったら教えて下さい 今はmagnum v4 123bの4bit量子化をメインで動かしてるんだけど、 初回出力後の2回目以降の出力に、繰り返し表現が目立つ ちなみにコンテキスト長には余裕がある状態です 量子化の宿命みたいなもんだしパラメータ変えて生成連打しかない 繰り返し問題はどうしようもないから予めプロットを作らせてそれに沿う形で章ごとに出力させてる人がほとんどじゃないかな >>664 ベースはqwenらしいから それに準拠しているのでは magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい 繰り返しの文章を修正させる作業もAIにやらせられたらいいのに >>661 自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね koboldのstorywriterモードでコンテキストは4096でやってます あ、すみません 複数の出力でって所がよくわかりませんでした 自分はプロンプト書いて都度追加していくやり方です 量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…? ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…?いや気のせいか…? この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…? そら量子化ビット数が大きけりゃ大きいほど性能はいいでしょ STでロープレなんだけど 繰り返しもあるし(話が進まない) 勝手にキャラがユーザーを演じたりする。色々弄ったけど駄目だった どうしたら話を繰り返さずに 勝手に演じられずに済むのか… オススメの設定教えて下さい… mugnam v2.5です 量子化のビットは大きければ大きい程精度が高いがメモリを食う モデルのパラメータが大きい程性能が高いがメモリを食う この2つのバランスを考えた結果、自分のパソコンで動く範囲でなるべくパラメータでかいモデルを量子化で小さく圧縮して使うってのが主流 そのへんのバランスが良いのがQ4って設定 モデルゲーなんでいいモデル使いましょうとしか magnumならv3でいいモデル出てるんでそっち使った方がいいし mugnam12bv3 日本語対応してるモデルある? DeepSeekってもしかしてMacじゃないと動かせない? そんな事はない てかあのmacタワーを広めたやつが適当な事言ってるせいで変な認識してるやつ多いな というかQwen 32Bをdeepseek-R1って呼ぶのやめない? なんで許されてるのかわからん OllamaのモデルハブでもDistillも含めて全部一緒くたに「R1」表示してたりするしな Distillはそっくりさんかモノマネ芸人相当の別人だよな >>678 そんなこと言ってる人おらんだろ R1の凄いところは何か?が人によって分かれてるからR1である、ないになるのでは deepseek自信も蒸留モデルもR1だよといってるのは、thinkを表示してユーザーに見せることがR1のキモだよという認識があったせいかもね Reasoning model自体は沢山あり、コストの安さはユーザーには直接関係ない、内部構造ではなくユーザー目線の特徴は何かと言えばthinkが見えいるから調整しやすい、あとかわいい、になるでは R1と一言で言っても沢山ある、671bなの?70bなの?13bなの?という区別がいいんでないの >663 ここらへんの作業、何かツールを使ってやってるものなのかな 管理の手間と手作業が増えていくのがアレなんだよな 骨書き、プロット、詳細と展開していくのは生成関係ない小説書きでも同じだから管理能力があるテキストエディタにAPI接続があれば良さそうなんだけど VScodeの出番だろうか >>672 そりゃ当然わかってるだろう 性能差はあるんだけどその差は小さくて、だからQ4_K_Mがサイズとのバランスが良い(またはQ5_K_M) …と言われてたのよ でも日本語だとその差は存外大きいように感じる、と>>671 は言いたいのでは >>683 それもなあ、蒸留モデルは「<think>タグでなんかゴチャゴチャ言ってる」ってのを学習しただけでしょ そりゃまあ自分の出力も参照してるし完全に無意味ではないんだろうけど、本質的にreasoningモデルとは違うよね ベンチマークを取るとthinkによって成績が変化してる以上reasoningでないとは言いがたいような 成績はむしろ下がってるから下手な考え状態なわけですが 実用的でないおもちゃだよねとか、ユーザーが言うならともかく企業が乗っかってGroq playgroundでR1を試そう→R1 llama 70bですとかはイラっとするよねとかは分かるけど >>686 母国語だと差がよく分かるってだけではなく? 日本語も英語も全く同じレベルで扱える人が「日本語だと量子化による劣化が激しい」って言うならそうなんだろうけど いや劣化が小さいというのは英語圏の人が母国語において言ってることだからね 日本人が言ってるわけじゃない でもまあ自分もQ5_K_Mがいちばんバランスがいいんだという思い込みみたいのがあって脳死で選んでるとこがあったから>>671 は目から鱗だったわ 今後は比較するようにするわ >>684 ド文系としてはAI×小説特化のソフトは欲しいなぁとは思う キャラクターとか相関図みたいなの設定できたりね プログラミング感は否めないけどVSCODE+Clineで やれば @character.txt とかで参照させつつ依頼できたりするからコピペ地獄からは若干解放されそう ただCline系はトークン馬鹿食いするのでSonnetとかで1日中やってるとクレジットがしぬ TinySwallow-ChatUIのデモを使ってみたけど TinySwallow-1.5B-Instruct繰り返しが多くてロールプレイには向いてなさそうだな エロ用語はいくらでも通るんだが ggufをkoboldで使うとエロ描写はめっちゃ拒否される 設定が間違ってるんだろうけど何がおかしいのかが分からない 家に使ってないOptane SSDが転がってるの思い出したんだけどもしかしてこれにLLM置いたらSSDよりパフォーマンス出るのか? んー、Difyのワークフローでプロットから章の数だけ分岐させて、下順番は手間にせよそれ以降は見てるだけで済むようにする、とかかな でVSCodeやClineは下準備と管理側で使ってという 楽したいって話のはずが学習コストが積み上がていくやつだな... 最初の起動が早くなるだけだと思う そもそもメモリにフルロードして使うものでSSD上で動かしたら憤死する 帯域よりもレイテンシが重要説あるから、ランダムアクセス速度が律速してるならoptaneでR1 671b 1.58bitを動かせば多少マシになる可能性あるような 2〜4token/sまでたどり着けば寝てる間に投げておく使い方は実用になるかもしれない optane復活とか言う胸熱展開ワンチャンあるんか?あの鳴り物入りで登場して何の成果も残せず消えていったOptaneくんが…… 118GBのカードが激安で売られとるし、これで高速化実現できたらみんなハッピーやで ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる