なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ LMスタジオ1年ぶりくらいに更新したらUI変わりすぎててビックリ deepseekのローカル、英語で思考してから日本語に直して答えるの賢いと思うけど
回答を弄って誘導しにくいっすね Qwen 32b、Ollamaで実行するとガイドラインを言い出すのにLM Studioだと全くないな
何かが変なような Mac使ってるニキに聞きたいんだが、どのモデルもMLX変換したほうがパフォーマンスよくなるの? ほとんどの場合mlxのほうが速いね
mlxだとNeural Engine(ANE)とGPUをAppleのライブラリ内でうまく分散させてくれてるらしい。
ただpowermetricsで見てる限りANEは0%だな(笑)
FaceTimeのリアルタイム文字起こしの時はビンビンに上がる
画像から文字を取り出す時にたまにピクリと上がる
ただ変換ミスしているのかggufでは日本語がうまく取り扱えてたのに
mlxだとダメということはあけどたかだか数十個しか試してないから逆もあるかもしれん mlxみたいなOSSからもANE使えるの?
使えないものだと思ってたけど、使えるなら触ってみるか 蒸留版の方のDeepSeek 14B試してみたけど有名な9.11と9.9どっちが大きいのか問題出したらきちんと考えて9.9と解答してたな
確かに賢くはなってる deepseek-Qwen-14B調整しようとしてるんだけど
think /thinkの中身そのものをロールプレイ風に思考させるのは難しそう Open WebUI最新版の0.5.6にしてもThinkingみたいなタグ出てこないんだがどこの設定いじればいいんだ? Ollamaで`ollama run deepseek-r1:14b`して動かしたらターミナル上でだけどちゃんと推論できたわ(いきなり電卓も作らんぞ……!
めちゃくちゃサクサク動くしだいぶ賢いかもしれん
ただSillyTavernで接続したらThinkができないせいか返答がスゴい雑になるな
https://i.imgur.com/Twlzar2.jpeg DeepSeek-R1は何にしろエロ目的だと使いづらいか オナニースレでは流行してるよ
ただしクセが極めて強い やっぱり蒸溜版はそれなりの性能しかない印象
使うなら671Bの本物なんだろうけどおま環で動かないし
本家のサービスは提供主体が信用しきれないのがな…… deepseekは全データを中国に置いて中国の法律で管理します!が怖いからむしろ叡智な目的以外じゃ使いづらいんだよな
ローカル671Bの8ビット量子化なら容量半分くらいになって350GBくらいか・・・
digits3つで動・・・くか?流石に3つとかポンと買えないが >>450
むしろ4つ繋ぎたいが
あれって2つ以上繋げられたっけ? 2つしか繋げられなかったような?
あれそもそも帯域幅もハッキリしてなかったよね あー、俺が調べた時は「2つ繋げばどうのこうのって言う記載があったから2つは繋げるけれども3つ以上はわかんない」みたいな状態だったんだが、2つまでって確定した感じ?
ならすまん・・・ nvlinkでの接続は2台までで確定してるけどLLMの場合Lan経由での接続も可能だし4台買えばR1もローカルで動かせると思う 元のものよくいじってるからこそ強く思うけど、
正直、蒸留版は元の方がR1っぽくなったってイメージ
それでもいいところはいっぱいあるけど、語彙とか展開の作りとかは元のものに相当引っ張られてる印象 R1の破茶滅茶な感じは蒸溜モデルから得られないからそこを期待するとがっかりするよね 英語でやってるとすごか表現力高いのがわかるよ
まあ暴走もしっかりするけどさ
APIだと編集でいじれるのはいいよね いい加減64GBくらいのVRAM積んだGPUが出てくれないとなぁ 3060位の性能でいいからVRAMだけ96GBにして15万円以下で出してくれ digital mateがDeepSeek-R1のthinkタグに対応するの何か月かかるかわからんから
OllamaかLMStudioの間に入ってthinkタグ削るAPI Proxy作ったった(´・ω・`) よわよわgpuにメモリたくさん載せるより
つよつよgpuにメモリたくさん載せたほうが金になるからアル https://huggingface.co/bartowski/deepseek-r1-qwen-2.5-32B-ablated-GGUF
R1 Qwen Abliterated 32B、量子化モデルが出てるね。
16GB環境だと動かしようがなかったけどこれで無規制動作が出来る。 Ollamaって`ollama run hf.co/bartowski/deepseek-r1-qwen-2.5-32B-ablated-GGUF:IQ2_S`みたいにうてばhuggingfaceからモデルもってこれるんやな
コマンドは🤗モデルページのUse this modelのOllamaからコピーできたで metaのllmの部署が「deepseekがキミたちのリーダークラスの給料より低い学習コストで余裕のllama超えしたそうだけど?」と問われる事態に直面してかなりパニクってるらしい
それはそうだな
https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n 現場の問題というよりはmetaの経営方針の問題な気がする
株主からこの投資に見合った結果ってなんなの?と問われた場合metaだけは研究結果の質で答えるハメになるという 低コストな優良LLMがたくさん出てくるきっかけになるのか
それともLLMから撤退する企業が増えるのか…… 32BのIQ2と14BのQ6
どっちが性能的にええの? abliteratedモデル、日本語出力しないケース多いわ 少なくともLLMそのものはビジネスにならないって逃げる企業が増えると思う
中国に勝てない事が鮮明になって来たし
何より中国は官民とも規制が緩くてやりたい放題出来る差もデカ過ぎる
既にゲームにもかなり高度なAI搭載されてるからな 上の方と下の方は残って真ん中が全部死ぬ、みたいなことになりそう
それで何が困るのか? 問われた時に示せる価値もそんなに無いですし >>471
てことはヤン・ルカンなんかは年収10億円なんかな🤔 karakuri-ai/karakuri-lm-32b-thinking-2501-exp
QwQベースのkarakuriか
ggufもあるし帰ったら試すぜ
32bならだれか無規制化できるニキおらんかな? DeepSeekはトレーニングの方法まで細かく公開してるから数カ月後にはこれを真似したLLMが出てくるんじゃないかな DeepSeekはどっかのCloseAIと大違いだな
ユーザーに寛大だし業界の発展にも寄与してる DeepSeekは作り方も全部公開しちゃったから、そういうこと喧伝しながら重要なところは何も出さず、特殊ライセンスで牛耳ろうとしていたMetaの特権を破壊してしまった、という見方もできそう とは言えdeepseekもゼロからじゃ作れなかったわけで ローカルで試してるがデモで見られた規制や優等生的受け答えは見られないな
koboldで試してるが際どい指示でも申し訳されないぞこれw
さすがkarakuriというべきか(`・ω・´) karakuriは規制自体はあるっぽい
環境によってよく分からん挙動をするから、必要な設定がなにかあって、それがないと正しく振る舞わないけど規制も働かないとかかね DeepSeek-R1-Distill-Qwen-32B-Japanese
がhuggingfaceで観測出来るな
量子化モデルがないけど...
thinkも日本語で出来るなら振る舞いを理解するためのモデルとして使えるかも サイバーエージェントならthinking用の日本語データセット作ってそうだし期待できそう
R18は無理だろうけど サイバーエージェントってclamにしろ日本語すら怪しいAIドヤ顔で出してたイメージしか無いけど実力あんの? >>493
ないよ
オープンモデルをいじってるだけ もしかしてエロ小説書かせるのもローカルモデルでやるより一般向けのチャットAI騙して書かせるのが主流なん? どうなんだろ?
ローカルLLMは開始コストが猛烈に高くてゲーミング ゲーミングPCの強めのが既にありますって人しか気軽に出来ないから、割合で言えば商用LLMのひとのほうがずっと多いのでは ローカルでやる理由
・技術的興味
・一般AIの度重なる仕様変更にウンザリしている
・エロ文章をサーバーに送信したくない極度のシャイボーイ
逆にこういう理由が無いなら質も速さも安さも手軽さもローカルを選ぶ理由はないと思う そもそも日本語性能に焦点を当てたLLMを開発できる会社って日本だとサイバーエージェントぐらいしかないんだよなぁ…
合成データにしろthinking用データセットを用意して日本語ファインチューニングしてくれるだけでも感謝するしかない >>500
PFNかあるやん
サイバーエージェントと違ってゼロから開発してるぞ 基礎モデル作ってるのはありがたいけど現状三周遅れくらいしてるから
素直に海外の強いモデルにFTしたのを出してくれる方が一ユーザーとしてはありがたい ゼロから作られてもどうせショボいんだから金と人員の無駄なんだよな
こういうオープンソースをパクって行ってほしい ローカルは完全無規制がザラだから、プロンプトエンジニアリングの沼を避けて通れるのは強みだと思うわ
文章の質は限度があるけどめんどくさくないのがいい
ローカルでも規制あるやつはまぁうん karakuriとかsakana aiとか結果出してる企業がいる中でサイバーエージェントじゃね… まあやってないよりはマシかと
necやNTTみたいなゴミを作ってクローズにしてるよりは ちゃんと公開してくれるだけありがたいわな
DeepSeek-R1-Distill-Qwen-14B/32Bをベースに日本語データで追加学習を行ったLLMを公開いたしました。今後もモデル公開や産学連携を通じて国内の自然言語処理技術の発展に貢献してまいります。
https://x.com/CyberAgent_PR/status/1883783524836413468? Calm3あの時期のモデルの中じゃかなり日本語良かった記憶があるが… ローカル最近触り始めたんやけどキャラAとBの口調を覚えさせて二人に会話させるのって難しいんか?
何度教えても口調が入れ替わったりして完璧に会話してくれへん >>512
全然いけるんでモデルいいの使った方がいい
モデルゲーっす >>512
チャットならsillytavernとかのチャット専用に作られたやつ使うといいよ
小説なら指示の書き方工夫するとかだけどモデル自体がバカなら無理だったりもする R1 qwen 32b jpの量子化版も作ってくれてる人が居るね
試してみよう
>512
silly tavernで2キャラ作って会話させればいける...とか? サイバーエージェントまじでいいわ
日本企業でこの形で公開してくれるとこそうない
お給料発生してるわけで、元とろうとするのが普通やし >>513-515
色々サンガツやsilly tavernってのも調べてみるで
あとモデルはcalm3-22b-RP-v2-Q5_K_M.ggufっていうの使っとるんやけど駄目やったんかな DeepSeekがアメリカ中国でアプリストア1位!とか見たから確認したら71位だったわ 32b jp、いいっすね
Silly Tavern Staging + pixibot weep prompt v4
+ noass extension
の構成でthinkが日本語ですらすら読めるから初心者GMが語ってくれてる感ある やっぱQwenの性格めっちゃ出てる気がする
マグナムさんの方が使いやすい >>519
ワイの知らんワードずらずら言うやん
LLMそこそこ触ってる気してたけど浅かったわ
pixibot……noass……なんて? えーと
Silly Tavern Staging
最新機能のテスト版。β版とかnightly版みたいなもん
Pixibot weep Prompt
https://pixibots.neocities.org/prompts/weep
コレ。DeepSeek R1 ReasonerをSilly Tavernで使うときのプリセットで、一貫性を保つように調整してあるみたい。
noass extension
Weep promptと併用が求められているSTの拡張機能。R1 ReasonerはSystemプロンプトの扱いが特殊なので全てのAPI応答をUserプロンプトとして送信するように強制変更する。 >>517
calm3ならモデルがバカすぎるってことはないと思う
sillytavernでイチコロやね >>522
サンガツ
R1はだいぶ特殊なんやね
SillyTavernでうまく動かんと思ってたけど色々やる必要あるのか >>523
サンガツや!sillytavernっての使ってみるで! Deepseek 日本語追加版って3090で動くかな?
Silly Tavernってネット配信でチャットからの入力には対応してないよね? 初心者なんだけどLightChatAssistantの
iQ4XS と Q4KM ってどういう違いがあるの? >526
出来る
VRAMが24GBあれば32bのQ4_K_L版(ファイルサイズ20GBくらい)がVRAMフルロード出来てそこそこ速度でるかもしれない
4080 16GB環境だとQ4_K_Lは2.2token/s程度だから動作速度がわかると今後の参考になるかも
面倒なのはパスしてとりあえず動かしたいって場合は
>417 >470を参考にして、
ollama run hf.co/bluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf:Q4_K_M
とやるだけでDLして実行してお話をはじめられる >528
生のモデルを量子化して小さくするときの手法の違い
KがついてるのはK quantでベーシックな手法。分かんなかったらコレ
iがついてるのはimatrixで、lora的にサンプルを食わせながら量子化するらしい
何を食わせたのかが大事になるけど、必ずしも書いてなかったりドキュメントの隅にあったりする
ChatGPTくんやPerplexくんのほうが詳しいからそっちに聞くのがオススメ deepseekなら7900xtxでも実用的に使えるのか? deepseekはh100を5万台持ってるんだっけ?
じゃあまたnvdaの株価上がる余地があるってことか >529
サンガツ!ollamaは入れてる!
deepseek r1 2bのQ4_K_L版って出てる?探したけどollama版のQ4 KMしか見つからんかった。。。 MoEモデルの特徴として大規模な通信速度が無くてもパフォーマンスが出るっていうのがある
NVLinkみたいな高速な通信が必要なくなりそう ■ このスレッドは過去ログ倉庫に格納されています