なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★4 https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ ほーんなるほど!ワイは画像生成スレから来たんやが、実写系のモデル使ってアニメキャラの生成しようとしてたようなもんやな そしたら色んなモデル試してみるわ 今はSDXLならリアス系かnoobの二択って感じやけど、LLMはとりあえずこれ使っとけ的な最強のモデルは無いって感じかな? 画像で例えるならまだnovelAI1.0がリークされてない世界線でWDでやってるくらいの規模感だから…… >>717 高性能を求める人は20GBとかVRAMに収まらないサイズのモデルを落として64GBかそれ以上のメモリで動かしてるっぽい そんでちょっとした設定でも出力内容が大きく変わるから沼っぽい エロに限らんけど小説やらせようとどうしてもコンテキスト長がね… >>717 生成速度とのトレードオフで何が快適かがマシンスペックと求めてるものにかなりよる 激遅でいいからクオリティ欲しいって人と、レスポンスの速さ大事にしたいって人でまず分かれるし 7Bか12Bあたりがまぁ快適 俺は設定の理解力が命と思ってるから未だにwizard-LM2使ってるけどおすすめされてるの見たことない、なぜ? magnum含む他のどのモデルより設定に忠実に文章出力してくれる気がするんだけど… EasyNovelAssistantだと出せる小説が koboldだと記憶喪失意識混濁になっちゃうんだけどの設定項目が大事なんだろう LLMも画像生成もやってるけど、LLMの方がキャラ設定練るのがめちゃくちゃ難易度高いように思える 性能の高いモデルが使えないってのもあるけど >>725 R1っょぃ 今んとこワイのイメージとしては 文系のDeepSeek 理系のAnthropic Claude 役所窓口公務員のOpenAIって感じや >>725 興味深いな 🔞MN-12B-Lyra-v1とか、12BでしかもNSFW対応でもこんな上位に食い込むんやな ネイティブ英語話者は羨ましいわ… berghofの人? 新作色々上げてて どれがいいのか分からん… 小説プロジェクトでVSCODE+Clineでええのでは?とエアプでレスしたけど 今試してみたらすでにR1対応しててReasoningしながらディレクトリ作成とかしてくれるのを確認したで こんな感じやな https://i.imgur.com/RQF1Q4u.jpeg 俺はゲーム用のグラボじゃコンテキストがキツすぎるから ログと要約管理してRAG検索できるpython書いてるわ 中身はlangchainでUIはopenwebuiでどうにか動かせてる あとUnslothがhuggingfaceにアップロードしてたDeepSeek-R1-UD-IQ1_SもLlama.cppで一応動かせた 1token/s以下でまぁ実用性はしんでるけど # ダウンロードして huggingface-cli download unsloth/DeepSeek-R1-GGUF --repo-type model --local-dir "E:\" --include "DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-*.gguf" # llama.cppダウンロードして解凍 llama-b4600-bin-win-cuda-cu11.7-x64.zipみたいなの # マージして(必要ないかも) llama-gguf-split.exe --merge "E:\DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf" "E:\DeepSeek-R1-UD-IQ1_S.gguf" # 起動する(port指定とかはなくてもヨシ) llama-server.exe -m "E:\DeepSeek-R1-UD-IQ1_S.gguf" --host 0.0.0.0 --port 4649 https://i.imgur.com/l2IVclw.jpeg 企業でもLLMをゲームのシナリオ執筆に利用する時に構成とストーリー執筆と校正をタスク分けしてるところがあるって見た覚えあるし、精度気にするならそうした方がいいんだろうな お、今更やけどoobabooga / text-generation-webui がdeepseek系に対応しとるね。3日前のアップデートで対応してたんかな? >>735 大葉をアプデしないといけなかったのか ありがとう >>732 どんな感じにやってるの?もしよければ詳しく教えて 大葉でDeepseek動いたわ でも言うこと聞かない 70Bの量子化やってくれんかな でも32Bで全然VRAM使わないで、この性能はすごいね llama3.1より上なのは間違いない ollama が楽だからもうそっちでいいかと思ってたけどまだooba使うメリットある? Text generation web UIのこと?GUI欲しい人は使うのかな ワイもローカルで動かす時はollamaだな(最近は大手のAPI使っちゃってるけど) GUIはテキストエディタとしての編集機能が豊富とかGit連携できるVS Code 自作拡張でLLMのstream mode出力をAIのべりすと風にエディタ内に追記させてる 追記以外に、中間補完・書き換えとかもサポートさせたいなーとか思ってたけど Clineが割と使い物になりそうだから捨ててそっちに移行しちゃうかも nitky/RoguePlanet-DeepSeek-R1-Qwen-32B Q8_kで恋愛問題解かせたら3000トークンくらい推論した結果見事正解に導いたわ gpt4超えやがった(๑╹ω╹๑ ) あと朗報 これ規制ゆるゆるだわw qwen本家なら100%申し訳される小説プロットをすんなり書いてくれる nickyさんありがとう(๑>◡<๑) >>730 サンガツ! 大葉で入れたが UIかなり変わっててビビった 大葉ってなんのこと言ってるのかと思ったらText generation web UIのことかよ ひどい造語だな Text Generation WebUIって名前が打つには長いし略しにくいからじゃないの ChaGPTくんとかはTextGenで分かってくれるけど ブラウザ(あるいは専ブラ)のテキストボックスでもLLM補完してくれれば長くても問題ないはず…… あるいはInput MethodがLLM連携するようなのって既出? https://i.imgur.com/5eEpEQ0.jpeg joybod/RoguePlanet-DeepSeek-R1-Qwen-32B-RP-Q4_K_M-GGUF ちょっと暴走気味だがかなりすごい 赤ちゃんやけどllma.cppってのでDeepSeek動かせたわ。 32Bのやつは動かないと予想してたんだけど、4070tisでdeepseek-r1-qwen-2.5-32B-ablated-IQ4_XS.ggufが1分くらいで動いた VRAM1.4GB余ってるからもうちょっとだけ重たいのも動かせるのかな…? deepseekはすごいけど、何でnvidia株が下がったのか分からんな openaiやmetaが下がるのは分かるけど 4070sでも70b動くよ。1.2〜1.3T/sしか速度出ないけど。 >>748 候補にはなりそう 気分で出力変えるから色んなモデル紹介してくれるの助かる >>751 学習がcudaに依存してないからみたいな話を聞いたけど >>751 DeepSeekが本当に性能良かったとして 開発元の言う通り学習に大量のグラボいらなければこれからのトレンド変わってグラボが売れなくなるかも 嘘ならグラボ禁輸措置がちゃんと守られてないからnvidiaちゃんがお仕置きされるかもしれない 短期的に下がるか上がるかなら100%下がる、じゃぁ売ろう程度の話じゃないの? 沢山の人間が利確するタイミングを待ってた所に売る理由が出てきたから殺到しただけで特に大した話では無いよ AMDがもっとAI面で頑張ってくれないと deepseekみたいに結局nvidiaのグラボ使い続けるしかないんよ AI性能高くてVRAM多くてサクサク動くAMDのグラボはよ AMDはどうせ勝てないと拗ねて手を抜いてた事への罰ゲーム中だからnvidiaがIntelみたいにやらかしたら本気出して弱い物いじめモードになるよ そもそも開発は大量のGPUがいらないとは言ってないような...安くできるとしか言ってない 新手法と671bクラスの巨大なモデルがあれば純粋な強化学習だけでトレーニングするだけでいい =人の手で教える必要がないから安く速く出来るという話じゃないかな 低レベル言語(PTX)まで降りていってHWを直接叩けばより効率的に動かせる という、そらそうだが天才で変態の奴らにしかできない魔法に近い話とごっちゃになってるような >>760 安くできるってのはその巨大モデルを作った時の話では? 蒸留モデルを安く作れてもさほどのインパクトは無いやん お前らがインテルを叩くからゲルシンガー辞めさせられたし。。。(´・ω・`) >>748 この文書書けるスピードがどれくらいかなんよなあ 初報の段階では新手法と強化学習だけでOKというやり方を小型モデルにも適用してみたが上手くいかなかった、蒸留させることは出来たという話だったよ 素直に読むなら適切に設計された巨大モデルは強化学習から深い学びを得ることができる aha moment(分かった!こういうことだな!って言い出す現象)が観測できたよという報告は深い学びをしているぞということ 蒸留うんぬんは小型モデルに直接深い学びをさせることは出来なかったが、学んだ結果を蒸留で移転させることは出来たということ なのでは DeepSeekの蒸留モデルを頑張ってGPUで動かすより量子化したオリジナルモデルをCPUで動かしたほうがコスパいいかもしれないな PCI-e 5.0直結のMVNe SSDガン積みでDDR5並みの速度を確保するというパワープレイもあるらしい。 ほぼリードオンリーだからSSDの寿命も関係なく、この方向性が最適解になるかもしれん。 https://i.imgur.com/0lyqHVb.jpeg PICE用の拡張M2にボードに4枚刺しなのか これで4t/sくらい出て丸ごと冷やせる水枕も揃うと面白くなりそう >>766 コスパはともかくbitnetは劣化激しすぎる気がする すいません教えて下さい。 LMStudioを使って音声ファイルから文字起こしする方法は有りませんかね? ターミナル画面はとっつきにくて… >>767 LLMで重要なのってランダムリードの帯域とレイテンシなんかな? それならZFSでRAID0するのがいいかもしれんな ワークステーション向けだが、RTX 6000 Blackwellは96GBのGDDR7だってさ 安定の100万越えだが >>770 LMstudioっていうか音声もマルチモーダルで対応してるようなLLMはないんじゃない 確かGoogleのAI studioが音声入力出来るから書き起こしてくれそうだけどローカルでやりたいならkotoba-whisperv2使って書き起こすのがベターだと思う むしろ96gbの帯域1.8Tで100万なら格安やろ(感覚麻痺) 32GBの5090が50万円前後なんだし格安じゃんdigits を2つ買えると考えたら悩むけど 6000 ada 48GBでmsrp 6800$だしRTX 6000 Blackwellは最低でも9000$は取るから日本だと200万弱だろな それでもダイサイズ的にH100より性能出る場面もあるだろうしお買い得なのは間違いない そもそもなんだけど6000adaの時点で今150万くらいしてない? >>763 4090+メモリ64GB環境だけど遊びには実用レベル Content Length・GPUオフロード等設定にもよるけど10〜20sec/tokは出てる このチャットではプラグインやキャラ設定ファイル読ませてるので、モデル単体ではこうならない 100万以下で売ってるのはアカデミック以外で見たことないな >>737 どこまで書けばいいのかわからないけど openwebuiで指示を入力したらpipelinesって機能でpython実行あとはほぼpython上でやる pipelinesは上手くインストール出来なかったからdockerにインストールした langchainでLMstudioのLLM読み込み、キャラ設定とかのドキュメントテキスト読み込み SentenceTransformersでドキュメントからRAG構築して入力文から検索 入力と検索結果をLLMに渡して出力してuiで表示、ここまでが普通のLLMとRAGの実装 その後で入力と出力をLLMに渡して短い要約を生成させる 入力・出力・要約を対応させた状態でpython側で保持、必要なら何かしらの形式で保存 次以降は入力・検索結果・前回の出力・全ての要約を渡して生成 全ての要約と今回の入出力を渡して、要約を考慮しつつ今回の入出力を要約って指示する これでコンテキスト4kでも12kぐらいは生成出来た、渡す要約の量とか工夫して伸ばしたり、逆に要約の質をあげたりで変わると思う プロンプトとかの毎回渡すのが2kだと要約の残りが2kぐらい、そうだとしたら6kなら12kの2倍ぐらいは行けそう 要約の分は生成時間増えるけど短くしてるからそこまで負担にはならない感じ、LLMがちゃんと要約すればだけど 最終的には要約の要約とか、過去ログのRAG化は必要になるね 赤ちゃん質問で恐縮だけど、近所のドフでQuadro RTX5000/16GBが手が出る値段で転がってたんだが、これをRTX3060/12GのPCにぶっさせばLLM用途に限れば28GB相当になるって認識でおk? 123Bとかは無理でもそれなりの恩恵はある感じ? device_map=”auto”にしとけば取り敢えず動くとは思うまぁまぁ遅くなるかもしれないけど コンテキスト長くできたり音声や画像等の他AIも一緒に起動できるから結構便利よ 速度は大して変わらんけどね >>784 なるほど、結構コンテキスト稼げるんだね とても参考になったよ、ありがとう >>785 VRAMに全部乗せられるようになるのが13Bから32B程度にはなるんじゃない >>785 中古GPU買う時は、おみくじ感覚でハズレても泣かない覚悟でな。 いろいろサンガツ!それなりの恩恵ありそうだから凸ってみるわ! >>789 「業務用なので簡単な動作確認のみ。ジャンク扱い」物件でオクとかより相当安い感じだし、外観は綺麗だったのでハズレだったらパチで大負けしたとでも思うわw 初カキコ失礼します 海外ではSilly Tavernなどに使うキャラクターカードをDLできるサイトがありますが、日本にはそういったサイトや配布場所はないのでしょうか? DLもしたいし配布もしたい... 俺も昔調べたけれどないよ 普通に英語のカードをDLして日本語化してもいいし、口調だけ日本語にしてもいい というか、シチュエーション系のカードはむしろ英語の方が指示を理解してくれるからいいまであるぞ 「日本語ローカルLLM関連のメモWiki」さんとこに一応キャラクターカード掲示板があるけど、今見てきたらwiki主さんのサンプル1枚と誰かが1枚貼ってたぐらいかな。 逆に言うと今ならそのまま代表的な日本語Hubになりそうだから、妙に分散する前にあそこお借りしてしまっていいとは思うけど SlaughterHouse試したいけど量子化されてないんか TextGenのmodelフォルダでgit cloneしてやればtransformerで動くようになるけど、なにか特殊なことをやろうとしてるモデルに見える ドキュメントもないし未完成くさい >791 英語版作るのは一瞬で出来るから、Character Tavernあたりに間借りして日本語版と英語版を同時にULしとけばいいのでは 両方ある方が日本語圏のひとも英語圏のひとも嬉しいはず URLだけ貼ってフィードバックやコミュニケーションを担当する場はあってもよさそう DeePSeekで<think></think>って概要整理みたいの出るの消せないのでしょうか nitky/RoguePlanet-DeepSeek-R1-Qwen-RP-32B RP版はthinkしないからこれを使う手もある 日本語モデル全部マージしてみた、みたいなモデルだからthink無しでも優位点あるかもしれない >796 ごめん、コレもう一回試したら普通に動いた 改めてLumimaid-Magnum-12B-Q4_K_Sを使ってみてるけどすごく良いな 色んな7BモデルのQ6を試してきたけど、ほぼ同サイズなのにそれよりも断然表現力や理解力が高いわ でもLumimaid-Magnum-v4-12Bは何か文章がおかしい気がする 同じ設定じゃダメなのかな deepseekってwindowsで回らんlinux用みたいやけど今動かしとる勢はクラウドのインスタンス使っとるんかな https://lab.wallarm.com/jailbreaking-generative-ai/ DeepSeekのシステムプロンプト出たわね 本当にあってんのか知らんけど APIから生成する場合こういうプロンプト指定しない限りナマのモデル出力になるんかね もしそうだとしたらこの流出プロンプトを指定すればWEB版の挙動と一致させるのに役立つんやろうか?🤔 R1は数学で強化学習してあると言われてて、そのせいか文章の細部に影響されがち てことは、まずは環境を整えて揃えるのが制御しやすさに繋がるかもね 世界で一番分かってる人間が書いたプロンプトなわけだし アハモーメントって あっ・・・とかそれに続く分でも同じことだよな 何かに気づいたタイミングの思考力の強まった部分だけ抽出すれば自ずと賢い答えになる lm studioてのを初めて使ったよ deepseek-r1の量子化を試したけどやたら考えるね😅 研究者のひとの解説だと、V3に数学の問題だけを突っ込んで強化学習させたのがR1zeroとR1 らしい 1. 巨大モデルは解き方を教えなくても数学を解いてのけることがある 2. 数学なら正解か否かを容易に判断できる 2. 正解を出したらその考え方に報酬を与えて使われ易くする のループを回すだけで、自己学習を繰り返してどんどん解決できるようになる(=aha moment)し、なぜか分からんが数学以外も解決出来るようになる、という 論理的思考には数学の力が必要と言われてるけど AIにも同じことが言えるってことなのかな Windows環境でやってるけどLinuxの勉強は必要だと痛感する Linuxの分からないことはLLMが教えてくれるぞ🥴 >>802 Lumimaid-Magnum-v4-12BのGGUF番だと、量子化職人さんの腕でかなり反応変わる印象。 うちではUndi95さんの奴使ってるけど悪くないよ >>803 窓のLMStudioでDeepSeek R1動いてるよ。量子化モデルだから偽物って言われちゃうとごめんだが Project DIGITSって一般販売されるんやろうか 放送大学に入って情報理論も学びながらアカデミック扱いを検討すべきか? 放送大学ってアカデミックなメアド貰えるんか?もらえたらそのまま買えちゃいそうだけど ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる