なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2024/12/26(木) 13:13:11.15ID:Vhp+tTX0
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/
0699名無しさん@ピンキー2025/02/01(土) 13:14:49.03ID:???
nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
すげぇ
生徒会恋愛問題lv2まで正解してるやん
0700名無しさん@ピンキー2025/02/01(土) 15:15:45.80ID:???
32B超えたあたりから表現の幅が急に広がるからその辺がサクサク動くスペックが欲しくなるね
サブスクでも良いけど
0701名無しさん@ピンキー2025/02/01(土) 15:21:47.31ID:???
やっぱnvidiaがVRAM配るか他社がぶっ壊してくれないとキツいなー
0703名無しさん@ピンキー2025/02/01(土) 15:41:31.07ID:???
LM studioの検索から探して量子化モデル一覧を見ると、VRAMに入る、メモリにはなんとか入る、チャレンジングの三種に分けて表示してくれるよ
0704名無しさん@ピンキー2025/02/01(土) 16:09:09.47ID:???
DeepSeek-R1-Qwen-32Bはllama.cppでいいんですよね?読み込みに失敗するなんでだろう
0705名無しさん@ピンキー2025/02/01(土) 16:33:20.30ID:???
出てくる表示を全部ChatGPTくんに貼りつければ原因究明してくれるよ
あるいは素直にLM Studioやollamaを使う
0706名無しさん@ピンキー2025/02/01(土) 17:06:35.90ID:???
(公式DeepSeekもう殺到しすぎてアカン)
OpenRouterみたらもう9つぐらいLLMプロバイダーがホストしてるな
Thinkingもサポート済みだし避難先として機能するわ
0708名無しさん@ピンキー2025/02/01(土) 21:34:27.47ID:???
DeepSeekR1の話題で初めてローカルLLM参入した初心者なんやが
エロ小説書いてもらおうと思ったらnitky/RoguePlanet-DeepSeek-R1-Qwen-32Bが1番おすすめって感じなん?
昨日からbluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japaneseでこんな小説書いてって指示してるんだけどなんかトンチンカンな文章ばっかり返ってくるんだよな…
別にDeepSeekじゃなくて他のやつでもいいんだけども
0709名無しさん@ピンキー2025/02/01(土) 21:44:43.09ID:???
>>708
いまのところDeepSeekはオンラインで動くモデルが賢いという話題性が大きい状態で
ローカルモデルはまだ安定してない

とりあえずMistralやMagnumの名前がついたモデルでも使ってみれば少なくとも倫理フィルターがほとんどないLLMは体験できるはず
0710名無しさん@ピンキー2025/02/01(土) 21:51:04.70ID:???
現状はMistral Large2 123B系かCommandR+やな
色々試してもこの2つに戻ってくる感じ
0711名無しさん@ピンキー2025/02/01(土) 22:04:41.22ID:???
安定してないというか、ローカルLLMはモデルによって得意分野が違う
DeepSeek-R1-Distillは数学やプログラミングが得意
小説は小説が得意なモデルを使った方がいい
0712名無しさん@ピンキー2025/02/01(土) 22:19:27.05ID:???
用途に応じたモデル選びも大事だし、指示の仕方もモデルによって微調整しないと期待通りの内容が返ってこないから色々試して触りながら覚えていくしかないね

俺も最近始めて低スペPCで試行錯誤中だけど、オンデマンドに短めのオカズ文章を書かせるだけならBerghof 7BのNSFWとERPが本当に使いやすい
それこそ指示が下手くそでもスケベな日本語話者のツボを押さえた実用的なのを書いてくれる
0713名無しさん@ピンキー2025/02/01(土) 22:50:17.77ID:BjXjP0TV
>>712
低スペ向けならBerghofかなりいいよね
エロ抜きでもチャットも執筆もそれなりにこなしてくれる
12Bや無理やり動かした32Bより満足してるわ
0714名無しさん@ピンキー2025/02/01(土) 22:58:02.39ID:???
>>708
nicky氏のはまだ試してないけどあの問題解いたのは評価できるわ
これの無規制処理したのでたら期待
0715名無しさん@ピンキー2025/02/01(土) 22:58:48.74ID:???
Magnumもピンキリだから色々試すといい
Lumimaid magnumがやっぱ色々安定しててオススメ

ローカルLLMにきてるDeepSeekのR1は、実際はDeepseekじゃなくQwenだのなんだのがメイン
Qwen32B Deepseek風って感じ
そんでQwenちゃんは日本語あんま強くないし文章も微妙
0717名無しさん@ピンキー2025/02/01(土) 23:12:08.34ID:???
ほーんなるほど!ワイは画像生成スレから来たんやが、実写系のモデル使ってアニメキャラの生成しようとしてたようなもんやな
そしたら色んなモデル試してみるわ
今はSDXLならリアス系かnoobの二択って感じやけど、LLMはとりあえずこれ使っとけ的な最強のモデルは無いって感じかな?
0718名無しさん@ピンキー2025/02/01(土) 23:15:07.38ID:???
画像で例えるならまだnovelAI1.0がリークされてない世界線でWDでやってるくらいの規模感だから……
0719名無しさん@ピンキー2025/02/01(土) 23:24:06.74ID:???
>>717
高性能を求める人は20GBとかVRAMに収まらないサイズのモデルを落として64GBかそれ以上のメモリで動かしてるっぽい
そんでちょっとした設定でも出力内容が大きく変わるから沼っぽい
0720名無しさん@ピンキー2025/02/02(日) 01:23:20.02ID:???
エロに限らんけど小説やらせようとどうしてもコンテキスト長がね…
0721名無しさん@ピンキー2025/02/02(日) 01:37:30.47ID:???
>>717
生成速度とのトレードオフで何が快適かがマシンスペックと求めてるものにかなりよる
激遅でいいからクオリティ欲しいって人と、レスポンスの速さ大事にしたいって人でまず分かれるし

7Bか12Bあたりがまぁ快適
0722名無しさん@ピンキー2025/02/02(日) 02:17:12.87ID:???
俺は設定の理解力が命と思ってるから未だにwizard-LM2使ってるけどおすすめされてるの見たことない、なぜ?
magnum含む他のどのモデルより設定に忠実に文章出力してくれる気がするんだけど…
0723名無しさん@ピンキー2025/02/02(日) 03:26:42.98ID:???
EasyNovelAssistantだと出せる小説が
koboldだと記憶喪失意識混濁になっちゃうんだけどの設定項目が大事なんだろう
0724名無しさん@ピンキー2025/02/02(日) 05:02:43.75ID:i0zgFcsa
LLMも画像生成もやってるけど、LLMの方がキャラ設定練るのがめちゃくちゃ難易度高いように思える
性能の高いモデルが使えないってのもあるけど
0727名無しさん@ピンキー2025/02/02(日) 08:42:54.37ID:9/IIRzxd
>>725
R1っょぃ
今んとこワイのイメージとしては
文系のDeepSeek 理系のAnthropic Claude 役所窓口公務員のOpenAIって感じや
0728名無しさん@ピンキー2025/02/02(日) 09:37:45.27ID:Bp9/wXtR
>>725
興味深いな
🔞MN-12B-Lyra-v1とか、12BでしかもNSFW対応でもこんな上位に食い込むんやな
ネイティブ英語話者は羨ましいわ…
0731名無しさん@ピンキー2025/02/02(日) 11:04:01.60ID:9/IIRzxd
小説プロジェクトでVSCODE+Clineでええのでは?とエアプでレスしたけど
今試してみたらすでにR1対応しててReasoningしながらディレクトリ作成とかしてくれるのを確認したで
こんな感じやな
https://i.imgur.com/RQF1Q4u.jpeg
0732名無しさん@ピンキー2025/02/02(日) 11:11:07.31ID:???
俺はゲーム用のグラボじゃコンテキストがキツすぎるから
ログと要約管理してRAG検索できるpython書いてるわ
中身はlangchainでUIはopenwebuiでどうにか動かせてる
0733名無しさん@ピンキー2025/02/02(日) 11:18:22.01ID:9/IIRzxd
あとUnslothがhuggingfaceにアップロードしてたDeepSeek-R1-UD-IQ1_SもLlama.cppで一応動かせた
1token/s以下でまぁ実用性はしんでるけど
# ダウンロードして
huggingface-cli download unsloth/DeepSeek-R1-GGUF --repo-type model --local-dir "E:\" --include "DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-*.gguf"
# llama.cppダウンロードして解凍
llama-b4600-bin-win-cuda-cu11.7-x64.zipみたいなの
# マージして(必要ないかも)
llama-gguf-split.exe --merge "E:\DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf" "E:\DeepSeek-R1-UD-IQ1_S.gguf"
# 起動する(port指定とかはなくてもヨシ)
llama-server.exe -m "E:\DeepSeek-R1-UD-IQ1_S.gguf" --host 0.0.0.0 --port 4649
https://i.imgur.com/l2IVclw.jpeg
0734名無しさん@ピンキー2025/02/02(日) 11:29:38.48ID:pe5yaq8I
企業でもLLMをゲームのシナリオ執筆に利用する時に構成とストーリー執筆と校正をタスク分けしてるところがあるって見た覚えあるし、精度気にするならそうした方がいいんだろうな
0735名無しさん@ピンキー2025/02/02(日) 13:48:23.44ID:PolfQdmN
お、今更やけどoobabooga / text-generation-webui がdeepseek系に対応しとるね。3日前のアップデートで対応してたんかな?
0738名無しさん@ピンキー2025/02/02(日) 16:48:17.49ID:???
大葉でDeepseek動いたわ
でも言うこと聞かない
70Bの量子化やってくれんかな
0739名無しさん@ピンキー2025/02/02(日) 17:03:58.49ID:???
でも32Bで全然VRAM使わないで、この性能はすごいね
llama3.1より上なのは間違いない
0740名無しさん@ピンキー2025/02/02(日) 18:20:53.19ID:???
ollama が楽だからもうそっちでいいかと思ってたけどまだooba使うメリットある?
0741名無しさん@ピンキー2025/02/02(日) 20:24:48.93ID:???
Text generation web UIのこと?GUI欲しい人は使うのかな
ワイもローカルで動かす時はollamaだな(最近は大手のAPI使っちゃってるけど)
GUIはテキストエディタとしての編集機能が豊富とかGit連携できるVS Code
自作拡張でLLMのstream mode出力をAIのべりすと風にエディタ内に追記させてる
追記以外に、中間補完・書き換えとかもサポートさせたいなーとか思ってたけど
Clineが割と使い物になりそうだから捨ててそっちに移行しちゃうかも
0742名無しさん@ピンキー2025/02/02(日) 21:17:24.87ID:???
nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
Q8_kで恋愛問題解かせたら3000トークンくらい推論した結果見事正解に導いたわ
gpt4超えやがった(๑╹ω╹๑ )
0743名無しさん@ピンキー2025/02/02(日) 21:37:54.48ID:???
あと朗報
これ規制ゆるゆるだわw
qwen本家なら100%申し訳される小説プロットをすんなり書いてくれる
nickyさんありがとう(๑>◡<๑)
0745名無しさん@ピンキー2025/02/02(日) 22:53:46.55ID:???
大葉ってなんのこと言ってるのかと思ったらText generation web UIのことかよ
ひどい造語だな
0746名無しさん@ピンキー2025/02/02(日) 23:08:15.64ID:x/30vunk
Text Generation WebUIって名前が打つには長いし略しにくいからじゃないの
ChaGPTくんとかはTextGenで分かってくれるけど
0747名無しさん@ピンキー2025/02/02(日) 23:16:24.07ID:???
ブラウザ(あるいは専ブラ)のテキストボックスでもLLM補完してくれれば長くても問題ないはず……
あるいはInput MethodがLLM連携するようなのって既出?
0749名無しさん@ピンキー2025/02/03(月) 01:12:56.04ID:ZfxRvTiD
言うほどちょっとか?
0750名無しさん@ピンキー2025/02/03(月) 01:36:14.31ID:QGh+5M3a
赤ちゃんやけどllma.cppってのでDeepSeek動かせたわ。

32Bのやつは動かないと予想してたんだけど、4070tisでdeepseek-r1-qwen-2.5-32B-ablated-IQ4_XS.ggufが1分くらいで動いた
VRAM1.4GB余ってるからもうちょっとだけ重たいのも動かせるのかな…?
0751名無しさん@ピンキー2025/02/03(月) 02:37:48.42ID:csaf3F37
deepseekはすごいけど、何でnvidia株が下がったのか分からんな
openaiやmetaが下がるのは分かるけど
0753名無しさん@ピンキー2025/02/03(月) 02:47:21.70ID:???
>>748
候補にはなりそう
気分で出力変えるから色んなモデル紹介してくれるの助かる
0755名無しさん@ピンキー2025/02/03(月) 04:56:45.72ID:???
>>751
DeepSeekが本当に性能良かったとして
開発元の言う通り学習に大量のグラボいらなければこれからのトレンド変わってグラボが売れなくなるかも
嘘ならグラボ禁輸措置がちゃんと守られてないからnvidiaちゃんがお仕置きされるかもしれない
0756名無しさん@ピンキー2025/02/03(月) 06:57:07.59ID:???
短期的に下がるか上がるかなら100%下がる、じゃぁ売ろう程度の話じゃないの?
0757名無しさん@ピンキー2025/02/03(月) 08:34:42.92ID:???
沢山の人間が利確するタイミングを待ってた所に売る理由が出てきたから殺到しただけで特に大した話では無いよ
0758名無しさん@ピンキー2025/02/03(月) 09:07:01.24ID:ODSuqQo8
AMDがもっとAI面で頑張ってくれないと
deepseekみたいに結局nvidiaのグラボ使い続けるしかないんよ
AI性能高くてVRAM多くてサクサク動くAMDのグラボはよ
0759名無しさん@ピンキー2025/02/03(月) 09:11:24.62ID:???
AMDはどうせ勝てないと拗ねて手を抜いてた事への罰ゲーム中だからnvidiaがIntelみたいにやらかしたら本気出して弱い物いじめモードになるよ
0760名無しさん@ピンキー2025/02/03(月) 09:14:57.53ID:???
そもそも開発は大量のGPUがいらないとは言ってないような...安くできるとしか言ってない

新手法と671bクラスの巨大なモデルがあれば純粋な強化学習だけでトレーニングするだけでいい
=人の手で教える必要がないから安く速く出来るという話じゃないかな

低レベル言語(PTX)まで降りていってHWを直接叩けばより効率的に動かせる
という、そらそうだが天才で変態の奴らにしかできない魔法に近い話とごっちゃになってるような
0761名無しさん@ピンキー2025/02/03(月) 11:24:38.42ID:???
>>760
安くできるってのはその巨大モデルを作った時の話では?
蒸留モデルを安く作れてもさほどのインパクトは無いやん
0762名無しさん@ピンキー2025/02/03(月) 11:47:06.65ID:???
お前らがインテルを叩くからゲルシンガー辞めさせられたし。。。(´・ω・`)
0764名無しさん@ピンキー2025/02/03(月) 12:38:51.98ID:???
初報の段階では新手法と強化学習だけでOKというやり方を小型モデルにも適用してみたが上手くいかなかった、蒸留させることは出来たという話だったよ

素直に読むなら適切に設計された巨大モデルは強化学習から深い学びを得ることができる
aha moment(分かった!こういうことだな!って言い出す現象)が観測できたよという報告は深い学びをしているぞということ
蒸留うんぬんは小型モデルに直接深い学びをさせることは出来なかったが、学んだ結果を蒸留で移転させることは出来たということ
なのでは
0766名無しさん@ピンキー2025/02/03(月) 15:30:01.99ID:???
DeepSeekの蒸留モデルを頑張ってGPUで動かすより量子化したオリジナルモデルをCPUで動かしたほうがコスパいいかもしれないな
0767名無しさん@ピンキー2025/02/03(月) 16:21:04.07ID:???
PCI-e 5.0直結のMVNe SSDガン積みでDDR5並みの速度を確保するというパワープレイもあるらしい。
ほぼリードオンリーだからSSDの寿命も関係なく、この方向性が最適解になるかもしれん。

https://i.imgur.com/0lyqHVb.jpeg
0768名無しさん@ピンキー2025/02/03(月) 16:53:22.86ID:???
PICE用の拡張M2にボードに4枚刺しなのか
これで4t/sくらい出て丸ごと冷やせる水枕も揃うと面白くなりそう
0770名無しさん@ピンキー2025/02/03(月) 17:28:12.62ID:???
すいません教えて下さい。
LMStudioを使って音声ファイルから文字起こしする方法は有りませんかね?
ターミナル画面はとっつきにくて…
0771名無しさん@ピンキー2025/02/03(月) 17:37:39.61ID:???
>>767
LLMで重要なのってランダムリードの帯域とレイテンシなんかな?
それならZFSでRAID0するのがいいかもしれんな
0772名無しさん@ピンキー2025/02/03(月) 17:46:05.99ID:???
ワークステーション向けだが、RTX 6000 Blackwellは96GBのGDDR7だってさ 安定の100万越えだが
0774名無しさん@ピンキー2025/02/03(月) 17:48:04.31ID:???
>>770
LMstudioっていうか音声もマルチモーダルで対応してるようなLLMはないんじゃない
確かGoogleのAI studioが音声入力出来るから書き起こしてくれそうだけどローカルでやりたいならkotoba-whisperv2使って書き起こすのがベターだと思う
0777名無しさん@ピンキー2025/02/03(月) 17:52:09.14ID:???
32GBの5090が50万円前後なんだし格安じゃんdigits を2つ買えると考えたら悩むけど
0778名無しさん@ピンキー2025/02/03(月) 17:55:55.55ID:???
6000 ada 48GBでmsrp 6800$だしRTX 6000 Blackwellは最低でも9000$は取るから日本だと200万弱だろな 
それでもダイサイズ的にH100より性能出る場面もあるだろうしお買い得なのは間違いない
0780名無しさん@ピンキー2025/02/03(月) 18:03:21.94ID:???
>>763
4090+メモリ64GB環境だけど遊びには実用レベル
Content Length・GPUオフロード等設定にもよるけど10〜20sec/tokは出てる
このチャットではプラグインやキャラ設定ファイル読ませてるので、モデル単体ではこうならない
0781名無しさん@ピンキー2025/02/03(月) 18:03:32.41ID:???
100万以下で売ってるのはアカデミック以外で見たことないな
0784名無しさん@ピンキー2025/02/03(月) 19:27:27.20ID:???
>>737
どこまで書けばいいのかわからないけど
openwebuiで指示を入力したらpipelinesって機能でpython実行あとはほぼpython上でやる
pipelinesは上手くインストール出来なかったからdockerにインストールした
langchainでLMstudioのLLM読み込み、キャラ設定とかのドキュメントテキスト読み込み
SentenceTransformersでドキュメントからRAG構築して入力文から検索
入力と検索結果をLLMに渡して出力してuiで表示、ここまでが普通のLLMとRAGの実装

その後で入力と出力をLLMに渡して短い要約を生成させる
入力・出力・要約を対応させた状態でpython側で保持、必要なら何かしらの形式で保存
次以降は入力・検索結果・前回の出力・全ての要約を渡して生成
全ての要約と今回の入出力を渡して、要約を考慮しつつ今回の入出力を要約って指示する

これでコンテキスト4kでも12kぐらいは生成出来た、渡す要約の量とか工夫して伸ばしたり、逆に要約の質をあげたりで変わると思う
プロンプトとかの毎回渡すのが2kだと要約の残りが2kぐらい、そうだとしたら6kなら12kの2倍ぐらいは行けそう
要約の分は生成時間増えるけど短くしてるからそこまで負担にはならない感じ、LLMがちゃんと要約すればだけど
最終的には要約の要約とか、過去ログのRAG化は必要になるね
0785名無しさん@ピンキー2025/02/03(月) 21:41:50.74ID:???
赤ちゃん質問で恐縮だけど、近所のドフでQuadro RTX5000/16GBが手が出る値段で転がってたんだが、これをRTX3060/12GのPCにぶっさせばLLM用途に限れば28GB相当になるって認識でおk?
123Bとかは無理でもそれなりの恩恵はある感じ?
0786名無しさん@ピンキー2025/02/03(月) 21:49:19.51ID:???
device_map=”auto”にしとけば取り敢えず動くとは思うまぁまぁ遅くなるかもしれないけど
0787名無しさん@ピンキー2025/02/03(月) 21:53:43.95ID:???
コンテキスト長くできたり音声や画像等の他AIも一緒に起動できるから結構便利よ
速度は大して変わらんけどね
0788名無しさん@ピンキー2025/02/03(月) 22:21:51.97ID:???
>>784
なるほど、結構コンテキスト稼げるんだね
とても参考になったよ、ありがとう

>>785
VRAMに全部乗せられるようになるのが13Bから32B程度にはなるんじゃない
07907852025/02/03(月) 22:44:01.51ID:???
いろいろサンガツ!それなりの恩恵ありそうだから凸ってみるわ!
>>789
「業務用なので簡単な動作確認のみ。ジャンク扱い」物件でオクとかより相当安い感じだし、外観は綺麗だったのでハズレだったらパチで大負けしたとでも思うわw
07917912025/02/04(火) 02:26:40.70ID:oLWfW79u
初カキコ失礼します
海外ではSilly Tavernなどに使うキャラクターカードをDLできるサイトがありますが、日本にはそういったサイトや配布場所はないのでしょうか?
DLもしたいし配布もしたい...
0792名無しさん@ピンキー2025/02/04(火) 02:31:13.43ID:???
俺も昔調べたけれどないよ
普通に英語のカードをDLして日本語化してもいいし、口調だけ日本語にしてもいい
というか、シチュエーション系のカードはむしろ英語の方が指示を理解してくれるからいいまであるぞ
0793名無しさん@ピンキー2025/02/04(火) 03:44:33.39ID:???
「日本語ローカルLLM関連のメモWiki」さんとこに一応キャラクターカード掲示板があるけど、今見てきたらwiki主さんのサンプル1枚と誰かが1枚貼ってたぐらいかな。
逆に言うと今ならそのまま代表的な日本語Hubになりそうだから、妙に分散する前にあそこお借りしてしまっていいとは思うけど
0796名無しさん@ピンキー2025/02/04(火) 09:50:42.34ID:???
TextGenのmodelフォルダでgit cloneしてやればtransformerで動くようになるけど、なにか特殊なことをやろうとしてるモデルに見える
ドキュメントもないし未完成くさい
0797名無しさん@ピンキー2025/02/04(火) 10:44:49.90ID:???
>791
英語版作るのは一瞬で出来るから、Character Tavernあたりに間借りして日本語版と英語版を同時にULしとけばいいのでは
両方ある方が日本語圏のひとも英語圏のひとも嬉しいはず
URLだけ貼ってフィードバックやコミュニケーションを担当する場はあってもよさそう
0798名無しさん@ピンキー2025/02/04(火) 12:38:19.02ID:???
DeePSeekで<think></think>って概要整理みたいの出るの消せないのでしょうか
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況