なんJLLM部避難所 ★5

1002コメント315KB

なんJLLM部避難所 ★5

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2024/12/26(木) 13:13:11.15ID:Vhp+tTX0

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/

0665名無しさん＠ピンキー

2025/01/31(金) 21:17:57.70ID:???

>>664
ベースはqwenらしいから
それに準拠しているのでは

0666名無しさん＠ピンキー

2025/01/31(金) 21:20:13.22ID:???

magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある
どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい

0667名無しさん＠ピンキー

2025/01/31(金) 22:19:54.45ID:???

繰り返しの文章を修正させる作業もAIにやらせられたらいいのに

0668名無しさん＠ピンキー

2025/01/31(金) 22:58:48.71ID:???

>>661
自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね
koboldのstorywriterモードでコンテキストは4096でやってます

0669名無しさん＠ピンキー

2025/01/31(金) 23:01:38.87ID:???

あ、すみません
複数の出力でって所がよくわかりませんでした
自分はプロンプト書いて都度追加していくやり方です

0670名無しさん＠ピンキー

2025/02/01(土) 01:29:50.55ID:???

>>659
やはりローカルLLM勢のPCすごい

0671名無しさん＠ピンキー

2025/02/01(土) 01:42:36.49ID:???

量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど
そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…？
ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…？いや気のせいか…？
この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…？

0672名無しさん＠ピンキー

2025/02/01(土) 01:54:07.84ID:???

そら量子化ビット数が大きけりゃ大きいほど性能はいいでしょ

0673名無しさん＠ピンキー

2025/02/01(土) 02:54:46.65ID:???

STでロープレなんだけど
繰り返しもあるし（話が進まない）
勝手にキャラがユーザーを演じたりする。色々弄ったけど駄目だった
どうしたら話を繰り返さずに
勝手に演じられずに済むのか…
オススメの設定教えて下さい…
mugnam v2.5です

0674名無しさん＠ピンキー

2025/02/01(土) 02:57:59.60ID:???

量子化のビットは大きければ大きい程精度が高いがメモリを食う
モデルのパラメータが大きい程性能が高いがメモリを食う

この2つのバランスを考えた結果、自分のパソコンで動く範囲でなるべくパラメータでかいモデルを量子化で小さく圧縮して使うってのが主流
そのへんのバランスが良いのがQ4って設定

0675名無しさん＠ピンキー

2025/02/01(土) 02:59:03.25ID:???

>>667
どうやるの？

0676名無しさん＠ピンキー

2025/02/01(土) 03:03:04.71ID:???

モデルゲーなんでいいモデル使いましょうとしか
magnumならv3でいいモデル出てるんでそっち使った方がいいし

0677名無しさん＠ピンキー

2025/02/01(土) 03:07:04.65ID:???

mugnam12bv3 日本語対応してるモデルある？

0678名無しさん＠ピンキー

2025/02/01(土) 05:32:33.55ID:???

DeepSeekってもしかしてMacじゃないと動かせない？

0679名無しさん＠ピンキー

2025/02/01(土) 05:57:20.48ID:???

そんな事はない
てかあのmacタワーを広めたやつが適当な事言ってるせいで変な認識してるやつ多いな

0680名無しさん＠ピンキー

2025/02/01(土) 06:20:27.11ID:???

というかQwen 32Bをdeepseek-R1って呼ぶのやめない？
なんで許されてるのかわからん

0681名無しさん＠ピンキー

2025/02/01(土) 07:13:17.62ID:7UV4X2Zi

OllamaのモデルハブでもDistillも含めて全部一緒くたに「R1」表示してたりするしな

0682名無しさん＠ピンキー

2025/02/01(土) 07:39:29.85ID:???

Distillはそっくりさんかモノマネ芸人相当の別人だよな

>>678 そんなこと言ってる人おらんだろ

0683名無しさん＠ピンキー

2025/02/01(土) 07:52:08.84ID:???

R1の凄いところは何か？が人によって分かれてるからR1である、ないになるのでは
deepseek自信も蒸留モデルもR1だよといってるのは、thinkを表示してユーザーに見せることがR1のキモだよという認識があったせいかもね

Reasoning model自体は沢山あり、コストの安さはユーザーには直接関係ない、内部構造ではなくユーザー目線の特徴は何かと言えばthinkが見えいるから調整しやすい、あとかわいい、になるでは

R1と一言で言っても沢山ある、671bなの？70bなの？13bなの？という区別がいいんでないの

0684名無しさん＠ピンキー

2025/02/01(土) 08:02:27.37ID:???

>663
ここらへんの作業、何かツールを使ってやってるものなのかな
管理の手間と手作業が増えていくのがアレなんだよな

骨書き、プロット、詳細と展開していくのは生成関係ない小説書きでも同じだから管理能力があるテキストエディタにAPI接続があれば良さそうなんだけど
VScodeの出番だろうか

0685名無しさん＠ピンキー

2025/02/01(土) 08:36:10.45ID:???

Difyじゃ駄目？

0686名無しさん＠ピンキー

2025/02/01(土) 08:36:19.12ID:???

>>672
そりゃ当然わかってるだろう
性能差はあるんだけどその差は小さくて、だからQ4_K_Mがサイズとのバランスが良い(またはQ5_K_M)
…と言われてたのよ
でも日本語だとその差は存外大きいように感じる、と>>671は言いたいのでは

0687名無しさん＠ピンキー

2025/02/01(土) 08:36:55.46ID:???

>>683
それもなあ、蒸留モデルは「<think>タグでなんかゴチャゴチャ言ってる」ってのを学習しただけでしょ
そりゃまあ自分の出力も参照してるし完全に無意味ではないんだろうけど、本質的にreasoningモデルとは違うよね

0688名無しさん＠ピンキー

2025/02/01(土) 08:50:21.47ID:???

ベンチマークを取るとthinkによって成績が変化してる以上reasoningでないとは言いがたいような
成績はむしろ下がってるから下手な考え状態なわけですが

実用的でないおもちゃだよねとか、ユーザーが言うならともかく企業が乗っかってGroq playgroundでR1を試そう→R1 llama 70bですとかはイラっとするよねとかは分かるけど

0689名無しさん＠ピンキー

2025/02/01(土) 08:51:22.48ID:/GG5cOo+

>>686
母国語だと差がよく分かるってだけではなく？
日本語も英語も全く同じレベルで扱える人が「日本語だと量子化による劣化が激しい」って言うならそうなんだろうけど

0690名無しさん＠ピンキー

2025/02/01(土) 08:54:39.27ID:???

いや劣化が小さいというのは英語圏の人が母国語において言ってることだからね
日本人が言ってるわけじゃない

0691名無しさん＠ピンキー

2025/02/01(土) 09:05:30.78ID:???

でもまあ自分もQ5_K_Mがいちばんバランスがいいんだという思い込みみたいのがあって脳死で選んでるとこがあったから>>671は目から鱗だったわ
今後は比較するようにするわ

0692名無しさん＠ピンキー

2025/02/01(土) 09:16:43.96ID:7UV4X2Zi

>>684
ド文系としてはAI×小説特化のソフトは欲しいなぁとは思う
キャラクターとか相関図みたいなの設定できたりね
プログラミング感は否めないけどVSCODE+Clineでやれば @character.txt とかで参照させつつ依頼できたりするからコピペ地獄からは若干解放されそう
ただCline系はトークン馬鹿食いするのでSonnetとかで1日中やってるとクレジットがしぬ

0693名無しさん＠ピンキー

2025/02/01(土) 09:44:00.18ID:???

TinySwallow-ChatUIのデモを使ってみたけど
TinySwallow-1.5B-Instruct繰り返しが多くてロールプレイには向いてなさそうだな
エロ用語はいくらでも通るんだが

ggufをkoboldで使うとエロ描写はめっちゃ拒否される
設定が間違ってるんだろうけど何がおかしいのかが分からない

0694名無しさん＠ピンキー

2025/02/01(土) 10:07:19.77ID:???

家に使ってないOptane SSDが転がってるの思い出したんだけどもしかしてこれにLLM置いたらSSDよりパフォーマンス出るのか？

0695名無しさん＠ピンキー

2025/02/01(土) 10:15:04.69ID:???

んー、Difyのワークフローでプロットから章の数だけ分岐させて、下順番は手間にせよそれ以降は見てるだけで済むようにする、とかかな
でVSCodeやClineは下準備と管理側で使ってという

楽したいって話のはずが学習コストが積み上がていくやつだな...

0696名無しさん＠ピンキー

2025/02/01(土) 10:15:58.03ID:???

最初の起動が早くなるだけだと思う
そもそもメモリにフルロードして使うものでSSD上で動かしたら憤死する

0697名無しさん＠ピンキー

2025/02/01(土) 10:22:24.87ID:???

帯域よりもレイテンシが重要説あるから、ランダムアクセス速度が律速してるならoptaneでR1 671b 1.58bitを動かせば多少マシになる可能性あるような
2～4token/sまでたどり着けば寝てる間に投げておく使い方は実用になるかもしれない

0698名無しさん＠ピンキー

2025/02/01(土) 12:53:23.77ID:xJv68Fx9

optane復活とか言う胸熱展開ワンチャンあるんか？あの鳴り物入りで登場して何の成果も残せず消えていったOptaneくんが……
118GBのカードが激安で売られとるし、これで高速化実現できたらみんなハッピーやで

0699名無しさん＠ピンキー

2025/02/01(土) 13:14:49.03ID:???

nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
すげぇ
生徒会恋愛問題lv2まで正解してるやん

0700名無しさん＠ピンキー

2025/02/01(土) 15:15:45.80ID:???

32B超えたあたりから表現の幅が急に広がるからその辺がサクサク動くスペックが欲しくなるね
サブスクでも良いけど

0701名無しさん＠ピンキー

2025/02/01(土) 15:21:47.31ID:???

やっぱnvidiaがVRAM配るか他社がぶっ壊してくれないとキツいなー

0702名無しさん＠ピンキー

2025/02/01(土) 15:29:27.34ID:???

VRAM24GBで収めようとしたら32Bの量子化ってどの辺りが限界？

0703名無しさん＠ピンキー

2025/02/01(土) 15:41:31.07ID:???

LM studioの検索から探して量子化モデル一覧を見ると、VRAMに入る、メモリにはなんとか入る、チャレンジングの三種に分けて表示してくれるよ

0704名無しさん＠ピンキー

2025/02/01(土) 16:09:09.47ID:???

DeepSeek-R1-Qwen-32Bはllama.cppでいいんですよね？読み込みに失敗するなんでだろう

0705名無しさん＠ピンキー

2025/02/01(土) 16:33:20.30ID:???

出てくる表示を全部ChatGPTくんに貼りつければ原因究明してくれるよ
あるいは素直にLM Studioやollamaを使う

0706名無しさん＠ピンキー

2025/02/01(土) 17:06:35.90ID:???

（公式DeepSeekもう殺到しすぎてアカン）
OpenRouterみたらもう9つぐらいLLMプロバイダーがホストしてるな
Thinkingもサポート済みだし避難先として機能するわ

0707名無しさん＠ピンキー

2025/02/01(土) 17:07:47.77ID:???

春節の休暇を返上して働いてるんだろうか

0708名無しさん＠ピンキー

2025/02/01(土) 21:34:27.47ID:???

DeepSeekR1の話題で初めてローカルLLM参入した初心者なんやが
エロ小説書いてもらおうと思ったらnitky/RoguePlanet-DeepSeek-R1-Qwen-32Bが1番おすすめって感じなん？
昨日からbluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japaneseでこんな小説書いてって指示してるんだけどなんかトンチンカンな文章ばっかり返ってくるんだよな…
別にDeepSeekじゃなくて他のやつでもいいんだけども

0709名無しさん＠ピンキー

2025/02/01(土) 21:44:43.09ID:???

>>708
いまのところDeepSeekはオンラインで動くモデルが賢いという話題性が大きい状態で
ローカルモデルはまだ安定してない

とりあえずMistralやMagnumの名前がついたモデルでも使ってみれば少なくとも倫理フィルターがほとんどないLLMは体験できるはず

0710名無しさん＠ピンキー

2025/02/01(土) 21:51:04.70ID:???

現状はMistral Large2 123B系かCommandR+やな
色々試してもこの2つに戻ってくる感じ

0711名無しさん＠ピンキー

2025/02/01(土) 22:04:41.22ID:???

安定してないというか、ローカルLLMはモデルによって得意分野が違う
DeepSeek-R1-Distillは数学やプログラミングが得意
小説は小説が得意なモデルを使った方がいい

0712名無しさん＠ピンキー

2025/02/01(土) 22:19:27.05ID:???

用途に応じたモデル選びも大事だし、指示の仕方もモデルによって微調整しないと期待通りの内容が返ってこないから色々試して触りながら覚えていくしかないね

俺も最近始めて低スペPCで試行錯誤中だけど、オンデマンドに短めのオカズ文章を書かせるだけならBerghof 7BのNSFWとERPが本当に使いやすい
それこそ指示が下手くそでもスケベな日本語話者のツボを押さえた実用的なのを書いてくれる

0713名無しさん＠ピンキー

2025/02/01(土) 22:50:17.77ID:BjXjP0TV

>>712
低スペ向けならBerghofかなりいいよね
エロ抜きでもチャットも執筆もそれなりにこなしてくれる
12Bや無理やり動かした32Bより満足してるわ

0714名無しさん＠ピンキー

2025/02/01(土) 22:58:02.39ID:???

>>708
nicky氏のはまだ試してないけどあの問題解いたのは評価できるわ
これの無規制処理したのでたら期待

0715名無しさん＠ピンキー

2025/02/01(土) 22:58:48.74ID:???

Magnumもピンキリだから色々試すといい
Lumimaid magnumがやっぱ色々安定しててオススメ

ローカルLLMにきてるDeepSeekのR1は、実際はDeepseekじゃなくQwenだのなんだのがメイン
Qwen32B　Deepseek風って感じ
そんでQwenちゃんは日本語あんま強くないし文章も微妙

0716名無しさん＠ピンキー

2025/02/01(土) 23:00:39.56ID:???

berghofの人の新しいのきたな

0717名無しさん＠ピンキー

2025/02/01(土) 23:12:08.34ID:???

ほーんなるほど！ワイは画像生成スレから来たんやが、実写系のモデル使ってアニメキャラの生成しようとしてたようなもんやな
そしたら色んなモデル試してみるわ
今はSDXLならリアス系かnoobの二択って感じやけど、LLMはとりあえずこれ使っとけ的な最強のモデルは無いって感じかな？

0718名無しさん＠ピンキー

2025/02/01(土) 23:15:07.38ID:???

画像で例えるならまだnovelAI1.0がリークされてない世界線でWDでやってるくらいの規模感だから……

0719名無しさん＠ピンキー

2025/02/01(土) 23:24:06.74ID:???

>>717
高性能を求める人は20GBとかVRAMに収まらないサイズのモデルを落として64GBかそれ以上のメモリで動かしてるっぽい
そんでちょっとした設定でも出力内容が大きく変わるから沼っぽい

0720名無しさん＠ピンキー

2025/02/02(日) 01:23:20.02ID:???

エロに限らんけど小説やらせようとどうしてもコンテキスト長がね…

0721名無しさん＠ピンキー

2025/02/02(日) 01:37:30.47ID:???

>>717
生成速度とのトレードオフで何が快適かがマシンスペックと求めてるものにかなりよる
激遅でいいからクオリティ欲しいって人と、レスポンスの速さ大事にしたいって人でまず分かれるし

7Bか12Bあたりがまぁ快適

0722名無しさん＠ピンキー

2025/02/02(日) 02:17:12.87ID:???

俺は設定の理解力が命と思ってるから未だにwizard-LM2使ってるけどおすすめされてるの見たことない、なぜ？
magnum含む他のどのモデルより設定に忠実に文章出力してくれる気がするんだけど…

0723名無しさん＠ピンキー

2025/02/02(日) 03:26:42.98ID:???

EasyNovelAssistantだと出せる小説が
koboldだと記憶喪失意識混濁になっちゃうんだけどの設定項目が大事なんだろう

0724名無しさん＠ピンキー

2025/02/02(日) 05:02:43.75ID:i0zgFcsa

LLMも画像生成もやってるけど、LLMの方がキャラ設定練るのがめちゃくちゃ難易度高いように思える
性能の高いモデルが使えないってのもあるけど

0725名無しさん＠ピンキー

2025/02/02(日) 05:40:18.60ID:???

Redditで話題になってたライティングベンチマーク
英語圏かつSFWのテストなんで日本語のエロ小説だとまた違ってくるだろうな
https://github.com/lechmazur/writing/
https://eqbench.com/creative_writing.html

0726名無しさん＠ピンキー

2025/02/02(日) 06:54:58.31ID:???

berghofの人の新しいのきたな

0727名無しさん＠ピンキー

2025/02/02(日) 08:42:54.37ID:9/IIRzxd

>>725
R1っょぃ
今んとこワイのイメージとしては
文系のDeepSeek 理系のAnthropic Claude 役所窓口公務員のOpenAIって感じや

0728名無しさん＠ピンキー

2025/02/02(日) 09:37:45.27ID:Bp9/wXtR

>>725
興味深いな
🔞MN-12B-Lyra-v1とか、12BでしかもNSFW対応でもこんな上位に食い込むんやな
ネイティブ英語話者は羨ましいわ…

0729名無しさん＠ピンキー

2025/02/02(日) 09:41:09.06ID:???

berghofの人？
新作色々上げてて
どれがいいのか分からん…

0730名無しさん＠ピンキー

2025/02/02(日) 10:05:27.67ID:i0zgFcsa

berghofの人の新作ってこれじゃないの？
https://huggingface.co/Elizezen/SlaughterHouse-exp-nsfw-7B

0731名無しさん＠ピンキー

2025/02/02(日) 11:04:01.60ID:9/IIRzxd

小説プロジェクトでVSCODE+Clineでええのでは?とエアプでレスしたけど
今試してみたらすでにR1対応しててReasoningしながらディレクトリ作成とかしてくれるのを確認したで
こんな感じやな
https://i.imgur.com/RQF1Q4u.jpeg

0732名無しさん＠ピンキー

2025/02/02(日) 11:11:07.31ID:???

俺はゲーム用のグラボじゃコンテキストがキツすぎるから
ログと要約管理してRAG検索できるpython書いてるわ
中身はlangchainでUIはopenwebuiでどうにか動かせてる

0733名無しさん＠ピンキー

2025/02/02(日) 11:18:22.01ID:9/IIRzxd

あとUnslothがhuggingfaceにアップロードしてたDeepSeek-R1-UD-IQ1_SもLlama.cppで一応動かせた
1token/s以下でまぁ実用性はしんでるけど
# ダウンロードして
huggingface-cli download unsloth/DeepSeek-R1-GGUF --repo-type model --local-dir "E:\" --include "DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-*.gguf"
# llama.cppダウンロードして解凍
llama-b4600-bin-win-cuda-cu11.7-x64.zipみたいなの
# マージして(必要ないかも)
llama-gguf-split.exe --merge "E:\DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf" "E:\DeepSeek-R1-UD-IQ1_S.gguf"
# 起動する(port指定とかはなくてもヨシ)
llama-server.exe -m "E:\DeepSeek-R1-UD-IQ1_S.gguf" --host 0.0.0.0 --port 4649
https://i.imgur.com/l2IVclw.jpeg

0734名無しさん＠ピンキー

2025/02/02(日) 11:29:38.48ID:pe5yaq8I

企業でもLLMをゲームのシナリオ執筆に利用する時に構成とストーリー執筆と校正をタスク分けしてるところがあるって見た覚えあるし、精度気にするならそうした方がいいんだろうな

0735名無しさん＠ピンキー

2025/02/02(日) 13:48:23.44ID:PolfQdmN

お、今更やけどoobabooga / text-generation-webui がdeepseek系に対応しとるね。3日前のアップデートで対応してたんかな？

0736名無しさん＠ピンキー

2025/02/02(日) 14:30:17.51ID:???

>>735
大葉をアプデしないといけなかったのか
ありがとう

0737名無しさん＠ピンキー

2025/02/02(日) 16:38:33.48ID:???

>>732
どんな感じにやってるの？もしよければ詳しく教えて

0738名無しさん＠ピンキー

2025/02/02(日) 16:48:17.49ID:???

大葉でDeepseek動いたわ
でも言うこと聞かない
70Bの量子化やってくれんかな

0739名無しさん＠ピンキー

2025/02/02(日) 17:03:58.49ID:???

でも32Bで全然VRAM使わないで、この性能はすごいね
llama3.1より上なのは間違いない

0740名無しさん＠ピンキー

2025/02/02(日) 18:20:53.19ID:???

ollama が楽だからもうそっちでいいかと思ってたけどまだooba使うメリットある？

0741名無しさん＠ピンキー

2025/02/02(日) 20:24:48.93ID:???

Text generation web UIのこと？GUI欲しい人は使うのかな
ワイもローカルで動かす時はollamaだな(最近は大手のAPI使っちゃってるけど)
GUIはテキストエディタとしての編集機能が豊富とかGit連携できるVS Code
自作拡張でLLMのstream mode出力をAIのべりすと風にエディタ内に追記させてる
追記以外に、中間補完・書き換えとかもサポートさせたいなーとか思ってたけど
Clineが割と使い物になりそうだから捨ててそっちに移行しちゃうかも

0742名無しさん＠ピンキー

2025/02/02(日) 21:17:24.87ID:???

nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
Q8_kで恋愛問題解かせたら3000トークンくらい推論した結果見事正解に導いたわ
gpt4超えやがった(๑╹ω╹๑ )

0743名無しさん＠ピンキー

2025/02/02(日) 21:37:54.48ID:???

あと朗報
これ規制ゆるゆるだわw
qwen本家なら100%申し訳される小説プロットをすんなり書いてくれる
nickyさんありがとう(๑>◡<๑)

0744名無しさん＠ピンキー

2025/02/02(日) 21:50:38.74ID:???

>>730
サンガツ！
大葉で入れたが
UIかなり変わっててビビった

0745名無しさん＠ピンキー

2025/02/02(日) 22:53:46.55ID:???

大葉ってなんのこと言ってるのかと思ったらText generation web UIのことかよ
ひどい造語だな

0746名無しさん＠ピンキー

2025/02/02(日) 23:08:15.64ID:x/30vunk

Text Generation WebUIって名前が打つには長いし略しにくいからじゃないの
ChaGPTくんとかはTextGenで分かってくれるけど

0747名無しさん＠ピンキー

2025/02/02(日) 23:16:24.07ID:???

ブラウザ(あるいは専ブラ)のテキストボックスでもLLM補完してくれれば長くても問題ないはず……
あるいはInput MethodがLLM連携するようなのって既出？

0748名無しさん＠ピンキー

2025/02/03(月) 00:38:18.89ID:???

https://i.imgur.com/5eEpEQ0.jpeg
joybod/RoguePlanet-DeepSeek-R1-Qwen-32B-RP-Q4_K_M-GGUF
ちょっと暴走気味だがかなりすごい

0749名無しさん＠ピンキー

2025/02/03(月) 01:12:56.04ID:ZfxRvTiD

言うほどちょっとか？

0750名無しさん＠ピンキー

2025/02/03(月) 01:36:14.31ID:QGh+5M3a

赤ちゃんやけどllma.cppってのでDeepSeek動かせたわ。

32Bのやつは動かないと予想してたんだけど、4070tisでdeepseek-r1-qwen-2.5-32B-ablated-IQ4_XS.ggufが1分くらいで動いた
VRAM1.4GB余ってるからもうちょっとだけ重たいのも動かせるのかな…？

0751名無しさん＠ピンキー

2025/02/03(月) 02:37:48.42ID:csaf3F37

deepseekはすごいけど、何でnvidia株が下がったのか分からんな
openaiやmetaが下がるのは分かるけど

0752名無しさん＠ピンキー

2025/02/03(月) 02:41:22.58ID:???

4070sでも70b動くよ。1.2～1.3T/sしか速度出ないけど。

0753名無しさん＠ピンキー

2025/02/03(月) 02:47:21.70ID:???

>>748
候補にはなりそう
気分で出力変えるから色んなモデル紹介してくれるの助かる

0754名無しさん＠ピンキー

2025/02/03(月) 03:58:56.79ID:???

>>751
学習がcudaに依存してないからみたいな話を聞いたけど

0755名無しさん＠ピンキー

2025/02/03(月) 04:56:45.72ID:???

>>751
DeepSeekが本当に性能良かったとして
開発元の言う通り学習に大量のグラボいらなければこれからのトレンド変わってグラボが売れなくなるかも
嘘ならグラボ禁輸措置がちゃんと守られてないからnvidiaちゃんがお仕置きされるかもしれない

0756名無しさん＠ピンキー

2025/02/03(月) 06:57:07.59ID:???

短期的に下がるか上がるかなら100%下がる、じゃぁ売ろう程度の話じゃないの？

0757名無しさん＠ピンキー

2025/02/03(月) 08:34:42.92ID:???

沢山の人間が利確するタイミングを待ってた所に売る理由が出てきたから殺到しただけで特に大した話では無いよ

0758名無しさん＠ピンキー

2025/02/03(月) 09:07:01.24ID:ODSuqQo8

AMDがもっとAI面で頑張ってくれないと
deepseekみたいに結局nvidiaのグラボ使い続けるしかないんよ
AI性能高くてVRAM多くてサクサク動くAMDのグラボはよ

0759名無しさん＠ピンキー

2025/02/03(月) 09:11:24.62ID:???

AMDはどうせ勝てないと拗ねて手を抜いてた事への罰ゲーム中だからnvidiaがIntelみたいにやらかしたら本気出して弱い物いじめモードになるよ

0760名無しさん＠ピンキー

2025/02/03(月) 09:14:57.53ID:???

そもそも開発は大量のGPUがいらないとは言ってないような...安くできるとしか言ってない

新手法と671bクラスの巨大なモデルがあれば純粋な強化学習だけでトレーニングするだけでいい
=人の手で教える必要がないから安く速く出来るという話じゃないかな

低レベル言語(PTX)まで降りていってHWを直接叩けばより効率的に動かせる
という、そらそうだが天才で変態の奴らにしかできない魔法に近い話とごっちゃになってるような

0761名無しさん＠ピンキー

2025/02/03(月) 11:24:38.42ID:???

>>760
安くできるってのはその巨大モデルを作った時の話では？
蒸留モデルを安く作れてもさほどのインパクトは無いやん

0762名無しさん＠ピンキー

2025/02/03(月) 11:47:06.65ID:???

お前らがインテルを叩くからゲルシンガー辞めさせられたし。。。(´・ω・`)

0763名無しさん＠ピンキー

2025/02/03(月) 12:29:14.30ID:???

>>748
この文書書けるスピードがどれくらいかなんよなあ

0764名無しさん＠ピンキー

2025/02/03(月) 12:38:51.98ID:???

初報の段階では新手法と強化学習だけでOKというやり方を小型モデルにも適用してみたが上手くいかなかった、蒸留させることは出来たという話だったよ

素直に読むなら適切に設計された巨大モデルは強化学習から深い学びを得ることができる
aha moment(分かった！こういうことだな！って言い出す現象)が観測できたよという報告は深い学びをしているぞということ
蒸留うんぬんは小型モデルに直接深い学びをさせることは出来なかったが、学んだ結果を蒸留で移転させることは出来たということ
なのでは

■ このスレッドは過去ログ倉庫に格納されています