なんJLLM部避難所 ★5

1002コメント315KB

なんJLLM部避難所 ★5

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2024/12/26(木) 13:13:11.15ID:Vhp+tTX0

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/

0572名無しさん＠ピンキー

2025/01/29(水) 11:47:59.68ID:???

4090で動く(140gbあるのでメインメモリも128以上必要)

0573名無しさん＠ピンキー

2025/01/29(水) 11:53:19.46ID:???

24GBに収まる超絶量子化かと思ったらなにそれぇ😨

0574名無しさん＠ピンキー

2025/01/29(水) 11:53:48.38ID:???

1.58bitは草

0575名無しさん＠ピンキー

2025/01/29(水) 11:55:55.39ID:???

>>565
あっ、言い忘れてたんだけどDeepSeekが落ちてたのでollamaにdeepseek落としてやったんだけど、ollamaだからなのかな？
でももうちょっとdeepseek対応まで様子見してみる！
いいの教えてくれてサンガツ！

0576名無しさん＠ピンキー

2025/01/29(水) 11:56:06.12ID:???

https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/
コレが大元かな。 4090 24GBと48x4の192GB RAM構成でQ2_K_XL動かすとか

0577名無しさん＠ピンキー

2025/01/29(水) 11:57:34.77ID:???

96GBメモリが4万円くらいだから5090と合わせて50万で行ける可能性ある

0578名無しさん＠ピンキー

2025/01/29(水) 12:04:21.30ID:JNtrtRKI

>>529
完全に横からやがサンガツ
32bいじってみたくてもがいとったんや
https://i.imgur.com/qPWG7wh.jpeg
https://i.imgur.com/YPkALeK.jpeg
vram16メインメモリ64でも動いてくれた
えちえちな文章書かせるの楽しみや🥰

0579名無しさん＠ピンキー

2025/01/29(水) 12:58:11.09ID:???

いけんじゃーんってダウンロードしたら、メインメモリ100Gちょっとしかなかったんで動かせなかったわ
残念

0580名無しさん＠ピンキー

2025/01/29(水) 13:09:18.93ID:???

Gigabyte MZ73-LM0(EPYC 2スロのMB)、EPYC 9115 x2, DDR5 768GBのCPU推論構成でフルR1動かして6-8token/s出るらしい。
100万円コースみたいだけど。

0581名無しさん＠ピンキー

2025/01/29(水) 13:44:55.22ID:???

>>580
メモリさえあればCPUでその速度出せるのか
GPU買うよりコスパいいな

0582名無しさん＠ピンキー

2025/01/29(水) 13:50:48.40ID:???

EPYC 9115でその速度出せるのか
Threadripperの上のグレードならもっと速そうだな

0583名無しさん＠ピンキー

2025/01/29(水) 14:30:36.45ID:???

ollamaで試したけどさすがに時間かかるねこれは
テスト　こんにちは　と言っただけでとんでもない長文を吐きながら長考してくれている

0584名無しさん＠ピンキー

2025/01/29(水) 14:46:19.05ID:???

残念なことに長考した内容に引っ張られて『テストメッセージへの適切な対応例：』のリストを出してきて
求めていた挨拶『こんにちは』を返してくれなかった

0585名無しさん＠ピンキー

2025/01/29(水) 15:24:17.52ID:???

オチwww

0586名無しさん＠ピンキー

2025/01/29(水) 15:26:19.82ID:???

ほんまCPU推論で速度出るようなってほしいわ
調子に乗るなよ革ジャン😡

0587名無しさん＠ピンキー

2025/01/29(水) 15:26:29.37ID:???

EPYC 9115って最大メモリ帯域480GB/sか
まあまあええやん

0588名無しさん＠ピンキー

2025/01/29(水) 15:55:01.42ID:???

>>568
5万台でたったのって言われたらソフトバンクの立つ瀬がなくない？
4000台とかでキャッキャとプレス出してるのに

0589名無しさん＠ピンキー

2025/01/29(水) 16:10:08.52ID:???

メモリーバンドだけ太くてもね
CPUコアだけでみたら32個で、x86のベクトル演算器って何個あるんだっけ?
40TOPSくらい出るか?
40TOPSならノートPC(ARM)のNEのほうが速そう

0590名無しさん＠ピンキー

2025/01/29(水) 16:15:59.13ID:???

>>564
キャラ設定が公式と違う脳内同人仕様なのでこれでいいのです

0591名無しさん＠ピンキー

2025/01/29(水) 16:24:48.71ID:???

>>589
AVX2かAVX512が使える
何基積んでるかはCPUによる

0592名無しさん＠ピンキー

2025/01/29(水) 16:36:15.34ID:???

ベンチだけ良いってこと無い？

0593名無しさん＠ピンキー

2025/01/29(水) 16:47:50.24ID:???

webで使えるdeepseekは普通に賢い
ただエロには使えない
攻撃されてるからかapi発行ページが開けない

ローカル用に小さくしたモデルは……微妙

0594名無しさん＠ピンキー

2025/01/29(水) 16:52:33.04ID:???

>>587
2スロットなら2倍だ

0595名無しさん＠ピンキー

2025/01/29(水) 17:08:14.66ID:???

2スロットだとインターリンクが足をひっぱるぞ
1チャンネルあたりせいぜい64GB/sくらいじゃなかったか?
PCIe5よりはずっとマシでネットワークサーバーとしては十分だけどAI用とするには厳しすぎる

0596名無しさん＠ピンキー

2025/01/29(水) 18:10:28.10ID:???

中国のモバゲーのAIが1億人のプレイヤーと日々騙しだまされの駆け引きで訓練してめっちゃ進化してる
そのうちゲームとかVR方面でも今回みたいなショックが起こるのは間違いないと思う

0597名無しさん＠ピンキー

2025/01/29(水) 18:51:17.75ID:???

速度を完全に無視してしまえばR1 fp16 1.5TB
をNVMeに展開して動かすのも可能、って話もあるな

0598名無しさん＠ピンキー

2025/01/29(水) 19:17:43.27ID:???

>>571
試してみたけど、日本語は確かに堪能なんだが一回の返答までに5分とかかかるのが厳しいわ
なにより18禁展開にしたらエラー吐いちゃうからエロ的には実用性に乏しい

容量140GB近いのもキツいけど、もう少し取り回しよくてエロに使えればいいんだけどなぁ

0599名無しさん＠ピンキー

2025/01/29(水) 19:41:07.08ID:???

deepseek 32b いろいろ試したけど
karakuri32bの方が日本語力もエロも格段に上だわ

0600名無しさん＠ピンキー

2025/01/29(水) 20:23:58.28ID:???

>598
レポたすかる
浪漫はあるけどいざ動いてしまうと現実と直面しだすって感じかな

えろは遠くない時期にAbliterated版が出てくる可能性があるよね
EpycでQ8、m2 mac 192GBで4bit、4090/5090で1.58bitを動かそうってひとが現れてて、全員に渇望されてるわけだし

0601名無しさん＠ピンキー

2025/01/29(水) 21:06:09.21ID:???

エロでエラーとは？
ニーハオじゃなくてエラーなの？

0602名無しさん＠ピンキー

2025/01/29(水) 21:31:20.63ID:EMez5p5U

>599
karakuri-lm-32b-thinking-2501-expかな?
褒める人も見るけど、自分はそもそもえろ描写をうまく出せなかったな

karakuriはQwQ-32B-Previewの派生で、QwQ32bのAbliterated版は使ってるけど文章力はそんなに変わってないように見える
QwQはQwen2.5からの派生、R1 QwenもQwen2.5からの派生で従兄弟どうしですし

0603名無しさん＠ピンキー

2025/01/29(水) 22:33:05.76ID:???

DeepSeekR1-IQ1_S 130GBがRAM 64GB+3060 12GBで動くらしかったので試してみたら0.6t/sやったわ
実用性は無いんやが76/130GBでも動作するんが驚きやったわ

一応bat置いとくで
https://gist.github.com/Zuntan03/e7e76ccc36e773a9ef983383402879e8/raw/DeepSeekR1-IQ1_S.bat

0604名無しさん＠ピンキー

2025/01/29(水) 23:14:08.96ID:???

>>601
ollamaで動かしてるから不適切なリクエストとして
「Error: an error was encountered while running the model: wsarecv: An existing connection was forcibly closed by the remote host.」になって強制終了される

0605名無しさん＠ピンキー

2025/01/29(水) 23:31:31.66ID:???

1.58ってbitnetとはちゃうんか？

0606名無しさん＠ピンキー

2025/01/30(木) 01:08:29.05ID:???

>>565
Digital Mateで気づいたけど、あの変な英語羅列はollamaのDeepseek 8B,32Bだと出る。qwen2.5-coder32bだと最初の英語は出ない

これAPI弱いのが玉に瑕だね、、、せめてgemini API使えたらなぁ　

0607名無しさん＠ピンキー

2025/01/30(木) 01:57:47.43ID:???

SillyTavernで日本語版R1のgguf使うときってモデルをロードするバックエンド側は何を使ってる？
text-generation-webui使ってロードしてみたら失敗してしまう・・・（他のモデルはロードできているしアップデートしたりdevブランチ取ってきて試したりしてもダメだった）

0608名無しさん＠ピンキー

2025/01/30(木) 03:17:42.12ID:???

>605
1.58bit{ -1 , 0 , 1 }にするのは全体うち一定量で、重要なところは精度を残す必要があるらしい
今回のやつとbitnet実装は残し方が逆向きになってるとかなんとか

>606
<think>タグはR1かR1を蒸留したモデルの特徴ということでは

0609名無しさん＠ピンキー

2025/01/30(木) 05:43:00.58ID:???

>>588
実際はH800（H100より下位）2048台だからね

0610名無しさん＠ピンキー

2025/01/30(木) 06:35:00.48ID:???

>>604
なるほど…
APIだとほぼ無規制なのにローカルだとそっちの規制に引っかかるのね…
どうにかならんのかな

0611名無しさん＠ピンキー

2025/01/30(木) 07:08:30.76ID:???

>603
ホントにうごくじゃん
Ansiで保存してbatにして管理者として実行するだけだわ
WD black SN850で3秒に1トークンくらいだけど

0612名無しさん＠ピンキー

2025/01/30(木) 07:31:40.51ID:???

えろを聞くとエラーにはならんけど申し訳されるな
超長大思考にもならないしllama直とollama環境の違いなのかね

0613名無しさん＠ピンキー

2025/01/30(木) 07:59:35.25ID:jJPbfUaD

5070ti買って使えるモデル増やそうかと思ったけど
この世代は性能がうんちすぎてスルーすべきだと警告音が聴こえてくるで……

0614名無しさん＠ピンキー

2025/01/30(木) 14:18:53.67ID:???

5080も性能あまり変わらない割に値上がりしてコスパ悪いって話
流石に5090は積んでるVRAM的にも買う理由はあるだろうけど

0615名無しさん＠ピンキー

2025/01/30(木) 14:28:02.69ID:jJPbfUaD

Sakanaが新手法の「TAID」で作った軽量モデル
https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct-GGUF

どうせエッチなことは言ってくれないんだろ
と思ったら普通にエッチなこと言ってくれるわ
ときどき申し訳されるけどガードはかなり緩い

俺にはいまいち上手い使い方が分からんから誰か試してみてくれ

0616名無しさん＠ピンキー

2025/01/30(木) 14:28:41.17ID:???

5090以外は発売日が一番高いわけでどの場合でも即座に買う必要性はないのでは
必要性がないのは分かっている、分かっているが...という人向け

5090は実売価格が下がる可能性がゼロで入手性も怪しいから買うならクソ寒い今日の23時に並んで抽選に勝利する必要あるね

0617名無しさん＠ピンキー

2025/01/30(木) 14:29:32.24ID:???

24GBが32GBに増えてもLLM的には焼け石に水だよね🥺
もうDigitsかMac数珠つなぎに行くしかなさそうなイメージ🥺

0618名無しさん＠ピンキー

2025/01/30(木) 14:31:25.43ID:???

LLM的には5090買う金あったら中古の3090増やせばおｋみたいな感じになっとるな

0619名無しさん＠ピンキー

2025/01/30(木) 14:33:31.77ID:???

>>618
貧乏だから中古TITAN RTX×2台行くかずっと迷ってるよ🥺

0620名無しさん＠ピンキー

2025/01/30(木) 14:48:02.77ID:???

AI用途なら1~2ヶ月は様子見が安定や
そもそもtorchも発売日時点じゃ動かないともっぱらの噂だし4000シリーズの時も発売直後はcudaの最適化不足でフル性能出てなかったし無理する必要はないわな
アリバイモデルを抽選で狙うのはありだとおもうけど

0621名無しさん＠ピンキー

2025/01/30(木) 14:48:23.99ID:???

一枚じゃなくて中古でもいいから8枚載せたらいいのでは？🤔

0622名無しさん＠ピンキー

2025/01/30(木) 14:54:19.85ID:???

mac数珠繋ぎってそんなに実用的なのか？Thunderboltで繋いでるならそこがボトルネックになると思うんだけど気にならないレベル？

0623名無しさん＠ピンキー

2025/01/30(木) 15:04:12.54ID:LBBIJ6BP

これを信じるなら帯域よりレイテンシが重要らしい
https://blog.exolabs.net/day-1

0624名無しさん＠ピンキー

2025/01/30(木) 15:56:28.81ID:???

どうせ買えないからdigitsの情報が出るまで両天秤で待機や

0625名無しさん＠ピンキー

2025/01/30(木) 19:07:25.04ID:???

そろそろAIに特化した製品出してほしいわ

0626名無しさん＠ピンキー

2025/01/30(木) 20:19:37.92ID:???

DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S動かせた人います？

0627名無しさん＠ピンキー

2025/01/30(木) 20:55:37.49ID:LBBIJ6BP

>>603
これ使わせてもらったけどSATAのSSDから実行したせいか3090なのに0.15token/sとか悲惨な数字になった。

0628名無しさん＠ピンキー

2025/01/30(木) 21:29:53.71ID:???

CPU推論だからGPUは何積んでても変わらないな。というか無くても良い。

0629名無しさん＠ピンキー

2025/01/30(木) 22:21:02.13ID:???

Project DIGITSが早く出て欲しいな

0630名無しさん＠ピンキー

2025/01/30(木) 23:31:18.41ID:???

llama.cppは新UIより旧UIのほうが応答が速くていいな

DeepSeekのキンペー批判出力もそこまで難しくないね
でも長文の整形は苦手っぽい。think部分が余計なんだな

0631名無しさん＠ピンキー

2025/01/31(金) 00:08:01.86ID:???

mistralの24B最新モデル
https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501

0632名無しさん＠ピンキー

2025/01/31(金) 00:56:15.11ID:???

DeepSeekさんの中の人も色んな性癖に付き合うの大変やろうな。
https://imgur.com/a/lakbQgp

0633名無しさん＠ピンキー

2025/01/31(金) 01:05:30.69ID:???

Project DIGITSが出る頃は画像認識とかもだいぶ発展してるだろうし
全く臆することなくAIにチン見せできる日がそろそろ来るのか

0634名無しさん＠ピンキー

2025/01/31(金) 02:42:06.51ID:???

digitsは3000ドル「から」なのが果てしなく不穏だ

0635名無しさん＠ピンキー

2025/01/31(金) 02:52:03.95ID:???

5090は1999ドルなのに、日本では45万程度からだろ
67万とかか？

0636名無しさん＠ピンキー

2025/01/31(金) 06:11:36.07ID:???

輸入すればええやん

0637名無しさん＠ピンキー

2025/01/31(金) 06:47:52.85ID:???

>>635
業務用系はぼったくりさらに激しいから100万から～になるかも

0638名無しさん＠ピンキー

2025/01/31(金) 07:22:47.99ID:???

個人輸入だと米サイトでの熾烈な争奪戦に勝つ必要あるからだいぶしんどい
日本向けに一定数を確保して保証まわりも三年やりますなら多めに払う価値もある

理屈では納得してもお財布のほうはそうでないわけだが

0639名無しさん＠ピンキー

2025/01/31(金) 07:55:59.14ID:???

deepseekの日本語どうなんよ

0640名無しさん＠ピンキー

2025/01/31(金) 08:36:08.72ID:???

qwenにすら負けるNECや東工大やNTTや情報学研だからな😅

0641名無しさん＠ピンキー

2025/01/31(金) 08:40:58.75ID:???

蒸溜じゃないR1の日本語チューンはよ

0642名無しさん＠ピンキー

2025/01/31(金) 09:10:41.09ID:???

deepseekのローダーって何すか？

0643名無しさん＠ピンキー

2025/01/31(金) 09:14:30.45ID:???

>>632
thinkと生成された文章の熱量、テンションの差が面白いな

0644名無しさん＠ピンキー

2025/01/31(金) 09:30:23.72ID:???

deepseekのローダーは何かchatGPTに聞いてもはぐらかされるｗ

0645名無しさん＠ピンキー

2025/01/31(金) 09:44:02.36ID:???

ローダーってなにを指してるのかよく分からん

0646名無しさん＠ピンキー

2025/01/31(金) 10:03:14.89ID:???

トランスフォーマーとかllamacppとか

0647名無しさん＠ピンキー

2025/01/31(金) 10:33:15.50ID:???

文系全開の文章で偉そうに聞いてくる奴にはあんま教えたくならないな・・・

0648名無しさん＠ピンキー

2025/01/31(金) 10:40:47.65ID:???

理系様が降臨なされた。質問する時は敬意を払い正確にお伝え差し上げろ。

0649名無しさん＠ピンキー

2025/01/31(金) 10:41:37.85ID:???

曖昧な質問には曖昧な回答が返ってくるというだけ

0650名無しさん＠ピンキー

2025/01/31(金) 10:42:09.47ID:???

偉そうとかはいいんだけど、1から10まで全部説明することになる予感がするので躊躇する

0651名無しさん＠ピンキー

2025/01/31(金) 11:01:05.37ID:???

理系だとドメインを絞る質問をする癖が付いてるから文章だけで人種の違いが分かっちゃうのはそう

0652名無しさん＠ピンキー

2025/01/31(金) 11:56:33.19ID:57+07Tgg

>>647
クッソ偉そうな言い方で草

0653名無しさん＠ピンキー

2025/01/31(金) 12:24:36.95ID:???

研究者/開発者向けみたいに販売経路を限定しないとdigitsも転売の餌食になりそうだけど、そうすると一般人も手に入らないジレンマ。

0654名無しさん＠ピンキー

2025/01/31(金) 12:29:41.67ID:???

流石に用途狭すぎて転売されないのでは

0655名無しさん＠ピンキー

2025/01/31(金) 12:36:38.50ID:TAGj2Fo6

>>632
草
役者すんのも大変やな
そういやLlama cppにもいちおうGUI付いてるんだっけ？推論テスト用のおまけみたいなやつよな？

0656名無しさん＠ピンキー

2025/01/31(金) 12:40:25.53ID:???

>>632
中の人の思考駄々洩れでこれはこれで

0657名無しさん＠ピンキー

2025/01/31(金) 13:39:00.41ID:???

ローカルのDeepSeekに画像解析させようと思ったらどうしたらええのん？

0658名無しさん＠ピンキー

2025/01/31(金) 14:11:42.90ID:???

お前はアンドロイドの思考プログラムだとシステムに書くとthinkの中もそういうものだと読めて色々と捗る
口調はもっと砕けた感じの方がいいとか、ネコミミ付いてるって言われてるんだからネコの絵文字付けた方がそれらしいんじゃないかとか書き出しててかわいい

0659名無しさん＠ピンキー

2025/01/31(金) 18:30:18.00ID:???

>>626
5950X 128GB+3090+2060 12GBで1.5token/sぐらい(´・ω・`)

0660名無しさん＠ピンキー

2025/01/31(金) 19:31:03.49ID:???

DeepSeekは褒めると結構可愛い反応をしてきて混乱する

0661名無しさん＠ピンキー

2025/01/31(金) 20:32:28.40ID:YOQ48OgB

小説勢の人に質問です
複数の出力で話を続けるコツがあったら教えて下さい
今はmagnum v4 123bの4bit量子化をメインで動かしてるんだけど、
初回出力後の2回目以降の出力に、繰り返し表現が目立つ
ちなみにコンテキスト長には余裕がある状態です

0662名無しさん＠ピンキー

2025/01/31(金) 20:56:05.61ID:???

量子化の宿命みたいなもんだしパラメータ変えて生成連打しかない

0663名無しさん＠ピンキー

2025/01/31(金) 20:56:08.83ID:???

繰り返し問題はどうしようもないから予めプロットを作らせてそれに沿う形で章ごとに出力させてる人がほとんどじゃないかな

0664名無しさん＠ピンキー

2025/01/31(金) 20:56:35.04ID:???

sakanaAIのあれってエロにはどうだったん？

0665名無しさん＠ピンキー

2025/01/31(金) 21:17:57.70ID:???

>>664
ベースはqwenらしいから
それに準拠しているのでは

0666名無しさん＠ピンキー

2025/01/31(金) 21:20:13.22ID:???

magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある
どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい

0667名無しさん＠ピンキー

2025/01/31(金) 22:19:54.45ID:???

繰り返しの文章を修正させる作業もAIにやらせられたらいいのに

0668名無しさん＠ピンキー

2025/01/31(金) 22:58:48.71ID:???

>>661
自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね
koboldのstorywriterモードでコンテキストは4096でやってます

0669名無しさん＠ピンキー

2025/01/31(金) 23:01:38.87ID:???

あ、すみません
複数の出力でって所がよくわかりませんでした
自分はプロンプト書いて都度追加していくやり方です

0670名無しさん＠ピンキー

2025/02/01(土) 01:29:50.55ID:???

>>659
やはりローカルLLM勢のPCすごい

0671名無しさん＠ピンキー

2025/02/01(土) 01:42:36.49ID:???

量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど
そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…？
ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…？いや気のせいか…？
この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…？

■ このスレッドは過去ログ倉庫に格納されています