なんJLLM部避難所 ★5

1002コメント315KB

なんJLLM部避難所 ★5

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2024/12/26(木) 13:13:11.15ID:Vhp+tTX0

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/

0518名無しさん＠ピンキー

2025/01/27(月) 22:51:11.13ID:???

DeepSeekがアメリカ中国でアプリストア1位！とか見たから確認したら71位だったわ

0519名無しさん＠ピンキー

2025/01/27(月) 22:56:48.95ID:???

32b jp、いいっすね
Silly Tavern Staging + pixibot weep prompt v4
+ noass extension
の構成でthinkが日本語ですらすら読めるから初心者GMが語ってくれてる感ある

0520名無しさん＠ピンキー

2025/01/27(月) 23:25:06.59ID:???

やっぱQwenの性格めっちゃ出てる気がする
マグナムさんの方が使いやすい

0521名無しさん＠ピンキー

2025/01/28(火) 00:02:48.35ID:yHN2yTKP

>>519
ワイの知らんワードずらずら言うやん
LLMそこそこ触ってる気してたけど浅かったわ
pixibot……noass……なんて？

0522名無しさん＠ピンキー

2025/01/28(火) 00:16:00.61ID:???

えーと

Silly Tavern Staging
最新機能のテスト版。β版とかnightly版みたいなもん

Pixibot weep Prompt
https://pixibots.neocities.org/prompts/weep
コレ。DeepSeek R1 ReasonerをSilly Tavernで使うときのプリセットで、一貫性を保つように調整してあるみたい。

noass extension
Weep promptと併用が求められているSTの拡張機能。R1 ReasonerはSystemプロンプトの扱いが特殊なので全てのAPI応答をUserプロンプトとして送信するように強制変更する。

0523名無しさん＠ピンキー

2025/01/28(火) 00:48:58.01ID:???

>>517
calm3ならモデルがバカすぎるってことはないと思う
sillytavernでイチコロやね

0524名無しさん＠ピンキー

2025/01/28(火) 01:27:45.28ID:yHN2yTKP

>>522
サンガツ
R1はだいぶ特殊なんやね
SillyTavernでうまく動かんと思ってたけど色々やる必要あるのか

0525名無しさん＠ピンキー

2025/01/28(火) 07:52:36.74ID:???

>>523
サンガツや！sillytavernっての使ってみるで！

0526名無しさん＠ピンキー

2025/01/28(火) 08:49:32.91ID:???

Deepseek 日本語追加版って3090で動くかな？
Silly Tavernってネット配信でチャットからの入力には対応してないよね？

0527名無しさん＠ピンキー

2025/01/28(火) 08:58:28.74ID:???

今更株価下がってショックとか言われてて草

0528名無しさん＠ピンキー

2025/01/28(火) 09:08:02.84ID:vvcQf/C+

初心者なんだけどLightChatAssistantの
iQ4XS と Q4KM ってどういう違いがあるの？

0529名無しさん＠ピンキー

2025/01/28(火) 10:34:12.02ID:???

>526
出来る
VRAMが24GBあれば32bのQ4_K_L版(ファイルサイズ20GBくらい)がVRAMフルロード出来てそこそこ速度でるかもしれない
4080 16GB環境だとQ4_K_Lは2.2token/s程度だから動作速度がわかると今後の参考になるかも

面倒なのはパスしてとりあえず動かしたいって場合は
>417 >470を参考にして、
ollama run hf.co/bluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf:Q4_K_M
とやるだけでDLして実行してお話をはじめられる

0530名無しさん＠ピンキー

2025/01/28(火) 10:47:02.99ID:???

>528
生のモデルを量子化して小さくするときの手法の違い

KがついてるのはK quantでベーシックな手法。分かんなかったらコレ

iがついてるのはimatrixで、lora的にサンプルを食わせながら量子化するらしい
何を食わせたのかが大事になるけど、必ずしも書いてなかったりドキュメントの隅にあったりする

ChatGPTくんやPerplexくんのほうが詳しいからそっちに聞くのがオススメ

0531名無しさん＠ピンキー

2025/01/28(火) 11:01:59.91ID:???

deepseekなら7900xtxでも実用的に使えるのか？

0532名無しさん＠ピンキー

2025/01/28(火) 11:08:49.87ID:???

deepseekはh100を5万台持ってるんだっけ？
じゃあまたnvdaの株価上がる余地があるってことか

0533名無しさん＠ピンキー

2025/01/28(火) 11:37:47.98ID:4+Dmmsy5

>529
サンガツ！ollamaは入れてる！
deepseek r1 2bのQ4_K_L版って出てる？探したけどollama版のQ4 KMしか見つからんかった。。。

0534名無しさん＠ピンキー

2025/01/28(火) 12:06:21.76ID:???

MoEモデルの特徴として大規模な通信速度が無くてもパフォーマンスが出るっていうのがある
NVLinkみたいな高速な通信が必要なくなりそう

0535名無しさん＠ピンキー

2025/01/28(火) 12:10:59.68ID:???

>>534
つまりゲーム向けのGPUを並列化するだけで良いってことか

0536名無しさん＠ピンキー

2025/01/28(火) 12:52:13.48ID:???

何らかの方法でGPU直通の超高速通信ができないとGPU間のメモリやり取りで亀が寝てるような速度になる。

0537名無しさん＠ピンキー

2025/01/28(火) 12:57:08.19ID:???

>>536
llamaとかだとそうなるんたけどな
MoEモデルのDeepSeekだと高速通信いらんみたいだ

0538名無しさん＠ピンキー

2025/01/28(火) 14:01:51.56ID:???

>533
すまん、32b jpはQ4_K_Mだけだね
abliterated 32bのQ4_K_Lをメインにしてるからごっちゃになっしまった

0539名無しさん＠ピンキー

2025/01/28(火) 15:14:36.27ID:???

MoEの場合はモデルサイズの割にアクティブパラメータが少ないから（deepseek V3やR1の場合671Bのパラ数に対して37Bを選択）
動かすためだけならGPUレス構成の方がコスパ良いとは聞く
reddit見てるとzen4 32コア epycとddr5 384GBでQ4が2±0.5 t/sだからかなり微妙だけど

0540名無しさん＠ピンキー

2025/01/28(火) 15:23:55.59ID:???

>>538
サンガツ！とりあえず試したけどやっぱ実用にならない遅さだったｗ

今AIチャットキャラでネット接続対応してるのを探してて、deepseek APIが安いから使いたいけど、AI tuber Kitっての見つけたけどDeepseekに対応してないんだよね
皆、なんかいい知らないですか？

0541名無しさん＠ピンキー

2025/01/28(火) 15:58:32.65ID:???

DeepSeekの32Bってllama70Bより高性能なの？

0542名無しさん＠ピンキー

2025/01/28(火) 16:33:30.55ID:???

やってみた
ollamaは問題ない速度だったけど
ST挟むと16GBじゃかなり遅いね
諦めようかと思ったら表示されたわ
あと何故か最後のあたりに同じ文が繰り返される
オススメの書式設定ある？

0543名無しさん＠ピンキー

2025/01/28(火) 17:03:38.45ID:???

Slliy Tavern自体をそんなに知らないので上の方で書いたPixibots Weep V4 prompt (+noass)を信頼してる

0544名無しさん＠ピンキー

2025/01/28(火) 17:09:10.84ID:vvcQf/C+

>>530
gpt君に聞いたらKの方は
>例えば、32ビット浮動小数点から8ビット整数への変換
って言ってたから機械疎い俺でも理解できた、メモリ節約の方法なのね
Iの方はなんか演算式自体を弄って効率化を図る感じで元の性質が失われるリスクがKよりは高いって感じか

0545名無しさん＠ピンキー

2025/01/28(火) 17:24:49.04ID:???

信頼してる=任せっきり状態なのでchatgptでオナニースレとかのほうが詳しい人と遭遇し易いかも

>540
出たばかりだし特殊だしで正式対応してるものは少ないのでは
OpenAI互換設定で接続すれば動くは動くはず

個人的にはSteamのDigital Mateがすき
開発中華でユーザーも中華圏のひとが多いから勢いづいてほしいところ

0546名無しさん＠ピンキー

2025/01/28(火) 17:26:45.72ID:???

SillyTavernのキャラクターに設定を詰め込みまくってトークン数を4000使ったとする
自分のペルソナにも2000使ってて
モデルのContextを8192で設定してた場合
やり取りの履歴や世界観の記憶は残りの2192トークンしか使えないって認識であってますか？
これさらにLorebookで世界観の設定に2000トークン使ってたらなんにも残らないのでは……？
最近ローカルでSillyTavernやりはじめたけどContextとResponseのバランスがぜんぜん掴めん
長く会話続けたいなら不要な設定は削ぎ落としたほうがいいのか

0547名無しさん＠ピンキー

2025/01/28(火) 17:42:50.14ID:???

Silly TavernにDeepSeek APIでいけたけど、ネット接続って出来ないんだね　できる方法ある？
今日の気温聞いたら27℃です！とか言われたｗ

0548名無しさん＠ピンキー

2025/01/28(火) 17:52:55.73ID:???

>>546
lorebookは関連性のある話題が出た時だけ読み込む設定があるからそれ使えばもうちょい増える
長く会話続けたいなら不要な設定を削るしかない
減らしきれない場合は流れを要約して挿入してくれる拡張機能を使ったり、設定をトークン数的に有利な英語で記述したりするのも手

0549名無しさん＠ピンキー

2025/01/28(火) 17:55:18.47ID:cmcFugFc

キャラ設定とペルソナ合わせて1000token以下にしてるわ

0550名無しさん＠ピンキー

2025/01/28(火) 18:57:04.54ID:???

>>545
今ちょっと見てたけどDigital MateはDeepSeek API経由とかで話できるのかな？Youtubeではoobaboogaとかに繋げてる人はいた
自分はアバターにネット情報も参照して欲しいんだよね…

0551名無しさん＠ピンキー

2025/01/28(火) 19:55:15.29ID:???

ジェミニにSillyTavernは日本語化出来ますかって聞いたら出来ませんって返ってきたけど
普通に設定からできて草ジェミカスさぁ…

0552名無しさん＠ピンキー

2025/01/28(火) 20:08:03.98ID:???

Digital Mate買ったけど声がwindows TTSのおばさん声しか出せない…
VITS APIダウンロードしたけど声の選び方分からない。。。むずいなこれ
>>545

0553名無しさん＠ピンキー

2025/01/28(火) 20:49:06.75ID:???

R1の32BQ4で健全もやってみたけど
同じ様な言葉を繰り返すだけで
会話にならず…
やり方がまずいのか
ロールプレイ向きではないのか

0554名無しさん＠ピンキー

2025/01/28(火) 21:25:04.96ID:???

>550
API経由で会話させるだけなら、

deepseekに$3課金してAPI有効化
ChatGPT APIプラグイン導入
設定でAPI Base URLをdeepseek側が指定してるURLに、APIをDeepseekのAPIKeyに
test押す、update listボタン押す、モデルでchatかreasonerを選択、 GPT Temperatureで0.5～0.7を指定

でとりあえず動くはず

今現在DSのAPIサービスが死んでるので細部の確認は出来てない

ウェブ検索を参照させるのはどうやるか分からんな
音声はSteam workshopからTTSカテゴリのFast-vitsいれてvits_modeカテゴリのアイテムを片端からクリックするのが簡単

0555名無しさん＠ピンキー

2025/01/28(火) 22:17:40.02ID:???

>>554
アプリ再起動してollamaで動くようにしたんだけど、2枚目画像の再生ボタン押してもしゃべってくれない。。。
1枚目画像でダウンロードした音声モデルってどこで設定すればいいの？

s://i.imgur.com/z7IWMss.png
s://i.imgur.com/RvpEQ0Y.png

0556名無しさん＠ピンキー

2025/01/28(火) 23:27:55.21ID:???

LM Studioでcyberagentの日本語deepseek R1を使っているのですが
思考プロセス？thinking...って無効にできたりしますか？

0557名無しさん＠ピンキー

2025/01/28(火) 23:58:41.70ID:???

>>556
無効っていうのはどういうこと？
表示しないだけならできるけど

0558名無しさん＠ピンキー

2025/01/29(水) 00:35:45.95ID:JIwDCs9l

空の〈think〉〈/think〉を先に与えて続きから推論させれば飛ばせる事が多い

0559名無しさん＠ピンキー

2025/01/29(水) 00:40:02.08ID:???

>>555
音声朗読エンジンのところでfast-vitsを選択する

0560名無しさん＠ピンキー

2025/01/29(水) 01:03:00.58ID:???

>>554
自己解決　Fast Vitsにしたらやっと声出た！
これ自分で作った音声モデルも使えそうね
ダンス機能メチャ気に入ったｗ

0561名無しさん＠ピンキー

2025/01/29(水) 01:03:21.35ID:???

>>559
被った　サンガツ！

0562名無しさん＠ピンキー

2025/01/29(水) 01:18:04.85ID:???

>>559
最後にここだけ教えて
キャラクター初期設定を日本語訳して突っ込んで、アプリ再起動しても2枚目みたいに英語から始まって、呪文みたいにアルファベット復唱し始めるんだけど、この英語から始まるのをなくすのってどうやればいいの？
s://i.imgur.com/h2c3WSz.png
s://i.imgur.com/HR9FWbC.png

0563名無しさん＠ピンキー

2025/01/29(水) 01:58:36.65ID:???

https://i.imgur.com/FUqBhs5.png
やっとAIキャラチャットができるようになった…

0564名無しさん＠ピンキー

2025/01/29(水) 06:23:16.56ID:???

そういうキャラの再現度はやっぱりローカルよりオンラインモデルが強いな

0565名無しさん＠ピンキー

2025/01/29(水) 07:03:11.57ID:EMez5p5U

>562
正式対応プラグインを待つ。

あるいはAPIリクエストの送受信を捕まえて内容を修正する。ChatGPTくんに
API PROXY サーバープログラムを書いて。ユーザーからAPIリクエストを受けたらlocalhost:5001に転送して、APIレスポンスを受けたら正規表現を使って<think>タグに挟まれた部分を削除した内容をユーザーに返して
って言うとだいたい動くものを作ってくれるのでlocalhost:5001の部分を目標のURLにする

0566名無しさん＠ピンキー

2025/01/29(水) 10:05:42.81ID:???

AItuber kitは最新版はdeepseekに対応してるよ。
deepseekとcohereはエロいの多少平気だから、
エロaituberを作って時々遊んでる

0567名無しさん＠ピンキー

2025/01/29(水) 10:11:03.59ID:RguxIPdh

>> 566追記
VRMはすっぽんぽんの嫁をVroid studioで作った

0568名無しさん＠ピンキー

2025/01/29(水) 10:53:16.64ID:???

>>532
たったの5万台で出来ることが分かって暴落してるんや

0569名無しさん＠ピンキー

2025/01/29(水) 11:20:25.91ID:???

いらなくなるわけじゃないのにね

0570!donguri

2025/01/29(水) 11:32:05.45ID:???

deepseekの推論はファーウェイのAscend 910Cを使ってるって話だけど
それが本当ならdeepseekに関してはもう完全にnvidiaの関与ゼロじゃない？

0571名無しさん＠ピンキー

2025/01/29(水) 11:35:18.22ID:???

https://ollama.com/SIGJNF/deepseek-r1-671b-1.58bit
ollamaが4090で動くところまで量子化した671bモデルをリリースしたらしい

0572名無しさん＠ピンキー

2025/01/29(水) 11:47:59.68ID:???

4090で動く(140gbあるのでメインメモリも128以上必要)

0573名無しさん＠ピンキー

2025/01/29(水) 11:53:19.46ID:???

24GBに収まる超絶量子化かと思ったらなにそれぇ😨

0574名無しさん＠ピンキー

2025/01/29(水) 11:53:48.38ID:???

1.58bitは草

0575名無しさん＠ピンキー

2025/01/29(水) 11:55:55.39ID:???

>>565
あっ、言い忘れてたんだけどDeepSeekが落ちてたのでollamaにdeepseek落としてやったんだけど、ollamaだからなのかな？
でももうちょっとdeepseek対応まで様子見してみる！
いいの教えてくれてサンガツ！

0576名無しさん＠ピンキー

2025/01/29(水) 11:56:06.12ID:???

https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/
コレが大元かな。 4090 24GBと48x4の192GB RAM構成でQ2_K_XL動かすとか

0577名無しさん＠ピンキー

2025/01/29(水) 11:57:34.77ID:???

96GBメモリが4万円くらいだから5090と合わせて50万で行ける可能性ある

0578名無しさん＠ピンキー

2025/01/29(水) 12:04:21.30ID:JNtrtRKI

>>529
完全に横からやがサンガツ
32bいじってみたくてもがいとったんや
https://i.imgur.com/qPWG7wh.jpeg
https://i.imgur.com/YPkALeK.jpeg
vram16メインメモリ64でも動いてくれた
えちえちな文章書かせるの楽しみや🥰

0579名無しさん＠ピンキー

2025/01/29(水) 12:58:11.09ID:???

いけんじゃーんってダウンロードしたら、メインメモリ100Gちょっとしかなかったんで動かせなかったわ
残念

0580名無しさん＠ピンキー

2025/01/29(水) 13:09:18.93ID:???

Gigabyte MZ73-LM0(EPYC 2スロのMB)、EPYC 9115 x2, DDR5 768GBのCPU推論構成でフルR1動かして6-8token/s出るらしい。
100万円コースみたいだけど。

0581名無しさん＠ピンキー

2025/01/29(水) 13:44:55.22ID:???

>>580
メモリさえあればCPUでその速度出せるのか
GPU買うよりコスパいいな

0582名無しさん＠ピンキー

2025/01/29(水) 13:50:48.40ID:???

EPYC 9115でその速度出せるのか
Threadripperの上のグレードならもっと速そうだな

0583名無しさん＠ピンキー

2025/01/29(水) 14:30:36.45ID:???

ollamaで試したけどさすがに時間かかるねこれは
テスト　こんにちは　と言っただけでとんでもない長文を吐きながら長考してくれている

0584名無しさん＠ピンキー

2025/01/29(水) 14:46:19.05ID:???

残念なことに長考した内容に引っ張られて『テストメッセージへの適切な対応例：』のリストを出してきて
求めていた挨拶『こんにちは』を返してくれなかった

0585名無しさん＠ピンキー

2025/01/29(水) 15:24:17.52ID:???

オチwww

0586名無しさん＠ピンキー

2025/01/29(水) 15:26:19.82ID:???

ほんまCPU推論で速度出るようなってほしいわ
調子に乗るなよ革ジャン😡

0587名無しさん＠ピンキー

2025/01/29(水) 15:26:29.37ID:???

EPYC 9115って最大メモリ帯域480GB/sか
まあまあええやん

0588名無しさん＠ピンキー

2025/01/29(水) 15:55:01.42ID:???

>>568
5万台でたったのって言われたらソフトバンクの立つ瀬がなくない？
4000台とかでキャッキャとプレス出してるのに

0589名無しさん＠ピンキー

2025/01/29(水) 16:10:08.52ID:???

メモリーバンドだけ太くてもね
CPUコアだけでみたら32個で、x86のベクトル演算器って何個あるんだっけ?
40TOPSくらい出るか?
40TOPSならノートPC(ARM)のNEのほうが速そう

0590名無しさん＠ピンキー

2025/01/29(水) 16:15:59.13ID:???

>>564
キャラ設定が公式と違う脳内同人仕様なのでこれでいいのです

0591名無しさん＠ピンキー

2025/01/29(水) 16:24:48.71ID:???

>>589
AVX2かAVX512が使える
何基積んでるかはCPUによる

0592名無しさん＠ピンキー

2025/01/29(水) 16:36:15.34ID:???

ベンチだけ良いってこと無い？

0593名無しさん＠ピンキー

2025/01/29(水) 16:47:50.24ID:???

webで使えるdeepseekは普通に賢い
ただエロには使えない
攻撃されてるからかapi発行ページが開けない

ローカル用に小さくしたモデルは……微妙

0594名無しさん＠ピンキー

2025/01/29(水) 16:52:33.04ID:???

>>587
2スロットなら2倍だ

0595名無しさん＠ピンキー

2025/01/29(水) 17:08:14.66ID:???

2スロットだとインターリンクが足をひっぱるぞ
1チャンネルあたりせいぜい64GB/sくらいじゃなかったか?
PCIe5よりはずっとマシでネットワークサーバーとしては十分だけどAI用とするには厳しすぎる

0596名無しさん＠ピンキー

2025/01/29(水) 18:10:28.10ID:???

中国のモバゲーのAIが1億人のプレイヤーと日々騙しだまされの駆け引きで訓練してめっちゃ進化してる
そのうちゲームとかVR方面でも今回みたいなショックが起こるのは間違いないと思う

0597名無しさん＠ピンキー

2025/01/29(水) 18:51:17.75ID:???

速度を完全に無視してしまえばR1 fp16 1.5TB
をNVMeに展開して動かすのも可能、って話もあるな

0598名無しさん＠ピンキー

2025/01/29(水) 19:17:43.27ID:???

>>571
試してみたけど、日本語は確かに堪能なんだが一回の返答までに5分とかかかるのが厳しいわ
なにより18禁展開にしたらエラー吐いちゃうからエロ的には実用性に乏しい

容量140GB近いのもキツいけど、もう少し取り回しよくてエロに使えればいいんだけどなぁ

0599名無しさん＠ピンキー

2025/01/29(水) 19:41:07.08ID:???

deepseek 32b いろいろ試したけど
karakuri32bの方が日本語力もエロも格段に上だわ

0600名無しさん＠ピンキー

2025/01/29(水) 20:23:58.28ID:???

>598
レポたすかる
浪漫はあるけどいざ動いてしまうと現実と直面しだすって感じかな

えろは遠くない時期にAbliterated版が出てくる可能性があるよね
EpycでQ8、m2 mac 192GBで4bit、4090/5090で1.58bitを動かそうってひとが現れてて、全員に渇望されてるわけだし

0601名無しさん＠ピンキー

2025/01/29(水) 21:06:09.21ID:???

エロでエラーとは？
ニーハオじゃなくてエラーなの？

0602名無しさん＠ピンキー

2025/01/29(水) 21:31:20.63ID:EMez5p5U

>599
karakuri-lm-32b-thinking-2501-expかな?
褒める人も見るけど、自分はそもそもえろ描写をうまく出せなかったな

karakuriはQwQ-32B-Previewの派生で、QwQ32bのAbliterated版は使ってるけど文章力はそんなに変わってないように見える
QwQはQwen2.5からの派生、R1 QwenもQwen2.5からの派生で従兄弟どうしですし

0603名無しさん＠ピンキー

2025/01/29(水) 22:33:05.76ID:???

DeepSeekR1-IQ1_S 130GBがRAM 64GB+3060 12GBで動くらしかったので試してみたら0.6t/sやったわ
実用性は無いんやが76/130GBでも動作するんが驚きやったわ

一応bat置いとくで
https://gist.github.com/Zuntan03/e7e76ccc36e773a9ef983383402879e8/raw/DeepSeekR1-IQ1_S.bat

0604名無しさん＠ピンキー

2025/01/29(水) 23:14:08.96ID:???

>>601
ollamaで動かしてるから不適切なリクエストとして
「Error: an error was encountered while running the model: wsarecv: An existing connection was forcibly closed by the remote host.」になって強制終了される

0605名無しさん＠ピンキー

2025/01/29(水) 23:31:31.66ID:???

1.58ってbitnetとはちゃうんか？

0606名無しさん＠ピンキー

2025/01/30(木) 01:08:29.05ID:???

>>565
Digital Mateで気づいたけど、あの変な英語羅列はollamaのDeepseek 8B,32Bだと出る。qwen2.5-coder32bだと最初の英語は出ない

これAPI弱いのが玉に瑕だね、、、せめてgemini API使えたらなぁ　

0607名無しさん＠ピンキー

2025/01/30(木) 01:57:47.43ID:???

SillyTavernで日本語版R1のgguf使うときってモデルをロードするバックエンド側は何を使ってる？
text-generation-webui使ってロードしてみたら失敗してしまう・・・（他のモデルはロードできているしアップデートしたりdevブランチ取ってきて試したりしてもダメだった）

0608名無しさん＠ピンキー

2025/01/30(木) 03:17:42.12ID:???

>605
1.58bit{ -1 , 0 , 1 }にするのは全体うち一定量で、重要なところは精度を残す必要があるらしい
今回のやつとbitnet実装は残し方が逆向きになってるとかなんとか

>606
<think>タグはR1かR1を蒸留したモデルの特徴ということでは

0609名無しさん＠ピンキー

2025/01/30(木) 05:43:00.58ID:???

>>588
実際はH800（H100より下位）2048台だからね

0610名無しさん＠ピンキー

2025/01/30(木) 06:35:00.48ID:???

>>604
なるほど…
APIだとほぼ無規制なのにローカルだとそっちの規制に引っかかるのね…
どうにかならんのかな

0611名無しさん＠ピンキー

2025/01/30(木) 07:08:30.76ID:???

>603
ホントにうごくじゃん
Ansiで保存してbatにして管理者として実行するだけだわ
WD black SN850で3秒に1トークンくらいだけど

0612名無しさん＠ピンキー

2025/01/30(木) 07:31:40.51ID:???

えろを聞くとエラーにはならんけど申し訳されるな
超長大思考にもならないしllama直とollama環境の違いなのかね

0613名無しさん＠ピンキー

2025/01/30(木) 07:59:35.25ID:jJPbfUaD

5070ti買って使えるモデル増やそうかと思ったけど
この世代は性能がうんちすぎてスルーすべきだと警告音が聴こえてくるで……

0614名無しさん＠ピンキー

2025/01/30(木) 14:18:53.67ID:???

5080も性能あまり変わらない割に値上がりしてコスパ悪いって話
流石に5090は積んでるVRAM的にも買う理由はあるだろうけど

0615名無しさん＠ピンキー

2025/01/30(木) 14:28:02.69ID:jJPbfUaD

Sakanaが新手法の「TAID」で作った軽量モデル
https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct-GGUF

どうせエッチなことは言ってくれないんだろ
と思ったら普通にエッチなこと言ってくれるわ
ときどき申し訳されるけどガードはかなり緩い

俺にはいまいち上手い使い方が分からんから誰か試してみてくれ

0616名無しさん＠ピンキー

2025/01/30(木) 14:28:41.17ID:???

5090以外は発売日が一番高いわけでどの場合でも即座に買う必要性はないのでは
必要性がないのは分かっている、分かっているが...という人向け

5090は実売価格が下がる可能性がゼロで入手性も怪しいから買うならクソ寒い今日の23時に並んで抽選に勝利する必要あるね

0617名無しさん＠ピンキー

2025/01/30(木) 14:29:32.24ID:???

24GBが32GBに増えてもLLM的には焼け石に水だよね🥺
もうDigitsかMac数珠つなぎに行くしかなさそうなイメージ🥺

■ このスレッドは過去ログ倉庫に格納されています