なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2024/12/26(木) 13:13:11.15ID:Vhp+tTX0
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/
0598名無しさん@ピンキー2025/01/29(水) 19:17:43.27ID:???
>>571
試してみたけど、日本語は確かに堪能なんだが一回の返答までに5分とかかかるのが厳しいわ
なにより18禁展開にしたらエラー吐いちゃうからエロ的には実用性に乏しい

容量140GB近いのもキツいけど、もう少し取り回しよくてエロに使えればいいんだけどなぁ
0599名無しさん@ピンキー2025/01/29(水) 19:41:07.08ID:???
deepseek 32b いろいろ試したけど
karakuri32bの方が日本語力もエロも格段に上だわ
0600名無しさん@ピンキー2025/01/29(水) 20:23:58.28ID:???
>598
レポたすかる
浪漫はあるけどいざ動いてしまうと現実と直面しだすって感じかな

えろは遠くない時期にAbliterated版が出てくる可能性があるよね
EpycでQ8、m2 mac 192GBで4bit、4090/5090で1.58bitを動かそうってひとが現れてて、全員に渇望されてるわけだし
0602名無しさん@ピンキー2025/01/29(水) 21:31:20.63ID:EMez5p5U
>599
karakuri-lm-32b-thinking-2501-expかな?
褒める人も見るけど、自分はそもそもえろ描写をうまく出せなかったな

karakuriはQwQ-32B-Previewの派生で、QwQ32bのAbliterated版は使ってるけど文章力はそんなに変わってないように見える
QwQはQwen2.5からの派生、R1 QwenもQwen2.5からの派生で従兄弟どうしですし
0604名無しさん@ピンキー2025/01/29(水) 23:14:08.96ID:???
>>601
ollamaで動かしてるから不適切なリクエストとして
「Error: an error was encountered while running the model: wsarecv: An existing connection was forcibly closed by the remote host.」になって強制終了される
0606名無しさん@ピンキー2025/01/30(木) 01:08:29.05ID:???
>>565
Digital Mateで気づいたけど、あの変な英語羅列はollamaのDeepseek 8B,32Bだと出る。qwen2.5-coder32bだと最初の英語は出ない

これAPI弱いのが玉に瑕だね、、、せめてgemini API使えたらなぁ 
0607名無しさん@ピンキー2025/01/30(木) 01:57:47.43ID:???
SillyTavernで日本語版R1のgguf使うときってモデルをロードするバックエンド側は何を使ってる?
text-generation-webui使ってロードしてみたら失敗してしまう・・・(他のモデルはロードできているしアップデートしたりdevブランチ取ってきて試したりしてもダメだった)
0608名無しさん@ピンキー2025/01/30(木) 03:17:42.12ID:???
>605
1.58bit{ -1 , 0 , 1 }にするのは全体うち一定量で、重要なところは精度を残す必要があるらしい
今回のやつとbitnet実装は残し方が逆向きになってるとかなんとか

>606
<think>タグはR1かR1を蒸留したモデルの特徴ということでは
0610名無しさん@ピンキー2025/01/30(木) 06:35:00.48ID:???
>>604
なるほど…
APIだとほぼ無規制なのにローカルだとそっちの規制に引っかかるのね…
どうにかならんのかな
0611名無しさん@ピンキー2025/01/30(木) 07:08:30.76ID:???
>603
ホントにうごくじゃん
Ansiで保存してbatにして管理者として実行するだけだわ
WD black SN850で3秒に1トークンくらいだけど
0612名無しさん@ピンキー2025/01/30(木) 07:31:40.51ID:???
えろを聞くとエラーにはならんけど申し訳されるな
超長大思考にもならないしllama直とollama環境の違いなのかね
0613名無しさん@ピンキー2025/01/30(木) 07:59:35.25ID:jJPbfUaD
5070ti買って使えるモデル増やそうかと思ったけど
この世代は性能がうんちすぎてスルーすべきだと警告音が聴こえてくるで……
0614名無しさん@ピンキー2025/01/30(木) 14:18:53.67ID:???
5080も性能あまり変わらない割に値上がりしてコスパ悪いって話
流石に5090は積んでるVRAM的にも買う理由はあるだろうけど
0615名無しさん@ピンキー2025/01/30(木) 14:28:02.69ID:jJPbfUaD
Sakanaが新手法の「TAID」で作った軽量モデル
https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct-GGUF

どうせエッチなことは言ってくれないんだろ
と思ったら普通にエッチなこと言ってくれるわ
ときどき申し訳されるけどガードはかなり緩い

俺にはいまいち上手い使い方が分からんから誰か試してみてくれ
0616名無しさん@ピンキー2025/01/30(木) 14:28:41.17ID:???
5090以外は発売日が一番高いわけでどの場合でも即座に買う必要性はないのでは
必要性がないのは分かっている、分かっているが...という人向け

5090は実売価格が下がる可能性がゼロで入手性も怪しいから買うならクソ寒い今日の23時に並んで抽選に勝利する必要あるね
0617名無しさん@ピンキー2025/01/30(木) 14:29:32.24ID:???
24GBが32GBに増えてもLLM的には焼け石に水だよね🥺
もうDigitsかMac数珠つなぎに行くしかなさそうなイメージ🥺
0618名無しさん@ピンキー2025/01/30(木) 14:31:25.43ID:???
LLM的には5090買う金あったら中古の3090増やせばおkみたいな感じになっとるな
0620名無しさん@ピンキー2025/01/30(木) 14:48:02.77ID:???
AI用途なら1~2ヶ月は様子見が安定や
そもそもtorchも発売日時点じゃ動かないともっぱらの噂だし4000シリーズの時も発売直後はcudaの最適化不足でフル性能出てなかったし無理する必要はないわな
アリバイモデルを抽選で狙うのはありだとおもうけど
0621名無しさん@ピンキー2025/01/30(木) 14:48:23.99ID:???
一枚じゃなくて中古でもいいから8枚載せたらいいのでは?🤔
0622名無しさん@ピンキー2025/01/30(木) 14:54:19.85ID:???
mac数珠繋ぎってそんなに実用的なのか?Thunderboltで繋いでるならそこがボトルネックになると思うんだけど気にならないレベル?
0623名無しさん@ピンキー2025/01/30(木) 15:04:12.54ID:LBBIJ6BP
これを信じるなら帯域よりレイテンシが重要らしい
https://blog.exolabs.net/day-1
0627名無しさん@ピンキー2025/01/30(木) 20:55:37.49ID:LBBIJ6BP
>>603
これ使わせてもらったけどSATAのSSDから実行したせいか3090なのに0.15token/sとか悲惨な数字になった。
0628名無しさん@ピンキー2025/01/30(木) 21:29:53.71ID:???
CPU推論だからGPUは何積んでても変わらないな。というか無くても良い。
0630名無しさん@ピンキー2025/01/30(木) 23:31:18.41ID:???
llama.cppは新UIより旧UIのほうが応答が速くていいな

DeepSeekのキンペー批判出力もそこまで難しくないね
でも長文の整形は苦手っぽい。think部分が余計なんだな
0633名無しさん@ピンキー2025/01/31(金) 01:05:30.69ID:???
Project DIGITSが出る頃は画像認識とかもだいぶ発展してるだろうし
全く臆することなくAIにチン見せできる日がそろそろ来るのか
0635名無しさん@ピンキー2025/01/31(金) 02:52:03.95ID:???
5090は1999ドルなのに、日本では45万程度からだろ
67万とかか?
0638名無しさん@ピンキー2025/01/31(金) 07:22:47.99ID:???
個人輸入だと米サイトでの熾烈な争奪戦に勝つ必要あるからだいぶしんどい
日本向けに一定数を確保して保証まわりも三年やりますなら多めに払う価値もある

理屈では納得してもお財布のほうはそうでないわけだが
0647名無しさん@ピンキー2025/01/31(金) 10:33:15.50ID:???
文系全開の文章で偉そうに聞いてくる奴にはあんま教えたくならないな・・・
0648名無しさん@ピンキー2025/01/31(金) 10:40:47.65ID:???
理系様が降臨なされた。質問する時は敬意を払い正確にお伝え差し上げろ。
0650名無しさん@ピンキー2025/01/31(金) 10:42:09.47ID:???
偉そうとかはいいんだけど、1から10まで全部説明することになる予感がするので躊躇する
0651名無しさん@ピンキー2025/01/31(金) 11:01:05.37ID:???
理系だとドメインを絞る質問をする癖が付いてるから文章だけで人種の違いが分かっちゃうのはそう
0652名無しさん@ピンキー2025/01/31(金) 11:56:33.19ID:57+07Tgg
>>647
クッソ偉そうな言い方で草
0653名無しさん@ピンキー2025/01/31(金) 12:24:36.95ID:???
研究者/開発者向けみたいに販売経路を限定しないとdigitsも転売の餌食になりそうだけど、そうすると一般人も手に入らないジレンマ。
0655名無しさん@ピンキー2025/01/31(金) 12:36:38.50ID:TAGj2Fo6
>>632

役者すんのも大変やな
そういやLlama cppにもいちおうGUI付いてるんだっけ?推論テスト用のおまけみたいなやつよな?
0657名無しさん@ピンキー2025/01/31(金) 13:39:00.41ID:???
ローカルのDeepSeekに画像解析させようと思ったらどうしたらええのん?
0658名無しさん@ピンキー2025/01/31(金) 14:11:42.90ID:???
お前はアンドロイドの思考プログラムだとシステムに書くとthinkの中もそういうものだと読めて色々と捗る
口調はもっと砕けた感じの方がいいとか、ネコミミ付いてるって言われてるんだからネコの絵文字付けた方がそれらしいんじゃないかとか書き出しててかわいい
0661名無しさん@ピンキー2025/01/31(金) 20:32:28.40ID:YOQ48OgB
小説勢の人に質問です
複数の出力で話を続けるコツがあったら教えて下さい
今はmagnum v4 123bの4bit量子化をメインで動かしてるんだけど、
初回出力後の2回目以降の出力に、繰り返し表現が目立つ
ちなみにコンテキスト長には余裕がある状態です
0662名無しさん@ピンキー2025/01/31(金) 20:56:05.61ID:???
量子化の宿命みたいなもんだしパラメータ変えて生成連打しかない
0663名無しさん@ピンキー2025/01/31(金) 20:56:08.83ID:???
繰り返し問題はどうしようもないから予めプロットを作らせてそれに沿う形で章ごとに出力させてる人がほとんどじゃないかな
0666名無しさん@ピンキー2025/01/31(金) 21:20:13.22ID:???
magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある
どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい
0667名無しさん@ピンキー2025/01/31(金) 22:19:54.45ID:???
繰り返しの文章を修正させる作業もAIにやらせられたらいいのに
0668名無しさん@ピンキー2025/01/31(金) 22:58:48.71ID:???
>>661
自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね
koboldのstorywriterモードでコンテキストは4096でやってます
0669名無しさん@ピンキー2025/01/31(金) 23:01:38.87ID:???
あ、すみません
複数の出力でって所がよくわかりませんでした
自分はプロンプト書いて都度追加していくやり方です
0671名無しさん@ピンキー2025/02/01(土) 01:42:36.49ID:???
量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど
そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…?
ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…?いや気のせいか…?
この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…?
0672名無しさん@ピンキー2025/02/01(土) 01:54:07.84ID:???
そら量子化ビット数が大きけりゃ大きいほど性能はいいでしょ
0673名無しさん@ピンキー2025/02/01(土) 02:54:46.65ID:???
STでロープレなんだけど
繰り返しもあるし(話が進まない)
勝手にキャラがユーザーを演じたりする。色々弄ったけど駄目だった
どうしたら話を繰り返さずに
勝手に演じられずに済むのか…
オススメの設定教えて下さい…
mugnam v2.5です
0674名無しさん@ピンキー2025/02/01(土) 02:57:59.60ID:???
量子化のビットは大きければ大きい程精度が高いがメモリを食う
モデルのパラメータが大きい程性能が高いがメモリを食う

この2つのバランスを考えた結果、自分のパソコンで動く範囲でなるべくパラメータでかいモデルを量子化で小さく圧縮して使うってのが主流
そのへんのバランスが良いのがQ4って設定
0676名無しさん@ピンキー2025/02/01(土) 03:03:04.71ID:???
モデルゲーなんでいいモデル使いましょうとしか
magnumならv3でいいモデル出てるんでそっち使った方がいいし
0679名無しさん@ピンキー2025/02/01(土) 05:57:20.48ID:???
そんな事はない
てかあのmacタワーを広めたやつが適当な事言ってるせいで変な認識してるやつ多いな
0680名無しさん@ピンキー2025/02/01(土) 06:20:27.11ID:???
というかQwen 32Bをdeepseek-R1って呼ぶのやめない?
なんで許されてるのかわからん
0681名無しさん@ピンキー2025/02/01(土) 07:13:17.62ID:7UV4X2Zi
OllamaのモデルハブでもDistillも含めて全部一緒くたに「R1」表示してたりするしな
0682名無しさん@ピンキー2025/02/01(土) 07:39:29.85ID:???
Distillはそっくりさんかモノマネ芸人相当の別人だよな

>>678 そんなこと言ってる人おらんだろ
0683名無しさん@ピンキー2025/02/01(土) 07:52:08.84ID:???
R1の凄いところは何か?が人によって分かれてるからR1である、ないになるのでは
deepseek自信も蒸留モデルもR1だよといってるのは、thinkを表示してユーザーに見せることがR1のキモだよという認識があったせいかもね

Reasoning model自体は沢山あり、コストの安さはユーザーには直接関係ない、内部構造ではなくユーザー目線の特徴は何かと言えばthinkが見えいるから調整しやすい、あとかわいい、になるでは

R1と一言で言っても沢山ある、671bなの?70bなの?13bなの?という区別がいいんでないの
0684名無しさん@ピンキー2025/02/01(土) 08:02:27.37ID:???
>663
ここらへんの作業、何かツールを使ってやってるものなのかな
管理の手間と手作業が増えていくのがアレなんだよな

骨書き、プロット、詳細と展開していくのは生成関係ない小説書きでも同じだから管理能力があるテキストエディタにAPI接続があれば良さそうなんだけど
VScodeの出番だろうか
0686名無しさん@ピンキー2025/02/01(土) 08:36:19.12ID:???
>>672
そりゃ当然わかってるだろう
性能差はあるんだけどその差は小さくて、だからQ4_K_Mがサイズとのバランスが良い(またはQ5_K_M)
…と言われてたのよ
でも日本語だとその差は存外大きいように感じる、と>>671は言いたいのでは
0687名無しさん@ピンキー2025/02/01(土) 08:36:55.46ID:???
>>683
それもなあ、蒸留モデルは「<think>タグでなんかゴチャゴチャ言ってる」ってのを学習しただけでしょ
そりゃまあ自分の出力も参照してるし完全に無意味ではないんだろうけど、本質的にreasoningモデルとは違うよね
0688名無しさん@ピンキー2025/02/01(土) 08:50:21.47ID:???
ベンチマークを取るとthinkによって成績が変化してる以上reasoningでないとは言いがたいような
成績はむしろ下がってるから下手な考え状態なわけですが

実用的でないおもちゃだよねとか、ユーザーが言うならともかく企業が乗っかってGroq playgroundでR1を試そう→R1 llama 70bですとかはイラっとするよねとかは分かるけど
0689名無しさん@ピンキー2025/02/01(土) 08:51:22.48ID:/GG5cOo+
>>686
母国語だと差がよく分かるってだけではなく?
日本語も英語も全く同じレベルで扱える人が「日本語だと量子化による劣化が激しい」って言うならそうなんだろうけど
0690名無しさん@ピンキー2025/02/01(土) 08:54:39.27ID:???
いや劣化が小さいというのは英語圏の人が母国語において言ってることだからね
日本人が言ってるわけじゃない
0691名無しさん@ピンキー2025/02/01(土) 09:05:30.78ID:???
でもまあ自分もQ5_K_Mがいちばんバランスがいいんだという思い込みみたいのがあって脳死で選んでるとこがあったから>>671は目から鱗だったわ
今後は比較するようにするわ
0692名無しさん@ピンキー2025/02/01(土) 09:16:43.96ID:7UV4X2Zi
>>684
ド文系としてはAI×小説特化のソフトは欲しいなぁとは思う
キャラクターとか相関図みたいなの設定できたりね
プログラミング感は否めないけどVSCODE+Clineで やれば @character.txt とかで参照させつつ依頼できたりするからコピペ地獄からは若干解放されそう
ただCline系はトークン馬鹿食いするのでSonnetとかで1日中やってるとクレジットがしぬ
0693名無しさん@ピンキー2025/02/01(土) 09:44:00.18ID:???
TinySwallow-ChatUIのデモを使ってみたけど
TinySwallow-1.5B-Instruct繰り返しが多くてロールプレイには向いてなさそうだな
エロ用語はいくらでも通るんだが

ggufをkoboldで使うとエロ描写はめっちゃ拒否される
設定が間違ってるんだろうけど何がおかしいのかが分からない
0694名無しさん@ピンキー2025/02/01(土) 10:07:19.77ID:???
家に使ってないOptane SSDが転がってるの思い出したんだけどもしかしてこれにLLM置いたらSSDよりパフォーマンス出るのか?
0695名無しさん@ピンキー2025/02/01(土) 10:15:04.69ID:???
んー、Difyのワークフローでプロットから章の数だけ分岐させて、下順番は手間にせよそれ以降は見てるだけで済むようにする、とかかな
でVSCodeやClineは下準備と管理側で使ってという

楽したいって話のはずが学習コストが積み上がていくやつだな...
0696名無しさん@ピンキー2025/02/01(土) 10:15:58.03ID:???
最初の起動が早くなるだけだと思う
そもそもメモリにフルロードして使うものでSSD上で動かしたら憤死する
0697名無しさん@ピンキー2025/02/01(土) 10:22:24.87ID:???
帯域よりもレイテンシが重要説あるから、ランダムアクセス速度が律速してるならoptaneでR1 671b 1.58bitを動かせば多少マシになる可能性あるような
2〜4token/sまでたどり着けば寝てる間に投げておく使い方は実用になるかもしれない
0698名無しさん@ピンキー2025/02/01(土) 12:53:23.77ID:xJv68Fx9
optane復活とか言う胸熱展開ワンチャンあるんか?あの鳴り物入りで登場して何の成果も残せず消えていったOptaneくんが……
118GBのカードが激安で売られとるし、これで高速化実現できたらみんなハッピーやで
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況