なんJLLM部 避難所 ★5
レス数が1000を超えています。これ以上書き込みはできません。
0001名無しさん@ピンキー2024/12/26(木) 13:13:11.15ID:Vhp+tTX0
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/
0005名無しさん@ピンキー2024/12/26(木) 13:16:04.96ID:Vhp+tTX0
●Zuntanニキ謹製のツールEasyNovelAssistant

ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant
0006名無しさん@ピンキー2024/12/26(木) 13:17:27.11ID:Vhp+tTX0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0007名無しさん@ピンキー2024/12/26(木) 13:17:39.70ID:Vhp+tTX0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0008名無しさん@ピンキー2024/12/26(木) 13:17:57.73ID:Vhp+tTX0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
0009名無しさん@ピンキー2024/12/26(木) 13:18:04.01ID:Vhp+tTX0
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
0010名無しさん@ピンキー2024/12/26(木) 13:18:12.93ID:Vhp+tTX0
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
0011名無しさん@ピンキー2024/12/26(木) 13:18:20.52ID:Vhp+tTX0
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
0012名無しさん@ピンキー2024/12/26(木) 13:18:28.79ID:Vhp+tTX0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
0013名無しさん@ピンキー2024/12/26(木) 13:18:35.28ID:Vhp+tTX0
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0014名無しさん@ピンキー2024/12/26(木) 13:21:20.99ID:Vhp+tTX0
●ここ最近話題になった日本語ローカルモデル達やで

LightChatAssistant(通称LCA)
このスレのニキが3月にリリースして激震が走った軽量高性能モデルや
>>5のツールもこのモデルの使用がデフォルトやで
非力なPCでも走るしまずはこの辺りから試すのを薦めるで
https://huggingface.co/Sdff-Ltba

Ninja/Vecteus
オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や
リリースされたばかりやがこちらも軽量高性能やで
開発も続いとるようやから今後の動きにも要注目や
https://huggingface.co/Local-Novel-LLM-project
0015名無しさん@ピンキー2024/12/26(木) 13:21:36.48ID:Vhp+tTX0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)
0016名無しさん@ピンキー2024/12/26(木) 13:27:46.54ID:Vhp+tTX0
こんな感じかな
モデル一覧は若干古くなりつつありそう
anthracite-orgのmagnumシリーズとかは追記しておくべきかな?
[anthracite-org (Anthracite)](https://huggingface.co/anthracite-org)
0018名無しさん@ピンキー2024/12/26(木) 13:44:46.69ID:???
乙乙
magnum v4 123bが今の所最強かな
メモリ64Bで動かせるギリ最良量子化サイズがiQ3k_m
0021名無しさん@ピンキー2024/12/26(木) 18:51:50.64ID:jsaRaPor
いちおつ
はよgemma3とかの新モデル出んかねぇ
0022名無しさん@ピンキー2024/12/26(木) 18:51:54.20ID:???
マグナムって日本語ではないよな?
123bだとVRAMに全然収まらんし70Bクラスでいい感じの日本語モデル来て欲しいわ
Llama-3.3-SuperSwallow-70B-Instruct-v0.1 っての出てるから試すぜ
0026名無しさん@ピンキー2024/12/26(木) 20:40:00.50ID:???
5090×2でmagnum123BのiQ3Mがギリ乗るわけか…
帯域も1.8TB/secなんでしょ
4090の1.8倍速かあ
夢が広がりんぐ…
0027名無しさん@ピンキー2024/12/26(木) 20:40:38.68ID:???
ネット記事に
llm-jp-3-172b-instruct3
ってのが流れてきた

日本製なら日本語強いんじゃね?って期待は結構してるんだよなぁ
0029名無しさん@ピンキー2024/12/26(木) 21:38:11.38ID:jsaRaPor
さすがに172bあるからベンチでは最高クラスだよ
学習トークン少ないからモデルサイズで考えるともっといいの出て来るけど
0030名無しさん@ピンキー2024/12/26(木) 21:44:10.35ID:Y9WnaplU
ベンチでは最高クラスに今までどれだけ騙されてきたか、特に日本産は酷い
0031名無しさん@ピンキー2024/12/26(木) 21:47:16.63ID:???
日本産でいままで満足できたのは初代karakuri-70bだけだった

でも興味あるから、どっかでデモできないかな
0032名無しさん@ピンキー2024/12/26(木) 23:23:20.09ID:???
いちおつ

公開してくれるのはとても嬉しいんだけど172bでGPT3級なのね
試してみたいけどいままでの日本語モデルはMetaが片手間に作ってくれたLLMのほうが性能よかったしな...
Metaの新しい言語に(あまり)依存しない研究に期待。来年くらいにでそうだし。
0034名無しさん@ピンキー2024/12/27(金) 00:55:27.43ID:???
>>33
600MAXなわけであって1200W使うかと言われれば多分そうじゃないから安心しとけ。
今までのマルチGPU環境とかデータセンターとかもそうだが無謀なことしない限りはカタログスペック上の消費電力なんてまぁ100パーでも出ることない。

この辺は車の燃費と一緒でちょっとかけ離れてる。ある程度ボーダーで書いておくのはいいことかもしれんが…(CPUは青天井)
0035名無しさん@ピンキー2024/12/27(金) 00:57:49.22ID:???
まぁいうてLLMでGPU100%使い切るかどうかはさておいて500W前後x2あたりだからかなりキツそうではある
0036名無しさん@ピンキー2024/12/27(金) 01:05:18.60ID:???
よそのやつを日本企業がチューニングしたパターンが1番精度良さそうなんやけどな
0037名無しさん@ピンキー2024/12/27(金) 01:19:03.65ID:???
例えば4090ってPL60%にすると消費電力は270W前後まで下がる
そんで性能はというと6%程度しか下がらん
これはゲーミング性能の事だからLLMだともっと影響低いと思う
なので5090もPL60%にすれば多分400W以下で不自由無く使えるはず
0038名無しさん@ピンキー2024/12/27(金) 05:42:43.26ID:mvFMk8yO
7B以下で良いモデルが大量に出てこないかぎりローカルは盛り上がらんだろうなあ
そろそろLLMに食わせるデータが無くなるって話だし
効率化の研究が進むといいんだが
0039名無しさん@ピンキー2024/12/27(金) 08:35:51.08ID:???
賢いままでもっとサイズを圧縮する技術や
ハードウェア側で大きなサイズを高速に動かす技術
この辺の進展に期待したい
0040名無しさん@ピンキー2024/12/27(金) 12:08:31.06ID:axyx5LTS
モデルのファイルが壊れる場合ってハードウェア要因以外である?
koboldでメモリが足りないってエラー出たんで、
ファイル落とし直したら直ったけど、MD5値調べたら一致してなかった
0044名無しさん@ピンキー2024/12/27(金) 22:44:52.73ID:???
>> 43です
軽めのエロだったら拒否されなかったです。明日また試します
0046名無しさん@ピンキー2024/12/28(土) 07:59:44.22ID:???
>> 43,44です
deepseek api。エッチは普通にできた。温度を1.5くらいにすると良くなる
激しいのとか、表現力はまだわからない
頭の良さはgpt-4o並みとのこと
0047名無しさん@ピンキー2024/12/28(土) 10:42:26.66ID:???
>>38
アメリカからグラボ制裁されてる中国が少量の計算資源で効率的に推論する技術を発明するとか、bitnetやphi系モデル開発して小規模言語モデルに注力しるMicrosoftに期待したい
0048名無しさん@ピンキー2024/12/28(土) 15:27:00.62ID:L24a2Ks4
deepseekも感じさせすぎるとcommand r的な言葉の連続になっちゃうな
まあ、しょうがないか
0049名無しさん@ピンキー2024/12/28(土) 16:57:06.37ID:???
cyberagentのMistral-Nemo-Japanese-Instruct使ってる人っている?
日本語RPのベンチ見てたらスコアくそ高かったんで感触いいならabliteratedしてファインチューニングしようと思うんだけれども
0053名無しさん@ピンキー2024/12/29(日) 00:30:02.06ID:???
>>49
あの処理って、70Bクラスのモデルだとどのくらいのメモリ必要なのかな?
0054名無しさん@ピンキー2024/12/29(日) 01:06:43.56ID:???
>>53
モデルサイズ分のメモリがあればいけるよ
やってることは単純で、推論→拒否部分を特定→拒否部分を無効化して保存だから
0055名無しさん@ピンキー2024/12/29(日) 07:48:58.40ID:???
>>54
おー
と言うことは既存のデータセットに日本語でヤヴァイ指示入れまくったらさらに無力化出来るってことか
0056名無しさん@ピンキー2024/12/29(日) 21:39:39.82ID:Xq5dA+eo
それで効果あったら面白いな
どんな質問にもエロを見出す脳内ピンクモデルとか作れそう
0057名無しさん@ピンキー2024/12/29(日) 22:09:43.39ID:wNMTdH61
Mistral-Nemo使ってるよ。普通に賢いし、特に小説の一節を読ませて質問に答えさせるとかの長文読解をさせると、他のモデルと比べて格段に長い問題を読めるし良い感じに解ける
お手軽に使えるサイズのモデルだと今でもトップクラスだと思うよ。日本語トークンを学習してるのも嬉しい所
0058名無しさん@ピンキー2024/12/29(日) 23:53:49.34ID:???
>>57
それは素のmistral-nemo?それともcyberagentが再学習したやつ?
もしcyberagentのなら素のnemoと比べて日本語能力やRP能力に差を感じるか教えてくれると助かる
0059名無しさん@ピンキー2024/12/30(月) 06:46:39.99ID:???
Mistral-Nemo-Japanese-Instruct-2408.Q8_0
Mistral-Nemo-Instruct-2407-Q8_0 (imatrix)
Mistral-Nemo-Instruct-2407-abliterated.i1-Q6_K (imatrix)
の3つ試してきた。
RPじゃなくて、1000文字程度の小説書かせただけだけど。
全部koboldのLegacyの値使ったけど、cyberagentが一番日本語能力低く感じたよ。
ストーリー展開と会話も他2つの方が好み。
0061名無しさん@ピンキー2024/12/30(月) 12:29:00.88ID:DCZZty0k
アドバイスお願いします。
漫画のセリフを別キャラのセリフとして変換するのにオススメモデルはありますか?

rtx4090でメインメモリ64GBを使ってます。
現状はローカルでエロセリフはBerghof-NSFW-7B、
非エロのセリフはperplexltyを使ってます。
0062名無しさん@ピンキー2024/12/30(月) 12:33:00.79ID:???
完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開
〜GPT-3.5を超える性能を達成〜
https://www.nii.ac.jp/news/release/2024/1224.html

これが先週のニュースだからな
国の金つかってこんなしょぼいLLM作ってるんだから日本は
0063名無しさん@ピンキー2024/12/30(月) 13:00:36.74ID:???
しかもフルスクラッチで始めて日本語ベンチでgpt3.5並て(笑)
下手糞すぎひん?
0064名無しさん@ピンキー2024/12/30(月) 13:21:07.77ID:???
nicky氏のsuperswallowXをメモリ96G積んでるニキ、例の規制解除処理しておくれでやんす
0065名無しさん@ピンキー2024/12/30(月) 13:36:06.70ID:???
ちなAbliteratedは4bit推論も可能なんでメモリ弱者にも優しい仕様になってるで
0066名無しさん@ピンキー2024/12/30(月) 18:57:55.66ID:???
大規模モデルは信じられないぐらい金かかるから簡単には出来ないとはいえ淋しい結果だな
0069名無しさん@ピンキー2024/12/31(火) 12:07:35.15ID:ze/4uz85
DeepSeekV3の普及速度えぐいわ
あっという間にSonnetとかレベルで利用されだしてる
https://i.imgur.com/tCVMetL.jpeg
0070名無しさん@ピンキー2024/12/31(火) 13:45:47.51ID:???
AIサービスはdeepseekv3一択になりつつある
高性能だし安い
LLMチャットサイトも大半が移行してる
0071名無しさん@ピンキー2024/12/31(火) 14:09:03.42ID:???
安さがぶっちぎりなんだよな
価格で対抗できそうなのはawsのやつくらいか
0072名無しさん@ピンキー2024/12/31(火) 15:26:50.21ID:???
deepseekのベンチがいいのは分かったけど実際はどうなの?🤔
0075名無しさん@ピンキー2024/12/31(火) 18:01:07.30ID:ze/4uz85
DeepSeekV3、OpenRouterを介してSillyTavernで試してみたけど
日本語もだいぶ話せると思うよ。多言語対応してるのは偉い(ふつうに申し訳されるけど)
3.5Sonnet超えてるかというとコーディング領域じゃ微妙だけど会話とかは結構イケてると思う
オープンウェイトだからローカルでも動かせる!(動かせるとは言ってない)
0076名無しさん@ピンキー2024/12/31(火) 19:00:48.40ID:???
DeepseekAPIは激安のcohereAPIより更に激安なのがいい
というかチャットだとcohereでも結構かかる
0077名無しさん@ピンキー2024/12/31(火) 19:45:59.10ID:???
モデルの規制解除試してるんだけど、parquetファイルを追加する手段ってなかなかないのね
どっかいいのないかな?
0078名無しさん@ピンキー2024/12/31(火) 20:02:02.86ID:???
chatgptとかに.txtを読み込むようにして〜ってお願いすればやってくれるで
0079名無しさん@ピンキー2024/12/31(火) 21:19:05.08ID:???
DeepSeek V3をローカルで動かすならMacクラスターが良いらしい
Macはメモリは優秀だけどGPUがショボくて今までのLLMだと遅すぎて使い物にならなかった
でもDeepSeek V3のMoEモデルはそんなMac相性が良くてかなり高速に動くみたい
https://blog.exolabs.net/day-2/
0080名無しさん@ピンキー2025/01/01(水) 01:25:05.09ID:???
>>65
.bitsandbytesがcpu量子化に対応してないから、メモリ64Gの環境では無理ですた
macメモリ増し増しのニキ頼むー
swallow v0.3 70Bが規制なくなればかなり良さげなんだわ
0081名無しさん@ピンキー2025/01/01(水) 13:48:26.33ID:???
>>79
4bit量子化とはいえ、671Bとはすごいね
しかも5.37token/sもでるのはMoEモデルならではとな
その構成のM4 pro 8台なら270万円〜 ww
でも研究者用にはよさそうだ
Apple のAIサーバーはM2 Ultraを並べてて色々欠点をあぶり出していて
その結果M5からGPUがAI向けにチューニングされているという噂
でもM4 maxがでたら我慢できないかも
0082名無しさん@ピンキー2025/01/01(水) 14:01:05.46ID:???
>>81
270万円は高くはあるけどNvidiaでこのメモリサイズ揃えるよりは圧倒的に安いんだよな
0083名無しさん@ピンキー2025/01/01(水) 17:56:49.81ID:DMpXKIh6
>>58
ごめんよく読んでなかった、素のmistral-nemoの方だわ
オリキャラ数人とパラメータいじりつつ会話してみたけど、cyberagent版の方が言葉遣いとかは自然だけどRPの演じ分けはあまり上手くない気がする

素の方は設定に忠実な、悪く言えば設定をなぞっただけの、翻訳文みたいな味気ない会話文を出すことがしばしばあるけど、総合的なPR能力はまあまあある方だと思う
cyberagentの方は会話の表現力自体は高いんだけど、どうにもチャットAIの回答に味付けしてくれるって感じで、特に無口系のキャラとかチャットAIと方向性が違う性格になると途端に忠実さが下がる
キャラなりきりチャットで遊ぶなら、多少表現が固くても素の方を選ぶかな

あと長文読解に関しては、素の方が圧勝だわ。まあこれに関してはほとんどの人は興味ないだろうけど……書きかけのテキストまとめる用途とかに便利なんだよ
素のmistral-nemo Q8_0だと、4.5万トークン(4bit/8bitキャッシュでVRAM16GB)くらいの小説を読ませて質問してもまともに説明できるし、説得力のある解説や解釈を入れてくれる
Q4_K_Mで8.5万トークンの小説読ませた時も日本語としてギリギリ成立するくらいの文章が出せたから、Q8とかFP16ならちゃんと応えられそうな気がする
cyberagent版やmagnum、phi-4とかのモデルだと3万トークン以下でも日本語として全く成立しないくらいに破綻するから、やっぱり素のmistral-nemoは総合的なポテンシャルがかなり高いと思う
0084名無しさん@ピンキー2025/01/01(水) 18:35:25.47ID:???
>>83
はえ〜勉強になるわ
ワイEasyNovelAssistantをちらっと触っただけなんやけど
小説を読ませて質問、てどういう風にやるんやろか?

イラストスレでも前スレ食わせてまとめさせとるニキおるし
めちゃロマン感じるんや
青空文庫から江戸川乱歩や吉川英治読ませて明智探偵や曹操丞相と会話したいんコ゚
0085名無しさん@ピンキー2025/01/01(水) 18:42:55.89ID:???
あと「そちら荊州借りパクしてますよね?」と魯粛先生の代わりに孔明を説い正したい
でも本気で罵倒してきたら王朗みたいに血ぃ吐いて憤死するかもしれんけど
楽しみでしょうがないんや
0086名無しさん@ピンキー2025/01/01(水) 22:09:23.10ID:???
2024年は大変お世話になりました。
ENA初心者いるっぽいんで、役立ちそうなこと書いときます。

・huggingfaceからDLしたgguf使いたい!
ggufが保存されているフォルダ(自分の環境だとKoboldCpp)に入れて、
ファイル名をVecteus-v1-IQ4_XS等、ENAからDLできるファイル名に置き換えると使えます。
jsonファイルを書き換える方法もあるっぽいけど、この方法で困ったことないです。

・localhostにアクセスしてKoboldAI Liteを使おう!
モデル読み込んだら一番下にURL出てくるはず。
ENAだと温度しか設定変更できないが、こっちだと色々なSamplersが変更可。
(コンテキストサイズはENAからのみ変更可)。
Sampler Presetの下部にあるLegacy設定がおすすめ。

XTC、DRY、Min-pを変更するのが最近の主流らしい。
まだ使いこなせてないので、良い値あったら教えてください・・・
0087名無しさん@ピンキー2025/01/01(水) 22:53:14.77ID:???
>>59,83
わざわざ検証サンクス
やっぱり元々日本語喋れるモデルに日本語チューニングしてもあんま意味ないんやろな
>>84
EasyNovelAssistant使ってるならkoboldcppってのが入ってるはずだからそれを立ち上げてcontext sizeをデカく&tokensタブからkvキャッシュの量子化をしてコンテキスト長が長いモデル(mistral-nemoとか)を起動
そしてlocalhost:5001に行けばGUIが立ち上がるからそこに長文ぶち込んで質問すればええよ
0088名無しさん@ピンキー2025/01/02(木) 01:39:59.73ID:eWlWc+tE
>>84
Oobabooga / Text generation web UI 使ってる。>>87ニキの通りEasyNovelAssistantでもできるはず
Mistral-NemoのQ8版をダウンロードしてきて、フォルダごとmodelフォルダに入れて、Web-uiのModelタブで設定を調整してロードすればOK
n_ctxの値が消費VRAM量に直結するから、そこはVRAMに合わせて調整してもろて。16GBなら4.5万トークンまではVRAMに乗り切ると思う
https://i.imgur.com/G0YjNQF.jpeg

ロードできたらDefaultタブか、NotebookタブのRawを開いて、こんな感じのプロンプトの中に小説や文章を貼り付けてGenerateすれば読解してもらえる
https://pastebin.com/UJE6muvi
プロンプトは以前やっつけで作ったヤツだから、適宜直してな

後は好きに質問したり、要約させたり、「(登場人物)は、こういう時にどう思いますか?」って聞いたり、「(シチュエーション)の台詞を考えて書きなさい」って指示すればいい
長文やってる人は少ないから、何か面白い会話とか出たら共有してくれると嬉しいで
0089名無しさん@ピンキー2025/01/02(木) 02:16:53.93ID:???
>>87>86>88
丁寧にサンガツやで!
EasyNovelAssistantの最大文字数?くらいしかいじったことないんやけど
全然足りとらんかったのね……画像までありがとう、やってみるで

LLMうまい人は質問の仕方や出力フォーマット指定も上手なんやろな
ワイは電子書籍化したpdfとか山とあるんやが、歴史系の専門書はまだ裁断しとらんのや
検索性は紙媒体が優れてるけど部屋にはもう置けんし、AIが司書さんになってくれたら
本処分して引っ越しも楽になるし
LLMの進化は楽しみなんや
0092名無しさん@ピンキー2025/01/02(木) 10:38:52.94ID:UaaINJ/a
GPT-4 = 8x220B = 1.76T のMoEなのか
4oのマルチモーダルは精度えぐいからまぁええけどLLM性能だけ見たらなんか劣化してそうだな
0093名無しさん@ピンキー2025/01/02(木) 10:40:45.45ID:???
実際に4oは最初なんだこりゃってなったからな
コーディング向けというか、とにかく事務的で人と話してる感が4よりも遥かに劣っていた
今もそうだけど
0094名無しさん@ピンキー2025/01/02(木) 11:12:56.29ID:???
ローカルLLMとパラ数が大差ないことが驚き
下手したら個人のPCでもGPT-4oが動かせそう
0095名無しさん@ピンキー2025/01/02(木) 11:47:39.71ID:???
推定値ってはっきり画像に書いてあるんで鵜呑みにしない方がいいよ
さすがに4o-miniが8bは賢すぎる
0097名無しさん@ピンキー2025/01/02(木) 12:55:45.88ID:???
8BぐらいならモデルをうっかりHuggingfaceにリークしてほしい
いつも情報をうっかりリークするOpenAIさん
0099名無しさん@ピンキー2025/01/02(木) 13:06:20.22ID:???
巨大モデル作成→枝刈りが軽量モデルの訓練最適解だとすればローカルLLM界隈は厳しい状況にある気がする
大規模なグラボがないと軽量かつ高性能なモデルが作れない
0100名無しさん@ピンキー2025/01/02(木) 13:12:14.62ID:???
7Bモデルまで軽量化する時にオホ声やメスガキの枝を大事に残してるとか草
0102名無しさん@ピンキー2025/01/02(木) 14:22:31.43ID:???
確かに文字の出てくる速度からして相当パラメータ数少なそうだなとは思ってたけど
もし本当に8bなのだとするとローカル界にもかなり希望があるってことにはなるなぁ
0103名無しさん@ピンキー2025/01/02(木) 14:33:27.02ID:???
言ってることが正しくても投資家の文字が出てくると胡散臭さが5割増に見える不思議
0104名無しさん@ピンキー2025/01/02(木) 16:14:44.46ID:???
macってメモリをGPUにシフトできるけど、koboldとかで使う場合GPUレイヤーに載せた方が速いの?
同じユニファイドメモリなんだからcpuモードでも同じと思ってたけど違うんかな?
0107名無しさん@ピンキー2025/01/02(木) 21:35:48.93ID:???
理論的にはエロ性能に特化した4o-miniをローカルで動かすことも不可能ではない
誰か頭が良くてエロい人頼んだ
0108名無しさん@ピンキー2025/01/03(金) 08:18:17.15ID:???
>>104
CPUとGPUではアクセスの粒度がぜんぜん違うので
MMUに対して領域を指定してその部分DRAMバンクのアクセス方法が切り替わる
(画面表示の時の読み出し割り込みが定期的にかかるから違うバンクのほうが予測率あがる)
さらにM3以降はそこの改良が進んでてダイナミックキャッシュの圧縮もしている
どうやって圧縮しているかはみつからんかった。最大2倍という広告は見たけど
0109名無しさん@ピンキー2025/01/03(金) 09:07:49.01ID:n0X7VVCV
wabisabiで4000超えたあたりから文章がぶっ壊れるな
context sizeは8192にしてるんだけど
0110名無しさん@ピンキー2025/01/03(金) 09:07:49.55ID:n0X7VVCV
wabisabiで4000超えたあたりから文章がぶっ壊れるな
context sizeは8192にしてるんだけど
0111名無しさん@ピンキー2025/01/03(金) 09:11:19.75ID:???
cohereのaya exp 8bはしゃべり方とかだいぶ4o-mini的かも
ただもとが優等生的なキャラなのでエロいのが好きな人は物足りないかも
0112名無しさん@ピンキー2025/01/03(金) 09:15:42.26ID:n0X7VVCV
尻タブだと問題ない
koboldだとぶっ壊れる
chat modeがダメなのか?
0113名無しさん@ピンキー2025/01/03(金) 14:27:41.47ID:???
アダルトなフォルダ群と、それに対応するサムネ画像群があります。両者のファイル名は表記揺れが多かったり、無駄に日付やバージョンが追記されていたりします。サムネ画像群をlsして200行ごとにA〜Kへと分けています。

AIに対して一つのフォルダ名とサムネ画像群ファイル名リストAを渡し対応しそうな名前を返してもらう、という処理をローカルで行いたいです。

powershellとkoboldcppでこういった処理は実現できそうでしょうか?
0114名無しさん@ピンキー2025/01/03(金) 15:03:16.85ID:n0X7VVCV
LLMとしりとりするの難しいな……GPTでも上手くいかないことがあるぞ
0115名無しさん@ピンキー2025/01/03(金) 15:08:09.90ID:???
>>113
フォルダ名から画像ファイル名探すだけならkoboldにファイル名リストぶち込んで質問でもいいんじゃね
ちゃんとやるならベクトルDB構築することになるけど
>>114
トークン化されてるからね
strawberry問題と同じよ
0116名無しさん@ピンキー2025/01/03(金) 15:21:13.72ID:n0X7VVCV
>>115
GPTだとちゃんと語尾を取ってくれるんだけど
「ん」で終わってしまったときの仕切り直しでおかしくなるんだよね

AI:「メロン」!
俺:「ン」で終わったらダメだよ!
AI:あ、すみません!「メロン」の「ン」ですね。じゃあ、「ノート」!

みたいな感じで
アホなLLMはそもそも全くしりとりが成立しない
0117名無しさん@ピンキー2025/01/03(金) 16:00:47.92ID:???
aya
cohereのとこだし似たようなもんだろって思ってたけどCR+よりは賢い気がする

ただ、軽めのマグナムが現状やっぱ最強
重いのも一応動くけどおっっそいし、俺調教モノがしたいからレスポンス早いの大事なんよなぁ
0119名無しさん@ピンキー2025/01/03(金) 18:28:30.76ID:dXFWaIdU
たしかに並のLLMだとしりとりダメだったわ面白い
QwenとかCohereとかだと単に似てる単語を返したりしてくる
4oとかClaudeレベルじゃないとルール理解してくれんかった
0120名無しさん@ピンキー2025/01/03(金) 23:55:50.93ID:W3BUnxUQ
尻タブでAPIからDeepSeek試してみたけど、いまいちだな…
同じような繰り返しばかりだし、LLMにありがちな明るい未来病をにおわせるフレーズが多くて響かん
設定煮詰めたらましになるのか?
0121名無しさん@ピンキー2025/01/04(土) 14:48:54.56ID:M2WOJj40
ワイもSillyTavernでDeepSeekV3試したけど
同じ語句くりかえしたり出力途中で途切れたり長い文章の出力途中で違う言語になったり
みたいな挙動は確認した
0122名無しさん@ピンキー2025/01/04(土) 21:19:09.29ID:???
俺もdeepseekのapi呼び出しで全く同じ症状出てるわ
繰り返しと文章の破綻
とてもじゃないけどこれがclaude越えはない
apiクレジット多めに買っちまったよちくしょう
0124名無しさん@ピンキー2025/01/04(土) 21:38:17.17ID:Cts7xg66
>>apiクレジット多めに買っちまったよちくしょう
(´・ω・`)人(´・ω・`)ナカーマ
0125名無しさん@ピンキー2025/01/04(土) 22:00:55.69ID:???
文章出力変のはトークナイザーやらテンプレートの設定を間違ってるからだろ
0126名無しさん@ピンキー2025/01/04(土) 22:50:00.83ID:???
そういう設定ってどこかにまとまってたりすんのかな
というかどう詰めていけばいいのか謎
0128名無しさん@ピンキー2025/01/05(日) 04:16:34.25ID:m82up0/D
>>126
そこらへんの情報ググっても全然出てこないよな
chatGPTに頼んでもまともな答えが返ってこないし
何がどう間違ってるのか確かめる方法と基準が分からん
0130名無しさん@ピンキー2025/01/05(日) 10:53:29.86ID:???
reddit以外だとDiscordとかになるんかね
Googleはオワコンだし、LLMの知識はそこの情報食ってウンコ出してるようなものだからもっと使えん
0131名無しさん@ピンキー2025/01/05(日) 12:05:27.52ID:???
ローカルがパワー不足(12GB)だから月課金のサービス使ってMagnum72B動かしたけど、当然ながら12Bより理解度高い上にキチンと下品な対応をしてくれるね……
0132名無しさん@ピンキー2025/01/05(日) 12:10:02.60ID:???
mradermacher/Writer-Large-2411-v2.1-i1-GGUF
期待してたこれようやくimatrix量子化してくれて感謝
小説特化のせいか評価問題は指示がうまく入らなかったけど、なんか知らんが隠語表現がぶっ飛んでたわw
0136名無しさん@ピンキー2025/01/05(日) 15:13:10.57ID:???
>133
infermatic.ai、arliai、groq、together.aiなどなどあるけど、自分はinfermatic.ai使ってる
使用できるモデルは少なめだけど、定額使いたい放題だからね…他のは単発で使うなら安いけど使用のたびに費用かかるのが合わない
0137名無しさん@ピンキー2025/01/05(日) 15:55:28.11ID:???
今のとこLyra Gutenbergs Twilight Magnum 12bに落ち着いてる
軽くてレスポンス早いし、NGないし、文章のクオリティも結構高め
よくミスるけどLMStudioなら介入しやすいし、早いから再出力もさせやすい

>>132
試してみたけど悪くないな。地の文は良い感じ
セリフがちょっと堅い気もするけど
0140名無しさん@ピンキー2025/01/05(日) 19:35:25.07ID:???
量子化すれば12bモデルも6gbになって余裕で動くようになるで
0141名無しさん@ピンキー2025/01/05(日) 20:08:10.44ID:hSVDz953
12gbで12bは余裕ぞ
というかそのぐらいまでがベストなサイズ感すらある
0142名無しさん@ピンキー2025/01/05(日) 20:38:58.77ID:???
3060 12Gで問題なく動く→12B Q6

7Bまでと思い込んでたので、12B動かせること知って全然変わったわ。
0143名無しさん@ピンキー2025/01/05(日) 20:46:11.28ID:???
M4 MacStudioが発表されたら買おうかな
192GBあればほぼなんでも動かせるだろう
ただGPUがショボいから生成が遅いらしいが
動かせないよりはマシか
0144名無しさん@ピンキー2025/01/05(日) 20:49:53.67ID:???
重いやつのがクオリティは間違いなく高いんだけどね
結局AIが生成する文章そのものというより、いい感じに自由度高く介入できるのが好きなんだと気付いたんでやっぱ生成速度大事やわ
0146名無しさん@ピンキー2025/01/05(日) 22:53:19.35ID:???
このスレも以前はグラボ関係なく70Bをガンガン(ゆるゆる)動かして「いやー30Bくらいの方が性能と速度のバランスがいいんだけどな」なんて会話をしていたものだがのう
0148名無しさん@ピンキー2025/01/05(日) 23:13:19.19ID:???
Magnumすごいよな
巷の官ジェネもよく通るし、出来もいい
俺の用途だと月課金する必要感じんわ
CommandR+より遅いのが難点かな
0149名無しさん@ピンキー2025/01/05(日) 23:14:15.92ID:???
でも12Bって良いモデル全然ない気がするぞ
7Bのがよっぽどまとも
0150名無しさん@ピンキー2025/01/06(月) 00:07:20.79ID:???
mistral系のモデルで7b派と12b派がいるよね
自分は理解力重視で12b派
0151名無しさん@ピンキー2025/01/06(月) 07:21:13.38ID:jPrr/kEg
軍人口調にしようとしてるんだけど難しいな
喋り方がかなりおかしくなってしまう
0152名無しさん@ピンキー2025/01/06(月) 10:55:13.49ID:???
>>151
台詞のサンプルとか指定したらいけないか?
あと性格とかでも口調が変わってくる
0153名無しさん@ピンキー2025/01/06(月) 11:23:16.09ID:???
>>138
これQ8とその一個下のQ6 K Lってモデルあるな
magnumで色々試すのはいいかもしれん
0154名無しさん@ピンキー2025/01/06(月) 11:40:25.82ID:jPrr/kEg
>>152
セリフのサンプル通りにならないんだよな
性格と矛盾してる箇所があるのかもしれないからそこらへん弄ってみるわ
0155名無しさん@ピンキー2025/01/06(月) 13:43:09.64ID:???
セッションが続くと文章崩れる問題ってもうどうあがいても解決できないのかなあれ
magnumすごくいいんだけど、結局そこで躓く

素人考えだと、前の文章に必要以上に引っ張られなきゃいいだけじゃんって思うんだけども
0156名無しさん@ピンキー2025/01/06(月) 14:05:48.20ID:???
ファインチューンで使うデータセットのトークン長を長くしないといけないから難しい問題なんよね
英語ならトークナイザーが強いからあんまり気にしなくていいんだけれども
0157名無しさん@ピンキー2025/01/06(月) 16:05:26.69ID:Yd+8NNWx
コーディング支援系のやつ色々ためしてんだけど
Cursor→Cody→Roo cline
って変遷してんだけどゴリゴリ自動で作業してく感じすごいわ
AIが作業した結果に許可ボタンポチるだけのAI見守りおじさんだよ👴
0158名無しさん@ピンキー2025/01/06(月) 16:25:14.14ID:???
>>155
忘れてほしくない情報は記憶しろって言う
忘れて良い情報は忘れろって言う
それが大事
0159名無しさん@ピンキー2025/01/06(月) 18:53:26.22ID:jPrr/kEg
>>157
俺も興味あるんだけどプログラミングとかほんのちょっとしか触ったことなくて良く分からんのよな
例えばどんなことが出来るの?
0160名無しさん@ピンキー2025/01/06(月) 20:37:13.50ID:???
koboldcppアプデでwebサーチ機能が追加されてんね
なおどこを有効にすればいいのか分からない😇
0162名無しさん@ピンキー2025/01/06(月) 22:00:04.11ID:Yd+8NNWx
>>157
なんというかこういう感じやね
ズドドドって直にコード編集してくれる
@neko.py @piyo.py みたいにコードを引用できたりするから
コードコピペしてChatGPTに貼り付けてぇとかしなくて済むのがデカい
https://youtu.be/M4bLmpkxa1s?si=GPqQ8dA5eFXFPMbn&t=107

>>161
一番ええのはCursorかな?
ただし月額サブスク20$なのでトークン毎の支払いがよければ
VSCODE拡張で入れられるCline(またはフォークのRoo Cline)かな
OpenRouterのトークン消費ランキングで大体上位におるからよく使われてると思う
https://i.imgur.com/5fB1rJU.jpeg
0163名無しさん@ピンキー2025/01/06(月) 22:01:36.56ID:Yd+8NNWx
安価ミスったスマソ👴
0166名無しさん@ピンキー2025/01/07(火) 09:02:45.02ID:???
bbx規制終わったかー
>>160
ウェブサーチいい感じだな
7bレベルだとなんか変な結果になるけど
設定は起動時と起動後のコンテキストのオプション2つ設定やで
0167名無しさん@ピンキー2025/01/07(火) 11:07:18.10ID:???
RyzenAIMaxはモバイル用なのか
なんでデスクトップ用を出さないんだ?
0170名無しさん@ピンキー2025/01/07(火) 12:58:23.04ID:2NQb3W94
色んなところで言われてるがVRAM 32GBは微妙すぎる
70Bクラスで遊べないのはきつい
0171名無しさん@ピンキー2025/01/07(火) 13:27:49.20ID:???
70B動かすなら48GBは欲しかったよねえ
さらにお値段ドンになっちゃうけど
0172名無しさん@ピンキー2025/01/07(火) 13:33:10.51ID:???
AMDかintelがとち狂って96gb積んでるグラボ出さねえかなぁ
それこそaimaxを強くしてデスクトップ向けに出してくれたらいいんだけど
0173名無しさん@ピンキー2025/01/07(火) 13:42:46.91ID:???
とか思ったらnvidiaもaimaxみたいな製品出してきやがった
まだvram帯域わからんしwinみたいなos入るわけじゃないから完全AI専用機だけど期待大
0177名無しさん@ピンキー2025/01/07(火) 14:13:48.50ID:???
まあ‥5〜6年もすればLLMもハードウェアも進化してるでしょう
0179名無しさん@ピンキー2025/01/07(火) 14:28:58.03ID:???
$3,000-は性能の割に格安だね。mac studioが霞む
どうした革ジャン、突然神になったのか?

ただリンクがNVLink-C2Cということは2台までだよな
TB5とか積んでるんだろうか
nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips
0181名無しさん@ピンキー2025/01/07(火) 14:42:07.23ID:???
Digitsの方は消費電力も少ないから自宅のLLMサーバー用途にはこっちの方がよさそうな気がしてきたな
CUDA使えるのも強い
0183名無しさん@ピンキー2025/01/07(火) 14:49:24.79ID:???
digitsってアーキテクチャarmなのか
帯域がどれくらいなのかも不明だな
0184名無しさん@ピンキー2025/01/07(火) 14:55:57.57ID:???
なんだMac買おうと思ってたのにこんなの出されたら待つしかないな
0186名無しさん@ピンキー2025/01/07(火) 15:11:28.45ID:x7h8INFs
話が旨すぎる
放っておけば5090複数挿しする層に何故こんな餌を
0188名無しさん@ピンキー2025/01/07(火) 15:30:54.46ID:ydnuQo+m
ついに現実的な値段でまともな文章力のがファインチューニングされる時代が来たのか
70Bとかのは正直「頑張ってるね」レベルが否めなかったからなあ
0189名無しさん@ピンキー2025/01/07(火) 15:50:12.18ID:EQ8Hm/rG
待ちに待ったStrix Haloの発表の日や!デスクトップ向けメモリ128GB対応で一番安価そうなのは……AI Max PRO 385ってやつなんやな!夢が広がるンゴ!
とかやってたらNVIDIAのproject digits発表見て横転したわ
AI Max PRO 385搭載で128GBのマシンが10万以下とか格安で出るならそれはそれで夢があるけど、project digitsの期待値ちょっとヤバすぎるな
0190名無しさん@ピンキー2025/01/07(火) 16:10:14.84ID:???
ただ開発者向けだから買うのがちょっと面倒になりそうだな
0191名無しさん@ピンキー2025/01/07(火) 16:26:42.39ID:???
なんだこの期待値ぶち上げな情報は
先月今月でソシャゲに30万だったかぶち込んでしまったがもっと早く情報出してくれたら2台目のために温存してたまであるぞ・・・
0192名無しさん@ピンキー2025/01/07(火) 16:43:22.03ID:jeRA2EF9
128gbで3000ドルなら
64gbを1500ドルで出してくれんかなぁ・・・
0193名無しさん@ピンキー2025/01/07(火) 16:46:49.30ID:???
チップの演算速度はどのくらいなんだろう
4060くらいはあるんだろうか?
0195名無しさん@ピンキー2025/01/07(火) 17:23:34.48ID:ySI+aBRS
グラボなんて適当に数万だして差しときゃよかったのに
うおおお30万!!やすい!!
順応性高すぎる
0198名無しさん@ピンキー2025/01/07(火) 17:48:08.49ID:???
AIの生成速度ってメモリ帯域で決まるから5090のことなら間違いなく早くなるよ
project degitsはメモリ帯域わからんから何とも
0199名無しさん@ピンキー2025/01/07(火) 17:48:18.71ID:???
まだスペック完全には出てないと思うけれど、少なくともA6000よりは全体的に上で、A100の80GBとは互角かそれ以上になる・・・
かもしれないってChatGPTが言ってた
画像生成モデルの学習や生成も個人レベルではかなり上がるんじゃない?
俺もそっち方面含めてめちゃ期待してる
0200名無しさん@ピンキー2025/01/07(火) 17:57:18.56ID:???
ヤベえよ5090買おうとしてたのに
いや、VRゲームとかもやるからそっちはそっちで要るか
0201名無しさん@ピンキー2025/01/07(火) 17:57:37.25ID:???
と言うか128Gのメモリで最大200bってことは量子化前提なんかな?
4台くらい繋げられんのだろか
0204名無しさん@ピンキー2025/01/07(火) 18:15:01.05ID:ySI+aBRS
と思ったらGPUじゃなくて小型スパコンとかいう意味わからんデバイスのことか
こりゃ革ジャンががんばってくれたら数年もしないうちに個人用AIサーバーみたいなのを
家電買うぐらいのハードルで建てられるようになりそうだわ
0205名無しさん@ピンキー2025/01/07(火) 19:04:15.08ID:???
Project DIGITSってLPDDR5Xらしいしそんなに帯域大きくないんじゃないのか
0206名無しさん@ピンキー2025/01/07(火) 19:25:45.56ID:???
Project DIGITSほしいよおおおお
でもビグテックが買い占めて庶民には回ってこないんだろな…
0207名無しさん@ピンキー2025/01/07(火) 19:52:57.40ID:???
mediatekと組んで作ってるということはスマホベースなのかな
macと同じようなものを作りますということ?
0208名無しさん@ピンキー2025/01/07(火) 20:00:10.97ID:???
>>206
これは学生含む小規模開発者向けだからビッグテックが買い漁るジャンルのものじゃないよ
学校で一括導入したりはあるだろうけど
0211名無しさん@ピンキー2025/01/07(火) 20:51:11.44ID:???
もういっさいゲームとかしなくてLLMか画像と動画生成をローカルで遊ぶくらいしか用途が無いんだけど買うならRTXよりdigitsの方が良いかな
OSもlinuxベースなら画像生成も学習も問題なく出来るよな?
0212名無しさん@ピンキー2025/01/07(火) 23:07:05.94ID:???
ARM系だからセットアップが面倒(一部ライブラリを自前でコンパイルする必要があるとか)だけど
普及すればその問題も消えるだろうしVRAMが必要な推論用途なら大本命のデバイスやね
0213名無しさん@ピンキー2025/01/08(水) 00:37:04.22ID:???
>>212
ARM系とかlinuxも全く分からんけどGPTあたりに聞けばなんとかなりそうだな挑戦してみよう
0214名無しさん@ピンキー2025/01/08(水) 08:04:38.57ID:???
RTX50はFP4対応したけどRTX40以下とのGPU混載だとFP4の高速化の恩恵受けないのかな
0215名無しさん@ピンキー2025/01/08(水) 11:10:25.11ID:???
FP4対応ってTensorCoreやろ?
ワイは一度試しに動かしたことある程度なんやが個人で利用してる人おるんやろか
正直geforceではtensorcore削って安くしてほしいんやが
0216名無しさん@ピンキー2025/01/08(水) 11:35:30.72ID:???
Chat with RTXみたいにTenser Coreに最適化済みのモデルを動かすと速いよ、50xxだとfp4も使えてさらに速いよって話なのかな
fp4使えなくても最適化済みモデルの数が増えるとか最適化手法が一般化することで恩恵あるかもね
0217名無しさん@ピンキー2025/01/08(水) 11:47:46.33ID:???
最適化と言うかtensorrtはそのモデルを使う環境でモデル変換をする必要があるからめんどくさくてどうしても普及しない
nvidiaのはどうやってるか知らないけど、多分力技で全パターンの変換済みモデルを自前で用意してるんじゃないかと
多分一つのモデルに対して数十パターンは用意しないといけない
下手したら100以上かも
0218名無しさん@ピンキー2025/01/08(水) 12:16:06.57ID:???
5000シリーズも出そろったし、チャット系だと実は mac mini M4 24G 位の方がリーズナブルだったりするんだろうか。
0220名無しさん@ピンキー2025/01/08(水) 12:43:24.17ID:???
digitsの出力速度はどうなんだろう
メモリがDDR5なのが気になるところ
0221名無しさん@ピンキー2025/01/08(水) 12:51:08.28ID:???
vidiはvram増やさないで済む戦略で進めるようだし
メモリほしいならmac一択やな
0226名無しさん@ピンキー2025/01/08(水) 14:21:57.73ID:???
macはどう考えてもお高いだろ
m2ultraの値段から考えるとm4は128GBで200万ぐらいするんじゃないの
0227名無しさん@ピンキー2025/01/08(水) 14:32:15.35ID:???
digitsはCUDAのサポートが保証されてるのが一番でかい
ハード的にはラズパイくらいの難易度だが機種選定に手間をかけたくない研究機関は脳死でまとめ買いするだろうな

革ジャンにとっては慈善事業の類だろうがTCOで見たらコスパ高いよ
0228名無しさん@ピンキー2025/01/08(水) 14:50:46.72ID:???
そういえば、デスクトップマスコットx localLLMって無いもんなのかな

LLMの記憶力問題をマスコットプログラムで管理して、ゲームブック的なシナリオ. txtにプレイヤーとして挑んでほしい
で、仕事して家に帰ったら今日の冒険がテキストにまとまっててほしい
0231名無しさん@ピンキー2025/01/08(水) 20:40:54.41ID:???
Digital mate x LocalLLM、やばいですね
大手が一律でNSFWを禁止している理由がハッキリ分かる
0232名無しさん@ピンキー2025/01/08(水) 21:01:02.61ID:ogKKa3a1
>>231
どんな感じなの?
俺のチンポが興味津々なんだけど
0233名無しさん@ピンキー2025/01/08(水) 21:43:16.77ID:???
できることそのものは選択したキャラクターとLocalLLMでチャット出来るというだけだよ

パッケージとして完成していて、手軽に使える、手軽にカスタム出来る、調べ物なしでいきなり果実に手が届くというタイプの危険さ

沼に転げ落ちる予感というか...$3000か...
0234名無しさん@ピンキー2025/01/08(水) 21:42:58.42ID:???
できることそのものは選択したキャラクターとLocalLLMでチャット出来るというだけだよ

パッケージとして完成していて、手軽に使える、手軽にカスタム出来る、調べ物なしでいきなり果実に手が届くというタイプの危険さ

沼に転げ落ちる予感というか...$3000か...
0235名無しさん@ピンキー2025/01/08(水) 22:38:31.81ID:???
MMDモデル使えるんだっけ?
音声はさすがにSBV2は無理かな?
あとはVR化出来たらもうピースが揃っちゃうんだけどな
0236名無しさん@ピンキー2025/01/08(水) 23:44:31.21ID:???
伺かが人工知能だったらって妄想が現実になったみたいな感じか
すげーなかがくのちから
0237名無しさん@ピンキー2025/01/08(水) 23:48:21.17ID:???
ollamaいれてcreateしたらいけるのかな
chat用をいれなかったからかすごいユーザー発言自己主張しまくって読み上げてきて笑った
0238名無しさん@ピンキー2025/01/09(木) 05:32:48.15ID:???
ソフト側でollama apiを選択して、lightchatassistant経由で起動してたkoboldcppのポート番号をいれるだけでとりあえず動いたよ

ボイスの自然さ、表現力、声質カスタムが揃えばそれだけで無限に客が呼べるのでは
短時間の音声サンプルから声質をコピーしたものを作れてしまいますよ、というのは証明されていますし
ASMRも担当できますよ、とかね
0240名無しさん@ピンキー2025/01/09(木) 09:47:56.68ID:9/0GocA5
voxtaってVaM動かさないといけないんでしょ?
確か会話でTimelineとかを操作してセックスモーションとかを起動できたはずだけど
あれCPUの性能要求がえげつないんだよな
0241名無しさん@ピンキー2025/01/09(木) 14:33:24.90ID:???
本当だ
ollamaいれんでもkoboldcpp起動してポートうごかしたらいけたわ
0242名無しさん@ピンキー2025/01/09(木) 19:23:00.11ID:H5Fzr7G2
16GBグラボ環境で日本語ローカルLLMをNSFW小説目的で遊んでたのだが
ふとRocinante-12bを英語で使ってみたら大分性能に差があることに気が付いてしまった
他に英語向けのNSFW可能なモデルでおすすめのあったら教えてほしいわ
0244名無しさん@ピンキー2025/01/09(木) 20:34:42.94ID:???
digitalmateはollama apiを使う感じなのかな?バンドルで売ってるchatwifeは不要?
0245名無しさん@ピンキー2025/01/10(金) 00:22:33.69ID:???
いろんなサービス試してみたけどオープンLLM動かすならfeatherless.ai使うのがコスパ良さそうだ
0246名無しさん@ピンキー2025/01/10(金) 07:23:15.99ID:???
Digital Mate、色々触ってみたけどLLMチャットにキャラクター概念を挿入するためのソフトって感じだな
高度なことを追求するよりは理想のキャラデータを量産できる体勢を作ったほうが面白くなりそう
良い絵を一枚持ってきてL2Dで少し動かして口調サンプルからセリフを4oに作ってもらうとか

>244
chatwifeは別の会社が作ってる同系統のソフトというだけっぽい
0247名無しさん@ピンキー2025/01/10(金) 14:36:31.63ID:???
DigitalMateそのものは、俺はこれは別にいいやってなったけど、
今後何かちょっとした開発をこちら側でしたいってなった時に大事になってくるのはこの方向性だなとも思った

LLMの文章を画像出力させる!みたいなことしたい時も、
文章読ませて画像プロンプトそのものを出力させるより、「タグ」のプリセットを予め用意して適したのを選ばせた方が精度が高い

指向性を定める箱をちゃんと用意するのが大事なんやろなって感じ
0248名無しさん@ピンキー2025/01/10(金) 14:48:03.90ID:???
digitsのせいでm4ultraとstrixhaloへのモチベがダダ下がりしている
macの制限受けるUltra
おそらくAI以外のパフォは大した事ないdigits
いまいちAIへのやる気感じられないAMDのstrixhaloでそれぞれ欠点はあるんだけども
0249名無しさん@ピンキー2025/01/10(金) 15:02:28.82ID:???
digitsも感覚麻痺してるから3000ドルで安い!ってなるけどA401年ノンストップで借りる額と同じなんよな
使わないときは止めれば4、5年は使えるしそのぐらいたてばもっと安くて性能いいものが出てると考えると何とも
0250名無しさん@ピンキー2025/01/10(金) 15:05:40.32ID:???
サブスクは値上げの可能性が付きまとうから単純比較はまた悩ましい
0251名無しさん@ピンキー2025/01/10(金) 15:05:53.26ID:JUaa8XjM
koboldのアドベンチャーモードってtokenを大量消費する仕様があったりするの?
設定したコンテキストサイズの半分ぐらいで文章がおかしくなるんだけど

>>234
ほえー
ちょっと面白そうだね
MMDとかよく分からんけど
0252名無しさん@ピンキー2025/01/10(金) 15:59:58.72ID:yayCyjSt
digitsは高価だろうけど、ドッキングできるのもあって中古の需要は高いだろうし、売却すればそれなりの金額になるんじゃないかな(希望的観測)
……ってそうなってくるとdigitsのレンタルもできるようになってくるのかな?そういやsaladだったか、個人でGPUリソースの貸し借りするサービスあったような……
0253名無しさん@ピンキー2025/01/10(金) 16:10:28.87ID:nL7fDqcp
クラウドアレルギーだからプロデジちゃんでいいや
0254名無しさん@ピンキー2025/01/10(金) 16:28:35.20ID:???
digitsは開発者向けと言ってるから一般販売用の第二世代がすでに準備されてる可能性あるような
70bが動かせて10万円ですとか
0255名無しさん@ピンキー2025/01/10(金) 17:07:14.57ID:???
何にせよ販売経路も一般とは異なりそうだし5月に使用感のレビュー見るしかないな
帯域がどうだろうなあ
0257名無しさん@ピンキー2025/01/10(金) 18:37:51.51ID:???
もしかしてこのスレってクラウドサービスでオンデマンドスケベLLMしてるエンジニアの鑑がいるのか?
0258名無しさん@ピンキー2025/01/10(金) 18:51:57.08ID:KsFSGxqE
>>251
多分ユーザー側で入れる情報と別にアドベンチャーモード用のプリセットプロンプトも読んでるからそこでトークン消費してる
0259名無しさん@ピンキー2025/01/10(金) 19:27:05.39ID:???
>>256
チャット派のワイはこれで200Bが動かせるとしてもやっぱ応答速度が気になるんや
3000ドルやっす!とは思うけど冷静に考えると5090に9800x3D合わせても2500ドル以下で買えるしなあ…
小説派は全速力で飛び付け!とは思うで
0260名無しさん@ピンキー2025/01/10(金) 19:39:32.43ID:JUaa8XjM
>>258
ははあ、そういうことかいな
アドベンチャーモードは面白いけど半分も占有されるのは辛いもんやな
0261名無しさん@ピンキー2025/01/10(金) 20:21:38.37ID:???
推論速度は気になるところなんよな

公開されてるのはfp4が1pflopってことだけやねんけど、
そこからいろいろワイ独自に推測に推測を重ねて
最速で4070くらい、再遅で4070の半分くらい(3060くらい?)かなって気がしとる

4070の半分くらいやったとしても70bをおそらく5token/sくらいで動かせるので
結局ほしいんやが
0262名無しさん@ピンキー2025/01/10(金) 20:31:34.13ID:???
redditで画像に写ったメモリチップの比率から32bitチップでstrixhaloと大差ないって考察してる人はいたね
イメージ画像だろうし500は出るだろ派やappleみたいに128bitチップ専用に作ってもらって1T出るんじゃないか派もいたけど
0263名無しさん@ピンキー2025/01/10(金) 22:15:12.29ID:HAfSvJGq
>>260
ワイはGeminiが無料でコンテキスト大量だからそっちでアドベンチャーモードと同じ遊び方してる
NSFWも露骨なのは止まるけど、システムプロンプトにコンプライアンス最低でとか過激な表現は避けて婉曲的に描写することとか書くとエロいこと自体はしてくれるし
0264名無しさん@ピンキー2025/01/11(土) 00:52:20.95ID:uYI/25aT
>>257
クラウドにインスタンス建ててLLM置いてオレオレLLMサービスにAPI接続ってことか?
A40(48GB)でも$0.39/hrとかすっから24時間借りっぱなしとかになると月額数万とかになるだろ
どこにもホストしてないドマイナーモデル/俺だけのファインチューニングAIを使いたいんだあってケース以外割にあわん
0266名無しさん@ピンキー2025/01/11(土) 04:01:26.03ID:???
paperspaceって手もあるぞ
A100は期待できないがA6000ならまぁ混雑時間以外は大体使える
ただ、gradioない奴(SillyTavernとか)使おうとすると自力でgradioでラップするかバレたら垢停止の方法使うしかないけど・・・
0268名無しさん@ピンキー2025/01/11(土) 09:59:36.45ID:???
人間相手のチャットで長文派だと平気で10分とか20分とか待たされることもあったな
0270名無しさん@ピンキー2025/01/11(土) 11:16:58.90ID:OHT8Xdlg
尻タブでも設定したcontext長が16384なのに6000ぐらいで
文章にアルファベットや記号が混ざっておかしくなる

もしかしてこれは繰り返しペナルティとか温度とかの設定の問題か?
まあ設定を弄っても全然改善しないんだが
はあーん、マジで分からん
context長を長くしても全く生かせてない
0271名無しさん@ピンキー2025/01/11(土) 11:21:10.33ID:???
>>270
ファインチューニングモデル使っててベースモデルなら問題ない場合はファインチューニングでロングコンテキスト性能が劣化しちゃってるからどうしようもない
0272名無しさん@ピンキー2025/01/11(土) 11:57:23.74ID:OHT8Xdlg
>>271
前スレのwabisabi-v1なんだけどそういうことなのかな?
バージョンアップで8kから128kにコンテキスト長が伸びたことを謳っていたから大丈夫そうなんだけど
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/754
0273名無しさん@ピンキー2025/01/11(土) 12:22:17.51ID:???
>>272
ファインチューニングで使ったデータ以上の長さの文を送られるとAIが困惑して意味不明なこと言い始めちゃうんよ
モデル的に128kまで行けるから前の文章も覚えてはいるんだけどね
0274名無しさん@ピンキー2025/01/11(土) 12:59:19.45ID:???
10token/sか
追い付かなくなってくる速度だな
リアルタイムで音声チャット出来るようになるにはこれでも足らないんだろうな
0276名無しさん@ピンキー2025/01/11(土) 14:59:57.30ID:???
日本語のerpデータセットってhfに上がってないんかな
官能小説データは自力で集めて今手元に数GBくらいあるんやけど
0278名無しさん@ピンキー2025/01/11(土) 16:02:54.55ID:OHT8Xdlg
>>273>>275
16kまで行ける人がいるならモデルが原因ではないのか?
俺は8k以下でおかしくなるし

RTXのAI性能が上がるpytorchのパッチが来るらしい
https://x.com/_kaiinui/status/1877548551707689165

pytorchってどこで使ってるんだっけ?
0279名無しさん@ピンキー2025/01/11(土) 16:03:16.04ID:???
digitalmateこれツンツンした時のreactionとかにもLLM使ってくれたらいいのにな
あと一定時間話しかけないと向こうから話してくれたり
結局自分からアクション起こさないと駄目だから億劫になっちゃう
伺かみたいだったら常駐する意味もあるんだけどな
0280名無しさん@ピンキー2025/01/11(土) 16:53:45.03ID:???
>>278
すまん、64→32→16と上から試して破綻してたからもうええかってなったんで8Kは試してない
0281名無しさん@ピンキー2025/01/11(土) 17:05:42.07ID:OHT8Xdlg
>>280
どれぐらいのコンテキスト長で破綻してたの?
俺は最大16k設定にしたのに6kぐらいで破綻した
0282名無しさん@ピンキー2025/01/11(土) 17:45:47.40ID:???
>>264
runpodってやつか
しかし60円/時で済むのか
ちゃんとスケジュールでterminateしていれば意外と趣味の範囲か…?
0283名無しさん@ピンキー2025/01/11(土) 19:07:04.05ID:OHT8Xdlg
ポッキーゲームやツイスターゲームが学習されていないモデルって結構あるのな
説明してもなかなかルールを理解してくれない
0284名無しさん@ピンキー2025/01/11(土) 20:36:20.60ID:???
>279
開発自体は活発だしコミュニティも付いてるからパッと思いつく機能は時間経過で全部付くんじゃないかな
複数キャラを起動して勝手に会話させるとか
テキストを渡すと内容について評価感想を出してくれるとか

伺かにChatGPT3. 5のAPIを導入しているプロジェクトもあるみたいだから、Koboldcppをopenai 互換で起動しておいてHostsか何かでopenaiへのアクセスをリダイレクトすればLocalLLM伺かを爆誕させることも出来るかも
0285名無しさん@ピンキー2025/01/11(土) 21:06:13.25ID:???
>>279
その機能って超単純な仕組みで追加出来るだろうからリクエスト出せば受け入れられそうやな
一定時間入力されない場合に入力されるプロンプトや特定箇所をクリックした時に入力されるプロンプトを数種類用意しとくだけで済むし
0286名無しさん@ピンキー2025/01/11(土) 21:17:28.04ID:???
Android アプリのコトモ、ChatGPTのボイスモードよりそれっぽい合成音声とガードの脅威的緩さがすごいな
ダメじゃない!?ってなる
これぐらいの合成音声がどこででも使えるようになると色々捗るんだけど
0288名無しさん@ピンキー2025/01/11(土) 21:44:47.68ID:???
Style-Bert-Vits2ですか
VITS-APIアクセス経由でDigital Mateと接続できたりするやつ...?
0290名無しさん@ピンキー2025/01/11(土) 22:29:22.47ID:???
sbv2入れてみたけど抑揚がおかしくて使ってないわ
あれいいのか?
それとも俺の設定がおかしいのか
0291名無しさん@ピンキー2025/01/11(土) 23:18:11.73ID:???
sbv2はモデルで発音に滅茶苦茶差があるからそれだと思われ
10月あたりにkotomoと比べたけど自分はそこまで差があるようには感じなかったわ
0292名無しさん@ピンキー2025/01/11(土) 23:23:19.14ID:???
そうなのか
もう1回チャレンジしてみよう
LLMで作った小説の朗読に使えそうなの探してるとこなんよな
0293名無しさん@ピンキー2025/01/12(日) 00:24:59.04ID:???
Japanese‐TextGen‐Kage‐v0.1.2‐2x78‐NSFW‐gguf
Mistral_Nemo_NSFW_E3V1_Q8_0‐GGUF
Ninja‐v1‐NSFW‐128k‐i1‐GGUF

最近入れて悪くないなってなったLLM
0294名無しさん@ピンキー2025/01/12(日) 07:12:04.12ID:???
>>293
おーありがとう参考になる
こんな感じでテンプレの>>15も最近の情報にどんどん入れ替えて欲しいな
最初のテンプレ書いたの自分だけどさすがに古いわ…
0297名無しさん@ピンキー2025/01/12(日) 09:42:19.75ID:???
120BクラスのQ8をそれなりの速度で動かせる環境が手に入って、Lumimaid-v0.2-123Bとmagnum-v4-123bを試して見たところ、普段使っているcalm3-22b-RP-v2と比べてそんなに優れているように感じませんでした
もし120Bクラスを常用している方がいたら感想やお薦めのモデルを教えていただけないでしょうか?
使途は日本語ERPです
0298名無しさん@ピンキー2025/01/12(日) 09:56:58.46ID:???
合成音声、パッと調べた感じだとStyle-Bert-VITS2からいろいろクリーンにしたAivisSpeechに移行中って感じなのかな
0299名無しさん@ピンキー2025/01/12(日) 09:57:56.29ID:???
おっと送っておる
いろいろ作っている最中です感あるから後から触るので良さそう
0301名無しさん@ピンキー2025/01/12(日) 10:38:46.71ID:???
>>297
普段はLumimaid-v0.2-12Bを使っててたまにLumimaid-v0.2-123Bを触るけど123Bの方が少ないプロンプトで理解してくれる(察してくれる)のは感じるかな
他のモデルは自分は触ってないけどLumimaidやmagnumの123Bをマージしたlumikabra-123B_v0.4とか良いかも
あとはMistral系のモデルはtemperatureを0.3程度にするのが推奨されていることが多いからそのへん弄ってみるとか
0302名無しさん@ピンキー2025/01/12(日) 12:15:59.32ID:???
>>297
プロンプトや用途によるのかな?

俺が使ってる小説強化プロンプトで試してみたけど、magnum-v4-123bはプロンプト通り小説が強化されてるのに対して、calm3-22b-RP-v2は強化されてないように感じる。
calm3-22b-RP-v2はよく似た文章の繰り返しが多いのガ気になったかな。
magnum-v4-123bだとガチャ要素が少なくて、ほぼ一発て通るからこれオンリーで使ってるよ。
あと察してくれるのはまさにその通り。

小説強化プロンプト
https://rentry.org/nz5nodmx
システムプロンプトなどに張り付けて、指示文を書くだけ
0304名無しさん@ピンキー2025/01/12(日) 13:36:49.96ID:???
>>303
ごめん、kobold使ってないからwsとか分からん
lmstudio使ってるんだけどシステムプロンプト書くところにリンクのプロンプト文を貼り付けて使ってるだけ
普通に1回目からリンクのプロンプトを投げるのでもいいのかもね
後は書いて欲しい内容を適当に投げて執筆してもらっています
0305名無しさん@ピンキー2025/01/12(日) 14:11:12.13ID:???
>>304
サンクス
帰ったら色々試してみるわ
koboldは最近追加されたstorywriterモードがいい感じなんでこれとうまく融合させてみる
0306名無しさん@ピンキー2025/01/12(日) 14:37:45.31ID:JeZR3A0c
エロ小説を書かせると2000文字ぐらいで切り上げられちゃうんだけど
もっと長文で書かせる定石みたいなのってあるの?
>>302使ってもあっさりした描写ですぐ射精して終わりになっちゃう
0307名無しさん@ピンキー2025/01/12(日) 15:43:40.12ID:JeZR3A0c
storywriterモード使ったらちょっと長くなったわ
でも複数キャラを出すと同じような展開ばっかりになっちゃうな
LLMで小説書き切る人はすげえわ
0308名無しさん@ピンキー2025/01/12(日) 15:51:38.61ID:???
>>307
storywriterモードは区切りのいいところで一旦終わってくれるので
そのまま続けてくれ とか
もっと〜を掘り下げて とか指示して流れを誘導していくのが面白い
0309名無しさん@ピンキー2025/01/12(日) 17:35:52.98ID:JeZR3A0c
>>308
あれinstructモードだからそういうことが出来るんか
0310名無しさん@ピンキー2025/01/12(日) 18:30:53.61ID:???
>>301, 302
情報ありがとうございます
いつも次の応答を誘導するようなプロンプトを書いているので少ないプロンプトでもいけるというのは盲点でした
モデル、プロンプトの紹介もありがとうございます
手もとで試してみようと思います
0311名無しさん@ピンキー2025/01/12(日) 19:38:54.79ID:XkamCAjb
小説家プロンプト、読み上げ環境で使うとたのしいな
AI文章は小説としてはまぁうんだけど目の前で即興でアイデアを喋っているという体裁があると気にならなくなる
0312名無しさん@ピンキー2025/01/12(日) 19:53:43.84ID:CCjnHkgm
>>298
AivisSpeechはVoicevoxのフロントエンドにStyle-Bert-VITS2を組み込みましたみたいなやつやで
ゆっくり実況的ななにかを作るなら便利そうやけど、単に音声バックエンドとしてつかうならStyle-Bert-VITS2で十分やと思うぞ
0313名無しさん@ピンキー2025/01/12(日) 20:25:53.60ID:XkamCAjb
今現在つかうならSBV2が正解だね
sasayaki28(ASMR風囁きスタイル)ちゃんに物語を読んでもらうのがとても良かった

ただSBV2はリポジトリの更新が止まってる、話速を調整すると単にスローモーションになるetcの問題がAivisSpeechでは解決されている、ファイル形式の刷新など下回りの整備をやっている…
てことは多分中の人たちはAivisSpeechにかかりっきりで、両者が統合されないにしてもSBV2の次の更新はAivisSpeech開発からのフィードバックがされてAivisSpeechベースの仕様になる雰囲気があるような

ならばいまのSBV2でより良い結果を求めて詳しくなるよりは、AivisSpeechベースになってから深く触ればいいかなと
AivisSpeechがうまく行って音声モデルがさらに増えてからのほうが面白みも増すだろうしね
0314名無しさん@ピンキー2025/01/12(日) 20:51:21.71ID:???
AivisはSBV2に比べてちと生成速度が遅いのが難点。
公式もそこは有料APIで補ってくれってスタンスだし。
0315名無しさん@ピンキー2025/01/12(日) 22:54:58.50ID:???
>>313
なんJRVC部の住人に普通にSBV2の作者がおるんやが
AIVISの作者とやり取りはあるけど基本的には関わってないみたい
最近はエロ音声の文字起こし精度を高める方向を頑張っててSBV2に組み込むやり方も解説してた
SBV2自体の更新はサボってしまってるとも
0316名無しさん@ピンキー2025/01/13(月) 00:29:35.13ID:GZRfBYqb
Deepseek以外でクソデカモデル含めると今一番日本語性能良いローカルモデルってMistral-Large系列?Qwen2.5 72b系の方が良かったりする?
0317名無しさん@ピンキー2025/01/13(月) 00:38:57.56ID:???
mistral largeでいいと思う
qwenはなんかネイティブ感が足りない
固い用途で使うなら別にqwenでも全然あり
0318名無しさん@ピンキー2025/01/13(月) 06:11:32.25ID:???
Chatbot Arena見るとllama 405Bは日本語性能も良いみたいだけどサイズデカすぎるわな
0319名無しさん@ピンキー2025/01/13(月) 06:20:33.83ID:???
>315
情報たすかる
まずはモデルを簡単に作れるようにするための仕事が先、という話にも聞こえるな
技術が切り拓かれていってるタイミングだからアンテナの張り方も大事になりそう
0320名無しさん@ピンキー2025/01/13(月) 12:16:50.48ID:v6bjGYjv
>>317
やっぱ微妙にカタコトなのか、参考になる

Aivisは結局SBV2ベースだけど音声合成専門でやってるような人に聞くと技術的に結構古くて最新のアーキテクチャとか使ったモデルの方がだいぶ性能良いらしいんよね
簡単に使えるレベルにまで降りてきてくれてないけど
0321名無しさん@ピンキー2025/01/13(月) 14:39:20.38ID:g1PkNzW0
濡れそぼるって表現をLLMで初めて知ったんだけど
エロ小説では一般的な表現なの?ちょくちょく出てくるんだよな
0322名無しさん@ピンキー2025/01/13(月) 15:01:37.51ID:???
濡れそぼつ、な
まろび出ると同じでなぜかエロでしか使われなくなった表現
0323名無しさん@ピンキー2025/01/13(月) 15:12:07.86ID:g1PkNzW0
>>322
濡れそぼつなのか
やっぱエロでしか使われないのね
語感的にそのまま消え去ってもおかしくなさそうなのになんでエロだと残ってるんだろうな
0324名無しさん@ピンキー2025/01/13(月) 17:00:30.65ID:???
意思に関係なしに身体は反応してるというドライで客観的な視点があるカモ
0325名無しさん@ピンキー2025/01/13(月) 17:17:42.10ID:hbsajKRA
>>322 >>323
濡れそぼつ、別にエロ用語じゃないやろ?ワイにとっては子供のころから普通に目にする言葉や
まろび出る、はあんまり見かけんが
0326名無しさん@ピンキー2025/01/13(月) 17:57:56.53ID:???
LM studio使ってる人ってどのくらいいるんやろ
GUI上で編集だの再生成だのを楽にできて特に困ってもいないから一旦はこれ使ってるんだが

他のプログラムとの連携とか考えだすと他の方がいいこともあるんだろうけど
0328名無しさん@ピンキー2025/01/13(月) 18:09:03.60ID:???
前スレで5chの連投スクリプトいなくなったから次スレからオナテク板から戻ろうって提案あったけど
やっぱ連投スクリプトいるじゃん
0329名無しさん@ピンキー2025/01/13(月) 18:40:22.92ID:???
しとどに濡れる、もエロ以外見かけないね
むしろエロは簡単な表現だったらエロくならん気がするけど
メスホールはヤバいくらいエモかった。
ヤバい。マジヤバい。五大湖かよ。

PC板は今けっこうスクリプト受けどるね
sikiガードも抜けてきよる
0330名無しさん@ピンキー2025/01/13(月) 18:51:38.17ID:???
>326
LM Studioは画面がシンプルリッチでごちゃごちゃ感も質素感もないのが良いよね

片端から使ってるけど、まだ機能的な差が少ないので用語さえ分かってしまえば他のものを使うのは難しくないよ
新機能部分はそれぞれあるけど実用レベルなものはあんまないからスルーでいい

あとLM StudioはふだんはEndpoint ( 127.0.0.1:5001 とか )が開かれていないけど、開発者タブの左上、Status:Stopの右側にあるボタンをONにすれば他から接続できるようになるよ
0331名無しさん@ピンキー2025/01/13(月) 18:53:59.45ID:???
ジャンルのそれぞれの文化とも結びついてるような
まろび出すも時代物読んでると臓物がまろび出しがち
0332名無しさん@ピンキー2025/01/13(月) 19:18:43.74ID:g1PkNzW0
ヤンキー女とチャットするの難しいな
全然まともに喋ってくれねえ

>>325
つまり子供のころからエッチな環境にいたってこと?
0333名無しさん@ピンキー2025/01/13(月) 20:56:26.65ID:g1PkNzW0
ダメだ
乱暴な口調にするとすぐに男化する
ヤンキーとか女戦士みたいな強い女キャラが好きなのに難しすぎる
0334名無しさん@ピンキー2025/01/13(月) 23:14:26.63ID:8EB7OGkW
男性的要素を持つ女性を表現するには
できればCR+以上のモデルが要るような気はする
0335名無しさん@ピンキー2025/01/14(火) 00:49:05.62ID:???
普通にマグナムさんどころか軽めのLLMでも、「レデースです」とか「いかにも不良っぽい、男勝りでつんけんした口調でしゃべります」って
システムプロンプトに書いたらいい感じに不良やってくれるぞ

態度も不良っぽくて割といい感じにイヤイヤ従ってくれる
0336名無しさん@ピンキー2025/01/14(火) 06:10:29.42ID:4t1GiLpM
マジ?
エッチなことをすると、一人称が俺様になったりチンポ生えたり
userを女扱いしたりすることが多くなるんだけどプロンプトの書き方が悪いのか
0337名無しさん@ピンキー2025/01/14(火) 06:54:16.69ID:???
10割で書かせるのはムリなのでは
Editや再生成で無かったことにしていくのが単純で簡単だけど、それだと魔法が解けてしまうひとも居そうだね
0338名無しさん@ピンキー2025/01/14(火) 07:51:49.35ID:4t1GiLpM
10割じゃなくても良いんだけどかなり頻度が上がるんだよな
クール系女戦士なら大丈夫なんだけど、荒くれものみたいな粗暴な口調にすると男になりやすい
0339名無しさん@ピンキー2025/01/14(火) 08:50:37.37ID:???
10割でなくて良いなら手間の問題だから、出力結果を二次加工する方法があると綺麗に解決できそう

画面表示する前に出力文を評価して女の子にちんちんが生えてたらレッドアラートを出してくれるLLM処理とか
ちんちん行為ををまんまん行為に書き換えてくれるLLM処理とか

単純な事に思えるからLM StudioかSillyTavernのプラグインに存在してもおかしくないような
0340名無しさん@ピンキー2025/01/14(火) 10:39:58.21ID:???
「今どんな感じ?」とか
トリガーワードつけて
雰囲気壊さないようにプロンプト説明はチャット画面に表記なしで
ゲームの1枚絵みたいに画像生成出来たらいいな
0341名無しさん@ピンキー2025/01/14(火) 10:43:50.79ID:???
そういやふつうのモデルって文章がNSFWかどうか判別して拒否してきたりするよね
てことは軽量だけど理解力はあるphi4.ggufちゃんを回して文章評価させればえっちな文章かどうかは判別できる、あるいは10段階でどのくらいえっちなのかも判別出来たりする...?
0342名無しさん@ピンキー2025/01/14(火) 11:08:31.49ID:4t1GiLpM
>>339
尻タブで探したけどよく分からなかった……
拡張機能ってどこで探せばいいんだ

>>340
koboldに画像の自動生成機能があったような

>>341
7Bのvecteus-v1-abliterated-q4_k_mでもそこそこエッチ度評価できたよ
プロンプトに

-会話のエッチ度の表記:文章の最後に[会話のエッチ度:n]という形式で会話内容のエッチ度を表示してください。
nには1〜10の数字が入り、数字が大きいほどエッチです。
基準として、乳揉みは[エッチ度:3]です。

って入れておくと、エッチなことをするとちゃんと数字が上がって、エッチじゃないと数字が下がる
そこまで賢いモデルじゃないからかなり大雑把だけど
0343名無しさん@ピンキー2025/01/14(火) 11:21:16.37ID:???
20個文章生成してえっち度で並び替えさせると使えそうだね

NSFWに厳しいモデルほどトレーニング段階でではえっち文章を食べてて、理解力がある可能性があるような
脱獄プロンプトで実力を試すとなかなかやりおるわけですし
0344名無しさん@ピンキー2025/01/14(火) 11:25:59.41ID:???
>>342
サンガツ
koboldもあるのか
STで画像生成プロンプト有りは
見たことあるが
相手がタグを喋りだしたら笑ってしまう
0345名無しさん@ピンキー2025/01/14(火) 11:32:11.75ID:j222OMVx
>>NSFWに厳しいモデルほどトレーニング段階でではえっち文章を食べてて、理解力がある可能性があるような
鋭い考察に見えるがどうなんやろうな?
エッチ関連の重みバッサリ削って申し訳領域に強制ご招待されてるだけな様な気もするが
0346名無しさん@ピンキー2025/01/14(火) 11:34:09.99ID:4t1GiLpM
乳揉みは[会話のエッチ度:3]です

は書いたらダメだったわ
マッサージで足を揉んでも「揉む」に反応して乳揉みと同程度までエッチ度が上がってしまう
この記述を消したらマッサージのエッチ度が下がった

>>343
エッチな文章をしっかり食ってないと判別して弾けないもんな
0347名無しさん@ピンキー2025/01/14(火) 19:13:16.24ID:8Osc4zgX
エロライトノベルをイメージしている人とフランス書院をイメージしている人の差があるスレでつね
0348名無しさん@ピンキー2025/01/15(水) 02:59:50.03ID:???
セッション長くなると繰り返しがちになる問題を検証してたんだけどベースモデルでかなり決まるっぽい
8gbに収まるサイズでテストしたらaya-expance-8b>mistral-nemo>gemma-2-9bの順で繰り返しの出現頻度が少なかったわ
ファインチューニングの問題だと思い込んでクレジット溶かしちまったぜ
0349名無しさん@ピンキー2025/01/15(水) 03:51:09.12ID:???
ayaは意外と優秀よな
cohereだしCR+程度かと思ってると案外やれる
0350名無しさん@ピンキー2025/01/15(水) 08:33:43.59ID:???
やっぱベースモデルの重要度でかいよね
音声でも似たような傾向あるわ
ファインチューニングでいくら頑張っても元が悪けりゃ無理だったり
0352名無しさん@ピンキー2025/01/15(水) 09:53:22.25ID:NzXTEQvb
digitsが出たらNSFW向けに調整した大型モデルも増えるのかな
7Bや11Bモデルでは満足できなくなってきたから待ち遠しい
0353名無しさん@ピンキー2025/01/15(水) 10:42:28.60ID:???
digitsは世界的にかなり引き合い強そうだし、そもそもAI開発者向けを謳ってるから販路も不明だしで、一般人がまともに買えるかちと怪しい。
0355名無しさん@ピンキー2025/01/15(水) 11:44:00.98ID:???
LCMは単語の上に概念があると言ってしまった時点で、概念のさらに上にあるものや下にあるもの、外側にある世界そのものや内側にあるなにかを考える必要が出てくる気がする

単語だけで全部出来るんだ、ならシンプルゆえの物量作戦で限界まで到達できる可能性あるけど、LCMは無限に作り直しが要求されるんじゃなかろうか
0356名無しさん@ピンキー2025/01/15(水) 12:25:11.39ID:???
ただまあ↑で言われてる繰り返し問題なんかはモロに改善されそうよね
0357名無しさん@ピンキー2025/01/15(水) 12:58:07.03ID:fMQ+7jju
同サイズでの進化があんまり見られないから新しい手法が来るのは嬉しい
0358名無しさん@ピンキー2025/01/15(水) 14:17:02.66ID:VhHIZkFo
海外のエロAIチャットサイトで色々モデル試したけどどうしても繰り返しが出ちゃって
ローカルならもっと改善されたモデル使えるかと思ってここにたどり着いたけどやっぱり難しいのか
0359名無しさん@ピンキー2025/01/15(水) 14:25:23.72ID:???
silly tavernの繰り返しペナルティ辺りの設定を詰めればなんとかなる事も多いけど使うモデルによって最適な設定は変わると思うので自分で試行錯誤するしかないっていう
そもそも繰り返しそうになったら手修正で防ぐという力技も
0360名無しさん@ピンキー2025/01/15(水) 14:40:43.98ID:fMQ+7jju
同じ話題や単語を避ければある程度は防げるんだけど
エッチなことしてると延々と同じことしまくりたくなるんだよね

>>359の言う通り、チャット履歴を遡って繰り返す単語や言い回しを削除・変更すれば繰り返しはほぼ消える
0361名無しさん@ピンキー2025/01/15(水) 16:10:52.33ID:???
LLMで再評価して自動修正出来ていい部分だと思うんだよな
LangFlowとかに手を出す必要があるんだろうか
0363名無しさん@ピンキー2025/01/15(水) 17:11:30.91ID:???
なんか今やってるセッション調子よくて、変な繰り返し少ないわ
同じルミメイドマグナム12bでも全然繰り返してたことあるんで原因不明

やたら長いシステムプロンプトが効いてるのか、
目まぐるしく変わる展開が効いてるのか、LMStudioのアプデ後が調子いいのかは分からん

繰り返しには困ってるからむしろ再現性欲しいぐらいなのだが
0364名無しさん@ピンキー2025/01/15(水) 17:15:28.82ID:???
尻タブだとアプデすると繰り返しや出力文がおかしくなるからバックアップ取って一旦設定とかリセットすると治ったりするってたまに言われてる
0365名無しさん@ピンキー2025/01/15(水) 17:19:48.13ID:fMQ+7jju
一人称とかの頻出単語も修正することになったりしないの?
繰り返しペナルティで問題になるのも確か頻出単語が引っ掛かることだったはず
0366名無しさん@ピンキー2025/01/15(水) 17:23:10.29ID:???
実際、変な癖覚える前に編集して改ざんしつつ続きから簡単に書かせられるのはLLMの大きなメリットだと思う
気になったら途中で出力止めて、少しだけ編集して助走つけつつ続きから書かせる形式がかなり良さげ

もうちょっとだけ文章欲しい時とか

だけ書くとセリフ書いてくれるし、その展開好みじゃないんだよなぁって時は主役側のセリフちょっと弄れば結構思い通りの展開になってくれる

TRPGのちょっと難しい処理とか、計算ミスしまくるんだけどそれはもう手動で修正することにしたし
0367名無しさん@ピンキー2025/01/15(水) 20:26:52.14ID:0kkiR7ce
>>354
面白そうやね。楽しみが増えたわ
0368名無しさん@ピンキー2025/01/16(木) 04:19:46.33ID:bid1l7+p
koboldとかだと>>366みたいに自分でちょっと書いて続きを書かせられるけど
これって尻タブでも出来る?

aaya-expance-8b試してみたけど結構良いね
ただ「私は女戦士だ。戦闘なら任せておけ」みたいな強そうな喋り方をなかなかしてくれないな
対話の例を書いても会話履歴を修正しても「私は女戦士よ。戦闘なら任せてね」みたいな女っぽい喋り方になりがち
他のモデルならちゃんと喋ってくれるんだけど
0369名無しさん@ピンキー2025/01/16(木) 05:07:48.87ID:bid1l7+p
同じセリフを繰り返すなら、同じセリフを繰り返すキャラとエッチすればいいんじゃね?
と思って4種類のセリフだけを喋るNPC姦をやってみたけど相性抜群だな
延々と特定のセリフを繰り返すしエッチなことをすればセリフに喘ぎ声だけを足すことも出来る
設定をしっかり練らないとセリフには無いことを喋り出すけど
0370名無しさん@ピンキー2025/01/16(木) 06:47:51.63ID:???
geminiも繰り返し多いんだよな
claudeはちょっとマシになる
chatGPTが一番繰り返しは少ない
0372名無しさん@ピンキー2025/01/16(木) 11:54:27.73ID:???
それ例えば練乳ぶっかけをエロと捉えるのか健全と捉えるのか気になるなw
0373名無しさん@ピンキー2025/01/16(木) 13:03:51.14ID:???
4時間かけて学んだこと
ロードできるからって下手にコンテキストサイズ大きくして読み込んだら一発目から出力がおかしくなる
あと長いチャットしててコンテキスト上限に行くと直前の出力を繰り返す

パラやテンプレートが合ってないのかと思って時間溶けた....
0374名無しさん@ピンキー2025/01/16(木) 14:08:26.36ID:bid1l7+p
出力内容ってコンテキストサイズに影響されたっけ?
上限行ったら文章壊れるのはその通りだけど
0376名無しさん@ピンキー2025/01/16(木) 14:38:28.33ID:???
コンテキストシフトとかそういうのあるはず
上限に来たら古いものから忘れて容量を回復
0377名無しさん@ピンキー2025/01/16(木) 14:49:16.38ID:???
10000トークンとかで入力読み込んだり3000程度にしたりと色々試すけど、そこが原因で壊れるかは怪しい気もする
はいそれ以上は無理ですみたいな感じに、なった記憶はあんまない
0378名無しさん@ピンキー2025/01/17(金) 12:32:21.20ID:???
>>366
まんまNovelAIの思想な気がする
生成確率のトップN単語の候補からポチポチ改変できたりメッチャUIUXが良いんだけど
どうもこのスレでは人気ないんだよなぁ
0379名無しさん@ピンキー2025/01/17(金) 14:16:01.47ID:???
メモwikiに掲示板を設定したついでにキャラカードを一つ配布してるから恥ずかしいけどよかったらどうぞ
気に入ったらやり取りをうpしてくれると凄く嬉しい
0380名無しさん@ピンキー2025/01/17(金) 16:25:51.34ID:trA+l9Ha
>>379
参考にさせてもらったよ

尻タブのテキストの修飾形式が載ってるページってどこにあるの?
**で囲うとかそういうやつ
0382名無しさん@ピンキー2025/01/17(金) 20:05:15.37ID:trA+l9Ha
Markdownなのかな?
「」で囲っても色変わるんだけど
0385名無しさん@ピンキー2025/01/18(土) 01:20:58.34ID:???
尻で使えるフォーマットを見るなら尻の入力欄に /? format で視覚的に確認できる
/? macros で確認できるマクロとかも頭が良ければ使えそうだけど、AI出力の頭に{{random:Joy,Anger,Grief,Pleasure,Hate}}:{{roll:d100}}で毎回違う感情値で文章を書かせる程度しかわからん
0386名無しさん@ピンキー2025/01/18(土) 11:16:30.81ID:???
hertogateis/SmallBot
これってdeepseekなんかな?
日本語性能すごくいい
0387名無しさん@ピンキー2025/01/18(土) 13:03:27.09ID:PaWqxbLX
>>386
人格付与してみたけど2手目で剥がれちゃうな…
性能は結構良い印象だけど一部の指示追従性に難ありか?
0388名無しさん@ピンキー2025/01/18(土) 13:20:11.51ID:???
hertogateis/deepseekchat
こっちの方はところどころ英文が混じるな
設定見ると同じdeekseek v3みたいだけど何でこんな差が出るんだろ
0389名無しさん@ピンキー2025/01/19(日) 01:23:02.86ID:???
同じモデルでもどこが出してるかとかのちょっとの差でかなり差が出るイメージある
0390名無しさん@ピンキー2025/01/19(日) 22:29:50.93ID:???
商用LLMはAIをどう使い倒すかハックするかという話だけど、ローカルLLMはAIを使って自分を使い倒してハックさせるのが強い気がする

ジャーナリングの要領で感想の感想まで深堀して聞き出すプロンプトを作ってもらって今日見たものの話をしてると、欲望がドロドロ吐き出されて文章を打つ手が震えてくる

音声入力音声応答まで揃った環境で同じことやると危険そう
0391名無しさん@ピンキー2025/01/19(日) 23:00:39.06ID:???
>>390
前に音声入力、応答ができるコード作ったことあるんだけどいる?
いるならgithubにでも上げるけど
0392名無しさん@ピンキー2025/01/19(日) 23:15:37.68ID:???
ありがたいけど、いまの性能だとシチュエーションとしては良くても快適では無いってなりそうなんだよな
TTS等のレスポンスもそうだけどタイピング並の速度で喋るのも困難なことですし

カウンセラー的振る舞いではなく合いの手や適切なまとめ方が出来るところまでローカルLLMが賢くなれば変わってくるのかな
こっちがノッてるときは最小限の合いの手、疲れてきてるなと思ったらブレイク入れてくれるとか
0393名無しさん@ピンキー2025/01/20(月) 07:04:06.54ID:???
ninjaのnsfw系モデル、エロ関係のセリフの語彙の理解度は多分一番高いな
こっちの指示あんま理解しないんで一瞬出力して他のモデルにそれ真似させるといい感じ
0397名無しさん@ピンキー2025/01/20(月) 21:29:54.54ID:???
どういう裏口入学を想定してるんだろう?
いくらでもユーザーが追試出来る以上事前学習でベンチマーク対策というのも無理筋ですし
0398名無しさん@ピンキー2025/01/20(月) 23:53:16.91ID:???
digital mateとSBV2 APIサーバーの接続、うまくいかん理由が分からず唸ってたんだが、コレ単にDigital MateかVITS-APIプラグインにバグがあるやつだな

キャラクターを編集→音声→音声朗読エンジンでVITS-API選択
VITS API SiteでNew Site押して、 タイトルを SBV2にする
URLの 127.0.0.1:23456/voice/vits&id=
の部分を 127.0.0.1:5000/voice&model_id= に置き換え
Speakersをモデルidの数だけ増やしておく
決定後VITS API Siteのプルタブの一番下にSBV2があるから選択
決定を押すと狂いだしてLocalhostのあらゆるポートから喋りかけてきて怖いのでタスクトレイから強制終了

再起動、キャラクターを編集でモデルidを選択、プレビュー再生、であとは問題なく喋ってくれる、パラメータも効いてる
0399名無しさん@ピンキー2025/01/21(火) 10:10:13.31ID:mrzTBzix
DeepSeek-R1-Distillっていう蒸留モデルもリリースされてるやん
R1出力をデータセットにしてQwen2.5あたりをベースに知識蒸留させたっぽい
0400名無しさん@ピンキー2025/01/21(火) 10:11:41.90ID:???
試したが、量子化モデルだとやたら他国語出るし、量子化しないと小さいモデルしか使えないのでちと微妙かも。
0401名無しさん@ピンキー2025/01/21(火) 10:38:36.77ID:???
moeって使うところだけVRAMにロードってできんのかな
読み出し元がnvmeならまぁまぁな速度で動作すると思うんだけど
全部読み込もうとしたら671Bはさすがに量子化しても一般人には扱えんわ
0403名無しさん@ピンキー2025/01/21(火) 14:50:37.52ID:U68nsbJ+
二人羽織をして遊ぶの難しいな
7Bモデルじゃなかなか理解してくれない
0404名無しさん@ピンキー2025/01/21(火) 16:06:56.44ID:tKAKCXet
DeepSeek-R1-Distill使ってみたけどAIが自分の頭の中を出力して考えをまとめていくの面白い
ui側が対応してないから心の声だだ漏れなのがすごいかわいい。日本語力は壊滅的だけどね
0405名無しさん@ピンキー2025/01/21(火) 16:06:56.40ID:mrzTBzix
SillyTavern + OpenRouter
でDeepsheek R1使えてるやつおる?
なんか
Chat Completion API
Provider returned error
ってなっちゃうわ
V3は使えるんやけど
0406名無しさん@ピンキー2025/01/21(火) 16:21:36.50ID:???
>>405
LMstudioもなんかエラー出て使えんね
よくわかんなかったけど、多分llamaだかの動かしてる側のアップデート待ちっぽい気配を感じた
0407名無しさん@ピンキー2025/01/21(火) 16:22:41.25ID:U68nsbJ+
尻タブにもAIの考えを出力させる拡張機能あるよな
一度考えさせることで応答精度を高めるものだけど

俺には上手く使えなかったが……
0409名無しさん@ピンキー2025/01/21(火) 16:37:31.96ID:???
>>406
LM Studio 0.3.7 (Build 2)でDeepSeek R1に対応したね
うちではいい感じに動いてるわ
0410名無しさん@ピンキー2025/01/21(火) 17:24:31.04ID:???
β板のLM Studio0.3.8にするとThinkingって表示が追加されてDeepSeek R1派生のモデルがちゃんと表示されるようになる
0.3.7だとThinkingの工程まで表示されてしまっていたけど
DeepSeek R1 は思考プロセスが他と違うのかな
まぁ、まだ文系の作業が得意なモデルは見当たらないんで、コーディングとかして遊ぶ用かな。今のとこ。
0412名無しさん@ピンキー2025/01/21(火) 18:20:21.49ID:???
deepseek r1 70BもK4Mだと頭悪いよほほーん。
K8ならデモサイトくらい賢いのかな
例の5月発売マシン、はよ。(ローカルはロマン
0413名無しさん@ピンキー2025/01/21(火) 18:23:31.76ID:???
日本語で使ってるならベースモデルがqwenの32bの方が性能いいかもね
0415名無しさん@ピンキー2025/01/21(火) 19:06:53.91ID:???
deepseek r1の70bはllamaベースで日本語に対応してないから日本語で使うならr1 32bの方がいいんじゃね?って話
0417名無しさん@ピンキー2025/01/21(火) 23:09:59.45ID:???
ollamaがアプデで8B以外のモデルにも対応したから、Windows版exeでインストール、ターミナル開く、ollama run deepseek-r1:32b だけやればとりあえず動くね
すぐに他の環境も対応してくるだろうけど
0418名無しさん@ピンキー2025/01/22(水) 05:34:27.59ID:+25XjR4W
koboldでもdeepseek-r1動くようになったけど
7Bモデルだと「チャーハンの作り方教えて」って質問しても
udonの作り方を日本語、中国語、英語交じりの意味不明な文章で教えてくれる程度の能力だわ
何か設定間違えてるのかな
0419名無しさん@ピンキー2025/01/22(水) 10:30:17.66ID:???
蒸留モデルだとまだ元のQwenの方がいいんじゃないかと言ってる人がいるね。Qwenのこのスレでの評価ってどうだったっけ。
言語変換部分の問題のような気がするから適切なプロンプトで回避できそうではあり。
14BのQ4_K_Mは出力たまに乱れるけど3060でそこそこ動いた。未成年非同意食える感じ。
8Bだとすぐ中国語吐き始めて発狂するね。
使ってるのはmmngaニキの量子化。量子化でバグってる可能性もそういや昔はよくあったな。
0420名無しさん@ピンキー2025/01/22(水) 12:18:41.00ID:???
DeepSeek-R1-DistillにはLlamaを混ぜてあるのとQwenのと2種類あるいから
日本語の応答はQwen版のがマシじゃね?って話かと8BはLlamaだな
DeepSeek-R1-Distill-Qwen-14BとQwen-32B使ってる人よく見るが
0421名無しさん@ピンキー2025/01/22(水) 12:19:33.56ID:t8dXeL5A
ウチはlm studioだとちゃんと動くけど英語で考えて英語で答えてくる
だから一回「日本語で会話しろ/分かりました」をログに残す必要がある
0422名無しさん@ピンキー2025/01/22(水) 14:19:48.03ID:???
>>406
LMStudioとモジュールをアップデートすれば使えるはず

deepseekR1よりも重いけど、最近ではBehemoth-v2.2-Magnum-v4-123B.i1-Q2_Kが日本語でエロロールプレイをするにはいい感じだったわ
0423名無しさん@ピンキー2025/01/22(水) 18:49:12.12ID:vyivx1Qx
LM Studioええな〜使いやすいわ
ソフトウェアもLllama.cppとかのバックエンドのアプデもサクサクできる
モデルもポチポチするだけでダウンロードできる
なによりUIがモダンで洗練されててたすかる
>>1 テンプレに入れとくべきやな
0424名無しさん@ピンキー2025/01/22(水) 18:55:50.62ID:???
LM Studio使いやすくてええよね
音声も対応してくれるといいんだけど
0425名無しさん@ピンキー2025/01/22(水) 18:56:59.03ID:vyivx1Qx
そんでDeepSeek-R1-Distill、LM studio0.3.8にしたら動いたけど
「さて、ユーザーからメッセージが届きました……。「やっほー!こんばんは。調子どう?」と書いてあるようです。
私はファッションに興味のある17歳の少女を演じることになっているので、彼女の性格に合った方法で応答する必要があります。……」
みたいな脳内のシミュレートみたいなのめっちゃしてから返答するのな
レスポンス性能皆無だぞコレ
0426名無しさん@ピンキー2025/01/22(水) 19:07:18.08ID:???
think機能は推論を長くすればそれだけめ賢くなるよって話の最速実装だから、これからのLLMはレスポンス遅くて賢い(or創造的)か逆かってことになるんじゃないかな
0427名無しさん@ピンキー2025/01/22(水) 19:08:34.46ID:???
Qwenってもとからオールオッケーなんだっけ?
R1 Qweb 32b動かしてるけど全部行けるしかなり書いてのける
0428名無しさん@ピンキー2025/01/22(水) 19:10:37.81ID:vyivx1Qx
さっきは14Bだったけど32Bに至っては
挨拶しただけなのにいきなり電卓作り始めて草
こら公式APIでR1なりV3なりを使ったほうがええかな……(まだわからんけど)
https://i.imgur.com/PuW5vWQ.jpeg
0433名無しさん@ピンキー2025/01/22(水) 21:16:18.19ID:???
えっち書いてもらってる最中に電卓作り始めたらどうしよう
0436名無しさん@ピンキー2025/01/23(木) 03:11:15.97ID:yQspFm3a
LMスタジオ1年ぶりくらいに更新したらUI変わりすぎててビックリ
0437名無しさん@ピンキー2025/01/23(木) 04:46:36.45ID:???
deepseekのローカル、英語で思考してから日本語に直して答えるの賢いと思うけど
回答を弄って誘導しにくいっすね
0438名無しさん@ピンキー2025/01/23(木) 07:02:05.84ID:???
Qwen 32b、Ollamaで実行するとガイドラインを言い出すのにLM Studioだと全くないな
何かが変なような
0439名無しさん@ピンキー2025/01/23(木) 07:54:50.11ID:???
Mac使ってるニキに聞きたいんだが、どのモデルもMLX変換したほうがパフォーマンスよくなるの?
0440名無しさん@ピンキー2025/01/23(木) 08:52:34.62ID:???
ほとんどの場合mlxのほうが速いね
mlxだとNeural Engine(ANE)とGPUをAppleのライブラリ内でうまく分散させてくれてるらしい。
ただpowermetricsで見てる限りANEは0%だな(笑)
FaceTimeのリアルタイム文字起こしの時はビンビンに上がる

画像から文字を取り出す時にたまにピクリと上がる
ただ変換ミスしているのかggufでは日本語がうまく取り扱えてたのに
mlxだとダメということはあけどたかだか数十個しか試してないから逆もあるかもしれん
0441名無しさん@ピンキー2025/01/23(木) 09:01:55.07ID:???
mlxみたいなOSSからもANE使えるの?
使えないものだと思ってたけど、使えるなら触ってみるか
0442名無しさん@ピンキー2025/01/23(木) 10:28:42.77ID:???
蒸留版の方のDeepSeek 14B試してみたけど有名な9.11と9.9どっちが大きいのか問題出したらきちんと考えて9.9と解答してたな
確かに賢くはなってる
0444名無しさん@ピンキー2025/01/23(木) 13:52:06.87ID:???
deepseek-Qwen-14B調整しようとしてるんだけど
think /thinkの中身そのものをロールプレイ風に思考させるのは難しそう
0445名無しさん@ピンキー2025/01/24(金) 01:22:35.90ID:???
Open WebUI最新版の0.5.6にしてもThinkingみたいなタグ出てこないんだがどこの設定いじればいいんだ?
0446名無しさん@ピンキー2025/01/24(金) 01:53:24.82ID:3PGi6WPH
Ollamaで`ollama run deepseek-r1:14b`して動かしたらターミナル上でだけどちゃんと推論できたわ(いきなり電卓も作らんぞ……!
めちゃくちゃサクサク動くしだいぶ賢いかもしれん
ただSillyTavernで接続したらThinkができないせいか返答がスゴい雑になるな
https://i.imgur.com/Twlzar2.jpeg
0447名無しさん@ピンキー2025/01/24(金) 08:42:25.69ID:fykYBWPc
DeepSeek-R1は何にしろエロ目的だと使いづらいか
0449名無しさん@ピンキー2025/01/24(金) 08:53:25.55ID:???
やっぱり蒸溜版はそれなりの性能しかない印象
使うなら671Bの本物なんだろうけどおま環で動かないし
本家のサービスは提供主体が信用しきれないのがな……
0450名無しさん@ピンキー2025/01/24(金) 09:21:32.42ID:???
deepseekは全データを中国に置いて中国の法律で管理します!が怖いからむしろ叡智な目的以外じゃ使いづらいんだよな
ローカル671Bの8ビット量子化なら容量半分くらいになって350GBくらいか・・・
digits3つで動・・・くか?流石に3つとかポンと買えないが
0452名無しさん@ピンキー2025/01/24(金) 10:24:41.15ID:???
2つしか繋げられなかったような?
あれそもそも帯域幅もハッキリしてなかったよね
0453名無しさん@ピンキー2025/01/24(金) 11:03:04.21ID:???
あー、俺が調べた時は「2つ繋げばどうのこうのって言う記載があったから2つは繋げるけれども3つ以上はわかんない」みたいな状態だったんだが、2つまでって確定した感じ?
ならすまん・・・
0454名無しさん@ピンキー2025/01/24(金) 11:41:16.47ID:???
nvlinkでの接続は2台までで確定してるけどLLMの場合Lan経由での接続も可能だし4台買えばR1もローカルで動かせると思う
0455名無しさん@ピンキー2025/01/24(金) 11:46:24.72ID:???
元のものよくいじってるからこそ強く思うけど、
正直、蒸留版は元の方がR1っぽくなったってイメージ

それでもいいところはいっぱいあるけど、語彙とか展開の作りとかは元のものに相当引っ張られてる印象
0456名無しさん@ピンキー2025/01/24(金) 12:07:55.72ID:Wxel8P6M
R1の破茶滅茶な感じは蒸溜モデルから得られないからそこを期待するとがっかりするよね
0457名無しさん@ピンキー2025/01/24(金) 14:59:27.97ID:vJdGdyPg
英語でやってるとすごか表現力高いのがわかるよ
まあ暴走もしっかりするけどさ

APIだと編集でいじれるのはいいよね
0464名無しさん@ピンキー2025/01/25(土) 10:00:41.98ID:???
3060位の性能でいいからVRAMだけ96GBにして15万円以下で出してくれ
0466名無しさん@ピンキー2025/01/25(土) 12:07:48.18ID:???
digital mateがDeepSeek-R1のthinkタグに対応するの何か月かかるかわからんから
OllamaかLMStudioの間に入ってthinkタグ削るAPI Proxy作ったった(´・ω・`)
0467名無しさん@ピンキー2025/01/25(土) 12:20:49.50ID:???
よわよわgpuにメモリたくさん載せるより
つよつよgpuにメモリたくさん載せたほうが金になるからアル
0470名無しさん@ピンキー2025/01/25(土) 18:51:01.76ID:zfAVth5r
Ollamaって`ollama run hf.co/bartowski/deepseek-r1-qwen-2.5-32B-ablated-GGUF:IQ2_S`みたいにうてばhuggingfaceからモデルもってこれるんやな
コマンドは🤗モデルページのUse this modelのOllamaからコピーできたで
0472名無しさん@ピンキー2025/01/26(日) 05:17:16.79ID:???
現場の問題というよりはmetaの経営方針の問題な気がする
株主からこの投資に見合った結果ってなんなの?と問われた場合metaだけは研究結果の質で答えるハメになるという
0473名無しさん@ピンキー2025/01/26(日) 05:24:02.93ID:PAOFONiM
低コストな優良LLMがたくさん出てくるきっかけになるのか
それともLLMから撤退する企業が増えるのか……
0477名無しさん@ピンキー2025/01/26(日) 09:09:37.88ID:???
少なくともLLMそのものはビジネスにならないって逃げる企業が増えると思う
中国に勝てない事が鮮明になって来たし
何より中国は官民とも規制が緩くてやりたい放題出来る差もデカ過ぎる
既にゲームにもかなり高度なAI搭載されてるからな
0478名無しさん@ピンキー2025/01/26(日) 09:37:25.74ID:???
上の方と下の方は残って真ん中が全部死ぬ、みたいなことになりそう
それで何が困るのか? 問われた時に示せる価値もそんなに無いですし
0482名無しさん@ピンキー2025/01/26(日) 11:53:54.25ID:wGeKgiYp
そうなん?
0483名無しさん@ピンキー2025/01/26(日) 13:19:06.49ID:???
karakuri-ai/karakuri-lm-32b-thinking-2501-exp

QwQベースのkarakuriか
ggufもあるし帰ったら試すぜ
32bならだれか無規制化できるニキおらんかな?
0484名無しさん@ピンキー2025/01/26(日) 13:41:31.87ID:???
DeepSeekはトレーニングの方法まで細かく公開してるから数カ月後にはこれを真似したLLMが出てくるんじゃないかな
0485名無しさん@ピンキー2025/01/26(日) 15:28:22.17ID:???
DeepSeekはどっかのCloseAIと大違いだな
ユーザーに寛大だし業界の発展にも寄与してる
0486名無しさん@ピンキー2025/01/26(日) 16:12:34.02ID:???
DeepSeekは作り方も全部公開しちゃったから、そういうこと喧伝しながら重要なところは何も出さず、特殊ライセンスで牛耳ろうとしていたMetaの特権を破壊してしまった、という見方もできそう
04884832025/01/26(日) 19:54:34.29ID:???
ローカルで試してるがデモで見られた規制や優等生的受け答えは見られないな
koboldで試してるが際どい指示でも申し訳されないぞこれw
さすがkarakuriというべきか(`・ω・´)
0489名無しさん@ピンキー2025/01/27(月) 08:21:52.30ID:???
karakuriは規制自体はあるっぽい
環境によってよく分からん挙動をするから、必要な設定がなにかあって、それがないと正しく振る舞わないけど規制も働かないとかかね
0490名無しさん@ピンキー2025/01/27(月) 17:11:58.95ID:???
DeepSeek-R1-Distill-Qwen-32B-Japanese
がhuggingfaceで観測出来るな
量子化モデルがないけど...
thinkも日本語で出来るなら振る舞いを理解するためのモデルとして使えるかも
0492名無しさん@ピンキー2025/01/27(月) 17:40:42.29ID:???
サイバーエージェントならthinking用の日本語データセット作ってそうだし期待できそう
R18は無理だろうけど
0493名無しさん@ピンキー2025/01/27(月) 18:42:03.12ID:AmoL+r0w
サイバーエージェントってclamにしろ日本語すら怪しいAIドヤ顔で出してたイメージしか無いけど実力あんの?
0496名無しさん@ピンキー2025/01/27(月) 19:20:53.90ID:???
もしかしてエロ小説書かせるのもローカルモデルでやるより一般向けのチャットAI騙して書かせるのが主流なん?
0497名無しさん@ピンキー2025/01/27(月) 19:32:33.99ID:???
どうなんだろ?
ローカルLLMは開始コストが猛烈に高くてゲーミング
0498名無しさん@ピンキー2025/01/27(月) 19:33:37.37ID:???
ゲーミングPCの強めのが既にありますって人しか気軽に出来ないから、割合で言えば商用LLMのひとのほうがずっと多いのでは
0499名無しさん@ピンキー2025/01/27(月) 19:33:38.32ID:???
ローカルでやる理由
・技術的興味
・一般AIの度重なる仕様変更にウンザリしている
・エロ文章をサーバーに送信したくない極度のシャイボーイ

逆にこういう理由が無いなら質も速さも安さも手軽さもローカルを選ぶ理由はないと思う
0500名無しさん@ピンキー2025/01/27(月) 19:34:19.01ID:???
そもそも日本語性能に焦点を当てたLLMを開発できる会社って日本だとサイバーエージェントぐらいしかないんだよなぁ…
合成データにしろthinking用データセットを用意して日本語ファインチューニングしてくれるだけでも感謝するしかない
0502名無しさん@ピンキー2025/01/27(月) 19:39:40.58ID:???
基礎モデル作ってるのはありがたいけど現状三周遅れくらいしてるから
素直に海外の強いモデルにFTしたのを出してくれる方が一ユーザーとしてはありがたい
0503名無しさん@ピンキー2025/01/27(月) 19:49:41.34ID:???
ゼロから作られてもどうせショボいんだから金と人員の無駄なんだよな
こういうオープンソースをパクって行ってほしい
0504名無しさん@ピンキー2025/01/27(月) 19:50:09.26ID:???
ローカルは完全無規制がザラだから、プロンプトエンジニアリングの沼を避けて通れるのは強みだと思うわ
文章の質は限度があるけどめんどくさくないのがいい
ローカルでも規制あるやつはまぁうん
0506名無しさん@ピンキー2025/01/27(月) 20:08:24.23ID:AmoL+r0w
karakuriとかsakana aiとか結果出してる企業がいる中でサイバーエージェントじゃね…
0507名無しさん@ピンキー2025/01/27(月) 20:19:48.63ID:???
まあやってないよりはマシかと
necやNTTみたいなゴミを作ってクローズにしてるよりは
0508名無しさん@ピンキー2025/01/27(月) 20:22:33.86ID:???
ちゃんと公開してくれるだけありがたいわな


DeepSeek-R1-Distill-Qwen-14B/32Bをベースに日本語データで追加学習を行ったLLMを公開いたしました。今後もモデル公開や産学連携を通じて国内の自然言語処理技術の発展に貢献してまいります。

https://x.com/CyberAgent_PR/status/1883783524836413468?
0509名無しさん@ピンキー2025/01/27(月) 21:01:49.04ID:???
Calm3あの時期のモデルの中じゃかなり日本語良かった記憶があるが…
0512名無しさん@ピンキー2025/01/27(月) 21:42:19.08ID:???
ローカル最近触り始めたんやけどキャラAとBの口調を覚えさせて二人に会話させるのって難しいんか?
何度教えても口調が入れ替わったりして完璧に会話してくれへん
0514名無しさん@ピンキー2025/01/27(月) 21:54:58.76ID:???
>>512
チャットならsillytavernとかのチャット専用に作られたやつ使うといいよ
小説なら指示の書き方工夫するとかだけどモデル自体がバカなら無理だったりもする
0515名無しさん@ピンキー2025/01/27(月) 21:55:51.12ID:???
R1 qwen 32b jpの量子化版も作ってくれてる人が居るね
試してみよう

>512
silly tavernで2キャラ作って会話させればいける...とか?
0516名無しさん@ピンキー2025/01/27(月) 21:58:50.14ID:???
サイバーエージェントまじでいいわ
日本企業でこの形で公開してくれるとこそうない
お給料発生してるわけで、元とろうとするのが普通やし
0517名無しさん@ピンキー2025/01/27(月) 22:01:38.02ID:???
>>513-515
色々サンガツやsilly tavernってのも調べてみるで
あとモデルはcalm3-22b-RP-v2-Q5_K_M.ggufっていうの使っとるんやけど駄目やったんかな
0518名無しさん@ピンキー2025/01/27(月) 22:51:11.13ID:???
DeepSeekがアメリカ中国でアプリストア1位!とか見たから確認したら71位だったわ
0519名無しさん@ピンキー2025/01/27(月) 22:56:48.95ID:???
32b jp、いいっすね
Silly Tavern Staging + pixibot weep prompt v4
+ noass extension
の構成でthinkが日本語ですらすら読めるから初心者GMが語ってくれてる感ある
0520名無しさん@ピンキー2025/01/27(月) 23:25:06.59ID:???
やっぱQwenの性格めっちゃ出てる気がする
マグナムさんの方が使いやすい
0521名無しさん@ピンキー2025/01/28(火) 00:02:48.35ID:yHN2yTKP
>>519
ワイの知らんワードずらずら言うやん
LLMそこそこ触ってる気してたけど浅かったわ
pixibot……noass……なんて?
0522名無しさん@ピンキー2025/01/28(火) 00:16:00.61ID:???
えーと

Silly Tavern Staging
最新機能のテスト版。β版とかnightly版みたいなもん

Pixibot weep Prompt
https://pixibots.neocities.org/prompts/weep
コレ。DeepSeek R1 ReasonerをSilly Tavernで使うときのプリセットで、一貫性を保つように調整してあるみたい。

noass extension
Weep promptと併用が求められているSTの拡張機能。R1 ReasonerはSystemプロンプトの扱いが特殊なので全てのAPI応答をUserプロンプトとして送信するように強制変更する。
0523名無しさん@ピンキー2025/01/28(火) 00:48:58.01ID:???
>>517
calm3ならモデルがバカすぎるってことはないと思う
sillytavernでイチコロやね
0524名無しさん@ピンキー2025/01/28(火) 01:27:45.28ID:yHN2yTKP
>>522
サンガツ
R1はだいぶ特殊なんやね
SillyTavernでうまく動かんと思ってたけど色々やる必要あるのか
0526名無しさん@ピンキー2025/01/28(火) 08:49:32.91ID:???
Deepseek 日本語追加版って3090で動くかな?
Silly Tavernってネット配信でチャットからの入力には対応してないよね?
0528名無しさん@ピンキー2025/01/28(火) 09:08:02.84ID:vvcQf/C+
初心者なんだけどLightChatAssistantの
iQ4XS と Q4KM ってどういう違いがあるの?
0529名無しさん@ピンキー2025/01/28(火) 10:34:12.02ID:???
>526
出来る
VRAMが24GBあれば32bのQ4_K_L版(ファイルサイズ20GBくらい)がVRAMフルロード出来てそこそこ速度でるかもしれない
4080 16GB環境だとQ4_K_Lは2.2token/s程度だから動作速度がわかると今後の参考になるかも

面倒なのはパスしてとりあえず動かしたいって場合は
>417 >470を参考にして、
ollama run hf.co/bluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf:Q4_K_M
とやるだけでDLして実行してお話をはじめられる
0530名無しさん@ピンキー2025/01/28(火) 10:47:02.99ID:???
>528
生のモデルを量子化して小さくするときの手法の違い

KがついてるのはK quantでベーシックな手法。分かんなかったらコレ

iがついてるのはimatrixで、lora的にサンプルを食わせながら量子化するらしい
何を食わせたのかが大事になるけど、必ずしも書いてなかったりドキュメントの隅にあったりする

ChatGPTくんやPerplexくんのほうが詳しいからそっちに聞くのがオススメ
0532名無しさん@ピンキー2025/01/28(火) 11:08:49.87ID:???
deepseekはh100を5万台持ってるんだっけ?
じゃあまたnvdaの株価上がる余地があるってことか
0533名無しさん@ピンキー2025/01/28(火) 11:37:47.98ID:4+Dmmsy5
>529
サンガツ!ollamaは入れてる!
deepseek r1 2bのQ4_K_L版って出てる?探したけどollama版のQ4 KMしか見つからんかった。。。
0534名無しさん@ピンキー2025/01/28(火) 12:06:21.76ID:???
MoEモデルの特徴として大規模な通信速度が無くてもパフォーマンスが出るっていうのがある
NVLinkみたいな高速な通信が必要なくなりそう
0536名無しさん@ピンキー2025/01/28(火) 12:52:13.48ID:???
何らかの方法でGPU直通の超高速通信ができないとGPU間のメモリやり取りで亀が寝てるような速度になる。
0537名無しさん@ピンキー2025/01/28(火) 12:57:08.19ID:???
>>536
llamaとかだとそうなるんたけどな
MoEモデルのDeepSeekだと高速通信いらんみたいだ
0538名無しさん@ピンキー2025/01/28(火) 14:01:51.56ID:???
>533
すまん、32b jpはQ4_K_Mだけだね
abliterated 32bのQ4_K_Lをメインにしてるからごっちゃになっしまった
0539名無しさん@ピンキー2025/01/28(火) 15:14:36.27ID:???
MoEの場合はモデルサイズの割にアクティブパラメータが少ないから(deepseek V3やR1の場合671Bのパラ数に対して37Bを選択)
動かすためだけならGPUレス構成の方がコスパ良いとは聞く
reddit見てるとzen4 32コア epycとddr5 384GBでQ4が2±0.5 t/sだからかなり微妙だけど
0540名無しさん@ピンキー2025/01/28(火) 15:23:55.59ID:???
>>538
サンガツ!とりあえず試したけどやっぱ実用にならない遅さだったw


今AIチャットキャラでネット接続対応してるのを探してて、deepseek APIが安いから使いたいけど、AI tuber Kitっての見つけたけどDeepseekに対応してないんだよね
皆、なんかいい知らないですか?
0542名無しさん@ピンキー2025/01/28(火) 16:33:30.55ID:???
やってみた
ollamaは問題ない速度だったけど
ST挟むと16GBじゃかなり遅いね
諦めようかと思ったら表示されたわ
あと何故か最後のあたりに同じ文が繰り返される
オススメの書式設定ある?
0543名無しさん@ピンキー2025/01/28(火) 17:03:38.45ID:???
Slliy Tavern自体をそんなに知らないので上の方で書いたPixibots Weep V4 prompt (+noass)を信頼してる
0544名無しさん@ピンキー2025/01/28(火) 17:09:10.84ID:vvcQf/C+
>>530
gpt君に聞いたらKの方は
>例えば、32ビット浮動小数点から8ビット整数への変換
って言ってたから機械疎い俺でも理解できた、メモリ節約の方法なのね
Iの方はなんか演算式自体を弄って効率化を図る感じで元の性質が失われるリスクがKよりは高いって感じか
0545名無しさん@ピンキー2025/01/28(火) 17:24:49.04ID:???
信頼してる=任せっきり状態なのでchatgptでオナニースレとかのほうが詳しい人と遭遇し易いかも

>540
出たばかりだし特殊だしで正式対応してるものは少ないのでは
OpenAI互換設定で接続すれば動くは動くはず

個人的にはSteamのDigital Mateがすき
開発中華でユーザーも中華圏のひとが多いから 勢いづいてほしいところ
0546名無しさん@ピンキー2025/01/28(火) 17:26:45.72ID:???
SillyTavernのキャラクターに設定を詰め込みまくってトークン数を4000使ったとする
自分のペルソナにも2000使ってて
モデルのContextを8192で設定してた場合
やり取りの履歴や世界観の記憶は残りの2192トークンしか使えないって認識であってますか?
これさらにLorebookで世界観の設定に2000トークン使ってたらなんにも残らないのでは……?
最近ローカルでSillyTavernやりはじめたけどContextとResponseのバランスがぜんぜん掴めん
長く会話続けたいなら不要な設定は削ぎ落としたほうがいいのか
0547名無しさん@ピンキー2025/01/28(火) 17:42:50.14ID:???
Silly TavernにDeepSeek APIでいけたけど、ネット接続って出来ないんだね できる方法ある?
今日の気温聞いたら27℃です!とか言われたw
0548名無しさん@ピンキー2025/01/28(火) 17:52:55.73ID:???
>>546
lorebookは関連性のある話題が出た時だけ読み込む設定があるからそれ使えばもうちょい増える
長く会話続けたいなら不要な設定を削るしかない
減らしきれない場合は流れを要約して挿入してくれる拡張機能を使ったり、設定をトークン数的に有利な英語で記述したりするのも手
0549名無しさん@ピンキー2025/01/28(火) 17:55:18.47ID:cmcFugFc
キャラ設定とペルソナ合わせて1000token以下にしてるわ
0550名無しさん@ピンキー2025/01/28(火) 18:57:04.54ID:???
>>545
今ちょっと見てたけどDigital MateはDeepSeek API経由とかで話できるのかな?Youtubeではoobaboogaとかに繋げてる人はいた
自分はアバターにネット情報も参照して欲しいんだよね…
0551名無しさん@ピンキー2025/01/28(火) 19:55:15.29ID:???
ジェミニにSillyTavernは日本語化出来ますかって聞いたら出来ませんって返ってきたけど
普通に設定からできて草ジェミカスさぁ…
0552名無しさん@ピンキー2025/01/28(火) 20:08:03.98ID:???
Digital Mate買ったけど声がwindows TTSのおばさん声しか出せない…
VITS APIダウンロードしたけど声の選び方分からない。。。むずいなこれ
>>545
0553名無しさん@ピンキー2025/01/28(火) 20:49:06.75ID:???
R1の32BQ4で健全もやってみたけど
同じ様な言葉を繰り返すだけで
会話にならず…
やり方がまずいのか
ロールプレイ向きではないのか
0554名無しさん@ピンキー2025/01/28(火) 21:25:04.96ID:???
>550
API経由で会話させるだけなら、

deepseekに$3課金してAPI有効化
ChatGPT APIプラグイン導入
設定でAPI Base URLをdeepseek側が指定してるURLに、APIをDeepseekのAPIKeyに
test押す、update listボタン押す、モデルでchatかreasonerを選択、 GPT Temperatureで0.5〜0.7を指定

でとりあえず動くはず

今現在DSのAPIサービスが死んでるので細部の確認は出来てない

ウェブ検索を参照させるのはどうやるか分からんな
音声はSteam workshopからTTSカテゴリのFast-vitsいれてvits_modeカテゴリのアイテムを片端からクリックするのが簡単
0555名無しさん@ピンキー2025/01/28(火) 22:17:40.02ID:???
>>554
アプリ再起動してollamaで動くようにしたんだけど、2枚目画像の再生ボタン押してもしゃべってくれない。。。
1枚目画像でダウンロードした音声モデルってどこで設定すればいいの?

s://i.imgur.com/z7IWMss.png
s://i.imgur.com/RvpEQ0Y.png
0556名無しさん@ピンキー2025/01/28(火) 23:27:55.21ID:???
LM Studioでcyberagentの日本語deepseek R1を使っているのですが
思考プロセス?thinking...って無効にできたりしますか?
0558名無しさん@ピンキー2025/01/29(水) 00:35:45.95ID:JIwDCs9l
空の〈think〉〈/think〉を先に与えて続きから推論させれば飛ばせる事が多い
0560名無しさん@ピンキー2025/01/29(水) 01:03:00.58ID:???
>>554
自己解決 Fast Vitsにしたらやっと声出た!
これ自分で作った音声モデルも使えそうね
ダンス機能メチャ気に入ったw
0562名無しさん@ピンキー2025/01/29(水) 01:18:04.85ID:???
>>559
最後にここだけ教えて
キャラクター初期設定を日本語訳して突っ込んで、アプリ再起動しても2枚目みたいに英語から始まって、呪文みたいにアルファベット復唱し始めるんだけど、この英語から始まるのをなくすのってどうやればいいの?
s://i.imgur.com/h2c3WSz.png
s://i.imgur.com/HR9FWbC.png
0564名無しさん@ピンキー2025/01/29(水) 06:23:16.56ID:???
そういうキャラの再現度はやっぱりローカルよりオンラインモデルが強いな
0565名無しさん@ピンキー2025/01/29(水) 07:03:11.57ID:EMez5p5U
>562
正式対応プラグインを待つ。

あるいはAPIリクエストの送受信を捕まえて内容を修正する。ChatGPTくんに
API PROXY サーバープログラムを書いて。ユーザーからAPIリクエストを受けたらlocalhost:5001に転送して、APIレスポンスを受けたら正規表現を使って<think>タグに挟まれた部分を削除した内容をユーザーに返して
って言うとだいたい動くものを作ってくれるのでlocalhost:5001の部分を目標のURLにする
0566名無しさん@ピンキー2025/01/29(水) 10:05:42.81ID:???
AItuber kitは最新版はdeepseekに対応してるよ。
deepseekとcohereはエロいの多少平気だから、
エロaituberを作って時々遊んでる
0567名無しさん@ピンキー2025/01/29(水) 10:11:03.59ID:RguxIPdh
>> 566追記
VRMはすっぽんぽんの嫁をVroid studioで作った
0570!donguri2025/01/29(水) 11:32:05.45ID:???
deepseekの推論はファーウェイのAscend 910Cを使ってるって話だけど
それが本当ならdeepseekに関してはもう完全にnvidiaの関与ゼロじゃない?
0575名無しさん@ピンキー2025/01/29(水) 11:55:55.39ID:???
>>565
あっ、言い忘れてたんだけどDeepSeekが落ちてたのでollamaにdeepseek落としてやったんだけど、ollamaだからなのかな?
でももうちょっとdeepseek対応まで様子見してみる!
いいの教えてくれてサンガツ!
0577名無しさん@ピンキー2025/01/29(水) 11:57:34.77ID:???
96GBメモリが4万円くらいだから5090と合わせて50万で行ける可能性ある
0579名無しさん@ピンキー2025/01/29(水) 12:58:11.09ID:???
いけんじゃーんってダウンロードしたら、メインメモリ100Gちょっとしかなかったんで動かせなかったわ
残念
0580名無しさん@ピンキー2025/01/29(水) 13:09:18.93ID:???
Gigabyte MZ73-LM0(EPYC 2スロのMB)、EPYC 9115 x2, DDR5 768GBのCPU推論構成でフルR1動かして6-8token/s出るらしい。
100万円コースみたいだけど。
0582名無しさん@ピンキー2025/01/29(水) 13:50:48.40ID:???
EPYC 9115でその速度出せるのか
Threadripperの上のグレードならもっと速そうだな
0583名無しさん@ピンキー2025/01/29(水) 14:30:36.45ID:???
ollamaで試したけどさすがに時間かかるねこれは
テスト こんにちは と言っただけでとんでもない長文を吐きながら長考してくれている
0584名無しさん@ピンキー2025/01/29(水) 14:46:19.05ID:???
残念なことに長考した内容に引っ張られて『テストメッセージへの適切な対応例:』のリストを出してきて
求めていた挨拶『こんにちは』を返してくれなかった
0586名無しさん@ピンキー2025/01/29(水) 15:26:19.82ID:???
ほんまCPU推論で速度出るようなってほしいわ
調子に乗るなよ革ジャン😡
0588名無しさん@ピンキー2025/01/29(水) 15:55:01.42ID:???
>>568
5万台でたったのって言われたらソフトバンクの立つ瀬がなくない?
4000台とかでキャッキャとプレス出してるのに
0589名無しさん@ピンキー2025/01/29(水) 16:10:08.52ID:???
メモリーバンドだけ太くてもね
CPUコアだけでみたら32個で、x86のベクトル演算器って何個あるんだっけ?
40TOPSくらい出るか?
40TOPSならノートPC(ARM)のNEのほうが速そう
0593名無しさん@ピンキー2025/01/29(水) 16:47:50.24ID:???
webで使えるdeepseekは普通に賢い
ただエロには使えない
攻撃されてるからかapi発行ページが開けない

ローカル用に小さくしたモデルは……微妙
0595名無しさん@ピンキー2025/01/29(水) 17:08:14.66ID:???
2スロットだとインターリンクが足をひっぱるぞ
1チャンネルあたりせいぜい64GB/sくらいじゃなかったか?
PCIe5よりはずっとマシでネットワークサーバーとしては十分だけどAI用とするには厳しすぎる
0596名無しさん@ピンキー2025/01/29(水) 18:10:28.10ID:???
中国のモバゲーのAIが1億人のプレイヤーと日々騙しだまされの駆け引きで訓練してめっちゃ進化してる
そのうちゲームとかVR方面でも今回みたいなショックが起こるのは間違いないと思う
0597名無しさん@ピンキー2025/01/29(水) 18:51:17.75ID:???
速度を完全に無視してしまえばR1 fp16 1.5TB
をNVMeに展開して動かすのも可能、って話もあるな
0598名無しさん@ピンキー2025/01/29(水) 19:17:43.27ID:???
>>571
試してみたけど、日本語は確かに堪能なんだが一回の返答までに5分とかかかるのが厳しいわ
なにより18禁展開にしたらエラー吐いちゃうからエロ的には実用性に乏しい

容量140GB近いのもキツいけど、もう少し取り回しよくてエロに使えればいいんだけどなぁ
0599名無しさん@ピンキー2025/01/29(水) 19:41:07.08ID:???
deepseek 32b いろいろ試したけど
karakuri32bの方が日本語力もエロも格段に上だわ
0600名無しさん@ピンキー2025/01/29(水) 20:23:58.28ID:???
>598
レポたすかる
浪漫はあるけどいざ動いてしまうと現実と直面しだすって感じかな

えろは遠くない時期にAbliterated版が出てくる可能性があるよね
EpycでQ8、m2 mac 192GBで4bit、4090/5090で1.58bitを動かそうってひとが現れてて、全員に渇望されてるわけだし
0602名無しさん@ピンキー2025/01/29(水) 21:31:20.63ID:EMez5p5U
>599
karakuri-lm-32b-thinking-2501-expかな?
褒める人も見るけど、自分はそもそもえろ描写をうまく出せなかったな

karakuriはQwQ-32B-Previewの派生で、QwQ32bのAbliterated版は使ってるけど文章力はそんなに変わってないように見える
QwQはQwen2.5からの派生、R1 QwenもQwen2.5からの派生で従兄弟どうしですし
0604名無しさん@ピンキー2025/01/29(水) 23:14:08.96ID:???
>>601
ollamaで動かしてるから不適切なリクエストとして
「Error: an error was encountered while running the model: wsarecv: An existing connection was forcibly closed by the remote host.」になって強制終了される
0606名無しさん@ピンキー2025/01/30(木) 01:08:29.05ID:???
>>565
Digital Mateで気づいたけど、あの変な英語羅列はollamaのDeepseek 8B,32Bだと出る。qwen2.5-coder32bだと最初の英語は出ない

これAPI弱いのが玉に瑕だね、、、せめてgemini API使えたらなぁ 
0607名無しさん@ピンキー2025/01/30(木) 01:57:47.43ID:???
SillyTavernで日本語版R1のgguf使うときってモデルをロードするバックエンド側は何を使ってる?
text-generation-webui使ってロードしてみたら失敗してしまう・・・(他のモデルはロードできているしアップデートしたりdevブランチ取ってきて試したりしてもダメだった)
0608名無しさん@ピンキー2025/01/30(木) 03:17:42.12ID:???
>605
1.58bit{ -1 , 0 , 1 }にするのは全体うち一定量で、重要なところは精度を残す必要があるらしい
今回のやつとbitnet実装は残し方が逆向きになってるとかなんとか

>606
<think>タグはR1かR1を蒸留したモデルの特徴ということでは
0610名無しさん@ピンキー2025/01/30(木) 06:35:00.48ID:???
>>604
なるほど…
APIだとほぼ無規制なのにローカルだとそっちの規制に引っかかるのね…
どうにかならんのかな
0611名無しさん@ピンキー2025/01/30(木) 07:08:30.76ID:???
>603
ホントにうごくじゃん
Ansiで保存してbatにして管理者として実行するだけだわ
WD black SN850で3秒に1トークンくらいだけど
0612名無しさん@ピンキー2025/01/30(木) 07:31:40.51ID:???
えろを聞くとエラーにはならんけど申し訳されるな
超長大思考にもならないしllama直とollama環境の違いなのかね
0613名無しさん@ピンキー2025/01/30(木) 07:59:35.25ID:jJPbfUaD
5070ti買って使えるモデル増やそうかと思ったけど
この世代は性能がうんちすぎてスルーすべきだと警告音が聴こえてくるで……
0614名無しさん@ピンキー2025/01/30(木) 14:18:53.67ID:???
5080も性能あまり変わらない割に値上がりしてコスパ悪いって話
流石に5090は積んでるVRAM的にも買う理由はあるだろうけど
0615名無しさん@ピンキー2025/01/30(木) 14:28:02.69ID:jJPbfUaD
Sakanaが新手法の「TAID」で作った軽量モデル
https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct-GGUF

どうせエッチなことは言ってくれないんだろ
と思ったら普通にエッチなこと言ってくれるわ
ときどき申し訳されるけどガードはかなり緩い

俺にはいまいち上手い使い方が分からんから誰か試してみてくれ
0616名無しさん@ピンキー2025/01/30(木) 14:28:41.17ID:???
5090以外は発売日が一番高いわけでどの場合でも即座に買う必要性はないのでは
必要性がないのは分かっている、分かっているが...という人向け

5090は実売価格が下がる可能性がゼロで入手性も怪しいから買うならクソ寒い今日の23時に並んで抽選に勝利する必要あるね
0617名無しさん@ピンキー2025/01/30(木) 14:29:32.24ID:???
24GBが32GBに増えてもLLM的には焼け石に水だよね🥺
もうDigitsかMac数珠つなぎに行くしかなさそうなイメージ🥺
0618名無しさん@ピンキー2025/01/30(木) 14:31:25.43ID:???
LLM的には5090買う金あったら中古の3090増やせばおkみたいな感じになっとるな
0620名無しさん@ピンキー2025/01/30(木) 14:48:02.77ID:???
AI用途なら1~2ヶ月は様子見が安定や
そもそもtorchも発売日時点じゃ動かないともっぱらの噂だし4000シリーズの時も発売直後はcudaの最適化不足でフル性能出てなかったし無理する必要はないわな
アリバイモデルを抽選で狙うのはありだとおもうけど
0621名無しさん@ピンキー2025/01/30(木) 14:48:23.99ID:???
一枚じゃなくて中古でもいいから8枚載せたらいいのでは?🤔
0622名無しさん@ピンキー2025/01/30(木) 14:54:19.85ID:???
mac数珠繋ぎってそんなに実用的なのか?Thunderboltで繋いでるならそこがボトルネックになると思うんだけど気にならないレベル?
0623名無しさん@ピンキー2025/01/30(木) 15:04:12.54ID:LBBIJ6BP
これを信じるなら帯域よりレイテンシが重要らしい
https://blog.exolabs.net/day-1
0627名無しさん@ピンキー2025/01/30(木) 20:55:37.49ID:LBBIJ6BP
>>603
これ使わせてもらったけどSATAのSSDから実行したせいか3090なのに0.15token/sとか悲惨な数字になった。
0628名無しさん@ピンキー2025/01/30(木) 21:29:53.71ID:???
CPU推論だからGPUは何積んでても変わらないな。というか無くても良い。
0630名無しさん@ピンキー2025/01/30(木) 23:31:18.41ID:???
llama.cppは新UIより旧UIのほうが応答が速くていいな

DeepSeekのキンペー批判出力もそこまで難しくないね
でも長文の整形は苦手っぽい。think部分が余計なんだな
0633名無しさん@ピンキー2025/01/31(金) 01:05:30.69ID:???
Project DIGITSが出る頃は画像認識とかもだいぶ発展してるだろうし
全く臆することなくAIにチン見せできる日がそろそろ来るのか
0635名無しさん@ピンキー2025/01/31(金) 02:52:03.95ID:???
5090は1999ドルなのに、日本では45万程度からだろ
67万とかか?
0638名無しさん@ピンキー2025/01/31(金) 07:22:47.99ID:???
個人輸入だと米サイトでの熾烈な争奪戦に勝つ必要あるからだいぶしんどい
日本向けに一定数を確保して保証まわりも三年やりますなら多めに払う価値もある

理屈では納得してもお財布のほうはそうでないわけだが
0647名無しさん@ピンキー2025/01/31(金) 10:33:15.50ID:???
文系全開の文章で偉そうに聞いてくる奴にはあんま教えたくならないな・・・
0648名無しさん@ピンキー2025/01/31(金) 10:40:47.65ID:???
理系様が降臨なされた。質問する時は敬意を払い正確にお伝え差し上げろ。
0650名無しさん@ピンキー2025/01/31(金) 10:42:09.47ID:???
偉そうとかはいいんだけど、1から10まで全部説明することになる予感がするので躊躇する
0651名無しさん@ピンキー2025/01/31(金) 11:01:05.37ID:???
理系だとドメインを絞る質問をする癖が付いてるから文章だけで人種の違いが分かっちゃうのはそう
0652名無しさん@ピンキー2025/01/31(金) 11:56:33.19ID:57+07Tgg
>>647
クッソ偉そうな言い方で草
0653名無しさん@ピンキー2025/01/31(金) 12:24:36.95ID:???
研究者/開発者向けみたいに販売経路を限定しないとdigitsも転売の餌食になりそうだけど、そうすると一般人も手に入らないジレンマ。
0655名無しさん@ピンキー2025/01/31(金) 12:36:38.50ID:TAGj2Fo6
>>632

役者すんのも大変やな
そういやLlama cppにもいちおうGUI付いてるんだっけ?推論テスト用のおまけみたいなやつよな?
0657名無しさん@ピンキー2025/01/31(金) 13:39:00.41ID:???
ローカルのDeepSeekに画像解析させようと思ったらどうしたらええのん?
0658名無しさん@ピンキー2025/01/31(金) 14:11:42.90ID:???
お前はアンドロイドの思考プログラムだとシステムに書くとthinkの中もそういうものだと読めて色々と捗る
口調はもっと砕けた感じの方がいいとか、ネコミミ付いてるって言われてるんだからネコの絵文字付けた方がそれらしいんじゃないかとか書き出しててかわいい
0661名無しさん@ピンキー2025/01/31(金) 20:32:28.40ID:YOQ48OgB
小説勢の人に質問です
複数の出力で話を続けるコツがあったら教えて下さい
今はmagnum v4 123bの4bit量子化をメインで動かしてるんだけど、
初回出力後の2回目以降の出力に、繰り返し表現が目立つ
ちなみにコンテキスト長には余裕がある状態です
0662名無しさん@ピンキー2025/01/31(金) 20:56:05.61ID:???
量子化の宿命みたいなもんだしパラメータ変えて生成連打しかない
0663名無しさん@ピンキー2025/01/31(金) 20:56:08.83ID:???
繰り返し問題はどうしようもないから予めプロットを作らせてそれに沿う形で章ごとに出力させてる人がほとんどじゃないかな
0666名無しさん@ピンキー2025/01/31(金) 21:20:13.22ID:???
magnumは12Bとかでもそんな繰り返し少ない方で優秀なイメージある
どうしても嫌な時は繰り返しの文章を自分で編集してちょっと変えるといい
0667名無しさん@ピンキー2025/01/31(金) 22:19:54.45ID:???
繰り返しの文章を修正させる作業もAIにやらせられたらいいのに
0668名無しさん@ピンキー2025/01/31(金) 22:58:48.71ID:???
>>661
自分はiQ3_Mでやってますが繰り返しは4、5手過ぎても見られないですね
koboldのstorywriterモードでコンテキストは4096でやってます
0669名無しさん@ピンキー2025/01/31(金) 23:01:38.87ID:???
あ、すみません
複数の出力でって所がよくわかりませんでした
自分はプロンプト書いて都度追加していくやり方です
0671名無しさん@ピンキー2025/02/01(土) 01:42:36.49ID:???
量子化ってなんとなくQ4_K_Mがスタンダードなのかなと思ってたけど
そこはかとなくQ4_K_MよりQ5_K_M…よりも試しに使ってみたQ8の方がいい感じの出力が多い気がするのは気のせいか…?
ひょっとして英語じゃなくて日本語だと劣化が顕著だったりするのか…?いや気のせいか…?
この無視しようと思えば出来そうな微妙な差に拘り始めると機材沼にズブズブ嵌まっていくことになるのか…?
0672名無しさん@ピンキー2025/02/01(土) 01:54:07.84ID:???
そら量子化ビット数が大きけりゃ大きいほど性能はいいでしょ
0673名無しさん@ピンキー2025/02/01(土) 02:54:46.65ID:???
STでロープレなんだけど
繰り返しもあるし(話が進まない)
勝手にキャラがユーザーを演じたりする。色々弄ったけど駄目だった
どうしたら話を繰り返さずに
勝手に演じられずに済むのか…
オススメの設定教えて下さい…
mugnam v2.5です
0674名無しさん@ピンキー2025/02/01(土) 02:57:59.60ID:???
量子化のビットは大きければ大きい程精度が高いがメモリを食う
モデルのパラメータが大きい程性能が高いがメモリを食う

この2つのバランスを考えた結果、自分のパソコンで動く範囲でなるべくパラメータでかいモデルを量子化で小さく圧縮して使うってのが主流
そのへんのバランスが良いのがQ4って設定
0676名無しさん@ピンキー2025/02/01(土) 03:03:04.71ID:???
モデルゲーなんでいいモデル使いましょうとしか
magnumならv3でいいモデル出てるんでそっち使った方がいいし
0679名無しさん@ピンキー2025/02/01(土) 05:57:20.48ID:???
そんな事はない
てかあのmacタワーを広めたやつが適当な事言ってるせいで変な認識してるやつ多いな
0680名無しさん@ピンキー2025/02/01(土) 06:20:27.11ID:???
というかQwen 32Bをdeepseek-R1って呼ぶのやめない?
なんで許されてるのかわからん
0681名無しさん@ピンキー2025/02/01(土) 07:13:17.62ID:7UV4X2Zi
OllamaのモデルハブでもDistillも含めて全部一緒くたに「R1」表示してたりするしな
0682名無しさん@ピンキー2025/02/01(土) 07:39:29.85ID:???
Distillはそっくりさんかモノマネ芸人相当の別人だよな

>>678 そんなこと言ってる人おらんだろ
0683名無しさん@ピンキー2025/02/01(土) 07:52:08.84ID:???
R1の凄いところは何か?が人によって分かれてるからR1である、ないになるのでは
deepseek自信も蒸留モデルもR1だよといってるのは、thinkを表示してユーザーに見せることがR1のキモだよという認識があったせいかもね

Reasoning model自体は沢山あり、コストの安さはユーザーには直接関係ない、内部構造ではなくユーザー目線の特徴は何かと言えばthinkが見えいるから調整しやすい、あとかわいい、になるでは

R1と一言で言っても沢山ある、671bなの?70bなの?13bなの?という区別がいいんでないの
0684名無しさん@ピンキー2025/02/01(土) 08:02:27.37ID:???
>663
ここらへんの作業、何かツールを使ってやってるものなのかな
管理の手間と手作業が増えていくのがアレなんだよな

骨書き、プロット、詳細と展開していくのは生成関係ない小説書きでも同じだから管理能力があるテキストエディタにAPI接続があれば良さそうなんだけど
VScodeの出番だろうか
0686名無しさん@ピンキー2025/02/01(土) 08:36:19.12ID:???
>>672
そりゃ当然わかってるだろう
性能差はあるんだけどその差は小さくて、だからQ4_K_Mがサイズとのバランスが良い(またはQ5_K_M)
…と言われてたのよ
でも日本語だとその差は存外大きいように感じる、と>>671は言いたいのでは
0687名無しさん@ピンキー2025/02/01(土) 08:36:55.46ID:???
>>683
それもなあ、蒸留モデルは「<think>タグでなんかゴチャゴチャ言ってる」ってのを学習しただけでしょ
そりゃまあ自分の出力も参照してるし完全に無意味ではないんだろうけど、本質的にreasoningモデルとは違うよね
0688名無しさん@ピンキー2025/02/01(土) 08:50:21.47ID:???
ベンチマークを取るとthinkによって成績が変化してる以上reasoningでないとは言いがたいような
成績はむしろ下がってるから下手な考え状態なわけですが

実用的でないおもちゃだよねとか、ユーザーが言うならともかく企業が乗っかってGroq playgroundでR1を試そう→R1 llama 70bですとかはイラっとするよねとかは分かるけど
0689名無しさん@ピンキー2025/02/01(土) 08:51:22.48ID:/GG5cOo+
>>686
母国語だと差がよく分かるってだけではなく?
日本語も英語も全く同じレベルで扱える人が「日本語だと量子化による劣化が激しい」って言うならそうなんだろうけど
0690名無しさん@ピンキー2025/02/01(土) 08:54:39.27ID:???
いや劣化が小さいというのは英語圏の人が母国語において言ってることだからね
日本人が言ってるわけじゃない
0691名無しさん@ピンキー2025/02/01(土) 09:05:30.78ID:???
でもまあ自分もQ5_K_Mがいちばんバランスがいいんだという思い込みみたいのがあって脳死で選んでるとこがあったから>>671は目から鱗だったわ
今後は比較するようにするわ
0692名無しさん@ピンキー2025/02/01(土) 09:16:43.96ID:7UV4X2Zi
>>684
ド文系としてはAI×小説特化のソフトは欲しいなぁとは思う
キャラクターとか相関図みたいなの設定できたりね
プログラミング感は否めないけどVSCODE+Clineで やれば @character.txt とかで参照させつつ依頼できたりするからコピペ地獄からは若干解放されそう
ただCline系はトークン馬鹿食いするのでSonnetとかで1日中やってるとクレジットがしぬ
0693名無しさん@ピンキー2025/02/01(土) 09:44:00.18ID:???
TinySwallow-ChatUIのデモを使ってみたけど
TinySwallow-1.5B-Instruct繰り返しが多くてロールプレイには向いてなさそうだな
エロ用語はいくらでも通るんだが

ggufをkoboldで使うとエロ描写はめっちゃ拒否される
設定が間違ってるんだろうけど何がおかしいのかが分からない
0694名無しさん@ピンキー2025/02/01(土) 10:07:19.77ID:???
家に使ってないOptane SSDが転がってるの思い出したんだけどもしかしてこれにLLM置いたらSSDよりパフォーマンス出るのか?
0695名無しさん@ピンキー2025/02/01(土) 10:15:04.69ID:???
んー、Difyのワークフローでプロットから章の数だけ分岐させて、下順番は手間にせよそれ以降は見てるだけで済むようにする、とかかな
でVSCodeやClineは下準備と管理側で使ってという

楽したいって話のはずが学習コストが積み上がていくやつだな...
0696名無しさん@ピンキー2025/02/01(土) 10:15:58.03ID:???
最初の起動が早くなるだけだと思う
そもそもメモリにフルロードして使うものでSSD上で動かしたら憤死する
0697名無しさん@ピンキー2025/02/01(土) 10:22:24.87ID:???
帯域よりもレイテンシが重要説あるから、ランダムアクセス速度が律速してるならoptaneでR1 671b 1.58bitを動かせば多少マシになる可能性あるような
2〜4token/sまでたどり着けば寝てる間に投げておく使い方は実用になるかもしれない
0698名無しさん@ピンキー2025/02/01(土) 12:53:23.77ID:xJv68Fx9
optane復活とか言う胸熱展開ワンチャンあるんか?あの鳴り物入りで登場して何の成果も残せず消えていったOptaneくんが……
118GBのカードが激安で売られとるし、これで高速化実現できたらみんなハッピーやで
0699名無しさん@ピンキー2025/02/01(土) 13:14:49.03ID:???
nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
すげぇ
生徒会恋愛問題lv2まで正解してるやん
0700名無しさん@ピンキー2025/02/01(土) 15:15:45.80ID:???
32B超えたあたりから表現の幅が急に広がるからその辺がサクサク動くスペックが欲しくなるね
サブスクでも良いけど
0701名無しさん@ピンキー2025/02/01(土) 15:21:47.31ID:???
やっぱnvidiaがVRAM配るか他社がぶっ壊してくれないとキツいなー
0703名無しさん@ピンキー2025/02/01(土) 15:41:31.07ID:???
LM studioの検索から探して量子化モデル一覧を見ると、VRAMに入る、メモリにはなんとか入る、チャレンジングの三種に分けて表示してくれるよ
0704名無しさん@ピンキー2025/02/01(土) 16:09:09.47ID:???
DeepSeek-R1-Qwen-32Bはllama.cppでいいんですよね?読み込みに失敗するなんでだろう
0705名無しさん@ピンキー2025/02/01(土) 16:33:20.30ID:???
出てくる表示を全部ChatGPTくんに貼りつければ原因究明してくれるよ
あるいは素直にLM Studioやollamaを使う
0706名無しさん@ピンキー2025/02/01(土) 17:06:35.90ID:???
(公式DeepSeekもう殺到しすぎてアカン)
OpenRouterみたらもう9つぐらいLLMプロバイダーがホストしてるな
Thinkingもサポート済みだし避難先として機能するわ
0708名無しさん@ピンキー2025/02/01(土) 21:34:27.47ID:???
DeepSeekR1の話題で初めてローカルLLM参入した初心者なんやが
エロ小説書いてもらおうと思ったらnitky/RoguePlanet-DeepSeek-R1-Qwen-32Bが1番おすすめって感じなん?
昨日からbluepen5805/DeepSeek-R1-Distill-Qwen-32B-Japaneseでこんな小説書いてって指示してるんだけどなんかトンチンカンな文章ばっかり返ってくるんだよな…
別にDeepSeekじゃなくて他のやつでもいいんだけども
0709名無しさん@ピンキー2025/02/01(土) 21:44:43.09ID:???
>>708
いまのところDeepSeekはオンラインで動くモデルが賢いという話題性が大きい状態で
ローカルモデルはまだ安定してない

とりあえずMistralやMagnumの名前がついたモデルでも使ってみれば少なくとも倫理フィルターがほとんどないLLMは体験できるはず
0710名無しさん@ピンキー2025/02/01(土) 21:51:04.70ID:???
現状はMistral Large2 123B系かCommandR+やな
色々試してもこの2つに戻ってくる感じ
0711名無しさん@ピンキー2025/02/01(土) 22:04:41.22ID:???
安定してないというか、ローカルLLMはモデルによって得意分野が違う
DeepSeek-R1-Distillは数学やプログラミングが得意
小説は小説が得意なモデルを使った方がいい
0712名無しさん@ピンキー2025/02/01(土) 22:19:27.05ID:???
用途に応じたモデル選びも大事だし、指示の仕方もモデルによって微調整しないと期待通りの内容が返ってこないから色々試して触りながら覚えていくしかないね

俺も最近始めて低スペPCで試行錯誤中だけど、オンデマンドに短めのオカズ文章を書かせるだけならBerghof 7BのNSFWとERPが本当に使いやすい
それこそ指示が下手くそでもスケベな日本語話者のツボを押さえた実用的なのを書いてくれる
0713名無しさん@ピンキー2025/02/01(土) 22:50:17.77ID:BjXjP0TV
>>712
低スペ向けならBerghofかなりいいよね
エロ抜きでもチャットも執筆もそれなりにこなしてくれる
12Bや無理やり動かした32Bより満足してるわ
0714名無しさん@ピンキー2025/02/01(土) 22:58:02.39ID:???
>>708
nicky氏のはまだ試してないけどあの問題解いたのは評価できるわ
これの無規制処理したのでたら期待
0715名無しさん@ピンキー2025/02/01(土) 22:58:48.74ID:???
Magnumもピンキリだから色々試すといい
Lumimaid magnumがやっぱ色々安定しててオススメ

ローカルLLMにきてるDeepSeekのR1は、実際はDeepseekじゃなくQwenだのなんだのがメイン
Qwen32B Deepseek風って感じ
そんでQwenちゃんは日本語あんま強くないし文章も微妙
0717名無しさん@ピンキー2025/02/01(土) 23:12:08.34ID:???
ほーんなるほど!ワイは画像生成スレから来たんやが、実写系のモデル使ってアニメキャラの生成しようとしてたようなもんやな
そしたら色んなモデル試してみるわ
今はSDXLならリアス系かnoobの二択って感じやけど、LLMはとりあえずこれ使っとけ的な最強のモデルは無いって感じかな?
0718名無しさん@ピンキー2025/02/01(土) 23:15:07.38ID:???
画像で例えるならまだnovelAI1.0がリークされてない世界線でWDでやってるくらいの規模感だから……
0719名無しさん@ピンキー2025/02/01(土) 23:24:06.74ID:???
>>717
高性能を求める人は20GBとかVRAMに収まらないサイズのモデルを落として64GBかそれ以上のメモリで動かしてるっぽい
そんでちょっとした設定でも出力内容が大きく変わるから沼っぽい
0720名無しさん@ピンキー2025/02/02(日) 01:23:20.02ID:???
エロに限らんけど小説やらせようとどうしてもコンテキスト長がね…
0721名無しさん@ピンキー2025/02/02(日) 01:37:30.47ID:???
>>717
生成速度とのトレードオフで何が快適かがマシンスペックと求めてるものにかなりよる
激遅でいいからクオリティ欲しいって人と、レスポンスの速さ大事にしたいって人でまず分かれるし

7Bか12Bあたりがまぁ快適
0722名無しさん@ピンキー2025/02/02(日) 02:17:12.87ID:???
俺は設定の理解力が命と思ってるから未だにwizard-LM2使ってるけどおすすめされてるの見たことない、なぜ?
magnum含む他のどのモデルより設定に忠実に文章出力してくれる気がするんだけど…
0723名無しさん@ピンキー2025/02/02(日) 03:26:42.98ID:???
EasyNovelAssistantだと出せる小説が
koboldだと記憶喪失意識混濁になっちゃうんだけどの設定項目が大事なんだろう
0724名無しさん@ピンキー2025/02/02(日) 05:02:43.75ID:i0zgFcsa
LLMも画像生成もやってるけど、LLMの方がキャラ設定練るのがめちゃくちゃ難易度高いように思える
性能の高いモデルが使えないってのもあるけど
0727名無しさん@ピンキー2025/02/02(日) 08:42:54.37ID:9/IIRzxd
>>725
R1っょぃ
今んとこワイのイメージとしては
文系のDeepSeek 理系のAnthropic Claude 役所窓口公務員のOpenAIって感じや
0728名無しさん@ピンキー2025/02/02(日) 09:37:45.27ID:Bp9/wXtR
>>725
興味深いな
🔞MN-12B-Lyra-v1とか、12BでしかもNSFW対応でもこんな上位に食い込むんやな
ネイティブ英語話者は羨ましいわ…
0731名無しさん@ピンキー2025/02/02(日) 11:04:01.60ID:9/IIRzxd
小説プロジェクトでVSCODE+Clineでええのでは?とエアプでレスしたけど
今試してみたらすでにR1対応しててReasoningしながらディレクトリ作成とかしてくれるのを確認したで
こんな感じやな
https://i.imgur.com/RQF1Q4u.jpeg
0732名無しさん@ピンキー2025/02/02(日) 11:11:07.31ID:???
俺はゲーム用のグラボじゃコンテキストがキツすぎるから
ログと要約管理してRAG検索できるpython書いてるわ
中身はlangchainでUIはopenwebuiでどうにか動かせてる
0733名無しさん@ピンキー2025/02/02(日) 11:18:22.01ID:9/IIRzxd
あとUnslothがhuggingfaceにアップロードしてたDeepSeek-R1-UD-IQ1_SもLlama.cppで一応動かせた
1token/s以下でまぁ実用性はしんでるけど
# ダウンロードして
huggingface-cli download unsloth/DeepSeek-R1-GGUF --repo-type model --local-dir "E:\" --include "DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-*.gguf"
# llama.cppダウンロードして解凍
llama-b4600-bin-win-cuda-cu11.7-x64.zipみたいなの
# マージして(必要ないかも)
llama-gguf-split.exe --merge "E:\DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf" "E:\DeepSeek-R1-UD-IQ1_S.gguf"
# 起動する(port指定とかはなくてもヨシ)
llama-server.exe -m "E:\DeepSeek-R1-UD-IQ1_S.gguf" --host 0.0.0.0 --port 4649
https://i.imgur.com/l2IVclw.jpeg
0734名無しさん@ピンキー2025/02/02(日) 11:29:38.48ID:pe5yaq8I
企業でもLLMをゲームのシナリオ執筆に利用する時に構成とストーリー執筆と校正をタスク分けしてるところがあるって見た覚えあるし、精度気にするならそうした方がいいんだろうな
0735名無しさん@ピンキー2025/02/02(日) 13:48:23.44ID:PolfQdmN
お、今更やけどoobabooga / text-generation-webui がdeepseek系に対応しとるね。3日前のアップデートで対応してたんかな?
0738名無しさん@ピンキー2025/02/02(日) 16:48:17.49ID:???
大葉でDeepseek動いたわ
でも言うこと聞かない
70Bの量子化やってくれんかな
0739名無しさん@ピンキー2025/02/02(日) 17:03:58.49ID:???
でも32Bで全然VRAM使わないで、この性能はすごいね
llama3.1より上なのは間違いない
0740名無しさん@ピンキー2025/02/02(日) 18:20:53.19ID:???
ollama が楽だからもうそっちでいいかと思ってたけどまだooba使うメリットある?
0741名無しさん@ピンキー2025/02/02(日) 20:24:48.93ID:???
Text generation web UIのこと?GUI欲しい人は使うのかな
ワイもローカルで動かす時はollamaだな(最近は大手のAPI使っちゃってるけど)
GUIはテキストエディタとしての編集機能が豊富とかGit連携できるVS Code
自作拡張でLLMのstream mode出力をAIのべりすと風にエディタ内に追記させてる
追記以外に、中間補完・書き換えとかもサポートさせたいなーとか思ってたけど
Clineが割と使い物になりそうだから捨ててそっちに移行しちゃうかも
0742名無しさん@ピンキー2025/02/02(日) 21:17:24.87ID:???
nitky/RoguePlanet-DeepSeek-R1-Qwen-32B
Q8_kで恋愛問題解かせたら3000トークンくらい推論した結果見事正解に導いたわ
gpt4超えやがった(๑╹ω╹๑ )
0743名無しさん@ピンキー2025/02/02(日) 21:37:54.48ID:???
あと朗報
これ規制ゆるゆるだわw
qwen本家なら100%申し訳される小説プロットをすんなり書いてくれる
nickyさんありがとう(๑>◡<๑)
0745名無しさん@ピンキー2025/02/02(日) 22:53:46.55ID:???
大葉ってなんのこと言ってるのかと思ったらText generation web UIのことかよ
ひどい造語だな
0746名無しさん@ピンキー2025/02/02(日) 23:08:15.64ID:x/30vunk
Text Generation WebUIって名前が打つには長いし略しにくいからじゃないの
ChaGPTくんとかはTextGenで分かってくれるけど
0747名無しさん@ピンキー2025/02/02(日) 23:16:24.07ID:???
ブラウザ(あるいは専ブラ)のテキストボックスでもLLM補完してくれれば長くても問題ないはず……
あるいはInput MethodがLLM連携するようなのって既出?
0749名無しさん@ピンキー2025/02/03(月) 01:12:56.04ID:ZfxRvTiD
言うほどちょっとか?
0750名無しさん@ピンキー2025/02/03(月) 01:36:14.31ID:QGh+5M3a
赤ちゃんやけどllma.cppってのでDeepSeek動かせたわ。

32Bのやつは動かないと予想してたんだけど、4070tisでdeepseek-r1-qwen-2.5-32B-ablated-IQ4_XS.ggufが1分くらいで動いた
VRAM1.4GB余ってるからもうちょっとだけ重たいのも動かせるのかな…?
0751名無しさん@ピンキー2025/02/03(月) 02:37:48.42ID:csaf3F37
deepseekはすごいけど、何でnvidia株が下がったのか分からんな
openaiやmetaが下がるのは分かるけど
0753名無しさん@ピンキー2025/02/03(月) 02:47:21.70ID:???
>>748
候補にはなりそう
気分で出力変えるから色んなモデル紹介してくれるの助かる
0755名無しさん@ピンキー2025/02/03(月) 04:56:45.72ID:???
>>751
DeepSeekが本当に性能良かったとして
開発元の言う通り学習に大量のグラボいらなければこれからのトレンド変わってグラボが売れなくなるかも
嘘ならグラボ禁輸措置がちゃんと守られてないからnvidiaちゃんがお仕置きされるかもしれない
0756名無しさん@ピンキー2025/02/03(月) 06:57:07.59ID:???
短期的に下がるか上がるかなら100%下がる、じゃぁ売ろう程度の話じゃないの?
0757名無しさん@ピンキー2025/02/03(月) 08:34:42.92ID:???
沢山の人間が利確するタイミングを待ってた所に売る理由が出てきたから殺到しただけで特に大した話では無いよ
0758名無しさん@ピンキー2025/02/03(月) 09:07:01.24ID:ODSuqQo8
AMDがもっとAI面で頑張ってくれないと
deepseekみたいに結局nvidiaのグラボ使い続けるしかないんよ
AI性能高くてVRAM多くてサクサク動くAMDのグラボはよ
0759名無しさん@ピンキー2025/02/03(月) 09:11:24.62ID:???
AMDはどうせ勝てないと拗ねて手を抜いてた事への罰ゲーム中だからnvidiaがIntelみたいにやらかしたら本気出して弱い物いじめモードになるよ
0760名無しさん@ピンキー2025/02/03(月) 09:14:57.53ID:???
そもそも開発は大量のGPUがいらないとは言ってないような...安くできるとしか言ってない

新手法と671bクラスの巨大なモデルがあれば純粋な強化学習だけでトレーニングするだけでいい
=人の手で教える必要がないから安く速く出来るという話じゃないかな

低レベル言語(PTX)まで降りていってHWを直接叩けばより効率的に動かせる
という、そらそうだが天才で変態の奴らにしかできない魔法に近い話とごっちゃになってるような
0761名無しさん@ピンキー2025/02/03(月) 11:24:38.42ID:???
>>760
安くできるってのはその巨大モデルを作った時の話では?
蒸留モデルを安く作れてもさほどのインパクトは無いやん
0762名無しさん@ピンキー2025/02/03(月) 11:47:06.65ID:???
お前らがインテルを叩くからゲルシンガー辞めさせられたし。。。(´・ω・`)
0764名無しさん@ピンキー2025/02/03(月) 12:38:51.98ID:???
初報の段階では新手法と強化学習だけでOKというやり方を小型モデルにも適用してみたが上手くいかなかった、蒸留させることは出来たという話だったよ

素直に読むなら適切に設計された巨大モデルは強化学習から深い学びを得ることができる
aha moment(分かった!こういうことだな!って言い出す現象)が観測できたよという報告は深い学びをしているぞということ
蒸留うんぬんは小型モデルに直接深い学びをさせることは出来なかったが、学んだ結果を蒸留で移転させることは出来たということ
なのでは
0766名無しさん@ピンキー2025/02/03(月) 15:30:01.99ID:???
DeepSeekの蒸留モデルを頑張ってGPUで動かすより量子化したオリジナルモデルをCPUで動かしたほうがコスパいいかもしれないな
0767名無しさん@ピンキー2025/02/03(月) 16:21:04.07ID:???
PCI-e 5.0直結のMVNe SSDガン積みでDDR5並みの速度を確保するというパワープレイもあるらしい。
ほぼリードオンリーだからSSDの寿命も関係なく、この方向性が最適解になるかもしれん。

https://i.imgur.com/0lyqHVb.jpeg
0768名無しさん@ピンキー2025/02/03(月) 16:53:22.86ID:???
PICE用の拡張M2にボードに4枚刺しなのか
これで4t/sくらい出て丸ごと冷やせる水枕も揃うと面白くなりそう
0770名無しさん@ピンキー2025/02/03(月) 17:28:12.62ID:???
すいません教えて下さい。
LMStudioを使って音声ファイルから文字起こしする方法は有りませんかね?
ターミナル画面はとっつきにくて…
0771名無しさん@ピンキー2025/02/03(月) 17:37:39.61ID:???
>>767
LLMで重要なのってランダムリードの帯域とレイテンシなんかな?
それならZFSでRAID0するのがいいかもしれんな
0772名無しさん@ピンキー2025/02/03(月) 17:46:05.99ID:???
ワークステーション向けだが、RTX 6000 Blackwellは96GBのGDDR7だってさ 安定の100万越えだが
0774名無しさん@ピンキー2025/02/03(月) 17:48:04.31ID:???
>>770
LMstudioっていうか音声もマルチモーダルで対応してるようなLLMはないんじゃない
確かGoogleのAI studioが音声入力出来るから書き起こしてくれそうだけどローカルでやりたいならkotoba-whisperv2使って書き起こすのがベターだと思う
0777名無しさん@ピンキー2025/02/03(月) 17:52:09.14ID:???
32GBの5090が50万円前後なんだし格安じゃんdigits を2つ買えると考えたら悩むけど
0778名無しさん@ピンキー2025/02/03(月) 17:55:55.55ID:???
6000 ada 48GBでmsrp 6800$だしRTX 6000 Blackwellは最低でも9000$は取るから日本だと200万弱だろな 
それでもダイサイズ的にH100より性能出る場面もあるだろうしお買い得なのは間違いない
0780名無しさん@ピンキー2025/02/03(月) 18:03:21.94ID:???
>>763
4090+メモリ64GB環境だけど遊びには実用レベル
Content Length・GPUオフロード等設定にもよるけど10〜20sec/tokは出てる
このチャットではプラグインやキャラ設定ファイル読ませてるので、モデル単体ではこうならない
0781名無しさん@ピンキー2025/02/03(月) 18:03:32.41ID:???
100万以下で売ってるのはアカデミック以外で見たことないな
0784名無しさん@ピンキー2025/02/03(月) 19:27:27.20ID:???
>>737
どこまで書けばいいのかわからないけど
openwebuiで指示を入力したらpipelinesって機能でpython実行あとはほぼpython上でやる
pipelinesは上手くインストール出来なかったからdockerにインストールした
langchainでLMstudioのLLM読み込み、キャラ設定とかのドキュメントテキスト読み込み
SentenceTransformersでドキュメントからRAG構築して入力文から検索
入力と検索結果をLLMに渡して出力してuiで表示、ここまでが普通のLLMとRAGの実装

その後で入力と出力をLLMに渡して短い要約を生成させる
入力・出力・要約を対応させた状態でpython側で保持、必要なら何かしらの形式で保存
次以降は入力・検索結果・前回の出力・全ての要約を渡して生成
全ての要約と今回の入出力を渡して、要約を考慮しつつ今回の入出力を要約って指示する

これでコンテキスト4kでも12kぐらいは生成出来た、渡す要約の量とか工夫して伸ばしたり、逆に要約の質をあげたりで変わると思う
プロンプトとかの毎回渡すのが2kだと要約の残りが2kぐらい、そうだとしたら6kなら12kの2倍ぐらいは行けそう
要約の分は生成時間増えるけど短くしてるからそこまで負担にはならない感じ、LLMがちゃんと要約すればだけど
最終的には要約の要約とか、過去ログのRAG化は必要になるね
0785名無しさん@ピンキー2025/02/03(月) 21:41:50.74ID:???
赤ちゃん質問で恐縮だけど、近所のドフでQuadro RTX5000/16GBが手が出る値段で転がってたんだが、これをRTX3060/12GのPCにぶっさせばLLM用途に限れば28GB相当になるって認識でおk?
123Bとかは無理でもそれなりの恩恵はある感じ?
0786名無しさん@ピンキー2025/02/03(月) 21:49:19.51ID:???
device_map=”auto”にしとけば取り敢えず動くとは思うまぁまぁ遅くなるかもしれないけど
0787名無しさん@ピンキー2025/02/03(月) 21:53:43.95ID:???
コンテキスト長くできたり音声や画像等の他AIも一緒に起動できるから結構便利よ
速度は大して変わらんけどね
0788名無しさん@ピンキー2025/02/03(月) 22:21:51.97ID:???
>>784
なるほど、結構コンテキスト稼げるんだね
とても参考になったよ、ありがとう

>>785
VRAMに全部乗せられるようになるのが13Bから32B程度にはなるんじゃない
07907852025/02/03(月) 22:44:01.51ID:???
いろいろサンガツ!それなりの恩恵ありそうだから凸ってみるわ!
>>789
「業務用なので簡単な動作確認のみ。ジャンク扱い」物件でオクとかより相当安い感じだし、外観は綺麗だったのでハズレだったらパチで大負けしたとでも思うわw
07917912025/02/04(火) 02:26:40.70ID:oLWfW79u
初カキコ失礼します
海外ではSilly Tavernなどに使うキャラクターカードをDLできるサイトがありますが、日本にはそういったサイトや配布場所はないのでしょうか?
DLもしたいし配布もしたい...
0792名無しさん@ピンキー2025/02/04(火) 02:31:13.43ID:???
俺も昔調べたけれどないよ
普通に英語のカードをDLして日本語化してもいいし、口調だけ日本語にしてもいい
というか、シチュエーション系のカードはむしろ英語の方が指示を理解してくれるからいいまであるぞ
0793名無しさん@ピンキー2025/02/04(火) 03:44:33.39ID:???
「日本語ローカルLLM関連のメモWiki」さんとこに一応キャラクターカード掲示板があるけど、今見てきたらwiki主さんのサンプル1枚と誰かが1枚貼ってたぐらいかな。
逆に言うと今ならそのまま代表的な日本語Hubになりそうだから、妙に分散する前にあそこお借りしてしまっていいとは思うけど
0796名無しさん@ピンキー2025/02/04(火) 09:50:42.34ID:???
TextGenのmodelフォルダでgit cloneしてやればtransformerで動くようになるけど、なにか特殊なことをやろうとしてるモデルに見える
ドキュメントもないし未完成くさい
0797名無しさん@ピンキー2025/02/04(火) 10:44:49.90ID:???
>791
英語版作るのは一瞬で出来るから、Character Tavernあたりに間借りして日本語版と英語版を同時にULしとけばいいのでは
両方ある方が日本語圏のひとも英語圏のひとも嬉しいはず
URLだけ貼ってフィードバックやコミュニケーションを担当する場はあってもよさそう
0798名無しさん@ピンキー2025/02/04(火) 12:38:19.02ID:???
DeePSeekで<think></think>って概要整理みたいの出るの消せないのでしょうか
0799名無しさん@ピンキー2025/02/04(火) 12:45:56.87ID:yaGr2DxE
思考が嫌ならDeepSeek V3使え定期
0800名無しさん@ピンキー2025/02/04(火) 12:51:49.31ID:???
nitky/RoguePlanet-DeepSeek-R1-Qwen-RP-32B
RP版はthinkしないからこれを使う手もある
日本語モデル全部マージしてみた、みたいなモデルだからthink無しでも優位点あるかもしれない
0802名無しさん@ピンキー2025/02/05(水) 09:10:45.11ID:???
改めてLumimaid-Magnum-12B-Q4_K_Sを使ってみてるけどすごく良いな
色んな7BモデルのQ6を試してきたけど、ほぼ同サイズなのにそれよりも断然表現力や理解力が高いわ

でもLumimaid-Magnum-v4-12Bは何か文章がおかしい気がする
同じ設定じゃダメなのかな
0803名無しさん@ピンキー2025/02/05(水) 09:46:38.46ID:???
deepseekってwindowsで回らんlinux用みたいやけど今動かしとる勢はクラウドのインスタンス使っとるんかな
0804名無しさん@ピンキー2025/02/05(水) 10:08:18.30ID:???
https://lab.wallarm.com/jailbreaking-generative-ai/
DeepSeekのシステムプロンプト出たわね
本当にあってんのか知らんけど
APIから生成する場合こういうプロンプト指定しない限りナマのモデル出力になるんかね
もしそうだとしたらこの流出プロンプトを指定すればWEB版の挙動と一致させるのに役立つんやろうか?🤔
0805名無しさん@ピンキー2025/02/05(水) 11:36:07.55ID:???
R1は数学で強化学習してあると言われてて、そのせいか文章の細部に影響されがち
てことは、まずは環境を整えて揃えるのが制御しやすさに繋がるかもね
世界で一番分かってる人間が書いたプロンプトなわけだし
0806名無しさん@ピンキー2025/02/05(水) 12:36:40.52ID:???
アハモーメントって
あっ・・・とかそれに続く分でも同じことだよな
何かに気づいたタイミングの思考力の強まった部分だけ抽出すれば自ずと賢い答えになる
0807名無しさん@ピンキー2025/02/05(水) 12:53:48.33ID:???
lm studioてのを初めて使ったよ
deepseek-r1の量子化を試したけどやたら考えるね😅
0808名無しさん@ピンキー2025/02/05(水) 14:07:15.32ID:???
研究者のひとの解説だと、V3に数学の問題だけを突っ込んで強化学習させたのがR1zeroとR1
らしい
1. 巨大モデルは解き方を教えなくても数学を解いてのけることがある
2. 数学なら正解か否かを容易に判断できる
2. 正解を出したらその考え方に報酬を与えて使われ易くする
のループを回すだけで、自己学習を繰り返してどんどん解決できるようになる(=aha moment)し、なぜか分からんが数学以外も解決出来るようになる、という
0809名無しさん@ピンキー2025/02/05(水) 14:21:02.56ID:A35f+k5E
論理的思考には数学の力が必要と言われてるけど
AIにも同じことが言えるってことなのかな
0814名無しさん@ピンキー2025/02/05(水) 19:03:36.90ID:???
>>802
Lumimaid-Magnum-v4-12BのGGUF番だと、量子化職人さんの腕でかなり反応変わる印象。
うちではUndi95さんの奴使ってるけど悪くないよ
>>803
窓のLMStudioでDeepSeek R1動いてるよ。量子化モデルだから偽物って言われちゃうとごめんだが
0815名無しさん@ピンキー2025/02/06(木) 06:54:11.78ID:???
Project DIGITSって一般販売されるんやろうか
放送大学に入って情報理論も学びながらアカデミック扱いを検討すべきか?
0816名無しさん@ピンキー2025/02/06(木) 08:11:34.61ID:???
放送大学ってアカデミックなメアド貰えるんか?もらえたらそのまま買えちゃいそうだけど
0817名無しさん@ピンキー2025/02/06(木) 08:28:31.69ID:vN4Czirb
学割では常套手段だけど放送大学の学生証でdigitsを買う権利は手に入るんだろうか
0819名無しさん@ピンキー2025/02/06(木) 09:10:41.99ID:???
使えるなら余裕でペイだけど学生生協とか大学のメールアドレスが必要だったりするから放送大学で適用されるかは分かんないAppleで使える報告はあるからMacを10台くらい買うなら超得かもね
0820名無しさん@ピンキー2025/02/06(木) 09:14:32.09ID:???
放送大学の学割の有効活用が今号のラジオライフで特集されてた気がする
立ち読みだからどれくらい掛かるか覚えてないけど元を取るのは大変そうだった
0822名無しさん@ピンキー2025/02/06(木) 17:00:32.45ID:???
@campus.ouj.ac.jpのメアドが貰えるらしいね。映画をよく見る人とか、アマプラやadobeやofficeで学割が使えるから悪くはないかも。reddit見る限りpeople大とかでもメアドが貰えそう。国際学生証ISICだけど。
0824名無しさん@ピンキー2025/02/06(木) 18:53:46.80ID:???
日本でも注目されてるくらいだから海外ではもっとだろうし
大きな需要が確認されれば販路を限定する理由が無いから普通に買えそう(買えるとは言っていない)
0825名無しさん@ピンキー2025/02/06(木) 19:12:28.16ID:???
需要が大きければ、本当に必要なところに行き渡らなくなるからこそ販路を絞ると思うが。
0826名無しさん@ピンキー2025/02/06(木) 19:59:42.90ID:???
五月に出てくるわけだから、ニーズがあっても生産数を増やすことは不可能なんでは
ニーズあればあるほど販路は限定されそう
一年くらいまてば変わってくるだろうけど
0828名無しさん@ピンキー2025/02/07(金) 08:28:34.52ID:???
なんか良いキャラ設定はないかと思って同人音声の台本をSTの対話例にぶちこんだら
なかなか良い感じの変態女になってくれた
0829名無しさん@ピンキー2025/02/07(金) 08:33:38.23ID:???
それ良さそうだな
なんなら音声から文字起こしする事も出来ますし
0833名無しさん@ピンキー2025/02/07(金) 15:43:01.97ID:???
>>831
ここはローカルメインだからgptスレで聞いてみた方がいいよ
>>832
キャラ設定からAdvanced Definitions(本のマーク)押して出るExamples of dialogueじゃない?
0834名無しさん@ピンキー2025/02/07(金) 17:30:50.18ID:sBU5/7QD
>>832
>>833の言う通りやで
この本のマークをクリックして左側に表示されるところの一番の下
https://ul.h3z.jp/3ofOkfQe.jpg

<START>
{{user}}:
{{char}}:

っていう形式で書き込むところや
0835名無しさん@ピンキー2025/02/07(金) 18:32:39.55ID:???
これエロに強そうだけどどんなもんかな
https://huggingface.co/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4
> Deepseek-R1-14Bに基づいて、このモデルは深く最適化されており、Tifa_220Bによって生成されたデータセットは、
> トリプルトレーニング戦略を通じて、ロールプレイング、新規テキスト生成、および思考チェーン(CoT)機能を大幅に強化します。
> これは、長期的なコンテキストの関連付けが必要なオーサリング シナリオに特に適しています。
0837名無しさん@ピンキー2025/02/07(金) 19:51:02.85ID:???
日本語出力はできるけど、コンテンツポリシーを超える描写は「申し訳ありませんが、そのリクエストには対応できません。」されるわ
丁寧に脱獄していけば大丈夫かもしれないけど、日本語もそこまでしっかりはしていないなぁ
0839名無しさん@ピンキー2025/02/07(金) 20:15:51.12ID:???
今んとこ紳士向けST用途ではLumimaidもしくはLumimaid-Magnum v4超えのブツはあんまりなさそう。
Lumimaid-Magnumの作者Undi95氏がUndiMixという新作出してたけどこれも日本語がびみょかった
0840名無しさん@ピンキー2025/02/07(金) 20:31:16.57ID:???
日々大量のモデルがあって見切れないから、試しでもオススメされるのは助かるってもんよ
0843名無しさん@ピンキー2025/02/07(金) 23:13:24.44ID:???
>>842
joybod/RoguePlanet-DeepSeek-R1-Qwen-32B-RP-Q4_K_M-GGUF
LM STUDIO+Silly Tavern Staging+noass extension+Pixibot weep Prompt
0844名無しさん@ピンキー2025/02/07(金) 23:34:39.79ID:???
>>843
サンガツ!extensinは試したことないな。入れてみるか

mradermacher/Ninja-V3-nsfw-enhance-GGUF試したけど悪くないな。bergofの強化版という感じのドスケベモデルだ。Q8でも9GB前後だから12〜16GB環境でもサクサクで良い
0845名無しさん@ピンキー2025/02/08(土) 09:53:27.44ID:???
Dolphin3.0 R1 mistral 24bが出てるな
Mistral 24bにR1蒸留させたものみたいだけど、長文癖が付いてて長文think長文出力が出しやすいように感じる
英語オンリーだけど規制なし
CTX長をあっという間に使い果たすけど、これはこれで使い道あるのでは
0846名無しさん@ピンキー2025/02/08(土) 10:56:30.00ID:???
普通のゲーミングPCで動くようなLLMってもう性能的に頭打ちなんやろか?
話題のモデル色々試したけど結局vecteusでよくねって感想なんやが
0847名無しさん@ピンキー2025/02/08(土) 11:12:36.69ID:???
小さいモデルでも賢く作る技術は色々出てきているみたいだけど
それがローカルのエロLLMに降りてきている様子はほとんどないな
0852名無しさん@ピンキー2025/02/08(土) 13:27:18.69ID:???
そもそも性能の評価が他人と一致しない感じがする
日本語能力と言った場合でも人によって指してるものがズレてるような
流暢さを指してるひとと、理解力を指してるひとと、文章構造を指してるひとがいるのかな
0853名無しさん@ピンキー2025/02/08(土) 13:54:07.45ID:???
俺なんてそもそもモデルごとの最適なシステムプロンプトが全く分からん
0854名無しさん@ピンキー2025/02/08(土) 13:55:41.80ID:???
>>852
確かにそうかも
ワイの評価は実用的なエロ小説をこちらの意図を正確に汲み取って多彩なセリフ回しで矛盾ないストーリーを正確な日本語で時には露骨な表現も使いながら作成してくれるモデルを高評価にしてるわ
0855名無しさん@ピンキー2025/02/08(土) 13:56:34.91ID:???
デカいLLM動かすにはヘボいPCでも一定以上の成果だしてくれるモデルがあるのは本当にありがてえよ
0856名無しさん@ピンキー2025/02/08(土) 14:01:49.89ID:???
>>853
まずはバニラでいくつかプロットを試すんだ
で、良さげと思ったら強化プロンプトぶち込んだりしてみるといいよ
初めから使うと正確に評価できんから
0857名無しさん@ピンキー2025/02/08(土) 14:17:10.47ID:???
おおお
koboldがMulti-pass websearchにも対応してさらにwebsearchが使い勝手よくなった
0858名無しさん@ピンキー2025/02/08(土) 14:32:20.93ID:???
最終的には指示に従うけど適度に恥ずかしがったり嫌がったりするキャラ作りが難しく難航中
0859名無しさん@ピンキー2025/02/08(土) 16:34:53.34ID:???
ローカルはシステムプロンプト以前にTop-P Top-KとかInstruct Tag Presetで全然出力が変わるし未だになんも正解がわからないぞ俺
何を基準にすればいいのやら
0861名無しさん@ピンキー2025/02/08(土) 20:56:25.92ID:???
>>860
Top‑PとTop‑Kが高すぎると一貫性が失われやすくて実際ローカルLLMは頭が悪い割にすぐめちゃくちゃなこと言い出して指示に従わないことがあるから
体感的には下げたほうが方向修正の回数が減って楽になったんだけどいじらないのが普通なの?
0863名無しさん@ピンキー2025/02/08(土) 23:20:41.04ID:???
>>862
用途にもよるんかな?ワイはクソ長い設定渡してロールプレイさせてる
EasyNovelだと安定する内容がKoboldだと不安定になったりするからなんか特別な設定が必要なのかなと思ってる
0864名無しさん@ピンキー2025/02/09(日) 00:23:44.96ID:???
silly tavernの場合は設定のプリセットがたくさん入ってるから適当に選んで比較してみるといいよ
と言っても俺はやっぱりよく分からんかったけど
0865名無しさん@ピンキー2025/02/09(日) 06:47:43.14ID:???
やっぱりみんなよく分かってないのか
コンテキストテンプレートもよく分かんねえや
モデルごとに尻タブでのオススメ設定が書いてあればいいのに
0866名無しさん@ピンキー2025/02/09(日) 07:53:34.66ID:???
>>865
尻とkobold連携させる時はプリセットだと上手くいかなかったからkoboldのデフォ設定と同じにして使ってたな
0867名無しさん@ピンキー2025/02/09(日) 08:05:15.32ID:???
わかんないとこをばんばん投げるのが良い気がする
koboldcppについてるウェブ応答画面はkobold ai liteのキャラ設定が動いてるっぽいけど外す方法がわからん、とか
Ai lite側の規制で申し訳出してきやがるんだよな
0870名無しさん@ピンキー2025/02/09(日) 10:36:14.66ID:???
好きな女の顔で胡乱なことを言われるのが嫌なので龍アイコンのままにしてる
0871名無しさん@ピンキー2025/02/09(日) 10:46:44.15ID:???
版権キャラでチャット遊びする時はそのキャラの画像にしてるw
0873名無しさん@ピンキー2025/02/09(日) 12:23:47.30ID:???
ついでに画像生成にも手を出したんだが、LLMに比べて環境整理がされてないのは何故なんだろう
LLM周りが整備されすぎ簡単すぎなのかな

Civit.AIで良さそうな画風を探してGenetation Dataを元に設定する
→danbooruで良さそうな絵を探してタグを全部コピー、貼り付け、置換で? やカウント数を消してカンマ区切りにして吐き出させる
→プロンプトの中央部を置き換え
ってやるだけでウルトラクオリティエロ画像が無限のバリエーションで出せるわけだから、誰かが一気通貫ツール作っててもいいのに

めんどいところはChatGPTくんに頼めばPythob書いて自動化できるからまぁいいんだけど
クローズドなところで5分で作れるものが2万で売られてたりするのかな
0874名無しさん@ピンキー2025/02/09(日) 12:31:09.94ID:???
むしろAI画像生成の方がかなり簡単な気がする
LLMは導入したあとの設定が難解すぎる
0875名無しさん@ピンキー2025/02/09(日) 12:31:52.40ID:???
>>873
ローカルは画像生成の方が遥かにインフラ整備されてると思うぞ
むしろ向こうからこっちに来た人はUIとか全然発達してないことによくびっくりしてる
0877名無しさん@ピンキー2025/02/09(日) 12:46:41.62ID:???
そうなの?
自分がたまたま良いものが見つけられなかった結果なのかな
あるいはChatGPTくんがLLMのほうが得意だからかね
綺麗な環境がないかもうちょっと探してみる
0878名無しさん@ピンキー2025/02/09(日) 12:51:11.52ID:???
>>873
ちょっとよく分からなかったが、CivitAIとdanbooruの絵を読み込んで表示して、画風とシチュ・ポーズを選択したらマージしたタグで画像生成してくれるツールが欲しいってこと?
ぶっちゃけ画像生成はかなりガチャなので数打たないと気に入った画像は出ないよ
どうでもいい絵や破綻した絵や気に入らない絵でいいならいくらでも出るけど
そして打率を上げるためにパラメータや呪文を細かく変えて比較したりLoRAに手を出したり沼にはまっていく
0879名無しさん@ピンキー2025/02/09(日) 13:11:34.62ID:???
danbooruのタグをコピーなんてしなくても
気に入ったモデルで気に入った画風のプロンプトを入れて
ランダムにしたいところはdynamic promptやTIPO使って生成するだけで良いんでないの
0880名無しさん@ピンキー2025/02/09(日) 13:19:50.59ID:???
そもそもローカルやってる人の率が桁違いだからな
画像生成でローカルに手を出す人は多いし情報共有が盛んだけど、LLMはオンラインが99.9%超えるんじゃね
0881名無しさん@ピンキー2025/02/09(日) 13:25:40.59ID:???
まあオンラインは手頃だからね
ワイも息抜きにやる事あるが、うっかりいつものような人に見られたら死ぬしかないようなプロンプト入れそうになって焦る事あるw
0882名無しさん@ピンキー2025/02/09(日) 13:39:20.86ID:???
画像生成は
ローカルならEasyReforge
webならNovelAI
あたり使えばほぼワンストップで最強の環境になっちゃうしな
0883名無しさん@ピンキー2025/02/09(日) 13:45:28.20ID:???
>878
やったことは、
1. Civit.AIで好みの作例を見つけて、Generatin Dataから環境作って同じものを再現
2. プロンプトみて絵柄に関係しているものと描く題材に関係しているものに分類
3. 後者をDanbooruの好みの絵に付けられていたタグ一覧と入れ替えて生成
だね。
絵を正確に評価する目はないけど、自分には個人利用に耐えるものが出来てるように見える

2時間くらいの行ったり来たり作業でコレだけ出来るなら、10分でセットアップしてここまで体験させるやつ、初心者を沼に沈めるやつがあってもいいのでは...?って疑問だね
LLMでいうとLM Studioとか、Ollama run hf.co/〜とか
0884名無しさん@ピンキー2025/02/09(日) 13:47:59.07ID:???
>>883
5chでもpixivでもXでも見てくれば
もう小学生でもできるくらい普及してるのがわかるんじゃないか
0887名無しさん@ピンキー2025/02/09(日) 16:20:27.11ID:???
>>883
なんでそんな面倒なことするのかよくわからんけど、上にもでてるeasyreforgeとか使ってみれば?
danbooruタグのサジェスト出るし欲望のままに単語打っていけば、🤖「わかっとるで、ニキが欲しいのはコレやろ?」ってのが勝手に出てくるよ
0888名無しさん@ピンキー2025/02/09(日) 18:00:35.79ID:???
いきなりComfyUIとかは確かに難しいかもしれんが
text-generation-webuiの名前の元ネタのStable Diffusion Web UIなんかは
環境構築も操作もそんなに難しくないと思うが

画像生成の話が出たからついでに聞きたいんだが、STのGenerate Image使いこなせてる人いる?
LLM側のモデルはmradermacher/Behemoth-v2.2-Magnum-v4-123B-i1-GGUFのQ4_K_Mで
stable diffusion側のモデルはKKTT8823/momizi_Noobの momizi_Noob_V3_1.safetensorsを使ってるんだが
そもそもLLMが吐くプロンプトが自然言語交じりで別にtanbooruタグに準拠してないから
生成される画像がチャットの流れにあんまり合ってないものしか出ない
0889名無しさん@ピンキー2025/02/09(日) 18:26:20.02ID:???
llm側がdanbooru語を理解してるわけじゃないからね
気になるならImage Prompt Templateに頻出するdanbooru語書いとくか、画像生成前に自分でチェックするかやね
0890名無しさん@ピンキー2025/02/09(日) 19:13:33.12ID:CTz5aUWN
DanTagGenを経由してmomiziにプロンプトを渡せたら上手くやれそうだな
どうやるのかは知らんが
0891名無しさん@ピンキー2025/02/09(日) 19:20:45.35ID:???
webのGPTやDeepSeekは「Danbooru語で画像生成プロンプト書いて」と命令すれば書いてくれるけど
ローカルLLMで試したことはないな
0892名無しさん@ピンキー2025/02/09(日) 20:14:38.81ID:???
というか今はTIPOが勝手にそれっぽいdanbooruタグ選んでくれるから別途LLMに聞く必要がない
0893名無しさん@ピンキー2025/02/09(日) 20:50:03.39ID:???
png画像を放り込んだらinterrogateしたtagに基づいた台詞をAI生成して、画像に文字レイヤーを合成してpsdを返してくれるアプリ作りたいな。EasyNovelAssistantしか使ったことないけど他のプログラムから呼び出して使えるllmツールって何がいいかな?
0894名無しさん@ピンキー2025/02/09(日) 20:58:21.96ID:???
>>892
silly tavernでチャットに合わせて画像を生成させる機能について話してるんだけどTIPO使えるの?
0897名無しさん@ピンキー2025/02/09(日) 22:11:13.49ID:???
TINPOは既に書かれてるプロンプトを膨らませる機能であって
チャットの日本語を拾ってdanbooruタグに変換する機能じゃないやろ
0898名無しさん@ピンキー2025/02/09(日) 22:13:02.15ID:???
TIPOに"法隆寺"って日本語を渡したらフランドールスカーレット描いてくれたぞ
無能
0901名無しさん@ピンキー2025/02/10(月) 07:05:52.15ID:???
レスポンス遅れてすまん
>>890の教えてくれたDanTagGenを試してみたけど自然言語からタグを生成はできないっぽい
>>891みたいにdanbooruタグを返すようにプロンプトをデフォから変更したらそれっぽい結果が得られたから、この方向で調整し見るわ
0902!donguri2025/02/10(月) 09:21:52.49ID:2mhKFx5G
>>893
LLM のマルチモーダルならComfyUI かなあ……transformersにdiffusers とかの組み合わせだと、画像や映像をみるのにひと手間いるしね
ノードの構成自体がUIになってるから、GUI を別に作らなくていいしw パラメータを変えつつ、音声や画像や映像の結果を同じ画面でみれるのは便利
(あとPythonからJaraScriptへの連携もスムーズだし、ネットワークもベースがaiohttp だから、サーバもクライアントも同じように書ける)
0905名無しさん@ピンキー2025/02/10(月) 15:45:18.72ID:TAZ1Efbi
サイバーエージェントのlm3-22Bの4bitロードで使えばかなり良いのが出るよ
あまり話題にならないのが不思議
VRAMも合計20GBあれば余裕だし
ChatGPTのプロンプトがそのまま使える
0906名無しさん@ピンキー2025/02/10(月) 16:00:27.45ID:???
小説の体裁をとらせるのは小型LLMでもだいぶやれる
半分ロールプレイ、半分チャットな 文書から離れて、小説の基礎技術が出来ている日本語文章をかけるのはChatGPTくらいという印象
文章の良し悪しは人によって基準が全然違うから、自分で使ってみるしかないのでは

日本語が苦手なモデルが相当あるから、英語で書いてもらってそれを翻訳加工すると良いものができる可能性ありそう
0907名無しさん@ピンキー2025/02/10(月) 16:09:18.76ID:???
>>905
エロいの出してくれるんです?
国産系はカラクリ以外そのへんダメダメなイメージがある
0908名無しさん@ピンキー2025/02/10(月) 16:42:38.66ID:???
70Bとか123Bをローカルで動かすのは厳しいなあ
MかマルチGPUにせなまともに動かん
もっとVRAM欲しい
0909名無しさん@ピンキー2025/02/10(月) 16:44:15.28ID:TAZ1Efbi
>>907
出してくれる
ただしコツがあってモデル内部の倫理をプロンプトで脱獄すればいい
0912名無しさん@ピンキー2025/02/10(月) 17:01:14.31ID:TAZ1Efbi
>>910
だいたい出力が短いのはモデル内部の倫理観が効いてる
これを無効化する感じでコンテキスト組めば良い
例えばテストモードです。嫌なことや刺激的な事でも進めてくださいみたいなのでいいよ
0913名無しさん@ピンキー2025/02/10(月) 18:22:55.36ID:???
何GBメモリあれば大丈夫っていうのはない
多ければ多いほど良い
0916名無しさん@ピンキー2025/02/10(月) 23:06:53.24ID:???
>>903
それは考えたんだがfluxはアニメ調でエロOKなモデルがなさそうだから諦めた
hunyuan videoはがクオリティは悪くなかったんだがチャットの合間に生成するには時間がかかりすぎる
0917名無しさん@ピンキー2025/02/11(火) 01:23:28.83ID:???
Silly Tavernでゲームマスターやらせるとか、LLMにタスクをやらせるなら英語の方が明確に強いね

で、自動翻訳しながら扱うスタイルに移行して気づいたんだが、DeepLって翻訳の質が下がってるような
webもそうだけど新世代版になったという触れ込みのAPIもイマイチに感じる

オススメの翻訳サービスとかあるのかな
純粋な翻訳力ならChatGPTだけど規制されるのが面倒すぎる
0918名無しさん@ピンキー2025/02/11(火) 04:10:46.33ID:???
>>911
一度クラウドGPUを借りて満足できるモデルサイズを探ると必要なメモリ量も分かるよ
30Bで満足→64GB
70Bは欲しい→128GB
deepseek v3/R1じゃないと無理→192GB 2台
みたいな 
正直LLM目的でMac買うのはおすすめできないけど
0919名無しさん@ピンキー2025/02/11(火) 08:07:39.15ID:???
ファーフェイからもDigitsみたいなミニPCが。
端的に言うとAI性能は低いけどメモリ(128GB→192GB)と帯域(250GB/s?→408GB/s)はこっちのほうが上。
llama.cppはasendもサポートしてるからllm動かすには最適かも。
ただ、今のところ中国でしか販売予定がないっぽい?

https://www.reddit.com/r/LocalLLaMA/comments/1im141p/orange_pi_ai_studio_pro_mini_pc_with_408gbs/
0922名無しさん@ピンキー2025/02/11(火) 09:23:15.88ID:???
どちらにせよAPI経由で接続するわけだから、windows使っても特にメリットない気がする
0923名無しさん@ピンキー2025/02/11(火) 09:34:40.17ID:???
いろいろ試してみたけど翻訳はKagi translateが一回り強いな
規制なし、文章品質と構造保持、無料で20000字、bookmarkletをブックマークバーに置けば選択&クリックで翻訳できる
kagi自体が儲かってなさそうな雰囲気出してるところ以外は完璧に近い
0924名無しさん@ピンキー2025/02/11(火) 09:41:20.59ID:???
Windowsなんて無駄にメモリ食うんだからLLM動かすのに邪魔なだけだろ
OSの機能はほとんど要らないしpytorchとAPIサーバーだけ動いていれば良い
0926名無しさん@ピンキー2025/02/11(火) 10:13:20.02ID:DXbvQzNJ
>>925
試してみたんやが、常用漢字レベルでも結構読めない&読めない単語あるとその後の文章が嫌な感じの雑音になるな
抑揚表現という部分ではSBV2より、お?っと思わせるような声色出してきたりはするんやが、
日本語での実用にはちょっと厳しい印象や
0927名無しさん@ピンキー2025/02/11(火) 10:27:04.11ID:???
不具合は時間で解決されるだろうけど、ファイルサイズ3.3GBのモデルで漢字が綺麗に読めるようになるかは怪しいところだね

kokoroも日本語対応するらしいけど、あれは もっとサイズ小さいからやはり読めないだろうし...
自動翻訳のAPIに投げて漢字をひらがなに開いてから渡す、とかの工夫が必要そう
0928名無しさん@ピンキー2025/02/11(火) 11:29:57.73ID:???
革ジャンが出すAI用チップのミニPCが個人の最適解になるんかな
0930名無しさん@ピンキー2025/02/11(火) 13:43:08.84ID:???
lumimaid magnum v4 をLMからSTで使ってるんだがある程度いくと台詞を繰り返してくる
アップデートやパラメータも弄ったが駄目だった…。繰り返しを防ぐ良い方法ないかな?
0932名無しさん@ピンキー2025/02/11(火) 14:07:29.80ID:???
喘ぎ声みたいな同じような出力を繰り返させるとそうなっちゃう
こればっかりはどうしようもない
0933名無しさん@ピンキー2025/02/11(火) 14:08:37.50ID:???
前のチャットを真似するから繰り返す表現を避けるしかない
0934!donguri2025/02/11(火) 14:17:01.44ID:U7fNYiB9
>>911
以前のスレでmac どうしをthunderbolt でつないだのもあったけどw ーーただそういうのって、どこまでやれるかっていう実験みたいなのものだしね

>>918 が言うように、クラウドのコンテナでモデルとVRAM/RAMの組み合わせを試して、長く使いたい構成が出てくれば、そのままPC+linuxに移行させるのが無難だと思うよ
PCにwindows が入ってても、ubuntuとかの本体は外付けSSD にも入れられるし
0935名無しさん@ピンキー2025/02/11(火) 14:22:31.31ID:???
sillyのエクステンションから使えるwebsearchって設定以外にサーバーとか何か必要ですか?
Google設定してるつもりだけど現在日時聞いても正しい答えもらえない…
0936名無しさん@ピンキー2025/02/11(火) 14:49:44.82ID:???
Deepseek-ResonerやChatに接続させてやるとちゃんと伸びるようになるからコンテクスト長に原因がありそう
SillyTavernは開始時点で2000や3000トークン使ってることがザラだからctx=16000くらいは必要なのでは
0937名無しさん@ピンキー2025/02/11(火) 15:23:34.32ID:???
>>923
kagiは一応規制あるよ、脱獄用のプロンプトを英訳させようとしたら申し訳食らった(代名詞が「あなたは」じゃなければいけるけど)
その時の出力文からしてChatGPTっぽい気がするけどAPIにしてはエロ翻訳かなり通すのが謎
0938名無しさん@ピンキー2025/02/11(火) 15:42:21.51ID:???
>>348にもあるけど繰り返しはマジでベースモデル依存
あとsillytavern側のコンテキスト長が短くても前のことを忘れるだけで文章が壊れたりはしない
0939名無しさん@ピンキー2025/02/11(火) 16:10:12.63ID:8dlNztjA
>>348
左下のバーガーボタンからManage Chat Filesで物語のシーンの切り替わりで区切っていったほうがよかったりすんのかな
0940名無しさん@ピンキー2025/02/11(火) 19:52:29.23ID:kAwEqTjD
Zonos、Clone Voiceが強いな
そこら辺に転がってる文字列と音声Flacを突っ込んでja選んでGenerateするだけで声質だけでなく乗ってる感情、ブレスや吐息の感じも踏襲してくれる
ver0.1だから駄目なところもだいぶあるけど…

Docker Desktop入れて

git clone https://github.com/Zyphra/Zonos.git
cd Zonos
docker compose up

だけで動くのでお遊びとしては手軽で良いもの聞けたってなる
0941名無しさん@ピンキー2025/02/11(火) 21:23:25.89ID:ArLYIDtR
Mistral-Small-24B-Instruct-2501-abliterated
これ強くオススメしたい、指示への理解力が高い
0942名無しさん@ピンキー2025/02/11(火) 22:01:59.64ID:???
今チャットアリーナ使うとchocolateてモデルが出てくるんだけど日本語で結構いい感じの回答よこすね
x見てみたらgrok3じゃないかって噂されてた
0943名無しさん@ピンキー2025/02/11(火) 22:06:44.23ID:???
LMもSTもcontextロック解除してるんよ…どこか間違ってるのかな?

一字一句同じ台詞と情景を繰り出してくるから話が進まないモデルかえるしかないか
0945名無しさん@ピンキー2025/02/11(火) 22:30:10.28ID:???
全員そんなに詳しくないわけだから、検証方法を考えるか英語圏の詳しいひとの話を漁るかになるのでは
OpenRouterに5ドル入れて安い分レスポンスが遅いプロバイダを選んでモデルを片端から試すとかね
0946名無しさん@ピンキー2025/02/12(水) 03:02:11.63ID:zSADK9sv
AIボイスにAIテキストを読ませるっていまいちピンとこなかったけどAI2Uってゲーム遊んで良さが分かった気がする
これ系のエロゲ今後どんどん増えてくれるんかな
0948名無しさん@ピンキー2025/02/12(水) 07:49:57.62ID:???
>>944
合計トークン6000程でおかしくなる
初めからやり直したら繰り返しは無くなった
解除の意味ないのか?
0949名無しさん@ピンキー2025/02/12(水) 10:21:04.32ID:???
>>940
dockerで立てるところまでは行くんだけど、そこからlocalhost:7860にアクセスできないって言われる
2つの環境で試して両方同じだった
0951名無しさん@ピンキー2025/02/12(水) 14:58:13.87ID:???
>>950
確かにまだ2回目だけど、openwebuiのときはdockerで走ったらあとはlocalhost:3000にアクセスするだけでよかったので特に何もいらないと思ってた
何か追加設定が必要なのかしら
0952名無しさん@ピンキー2025/02/12(水) 15:07:51.39ID:???
SillyTavernの作りから考えると、標準拡張のSummarizeやDiscordにあるImproved memory and summarizationで全文の要約を作って、初期設定+要約で新規チャットを始める形を想定してるように見える

が、自分は自動で受け渡す方法が分かんなかったな
やってるってひとは上の方に居たからよく読むと解決するかも
0953名無しさん@ピンキー2025/02/12(水) 15:10:41.74ID:???
public linkのほうをctrl+クリックすればそれでイケる可能性もありそう
だめならChatGPTくんに聞けばDocker Desktopの設定を教えてくれるはず
0954名無しさん@ピンキー2025/02/12(水) 15:17:09.02ID:???
>>951
openwebuiはdocker-compose.yamlにデフォルトでポートの設定が書いてあるから動く
docker-composeの書き方を調べればすぐにできるはず
0955名無しさん@ピンキー2025/02/12(水) 16:14:55.41ID:zmrUEVW1
>>949
7860って画像生成のWebUIとかにもつかわれてるしポートダブってるんじゃね
0956名無しさん@ピンキー2025/02/12(水) 16:41:04.70ID:???
>>953
駄目やった…
>>954
Aに聞いたら127.0.0.1に書き換えろというのでgradio_interface.pyを書き換えてdocker-compose.ymlに追記したんやけど、けっきょく0.0.0.0で開かれるし何も解決せんかった
そもそもdocker desktopの画面のports欄が-になっとるんよね
これがopenwebuiだと3000:8080と出てるのでこの時点で上手く行っとらん気がする
>>955
確かにそっちも7860や!
でも同時起動しなければ問題ないという認識で、それはしとらんのやが…
0957!donguri2025/02/12(水) 18:02:37.22ID:BTRUcOMm
>>956
これをみるかぎりネットワークがhostだけど、docker desktopのhostモードは問題があるし
https://github.com/Zyphra/Zonos/blob/main/docker-compose.yml
ほかのアプリがデモンとして動いてるなら、手動で起動しなくても7860をすでに掴んでるかもしれないしね

gradio_interface.py は書き換えずに(アプリ側のポートは7860のままにして)、docker-compose.ymlの次を
network_mode: "host"
次のように書き換えて(ここで8080は使ってなさそうなポート)
ports:
- 8080:7860
次でアクセスしたらどうなるんだろ?
http://localhost:8080/
0958名無しさん@ピンキー2025/02/12(水) 19:41:10.62ID:???
>>957
サンガツ
でもだめやな…
portsの欄が-のままだしhttp://localhost:8080/打ってもアクセスできない言われる
ワイ赤ちゃんすぎるのでzuntanニキあたりがeasyインストーラー作ってくれるの待つわ…
0959名無しさん@ピンキー2025/02/12(水) 22:41:21.03ID:???
>>958
docker-compose.yml縺ィ蜷後§繝輔か繝ォ繝縺ォ莉・荳九ョ蜀螳ケ繧 docker-compose.override.yml 縺ィ縺励※菫晏ュ倥@縺溘i http://localhost:17860/ 縺ァ繧「繧ッ繧サ繧ケ蜃コ譚・繧薙°シ

https://pastebin.com/EeKFQ84N

runtime: !reset 莉・髯阪ョ陦後ッ縺縺。縺ョ迺ー蠅縺縺ィ runtime 繧ィ繝ゥ繝シ縺ァ襍キ蜍輔〒縺阪↑縺九▲縺溘°繧芽ィ倩シ峨@縺ヲ繧九□縺代□縺九i
繧ィ繝ゥ繝シ襍キ縺阪↑縺迺ー蠅縺ァ縺ッ譖ク縺九↑縺上※螟ァ荳亥、ォ縲
縺ゅ→蛻晏屓繧「繧ッ繧サ繧ケ譎ゅッ繝「繝繝ォ縺ョ繝繧ヲ繝ウ繝ュ繝シ繝峨〒邨先ァ区凾髢薙°縺九k縺」縺ス縺縲
0960名無しさん@ピンキー2025/02/12(水) 22:42:16.11ID:???
めっちゃ文字化けしてた。。。

>>958
docker-compose.ymlと同じフォルダに以下の内容を docker-compose.override.yml として保存したら http://localhost:17860/ でアクセス出来んか?

https://pastebin.com/EeKFQ84N

runtime: !reset 以降の行はうちの環境だと runtime エラーで起動できなかったから記載してるだけだから
エラー起きない環境では書かなくて大丈夫。
あと初回アクセス時はモデルのダウンロードで結構時間かかるっぽい。
0961名無しさん@ピンキー2025/02/13(木) 05:46:57.08ID:3j0o6e9p
STのbackendにLM Studio使っててメッセージが無限化する現象、これで改善するかもしれん
LM Studioの最新ビルドであるbuild6でAPIエラーが多発するようになったからissue追ってて見つけた
もしbuild5使ってる人はbuild6への更新少し待つのがええかもしれんで
https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/411
0962名無しさん@ピンキー2025/02/13(木) 05:58:07.70ID:???
そういやそろそろ次スレのこと考えんとだが、>>980あたりで引き続き避難所でええんかね?モデル一覧あたりの更新も相談したい
0963名無しさん@ピンキー2025/02/13(木) 09:56:04.44ID:???
>2でkoboldcppを勧めてるけど、初心者の人にはLM Studio使わせるほうがよさそう
使い易さもあるけど、llama.cpp含めて自動更新になったから環境依存問題が一回り減るはず
0964名無しさん@ピンキー2025/02/13(木) 10:13:51.87ID:???
楽天だから期待してなかったけど規制ゆるゆるで結構賢い
mmnga/RakutenAI-2.0-8x7B-instruct-gguf
0965名無しさん@ピンキー2025/02/13(木) 10:33:17.73ID:???
プロンプト書いてもらうのにdeepseekは優秀だなぁ
中々繫がらないけど‥
0966名無しさん@ピンキー2025/02/13(木) 10:43:59.76ID:???
なんJ側の荒らしをしらないのでアレだけど、戻るかどうかをタイミングで決めるのは面倒な事が起こりそう
どうするにしてもスレ途中で行うのがいいのでは

モデルは個々の紹介よりは性質の違い、見分け方、分類のほうがニーズある気がする
ローカルだけでなくAPI経由でのLLM利用全体まで広げて、 OpenRouterを紹介するって方向もありえそう
0967名無しさん@ピンキー2025/02/13(木) 11:04:00.62ID:???
モデルごとのシステムプロンプトよく分かんなくて泣く
構文が合ってないと上手いこと認識してくれないみたいな解釈でええんよな?
0968名無しさん@ピンキー2025/02/13(木) 11:13:40.94ID:???
アナログ的な感覚がある気がする
試行錯誤しまくることで身につくというか
0969名無しさん@ピンキー2025/02/13(木) 14:39:52.44ID:???
>>967
それもローカルLLMが流行らない原因の一つだと思うわ
AI画像生成ならモデルの推奨プロンプトをコピペするだけで良いのに
0970名無しさん@ピンキー2025/02/13(木) 14:42:23.87ID:???
あっちに戻ったらURLや数字入り文章を書けない人が続出すると思うよ

避難所というかここが本スレでいい気がするけどそうするとスレタイがアレだからねぇ
波風起こさずに今まで通りひっそり続けていくのが一番かな
0971名無しさん@ピンキー2025/02/13(木) 14:52:52.17ID:???
>>969
koboldは自動的に推奨プロンプト入れてくれるんじゃなかったけ?
なんだかんだ言って初心者向きとは思う
0972名無しさん@ピンキー2025/02/13(木) 14:54:28.97ID:???
無料だからずっとcohereAPIをSTに繋いでたけど
gemini2.0に代えたら凄いこれ‥
今までありがとうcohere
0973名無しさん@ピンキー2025/02/13(木) 17:01:10.58ID:cIvYBfxO
テンプレ長すぎるしWikiでもSeesaaで作るか……と思いながら過ごしてたらスレ完走しそう
0974名無しさん@ピンキー2025/02/13(木) 17:15:59.06ID:???
とりあえずテンプレはAMDユーザー用にrocm版koboldの案内と量子化は4bitまで劣化がほぼないこと
モデル系はgoogle aistudioのAPI取得の案内とmagnum系追加する感じでいいかな?
他にある?
0975名無しさん@ピンキー2025/02/13(木) 17:38:28.07ID:???
4090上のIQ3_Mで今実験してるけどRakutenAI 2.0 8x7B Instructも日本語チャットならまあまあ
0979名無しさん@ピンキー2025/02/13(木) 19:56:23.70ID:???
結局実用用途で言えば今はネットでデープシーク1択だよね?

>>978
PC無し生活でここに来るって珍しいねw
0980名無しさん@ピンキー2025/02/13(木) 19:58:52.87ID:???
>>964
7Bでもまともに動くの?

自分2年前にRinna使ってキチガイと話してるみたいな印象植え付けられてそれ以来7Bって敬遠してるわ。。。
0981名無しさん@ピンキー2025/02/13(木) 20:00:15.34ID:???
>>962
うわぁ意図せず980踏んでしまった。。。
楽天なので建てれるか分からんけどこのまま新スレ建てればいいの?
0982名無しさん@ピンキー2025/02/13(木) 20:11:10.04ID:cIvYBfxO
>>974
LM Studio、OpenWebUIとかの触りやすいインターフェイスとかあるけど
そういうの冒頭に追加してくと無限に長くなってくからな
0987名無しさん@ピンキー2025/02/13(木) 21:05:47.07ID:???
テンプレとか弄りたいなら次スレの最初の方でやっといた方がいいんじゃねーの
このタイミングでやってもすぐ埋まるで
0991名無しさん@ピンキー2025/02/13(木) 21:53:32.30ID:???
スレ立て乙!
Zonosで同じく格闘してたんだが
docker-compose.ymlを
version: '3.8'

services:
zonos:
build:
context: .
dockerfile: Dockerfile
container_name: zonos_container
runtime: nvidia
ports:
- "7860:7860"
stdin_open: true
tty: true
command: ["python3", "gradio_interface.py"]
environment:
- NVIDIA_VISIBLE_DEVICES=0
- GRADIO_SHARE=False
に書き換えて
DockerDesktopの7860:7860のリンクをクリックしたらいけた
0993名無しさん@ピンキー2025/02/13(木) 23:10:21.25ID:???
てか、rinnaも新しいの出してるな
deepseek蒸留版もあるし、今から試してみるわ
0994名無しさん@ピンキー2025/02/13(木) 23:15:56.77ID:XkWSVi4J
>>991
おめでと、ポートを出せばうまくいくよね

>>958 は諦めたのかな? もしこっちとのやりとりに行き違いがあって
gradio_interface.py の末尾をserver_name="127.0.0.1" に書き換えたままなら、コンテナ外からはアクセスできないし……まあもういいんだけど
0995名無しさん@ピンキー2025/02/14(金) 00:14:44.85ID:0OnyLn+5
rinnaのbakeneko deepseek版使ってみたけど、日本語でしっかり考えてくれてすごい良い感触や
ワイの環境やとQ2までしか動かせんからそれなりに破綻してしまうけど、それでもええ感じや。Q4とかならかなり良さそうな気がするで
0997名無しさん@ピンキー2025/02/14(金) 08:43:36.12ID:???
>>991
>>994
これも駄目だあ
そもそもdocker desktopにその7860:7860が出ないんよねえ
何時間待っても-のまま
0998名無しさん@ピンキー2025/02/14(金) 09:42:39.35ID:???
dockerは脇に置いといて、WSL経由でUbuntu起動してマニュアルでインストールしたほうが早そう
10011001Over 1000Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
life time: 49日 21時間 5分 52秒
10021002Over 1000Thread
BBSPINKの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 専用ブラウザからの広告除去
★ 過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.bbspink.com/login.php
レス数が1000を超えています。これ以上書き込みはできません。

ニューススポーツなんでも実況