なんJLLM部 避難所 ★5
0001名無しさん@ピンキー2024/12/26(木) 13:13:11.15ID:Vhp+tTX0
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/
0005名無しさん@ピンキー2024/12/26(木) 13:16:04.96ID:Vhp+tTX0
●Zuntanニキ謹製のツールEasyNovelAssistant

ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant
0006名無しさん@ピンキー2024/12/26(木) 13:17:27.11ID:Vhp+tTX0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0007名無しさん@ピンキー2024/12/26(木) 13:17:39.70ID:Vhp+tTX0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0008名無しさん@ピンキー2024/12/26(木) 13:17:57.73ID:Vhp+tTX0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
0009名無しさん@ピンキー2024/12/26(木) 13:18:04.01ID:Vhp+tTX0
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
0010名無しさん@ピンキー2024/12/26(木) 13:18:12.93ID:Vhp+tTX0
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
0011名無しさん@ピンキー2024/12/26(木) 13:18:20.52ID:Vhp+tTX0
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
0012名無しさん@ピンキー2024/12/26(木) 13:18:28.79ID:Vhp+tTX0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
0013名無しさん@ピンキー2024/12/26(木) 13:18:35.28ID:Vhp+tTX0
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0014名無しさん@ピンキー2024/12/26(木) 13:21:20.99ID:Vhp+tTX0
●ここ最近話題になった日本語ローカルモデル達やで

LightChatAssistant(通称LCA)
このスレのニキが3月にリリースして激震が走った軽量高性能モデルや
>>5のツールもこのモデルの使用がデフォルトやで
非力なPCでも走るしまずはこの辺りから試すのを薦めるで
https://huggingface.co/Sdff-Ltba

Ninja/Vecteus
オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や
リリースされたばかりやがこちらも軽量高性能やで
開発も続いとるようやから今後の動きにも要注目や
https://huggingface.co/Local-Novel-LLM-project
0015名無しさん@ピンキー2024/12/26(木) 13:21:36.48ID:Vhp+tTX0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)
0016名無しさん@ピンキー2024/12/26(木) 13:27:46.54ID:Vhp+tTX0
こんな感じかな
モデル一覧は若干古くなりつつありそう
anthracite-orgのmagnumシリーズとかは追記しておくべきかな?
[anthracite-org (Anthracite)](https://huggingface.co/anthracite-org)
0018名無しさん@ピンキー2024/12/26(木) 13:44:46.69ID:???
乙乙
magnum v4 123bが今の所最強かな
メモリ64Bで動かせるギリ最良量子化サイズがiQ3k_m
0021名無しさん@ピンキー2024/12/26(木) 18:51:50.64ID:jsaRaPor
いちおつ
はよgemma3とかの新モデル出んかねぇ
0022名無しさん@ピンキー2024/12/26(木) 18:51:54.20ID:???
マグナムって日本語ではないよな?
123bだとVRAMに全然収まらんし70Bクラスでいい感じの日本語モデル来て欲しいわ
Llama-3.3-SuperSwallow-70B-Instruct-v0.1 っての出てるから試すぜ
0026名無しさん@ピンキー2024/12/26(木) 20:40:00.50ID:???
5090×2でmagnum123BのiQ3Mがギリ乗るわけか…
帯域も1.8TB/secなんでしょ
4090の1.8倍速かあ
夢が広がりんぐ…
0027名無しさん@ピンキー2024/12/26(木) 20:40:38.68ID:???
ネット記事に
llm-jp-3-172b-instruct3
ってのが流れてきた

日本製なら日本語強いんじゃね?って期待は結構してるんだよなぁ
0029名無しさん@ピンキー2024/12/26(木) 21:38:11.38ID:jsaRaPor
さすがに172bあるからベンチでは最高クラスだよ
学習トークン少ないからモデルサイズで考えるともっといいの出て来るけど
0030名無しさん@ピンキー2024/12/26(木) 21:44:10.35ID:Y9WnaplU
ベンチでは最高クラスに今までどれだけ騙されてきたか、特に日本産は酷い
0031名無しさん@ピンキー2024/12/26(木) 21:47:16.63ID:???
日本産でいままで満足できたのは初代karakuri-70bだけだった

でも興味あるから、どっかでデモできないかな
0032名無しさん@ピンキー2024/12/26(木) 23:23:20.09ID:???
いちおつ

公開してくれるのはとても嬉しいんだけど172bでGPT3級なのね
試してみたいけどいままでの日本語モデルはMetaが片手間に作ってくれたLLMのほうが性能よかったしな...
Metaの新しい言語に(あまり)依存しない研究に期待。来年くらいにでそうだし。
0034名無しさん@ピンキー2024/12/27(金) 00:55:27.43ID:???
>>33
600MAXなわけであって1200W使うかと言われれば多分そうじゃないから安心しとけ。
今までのマルチGPU環境とかデータセンターとかもそうだが無謀なことしない限りはカタログスペック上の消費電力なんてまぁ100パーでも出ることない。

この辺は車の燃費と一緒でちょっとかけ離れてる。ある程度ボーダーで書いておくのはいいことかもしれんが…(CPUは青天井)
0035名無しさん@ピンキー2024/12/27(金) 00:57:49.22ID:???
まぁいうてLLMでGPU100%使い切るかどうかはさておいて500W前後x2あたりだからかなりキツそうではある
0036名無しさん@ピンキー2024/12/27(金) 01:05:18.60ID:???
よそのやつを日本企業がチューニングしたパターンが1番精度良さそうなんやけどな
0037名無しさん@ピンキー2024/12/27(金) 01:19:03.65ID:???
例えば4090ってPL60%にすると消費電力は270W前後まで下がる
そんで性能はというと6%程度しか下がらん
これはゲーミング性能の事だからLLMだともっと影響低いと思う
なので5090もPL60%にすれば多分400W以下で不自由無く使えるはず
0038名無しさん@ピンキー2024/12/27(金) 05:42:43.26ID:mvFMk8yO
7B以下で良いモデルが大量に出てこないかぎりローカルは盛り上がらんだろうなあ
そろそろLLMに食わせるデータが無くなるって話だし
効率化の研究が進むといいんだが
0039名無しさん@ピンキー2024/12/27(金) 08:35:51.08ID:???
賢いままでもっとサイズを圧縮する技術や
ハードウェア側で大きなサイズを高速に動かす技術
この辺の進展に期待したい
0040名無しさん@ピンキー2024/12/27(金) 12:08:31.06ID:axyx5LTS
モデルのファイルが壊れる場合ってハードウェア要因以外である?
koboldでメモリが足りないってエラー出たんで、
ファイル落とし直したら直ったけど、MD5値調べたら一致してなかった
0044名無しさん@ピンキー2024/12/27(金) 22:44:52.73ID:???
>> 43です
軽めのエロだったら拒否されなかったです。明日また試します
0046名無しさん@ピンキー2024/12/28(土) 07:59:44.22ID:???
>> 43,44です
deepseek api。エッチは普通にできた。温度を1.5くらいにすると良くなる
激しいのとか、表現力はまだわからない
頭の良さはgpt-4o並みとのこと
0047名無しさん@ピンキー2024/12/28(土) 10:42:26.66ID:???
>>38
アメリカからグラボ制裁されてる中国が少量の計算資源で効率的に推論する技術を発明するとか、bitnetやphi系モデル開発して小規模言語モデルに注力しるMicrosoftに期待したい
0048名無しさん@ピンキー2024/12/28(土) 15:27:00.62ID:L24a2Ks4
deepseekも感じさせすぎるとcommand r的な言葉の連続になっちゃうな
まあ、しょうがないか
0049名無しさん@ピンキー2024/12/28(土) 16:57:06.37ID:???
cyberagentのMistral-Nemo-Japanese-Instruct使ってる人っている?
日本語RPのベンチ見てたらスコアくそ高かったんで感触いいならabliteratedしてファインチューニングしようと思うんだけれども
0053名無しさん@ピンキー2024/12/29(日) 00:30:02.06ID:???
>>49
あの処理って、70Bクラスのモデルだとどのくらいのメモリ必要なのかな?
0054名無しさん@ピンキー2024/12/29(日) 01:06:43.56ID:???
>>53
モデルサイズ分のメモリがあればいけるよ
やってることは単純で、推論→拒否部分を特定→拒否部分を無効化して保存だから
0055名無しさん@ピンキー2024/12/29(日) 07:48:58.40ID:???
>>54
おー
と言うことは既存のデータセットに日本語でヤヴァイ指示入れまくったらさらに無力化出来るってことか
0056名無しさん@ピンキー2024/12/29(日) 21:39:39.82ID:Xq5dA+eo
それで効果あったら面白いな
どんな質問にもエロを見出す脳内ピンクモデルとか作れそう
0057名無しさん@ピンキー2024/12/29(日) 22:09:43.39ID:wNMTdH61
Mistral-Nemo使ってるよ。普通に賢いし、特に小説の一節を読ませて質問に答えさせるとかの長文読解をさせると、他のモデルと比べて格段に長い問題を読めるし良い感じに解ける
お手軽に使えるサイズのモデルだと今でもトップクラスだと思うよ。日本語トークンを学習してるのも嬉しい所
0058名無しさん@ピンキー2024/12/29(日) 23:53:49.34ID:???
>>57
それは素のmistral-nemo?それともcyberagentが再学習したやつ?
もしcyberagentのなら素のnemoと比べて日本語能力やRP能力に差を感じるか教えてくれると助かる
0059名無しさん@ピンキー2024/12/30(月) 06:46:39.99ID:???
Mistral-Nemo-Japanese-Instruct-2408.Q8_0
Mistral-Nemo-Instruct-2407-Q8_0 (imatrix)
Mistral-Nemo-Instruct-2407-abliterated.i1-Q6_K (imatrix)
の3つ試してきた。
RPじゃなくて、1000文字程度の小説書かせただけだけど。
全部koboldのLegacyの値使ったけど、cyberagentが一番日本語能力低く感じたよ。
ストーリー展開と会話も他2つの方が好み。
0061名無しさん@ピンキー2024/12/30(月) 12:29:00.88ID:DCZZty0k
アドバイスお願いします。
漫画のセリフを別キャラのセリフとして変換するのにオススメモデルはありますか?

rtx4090でメインメモリ64GBを使ってます。
現状はローカルでエロセリフはBerghof-NSFW-7B、
非エロのセリフはperplexltyを使ってます。
0062名無しさん@ピンキー2024/12/30(月) 12:33:00.79ID:???
完全にオープンな約1,720億パラメータ(GPT-3級)の大規模言語モデル 「llm-jp-3-172b-instruct3」を一般公開
〜GPT-3.5を超える性能を達成〜
https://www.nii.ac.jp/news/release/2024/1224.html

これが先週のニュースだからな
国の金つかってこんなしょぼいLLM作ってるんだから日本は
0063名無しさん@ピンキー2024/12/30(月) 13:00:36.74ID:???
しかもフルスクラッチで始めて日本語ベンチでgpt3.5並て(笑)
下手糞すぎひん?
0064名無しさん@ピンキー2024/12/30(月) 13:21:07.77ID:???
nicky氏のsuperswallowXをメモリ96G積んでるニキ、例の規制解除処理しておくれでやんす
0065名無しさん@ピンキー2024/12/30(月) 13:36:06.70ID:???
ちなAbliteratedは4bit推論も可能なんでメモリ弱者にも優しい仕様になってるで
0066名無しさん@ピンキー2024/12/30(月) 18:57:55.66ID:???
大規模モデルは信じられないぐらい金かかるから簡単には出来ないとはいえ淋しい結果だな
0069名無しさん@ピンキー2024/12/31(火) 12:07:35.15ID:ze/4uz85
DeepSeekV3の普及速度えぐいわ
あっという間にSonnetとかレベルで利用されだしてる
https://i.imgur.com/tCVMetL.jpeg
0070名無しさん@ピンキー2024/12/31(火) 13:45:47.51ID:???
AIサービスはdeepseekv3一択になりつつある
高性能だし安い
LLMチャットサイトも大半が移行してる
0071名無しさん@ピンキー2024/12/31(火) 14:09:03.42ID:???
安さがぶっちぎりなんだよな
価格で対抗できそうなのはawsのやつくらいか
0072名無しさん@ピンキー2024/12/31(火) 15:26:50.21ID:???
deepseekのベンチがいいのは分かったけど実際はどうなの?🤔
0075名無しさん@ピンキー2024/12/31(火) 18:01:07.30ID:ze/4uz85
DeepSeekV3、OpenRouterを介してSillyTavernで試してみたけど
日本語もだいぶ話せると思うよ。多言語対応してるのは偉い(ふつうに申し訳されるけど)
3.5Sonnet超えてるかというとコーディング領域じゃ微妙だけど会話とかは結構イケてると思う
オープンウェイトだからローカルでも動かせる!(動かせるとは言ってない)
0076名無しさん@ピンキー2024/12/31(火) 19:00:48.40ID:???
DeepseekAPIは激安のcohereAPIより更に激安なのがいい
というかチャットだとcohereでも結構かかる
0077名無しさん@ピンキー2024/12/31(火) 19:45:59.10ID:???
モデルの規制解除試してるんだけど、parquetファイルを追加する手段ってなかなかないのね
どっかいいのないかな?
0078名無しさん@ピンキー2024/12/31(火) 20:02:02.86ID:???
chatgptとかに.txtを読み込むようにして〜ってお願いすればやってくれるで
0079名無しさん@ピンキー2024/12/31(火) 21:19:05.08ID:???
DeepSeek V3をローカルで動かすならMacクラスターが良いらしい
Macはメモリは優秀だけどGPUがショボくて今までのLLMだと遅すぎて使い物にならなかった
でもDeepSeek V3のMoEモデルはそんなMac相性が良くてかなり高速に動くみたい
https://blog.exolabs.net/day-2/
0080名無しさん@ピンキー2025/01/01(水) 01:25:05.09ID:???
>>65
.bitsandbytesがcpu量子化に対応してないから、メモリ64Gの環境では無理ですた
macメモリ増し増しのニキ頼むー
swallow v0.3 70Bが規制なくなればかなり良さげなんだわ
0081名無しさん@ピンキー2025/01/01(水) 13:48:26.33ID:???
>>79
4bit量子化とはいえ、671Bとはすごいね
しかも5.37token/sもでるのはMoEモデルならではとな
その構成のM4 pro 8台なら270万円〜 ww
でも研究者用にはよさそうだ
Apple のAIサーバーはM2 Ultraを並べてて色々欠点をあぶり出していて
その結果M5からGPUがAI向けにチューニングされているという噂
でもM4 maxがでたら我慢できないかも
0082名無しさん@ピンキー2025/01/01(水) 14:01:05.46ID:???
>>81
270万円は高くはあるけどNvidiaでこのメモリサイズ揃えるよりは圧倒的に安いんだよな
0083名無しさん@ピンキー2025/01/01(水) 17:56:49.81ID:DMpXKIh6
>>58
ごめんよく読んでなかった、素のmistral-nemoの方だわ
オリキャラ数人とパラメータいじりつつ会話してみたけど、cyberagent版の方が言葉遣いとかは自然だけどRPの演じ分けはあまり上手くない気がする

素の方は設定に忠実な、悪く言えば設定をなぞっただけの、翻訳文みたいな味気ない会話文を出すことがしばしばあるけど、総合的なPR能力はまあまあある方だと思う
cyberagentの方は会話の表現力自体は高いんだけど、どうにもチャットAIの回答に味付けしてくれるって感じで、特に無口系のキャラとかチャットAIと方向性が違う性格になると途端に忠実さが下がる
キャラなりきりチャットで遊ぶなら、多少表現が固くても素の方を選ぶかな

あと長文読解に関しては、素の方が圧勝だわ。まあこれに関してはほとんどの人は興味ないだろうけど……書きかけのテキストまとめる用途とかに便利なんだよ
素のmistral-nemo Q8_0だと、4.5万トークン(4bit/8bitキャッシュでVRAM16GB)くらいの小説を読ませて質問してもまともに説明できるし、説得力のある解説や解釈を入れてくれる
Q4_K_Mで8.5万トークンの小説読ませた時も日本語としてギリギリ成立するくらいの文章が出せたから、Q8とかFP16ならちゃんと応えられそうな気がする
cyberagent版やmagnum、phi-4とかのモデルだと3万トークン以下でも日本語として全く成立しないくらいに破綻するから、やっぱり素のmistral-nemoは総合的なポテンシャルがかなり高いと思う
0084名無しさん@ピンキー2025/01/01(水) 18:35:25.47ID:???
>>83
はえ〜勉強になるわ
ワイEasyNovelAssistantをちらっと触っただけなんやけど
小説を読ませて質問、てどういう風にやるんやろか?

イラストスレでも前スレ食わせてまとめさせとるニキおるし
めちゃロマン感じるんや
青空文庫から江戸川乱歩や吉川英治読ませて明智探偵や曹操丞相と会話したいんコ゚
0085名無しさん@ピンキー2025/01/01(水) 18:42:55.89ID:???
あと「そちら荊州借りパクしてますよね?」と魯粛先生の代わりに孔明を説い正したい
でも本気で罵倒してきたら王朗みたいに血ぃ吐いて憤死するかもしれんけど
楽しみでしょうがないんや
0086名無しさん@ピンキー2025/01/01(水) 22:09:23.10ID:???
2024年は大変お世話になりました。
ENA初心者いるっぽいんで、役立ちそうなこと書いときます。

・huggingfaceからDLしたgguf使いたい!
ggufが保存されているフォルダ(自分の環境だとKoboldCpp)に入れて、
ファイル名をVecteus-v1-IQ4_XS等、ENAからDLできるファイル名に置き換えると使えます。
jsonファイルを書き換える方法もあるっぽいけど、この方法で困ったことないです。

・localhostにアクセスしてKoboldAI Liteを使おう!
モデル読み込んだら一番下にURL出てくるはず。
ENAだと温度しか設定変更できないが、こっちだと色々なSamplersが変更可。
(コンテキストサイズはENAからのみ変更可)。
Sampler Presetの下部にあるLegacy設定がおすすめ。

XTC、DRY、Min-pを変更するのが最近の主流らしい。
まだ使いこなせてないので、良い値あったら教えてください・・・
0087名無しさん@ピンキー2025/01/01(水) 22:53:14.77ID:???
>>59,83
わざわざ検証サンクス
やっぱり元々日本語喋れるモデルに日本語チューニングしてもあんま意味ないんやろな
>>84
EasyNovelAssistant使ってるならkoboldcppってのが入ってるはずだからそれを立ち上げてcontext sizeをデカく&tokensタブからkvキャッシュの量子化をしてコンテキスト長が長いモデル(mistral-nemoとか)を起動
そしてlocalhost:5001に行けばGUIが立ち上がるからそこに長文ぶち込んで質問すればええよ
0088名無しさん@ピンキー2025/01/02(木) 01:39:59.73ID:eWlWc+tE
>>84
Oobabooga / Text generation web UI 使ってる。>>87ニキの通りEasyNovelAssistantでもできるはず
Mistral-NemoのQ8版をダウンロードしてきて、フォルダごとmodelフォルダに入れて、Web-uiのModelタブで設定を調整してロードすればOK
n_ctxの値が消費VRAM量に直結するから、そこはVRAMに合わせて調整してもろて。16GBなら4.5万トークンまではVRAMに乗り切ると思う
https://i.imgur.com/G0YjNQF.jpeg

ロードできたらDefaultタブか、NotebookタブのRawを開いて、こんな感じのプロンプトの中に小説や文章を貼り付けてGenerateすれば読解してもらえる
https://pastebin.com/UJE6muvi
プロンプトは以前やっつけで作ったヤツだから、適宜直してな

後は好きに質問したり、要約させたり、「(登場人物)は、こういう時にどう思いますか?」って聞いたり、「(シチュエーション)の台詞を考えて書きなさい」って指示すればいい
長文やってる人は少ないから、何か面白い会話とか出たら共有してくれると嬉しいで
0089名無しさん@ピンキー2025/01/02(木) 02:16:53.93ID:???
>>87>86>88
丁寧にサンガツやで!
EasyNovelAssistantの最大文字数?くらいしかいじったことないんやけど
全然足りとらんかったのね……画像までありがとう、やってみるで

LLMうまい人は質問の仕方や出力フォーマット指定も上手なんやろな
ワイは電子書籍化したpdfとか山とあるんやが、歴史系の専門書はまだ裁断しとらんのや
検索性は紙媒体が優れてるけど部屋にはもう置けんし、AIが司書さんになってくれたら
本処分して引っ越しも楽になるし
LLMの進化は楽しみなんや
0092名無しさん@ピンキー2025/01/02(木) 10:38:52.94ID:UaaINJ/a
GPT-4 = 8x220B = 1.76T のMoEなのか
4oのマルチモーダルは精度えぐいからまぁええけどLLM性能だけ見たらなんか劣化してそうだな
0093名無しさん@ピンキー2025/01/02(木) 10:40:45.45ID:???
実際に4oは最初なんだこりゃってなったからな
コーディング向けというか、とにかく事務的で人と話してる感が4よりも遥かに劣っていた
今もそうだけど
0094名無しさん@ピンキー2025/01/02(木) 11:12:56.29ID:???
ローカルLLMとパラ数が大差ないことが驚き
下手したら個人のPCでもGPT-4oが動かせそう
0095名無しさん@ピンキー2025/01/02(木) 11:47:39.71ID:???
推定値ってはっきり画像に書いてあるんで鵜呑みにしない方がいいよ
さすがに4o-miniが8bは賢すぎる
0097名無しさん@ピンキー2025/01/02(木) 12:55:45.88ID:???
8BぐらいならモデルをうっかりHuggingfaceにリークしてほしい
いつも情報をうっかりリークするOpenAIさん
0099名無しさん@ピンキー2025/01/02(木) 13:06:20.22ID:???
巨大モデル作成→枝刈りが軽量モデルの訓練最適解だとすればローカルLLM界隈は厳しい状況にある気がする
大規模なグラボがないと軽量かつ高性能なモデルが作れない
0100名無しさん@ピンキー2025/01/02(木) 13:12:14.62ID:???
7Bモデルまで軽量化する時にオホ声やメスガキの枝を大事に残してるとか草
0102名無しさん@ピンキー2025/01/02(木) 14:22:31.43ID:???
確かに文字の出てくる速度からして相当パラメータ数少なそうだなとは思ってたけど
もし本当に8bなのだとするとローカル界にもかなり希望があるってことにはなるなぁ
0103名無しさん@ピンキー2025/01/02(木) 14:33:27.02ID:???
言ってることが正しくても投資家の文字が出てくると胡散臭さが5割増に見える不思議
0104名無しさん@ピンキー2025/01/02(木) 16:14:44.46ID:???
macってメモリをGPUにシフトできるけど、koboldとかで使う場合GPUレイヤーに載せた方が速いの?
同じユニファイドメモリなんだからcpuモードでも同じと思ってたけど違うんかな?
0107名無しさん@ピンキー2025/01/02(木) 21:35:48.93ID:???
理論的にはエロ性能に特化した4o-miniをローカルで動かすことも不可能ではない
誰か頭が良くてエロい人頼んだ
0108名無しさん@ピンキー2025/01/03(金) 08:18:17.15ID:???
>>104
CPUとGPUではアクセスの粒度がぜんぜん違うので
MMUに対して領域を指定してその部分DRAMバンクのアクセス方法が切り替わる
(画面表示の時の読み出し割り込みが定期的にかかるから違うバンクのほうが予測率あがる)
さらにM3以降はそこの改良が進んでてダイナミックキャッシュの圧縮もしている
どうやって圧縮しているかはみつからんかった。最大2倍という広告は見たけど
0109名無しさん@ピンキー2025/01/03(金) 09:07:49.01ID:n0X7VVCV
wabisabiで4000超えたあたりから文章がぶっ壊れるな
context sizeは8192にしてるんだけど
0110名無しさん@ピンキー2025/01/03(金) 09:07:49.55ID:n0X7VVCV
wabisabiで4000超えたあたりから文章がぶっ壊れるな
context sizeは8192にしてるんだけど
0111名無しさん@ピンキー2025/01/03(金) 09:11:19.75ID:???
cohereのaya exp 8bはしゃべり方とかだいぶ4o-mini的かも
ただもとが優等生的なキャラなのでエロいのが好きな人は物足りないかも
0112名無しさん@ピンキー2025/01/03(金) 09:15:42.26ID:n0X7VVCV
尻タブだと問題ない
koboldだとぶっ壊れる
chat modeがダメなのか?
0113名無しさん@ピンキー2025/01/03(金) 14:27:41.47ID:???
アダルトなフォルダ群と、それに対応するサムネ画像群があります。両者のファイル名は表記揺れが多かったり、無駄に日付やバージョンが追記されていたりします。サムネ画像群をlsして200行ごとにA〜Kへと分けています。

AIに対して一つのフォルダ名とサムネ画像群ファイル名リストAを渡し対応しそうな名前を返してもらう、という処理をローカルで行いたいです。

powershellとkoboldcppでこういった処理は実現できそうでしょうか?
0114名無しさん@ピンキー2025/01/03(金) 15:03:16.85ID:n0X7VVCV
LLMとしりとりするの難しいな……GPTでも上手くいかないことがあるぞ
0115名無しさん@ピンキー2025/01/03(金) 15:08:09.90ID:???
>>113
フォルダ名から画像ファイル名探すだけならkoboldにファイル名リストぶち込んで質問でもいいんじゃね
ちゃんとやるならベクトルDB構築することになるけど
>>114
トークン化されてるからね
strawberry問題と同じよ
0116名無しさん@ピンキー2025/01/03(金) 15:21:13.72ID:n0X7VVCV
>>115
GPTだとちゃんと語尾を取ってくれるんだけど
「ん」で終わってしまったときの仕切り直しでおかしくなるんだよね

AI:「メロン」!
俺:「ン」で終わったらダメだよ!
AI:あ、すみません!「メロン」の「ン」ですね。じゃあ、「ノート」!

みたいな感じで
アホなLLMはそもそも全くしりとりが成立しない
0117名無しさん@ピンキー2025/01/03(金) 16:00:47.92ID:???
aya
cohereのとこだし似たようなもんだろって思ってたけどCR+よりは賢い気がする

ただ、軽めのマグナムが現状やっぱ最強
重いのも一応動くけどおっっそいし、俺調教モノがしたいからレスポンス早いの大事なんよなぁ
0119名無しさん@ピンキー2025/01/03(金) 18:28:30.76ID:dXFWaIdU
たしかに並のLLMだとしりとりダメだったわ面白い
QwenとかCohereとかだと単に似てる単語を返したりしてくる
4oとかClaudeレベルじゃないとルール理解してくれんかった
0120名無しさん@ピンキー2025/01/03(金) 23:55:50.93ID:W3BUnxUQ
尻タブでAPIからDeepSeek試してみたけど、いまいちだな…
同じような繰り返しばかりだし、LLMにありがちな明るい未来病をにおわせるフレーズが多くて響かん
設定煮詰めたらましになるのか?
0121名無しさん@ピンキー2025/01/04(土) 14:48:54.56ID:M2WOJj40
ワイもSillyTavernでDeepSeekV3試したけど
同じ語句くりかえしたり出力途中で途切れたり長い文章の出力途中で違う言語になったり
みたいな挙動は確認した
0122名無しさん@ピンキー2025/01/04(土) 21:19:09.29ID:???
俺もdeepseekのapi呼び出しで全く同じ症状出てるわ
繰り返しと文章の破綻
とてもじゃないけどこれがclaude越えはない
apiクレジット多めに買っちまったよちくしょう
0124名無しさん@ピンキー2025/01/04(土) 21:38:17.17ID:Cts7xg66
>>apiクレジット多めに買っちまったよちくしょう
(´・ω・`)人(´・ω・`)ナカーマ
0125名無しさん@ピンキー2025/01/04(土) 22:00:55.69ID:???
文章出力変のはトークナイザーやらテンプレートの設定を間違ってるからだろ
0126名無しさん@ピンキー2025/01/04(土) 22:50:00.83ID:???
そういう設定ってどこかにまとまってたりすんのかな
というかどう詰めていけばいいのか謎
0128名無しさん@ピンキー2025/01/05(日) 04:16:34.25ID:m82up0/D
>>126
そこらへんの情報ググっても全然出てこないよな
chatGPTに頼んでもまともな答えが返ってこないし
何がどう間違ってるのか確かめる方法と基準が分からん
0130名無しさん@ピンキー2025/01/05(日) 10:53:29.86ID:???
reddit以外だとDiscordとかになるんかね
Googleはオワコンだし、LLMの知識はそこの情報食ってウンコ出してるようなものだからもっと使えん
0131名無しさん@ピンキー2025/01/05(日) 12:05:27.52ID:???
ローカルがパワー不足(12GB)だから月課金のサービス使ってMagnum72B動かしたけど、当然ながら12Bより理解度高い上にキチンと下品な対応をしてくれるね……
0132名無しさん@ピンキー2025/01/05(日) 12:10:02.60ID:???
mradermacher/Writer-Large-2411-v2.1-i1-GGUF
期待してたこれようやくimatrix量子化してくれて感謝
小説特化のせいか評価問題は指示がうまく入らなかったけど、なんか知らんが隠語表現がぶっ飛んでたわw
0136名無しさん@ピンキー2025/01/05(日) 15:13:10.57ID:???
>133
infermatic.ai、arliai、groq、together.aiなどなどあるけど、自分はinfermatic.ai使ってる
使用できるモデルは少なめだけど、定額使いたい放題だからね…他のは単発で使うなら安いけど使用のたびに費用かかるのが合わない
0137名無しさん@ピンキー2025/01/05(日) 15:55:28.11ID:???
今のとこLyra Gutenbergs Twilight Magnum 12bに落ち着いてる
軽くてレスポンス早いし、NGないし、文章のクオリティも結構高め
よくミスるけどLMStudioなら介入しやすいし、早いから再出力もさせやすい

>>132
試してみたけど悪くないな。地の文は良い感じ
セリフがちょっと堅い気もするけど
0140名無しさん@ピンキー2025/01/05(日) 19:35:25.07ID:???
量子化すれば12bモデルも6gbになって余裕で動くようになるで
0141名無しさん@ピンキー2025/01/05(日) 20:08:10.44ID:hSVDz953
12gbで12bは余裕ぞ
というかそのぐらいまでがベストなサイズ感すらある
0142名無しさん@ピンキー2025/01/05(日) 20:38:58.77ID:???
3060 12Gで問題なく動く→12B Q6

7Bまでと思い込んでたので、12B動かせること知って全然変わったわ。
0143名無しさん@ピンキー2025/01/05(日) 20:46:11.28ID:???
M4 MacStudioが発表されたら買おうかな
192GBあればほぼなんでも動かせるだろう
ただGPUがショボいから生成が遅いらしいが
動かせないよりはマシか
0144名無しさん@ピンキー2025/01/05(日) 20:49:53.67ID:???
重いやつのがクオリティは間違いなく高いんだけどね
結局AIが生成する文章そのものというより、いい感じに自由度高く介入できるのが好きなんだと気付いたんでやっぱ生成速度大事やわ
0146名無しさん@ピンキー2025/01/05(日) 22:53:19.35ID:???
このスレも以前はグラボ関係なく70Bをガンガン(ゆるゆる)動かして「いやー30Bくらいの方が性能と速度のバランスがいいんだけどな」なんて会話をしていたものだがのう
0148名無しさん@ピンキー2025/01/05(日) 23:13:19.19ID:???
Magnumすごいよな
巷の官ジェネもよく通るし、出来もいい
俺の用途だと月課金する必要感じんわ
CommandR+より遅いのが難点かな
0149名無しさん@ピンキー2025/01/05(日) 23:14:15.92ID:???
でも12Bって良いモデル全然ない気がするぞ
7Bのがよっぽどまとも
0150名無しさん@ピンキー2025/01/06(月) 00:07:20.79ID:???
mistral系のモデルで7b派と12b派がいるよね
自分は理解力重視で12b派
0151名無しさん@ピンキー2025/01/06(月) 07:21:13.38ID:jPrr/kEg
軍人口調にしようとしてるんだけど難しいな
喋り方がかなりおかしくなってしまう
0152名無しさん@ピンキー2025/01/06(月) 10:55:13.49ID:???
>>151
台詞のサンプルとか指定したらいけないか?
あと性格とかでも口調が変わってくる
0153名無しさん@ピンキー2025/01/06(月) 11:23:16.09ID:???
>>138
これQ8とその一個下のQ6 K Lってモデルあるな
magnumで色々試すのはいいかもしれん
0154名無しさん@ピンキー2025/01/06(月) 11:40:25.82ID:jPrr/kEg
>>152
セリフのサンプル通りにならないんだよな
性格と矛盾してる箇所があるのかもしれないからそこらへん弄ってみるわ
0155名無しさん@ピンキー2025/01/06(月) 13:43:09.64ID:???
セッションが続くと文章崩れる問題ってもうどうあがいても解決できないのかなあれ
magnumすごくいいんだけど、結局そこで躓く

素人考えだと、前の文章に必要以上に引っ張られなきゃいいだけじゃんって思うんだけども
0156名無しさん@ピンキー2025/01/06(月) 14:05:48.20ID:???
ファインチューンで使うデータセットのトークン長を長くしないといけないから難しい問題なんよね
英語ならトークナイザーが強いからあんまり気にしなくていいんだけれども
0157名無しさん@ピンキー2025/01/06(月) 16:05:26.69ID:Yd+8NNWx
コーディング支援系のやつ色々ためしてんだけど
Cursor→Cody→Roo cline
って変遷してんだけどゴリゴリ自動で作業してく感じすごいわ
AIが作業した結果に許可ボタンポチるだけのAI見守りおじさんだよ👴
0158名無しさん@ピンキー2025/01/06(月) 16:25:14.14ID:???
>>155
忘れてほしくない情報は記憶しろって言う
忘れて良い情報は忘れろって言う
それが大事
0159名無しさん@ピンキー2025/01/06(月) 18:53:26.22ID:jPrr/kEg
>>157
俺も興味あるんだけどプログラミングとかほんのちょっとしか触ったことなくて良く分からんのよな
例えばどんなことが出来るの?
0160名無しさん@ピンキー2025/01/06(月) 20:37:13.50ID:???
koboldcppアプデでwebサーチ機能が追加されてんね
なおどこを有効にすればいいのか分からない😇
0162名無しさん@ピンキー2025/01/06(月) 22:00:04.11ID:Yd+8NNWx
>>157
なんというかこういう感じやね
ズドドドって直にコード編集してくれる
@neko.py @piyo.py みたいにコードを引用できたりするから
コードコピペしてChatGPTに貼り付けてぇとかしなくて済むのがデカい
https://youtu.be/M4bLmpkxa1s?si=GPqQ8dA5eFXFPMbn&t=107

>>161
一番ええのはCursorかな?
ただし月額サブスク20$なのでトークン毎の支払いがよければ
VSCODE拡張で入れられるCline(またはフォークのRoo Cline)かな
OpenRouterのトークン消費ランキングで大体上位におるからよく使われてると思う
https://i.imgur.com/5fB1rJU.jpeg
0163名無しさん@ピンキー2025/01/06(月) 22:01:36.56ID:Yd+8NNWx
安価ミスったスマソ👴
0166名無しさん@ピンキー2025/01/07(火) 09:02:45.02ID:???
bbx規制終わったかー
>>160
ウェブサーチいい感じだな
7bレベルだとなんか変な結果になるけど
設定は起動時と起動後のコンテキストのオプション2つ設定やで
0167名無しさん@ピンキー2025/01/07(火) 11:07:18.10ID:???
RyzenAIMaxはモバイル用なのか
なんでデスクトップ用を出さないんだ?
0170名無しさん@ピンキー2025/01/07(火) 12:58:23.04ID:2NQb3W94
色んなところで言われてるがVRAM 32GBは微妙すぎる
70Bクラスで遊べないのはきつい
0171名無しさん@ピンキー2025/01/07(火) 13:27:49.20ID:???
70B動かすなら48GBは欲しかったよねえ
さらにお値段ドンになっちゃうけど
0172名無しさん@ピンキー2025/01/07(火) 13:33:10.51ID:???
AMDかintelがとち狂って96gb積んでるグラボ出さねえかなぁ
それこそaimaxを強くしてデスクトップ向けに出してくれたらいいんだけど
0173名無しさん@ピンキー2025/01/07(火) 13:42:46.91ID:???
とか思ったらnvidiaもaimaxみたいな製品出してきやがった
まだvram帯域わからんしwinみたいなos入るわけじゃないから完全AI専用機だけど期待大
0177名無しさん@ピンキー2025/01/07(火) 14:13:48.50ID:???
まあ‥5〜6年もすればLLMもハードウェアも進化してるでしょう
0179名無しさん@ピンキー2025/01/07(火) 14:28:58.03ID:???
$3,000-は性能の割に格安だね。mac studioが霞む
どうした革ジャン、突然神になったのか?

ただリンクがNVLink-C2Cということは2台までだよな
TB5とか積んでるんだろうか
nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips
0181名無しさん@ピンキー2025/01/07(火) 14:42:07.23ID:???
Digitsの方は消費電力も少ないから自宅のLLMサーバー用途にはこっちの方がよさそうな気がしてきたな
CUDA使えるのも強い
0183名無しさん@ピンキー2025/01/07(火) 14:49:24.79ID:???
digitsってアーキテクチャarmなのか
帯域がどれくらいなのかも不明だな
0184名無しさん@ピンキー2025/01/07(火) 14:55:57.57ID:???
なんだMac買おうと思ってたのにこんなの出されたら待つしかないな
0186名無しさん@ピンキー2025/01/07(火) 15:11:28.45ID:x7h8INFs
話が旨すぎる
放っておけば5090複数挿しする層に何故こんな餌を
0188名無しさん@ピンキー2025/01/07(火) 15:30:54.46ID:ydnuQo+m
ついに現実的な値段でまともな文章力のがファインチューニングされる時代が来たのか
70Bとかのは正直「頑張ってるね」レベルが否めなかったからなあ
0189名無しさん@ピンキー2025/01/07(火) 15:50:12.18ID:EQ8Hm/rG
待ちに待ったStrix Haloの発表の日や!デスクトップ向けメモリ128GB対応で一番安価そうなのは……AI Max PRO 385ってやつなんやな!夢が広がるンゴ!
とかやってたらNVIDIAのproject digits発表見て横転したわ
AI Max PRO 385搭載で128GBのマシンが10万以下とか格安で出るならそれはそれで夢があるけど、project digitsの期待値ちょっとヤバすぎるな
0190名無しさん@ピンキー2025/01/07(火) 16:10:14.84ID:???
ただ開発者向けだから買うのがちょっと面倒になりそうだな
0191名無しさん@ピンキー2025/01/07(火) 16:26:42.39ID:???
なんだこの期待値ぶち上げな情報は
先月今月でソシャゲに30万だったかぶち込んでしまったがもっと早く情報出してくれたら2台目のために温存してたまであるぞ・・・
0192名無しさん@ピンキー2025/01/07(火) 16:43:22.03ID:jeRA2EF9
128gbで3000ドルなら
64gbを1500ドルで出してくれんかなぁ・・・
0193名無しさん@ピンキー2025/01/07(火) 16:46:49.30ID:???
チップの演算速度はどのくらいなんだろう
4060くらいはあるんだろうか?
0195名無しさん@ピンキー2025/01/07(火) 17:23:34.48ID:ySI+aBRS
グラボなんて適当に数万だして差しときゃよかったのに
うおおお30万!!やすい!!
順応性高すぎる
0198名無しさん@ピンキー2025/01/07(火) 17:48:08.49ID:???
AIの生成速度ってメモリ帯域で決まるから5090のことなら間違いなく早くなるよ
project degitsはメモリ帯域わからんから何とも
0199名無しさん@ピンキー2025/01/07(火) 17:48:18.71ID:???
まだスペック完全には出てないと思うけれど、少なくともA6000よりは全体的に上で、A100の80GBとは互角かそれ以上になる・・・
かもしれないってChatGPTが言ってた
画像生成モデルの学習や生成も個人レベルではかなり上がるんじゃない?
俺もそっち方面含めてめちゃ期待してる
0200名無しさん@ピンキー2025/01/07(火) 17:57:18.56ID:???
ヤベえよ5090買おうとしてたのに
いや、VRゲームとかもやるからそっちはそっちで要るか
0201名無しさん@ピンキー2025/01/07(火) 17:57:37.25ID:???
と言うか128Gのメモリで最大200bってことは量子化前提なんかな?
4台くらい繋げられんのだろか
0204名無しさん@ピンキー2025/01/07(火) 18:15:01.05ID:ySI+aBRS
と思ったらGPUじゃなくて小型スパコンとかいう意味わからんデバイスのことか
こりゃ革ジャンががんばってくれたら数年もしないうちに個人用AIサーバーみたいなのを
家電買うぐらいのハードルで建てられるようになりそうだわ
0205名無しさん@ピンキー2025/01/07(火) 19:04:15.08ID:???
Project DIGITSってLPDDR5Xらしいしそんなに帯域大きくないんじゃないのか
0206名無しさん@ピンキー2025/01/07(火) 19:25:45.56ID:???
Project DIGITSほしいよおおおお
でもビグテックが買い占めて庶民には回ってこないんだろな…
0207名無しさん@ピンキー2025/01/07(火) 19:52:57.40ID:???
mediatekと組んで作ってるということはスマホベースなのかな
macと同じようなものを作りますということ?
0208名無しさん@ピンキー2025/01/07(火) 20:00:10.97ID:???
>>206
これは学生含む小規模開発者向けだからビッグテックが買い漁るジャンルのものじゃないよ
学校で一括導入したりはあるだろうけど
0211名無しさん@ピンキー2025/01/07(火) 20:51:11.44ID:???
もういっさいゲームとかしなくてLLMか画像と動画生成をローカルで遊ぶくらいしか用途が無いんだけど買うならRTXよりdigitsの方が良いかな
OSもlinuxベースなら画像生成も学習も問題なく出来るよな?
0212名無しさん@ピンキー2025/01/07(火) 23:07:05.94ID:???
ARM系だからセットアップが面倒(一部ライブラリを自前でコンパイルする必要があるとか)だけど
普及すればその問題も消えるだろうしVRAMが必要な推論用途なら大本命のデバイスやね
0213名無しさん@ピンキー2025/01/08(水) 00:37:04.22ID:???
>>212
ARM系とかlinuxも全く分からんけどGPTあたりに聞けばなんとかなりそうだな挑戦してみよう
0214名無しさん@ピンキー2025/01/08(水) 08:04:38.57ID:???
RTX50はFP4対応したけどRTX40以下とのGPU混載だとFP4の高速化の恩恵受けないのかな
0215名無しさん@ピンキー2025/01/08(水) 11:10:25.11ID:???
FP4対応ってTensorCoreやろ?
ワイは一度試しに動かしたことある程度なんやが個人で利用してる人おるんやろか
正直geforceではtensorcore削って安くしてほしいんやが
0216名無しさん@ピンキー2025/01/08(水) 11:35:30.72ID:???
Chat with RTXみたいにTenser Coreに最適化済みのモデルを動かすと速いよ、50xxだとfp4も使えてさらに速いよって話なのかな
fp4使えなくても最適化済みモデルの数が増えるとか最適化手法が一般化することで恩恵あるかもね
0217名無しさん@ピンキー2025/01/08(水) 11:47:46.33ID:???
最適化と言うかtensorrtはそのモデルを使う環境でモデル変換をする必要があるからめんどくさくてどうしても普及しない
nvidiaのはどうやってるか知らないけど、多分力技で全パターンの変換済みモデルを自前で用意してるんじゃないかと
多分一つのモデルに対して数十パターンは用意しないといけない
下手したら100以上かも
0218名無しさん@ピンキー2025/01/08(水) 12:16:06.57ID:???
5000シリーズも出そろったし、チャット系だと実は mac mini M4 24G 位の方がリーズナブルだったりするんだろうか。
0220名無しさん@ピンキー2025/01/08(水) 12:43:24.17ID:???
digitsの出力速度はどうなんだろう
メモリがDDR5なのが気になるところ
0221名無しさん@ピンキー2025/01/08(水) 12:51:08.28ID:???
vidiはvram増やさないで済む戦略で進めるようだし
メモリほしいならmac一択やな
0226名無しさん@ピンキー2025/01/08(水) 14:21:57.73ID:???
macはどう考えてもお高いだろ
m2ultraの値段から考えるとm4は128GBで200万ぐらいするんじゃないの
0227名無しさん@ピンキー2025/01/08(水) 14:32:15.35ID:???
digitsはCUDAのサポートが保証されてるのが一番でかい
ハード的にはラズパイくらいの難易度だが機種選定に手間をかけたくない研究機関は脳死でまとめ買いするだろうな

革ジャンにとっては慈善事業の類だろうがTCOで見たらコスパ高いよ
0228名無しさん@ピンキー2025/01/08(水) 14:50:46.72ID:???
そういえば、デスクトップマスコットx localLLMって無いもんなのかな

LLMの記憶力問題をマスコットプログラムで管理して、ゲームブック的なシナリオ. txtにプレイヤーとして挑んでほしい
で、仕事して家に帰ったら今日の冒険がテキストにまとまっててほしい
0231名無しさん@ピンキー2025/01/08(水) 20:40:54.41ID:???
Digital mate x LocalLLM、やばいですね
大手が一律でNSFWを禁止している理由がハッキリ分かる
0232名無しさん@ピンキー2025/01/08(水) 21:01:02.61ID:ogKKa3a1
>>231
どんな感じなの?
俺のチンポが興味津々なんだけど
0233名無しさん@ピンキー2025/01/08(水) 21:43:16.77ID:???
できることそのものは選択したキャラクターとLocalLLMでチャット出来るというだけだよ

パッケージとして完成していて、手軽に使える、手軽にカスタム出来る、調べ物なしでいきなり果実に手が届くというタイプの危険さ

沼に転げ落ちる予感というか...$3000か...
0234名無しさん@ピンキー2025/01/08(水) 21:42:58.42ID:???
できることそのものは選択したキャラクターとLocalLLMでチャット出来るというだけだよ

パッケージとして完成していて、手軽に使える、手軽にカスタム出来る、調べ物なしでいきなり果実に手が届くというタイプの危険さ

沼に転げ落ちる予感というか...$3000か...
0235名無しさん@ピンキー2025/01/08(水) 22:38:31.81ID:???
MMDモデル使えるんだっけ?
音声はさすがにSBV2は無理かな?
あとはVR化出来たらもうピースが揃っちゃうんだけどな
0236名無しさん@ピンキー2025/01/08(水) 23:44:31.21ID:???
伺かが人工知能だったらって妄想が現実になったみたいな感じか
すげーなかがくのちから
0237名無しさん@ピンキー2025/01/08(水) 23:48:21.17ID:???
ollamaいれてcreateしたらいけるのかな
chat用をいれなかったからかすごいユーザー発言自己主張しまくって読み上げてきて笑った
0238名無しさん@ピンキー2025/01/09(木) 05:32:48.15ID:???
ソフト側でollama apiを選択して、lightchatassistant経由で起動してたkoboldcppのポート番号をいれるだけでとりあえず動いたよ

ボイスの自然さ、表現力、声質カスタムが揃えばそれだけで無限に客が呼べるのでは
短時間の音声サンプルから声質をコピーしたものを作れてしまいますよ、というのは証明されていますし
ASMRも担当できますよ、とかね
0240名無しさん@ピンキー2025/01/09(木) 09:47:56.68ID:9/0GocA5
voxtaってVaM動かさないといけないんでしょ?
確か会話でTimelineとかを操作してセックスモーションとかを起動できたはずだけど
あれCPUの性能要求がえげつないんだよな
0241名無しさん@ピンキー2025/01/09(木) 14:33:24.90ID:???
本当だ
ollamaいれんでもkoboldcpp起動してポートうごかしたらいけたわ
0242名無しさん@ピンキー2025/01/09(木) 19:23:00.11ID:H5Fzr7G2
16GBグラボ環境で日本語ローカルLLMをNSFW小説目的で遊んでたのだが
ふとRocinante-12bを英語で使ってみたら大分性能に差があることに気が付いてしまった
他に英語向けのNSFW可能なモデルでおすすめのあったら教えてほしいわ
0244名無しさん@ピンキー2025/01/09(木) 20:34:42.94ID:???
digitalmateはollama apiを使う感じなのかな?バンドルで売ってるchatwifeは不要?
0245名無しさん@ピンキー2025/01/10(金) 00:22:33.69ID:???
いろんなサービス試してみたけどオープンLLM動かすならfeatherless.ai使うのがコスパ良さそうだ
0246名無しさん@ピンキー2025/01/10(金) 07:23:15.99ID:???
Digital Mate、色々触ってみたけどLLMチャットにキャラクター概念を挿入するためのソフトって感じだな
高度なことを追求するよりは理想のキャラデータを量産できる体勢を作ったほうが面白くなりそう
良い絵を一枚持ってきてL2Dで少し動かして口調サンプルからセリフを4oに作ってもらうとか

>244
chatwifeは別の会社が作ってる同系統のソフトというだけっぽい
0247名無しさん@ピンキー2025/01/10(金) 14:36:31.63ID:???
DigitalMateそのものは、俺はこれは別にいいやってなったけど、
今後何かちょっとした開発をこちら側でしたいってなった時に大事になってくるのはこの方向性だなとも思った

LLMの文章を画像出力させる!みたいなことしたい時も、
文章読ませて画像プロンプトそのものを出力させるより、「タグ」のプリセットを予め用意して適したのを選ばせた方が精度が高い

指向性を定める箱をちゃんと用意するのが大事なんやろなって感じ
0248名無しさん@ピンキー2025/01/10(金) 14:48:03.90ID:???
digitsのせいでm4ultraとstrixhaloへのモチベがダダ下がりしている
macの制限受けるUltra
おそらくAI以外のパフォは大した事ないdigits
いまいちAIへのやる気感じられないAMDのstrixhaloでそれぞれ欠点はあるんだけども
0249名無しさん@ピンキー2025/01/10(金) 15:02:28.82ID:???
digitsも感覚麻痺してるから3000ドルで安い!ってなるけどA401年ノンストップで借りる額と同じなんよな
使わないときは止めれば4、5年は使えるしそのぐらいたてばもっと安くて性能いいものが出てると考えると何とも
0250名無しさん@ピンキー2025/01/10(金) 15:05:40.32ID:???
サブスクは値上げの可能性が付きまとうから単純比較はまた悩ましい
0251名無しさん@ピンキー2025/01/10(金) 15:05:53.26ID:JUaa8XjM
koboldのアドベンチャーモードってtokenを大量消費する仕様があったりするの?
設定したコンテキストサイズの半分ぐらいで文章がおかしくなるんだけど

>>234
ほえー
ちょっと面白そうだね
MMDとかよく分からんけど
0252名無しさん@ピンキー2025/01/10(金) 15:59:58.72ID:yayCyjSt
digitsは高価だろうけど、ドッキングできるのもあって中古の需要は高いだろうし、売却すればそれなりの金額になるんじゃないかな(希望的観測)
……ってそうなってくるとdigitsのレンタルもできるようになってくるのかな?そういやsaladだったか、個人でGPUリソースの貸し借りするサービスあったような……
0253名無しさん@ピンキー2025/01/10(金) 16:10:28.87ID:nL7fDqcp
クラウドアレルギーだからプロデジちゃんでいいや
0254名無しさん@ピンキー2025/01/10(金) 16:28:35.20ID:???
digitsは開発者向けと言ってるから一般販売用の第二世代がすでに準備されてる可能性あるような
70bが動かせて10万円ですとか
0255名無しさん@ピンキー2025/01/10(金) 17:07:14.57ID:???
何にせよ販売経路も一般とは異なりそうだし5月に使用感のレビュー見るしかないな
帯域がどうだろうなあ
0257名無しさん@ピンキー2025/01/10(金) 18:37:51.51ID:???
もしかしてこのスレってクラウドサービスでオンデマンドスケベLLMしてるエンジニアの鑑がいるのか?
0258名無しさん@ピンキー2025/01/10(金) 18:51:57.08ID:KsFSGxqE
>>251
多分ユーザー側で入れる情報と別にアドベンチャーモード用のプリセットプロンプトも読んでるからそこでトークン消費してる
0259名無しさん@ピンキー2025/01/10(金) 19:27:05.39ID:???
>>256
チャット派のワイはこれで200Bが動かせるとしてもやっぱ応答速度が気になるんや
3000ドルやっす!とは思うけど冷静に考えると5090に9800x3D合わせても2500ドル以下で買えるしなあ…
小説派は全速力で飛び付け!とは思うで
0260名無しさん@ピンキー2025/01/10(金) 19:39:32.43ID:JUaa8XjM
>>258
ははあ、そういうことかいな
アドベンチャーモードは面白いけど半分も占有されるのは辛いもんやな
0261名無しさん@ピンキー2025/01/10(金) 20:21:38.37ID:???
推論速度は気になるところなんよな

公開されてるのはfp4が1pflopってことだけやねんけど、
そこからいろいろワイ独自に推測に推測を重ねて
最速で4070くらい、再遅で4070の半分くらい(3060くらい?)かなって気がしとる

4070の半分くらいやったとしても70bをおそらく5token/sくらいで動かせるので
結局ほしいんやが
0262名無しさん@ピンキー2025/01/10(金) 20:31:34.13ID:???
redditで画像に写ったメモリチップの比率から32bitチップでstrixhaloと大差ないって考察してる人はいたね
イメージ画像だろうし500は出るだろ派やappleみたいに128bitチップ専用に作ってもらって1T出るんじゃないか派もいたけど
0263名無しさん@ピンキー2025/01/10(金) 22:15:12.29ID:HAfSvJGq
>>260
ワイはGeminiが無料でコンテキスト大量だからそっちでアドベンチャーモードと同じ遊び方してる
NSFWも露骨なのは止まるけど、システムプロンプトにコンプライアンス最低でとか過激な表現は避けて婉曲的に描写することとか書くとエロいこと自体はしてくれるし
0264名無しさん@ピンキー2025/01/11(土) 00:52:20.95ID:uYI/25aT
>>257
クラウドにインスタンス建ててLLM置いてオレオレLLMサービスにAPI接続ってことか?
A40(48GB)でも$0.39/hrとかすっから24時間借りっぱなしとかになると月額数万とかになるだろ
どこにもホストしてないドマイナーモデル/俺だけのファインチューニングAIを使いたいんだあってケース以外割にあわん
0266名無しさん@ピンキー2025/01/11(土) 04:01:26.03ID:???
paperspaceって手もあるぞ
A100は期待できないがA6000ならまぁ混雑時間以外は大体使える
ただ、gradioない奴(SillyTavernとか)使おうとすると自力でgradioでラップするかバレたら垢停止の方法使うしかないけど・・・
0268名無しさん@ピンキー2025/01/11(土) 09:59:36.45ID:???
人間相手のチャットで長文派だと平気で10分とか20分とか待たされることもあったな
0270名無しさん@ピンキー2025/01/11(土) 11:16:58.90ID:OHT8Xdlg
尻タブでも設定したcontext長が16384なのに6000ぐらいで
文章にアルファベットや記号が混ざっておかしくなる

もしかしてこれは繰り返しペナルティとか温度とかの設定の問題か?
まあ設定を弄っても全然改善しないんだが
はあーん、マジで分からん
context長を長くしても全く生かせてない
0271名無しさん@ピンキー2025/01/11(土) 11:21:10.33ID:???
>>270
ファインチューニングモデル使っててベースモデルなら問題ない場合はファインチューニングでロングコンテキスト性能が劣化しちゃってるからどうしようもない
0272名無しさん@ピンキー2025/01/11(土) 11:57:23.74ID:OHT8Xdlg
>>271
前スレのwabisabi-v1なんだけどそういうことなのかな?
バージョンアップで8kから128kにコンテキスト長が伸びたことを謳っていたから大丈夫そうなんだけど
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/754
0273名無しさん@ピンキー2025/01/11(土) 12:22:17.51ID:???
>>272
ファインチューニングで使ったデータ以上の長さの文を送られるとAIが困惑して意味不明なこと言い始めちゃうんよ
モデル的に128kまで行けるから前の文章も覚えてはいるんだけどね
0274名無しさん@ピンキー2025/01/11(土) 12:59:19.45ID:???
10token/sか
追い付かなくなってくる速度だな
リアルタイムで音声チャット出来るようになるにはこれでも足らないんだろうな
0276名無しさん@ピンキー2025/01/11(土) 14:59:57.30ID:???
日本語のerpデータセットってhfに上がってないんかな
官能小説データは自力で集めて今手元に数GBくらいあるんやけど
0278名無しさん@ピンキー2025/01/11(土) 16:02:54.55ID:OHT8Xdlg
>>273>>275
16kまで行ける人がいるならモデルが原因ではないのか?
俺は8k以下でおかしくなるし

RTXのAI性能が上がるpytorchのパッチが来るらしい
https://x.com/_kaiinui/status/1877548551707689165

pytorchってどこで使ってるんだっけ?
0279名無しさん@ピンキー2025/01/11(土) 16:03:16.04ID:???
digitalmateこれツンツンした時のreactionとかにもLLM使ってくれたらいいのにな
あと一定時間話しかけないと向こうから話してくれたり
結局自分からアクション起こさないと駄目だから億劫になっちゃう
伺かみたいだったら常駐する意味もあるんだけどな
0280名無しさん@ピンキー2025/01/11(土) 16:53:45.03ID:???
>>278
すまん、64→32→16と上から試して破綻してたからもうええかってなったんで8Kは試してない
0281名無しさん@ピンキー2025/01/11(土) 17:05:42.07ID:OHT8Xdlg
>>280
どれぐらいのコンテキスト長で破綻してたの?
俺は最大16k設定にしたのに6kぐらいで破綻した
0282名無しさん@ピンキー2025/01/11(土) 17:45:47.40ID:???
>>264
runpodってやつか
しかし60円/時で済むのか
ちゃんとスケジュールでterminateしていれば意外と趣味の範囲か…?
0283名無しさん@ピンキー2025/01/11(土) 19:07:04.05ID:OHT8Xdlg
ポッキーゲームやツイスターゲームが学習されていないモデルって結構あるのな
説明してもなかなかルールを理解してくれない
0284名無しさん@ピンキー2025/01/11(土) 20:36:20.60ID:???
>279
開発自体は活発だしコミュニティも付いてるからパッと思いつく機能は時間経過で全部付くんじゃないかな
複数キャラを起動して勝手に会話させるとか
テキストを渡すと内容について評価感想を出してくれるとか

伺かにChatGPT3. 5のAPIを導入しているプロジェクトもあるみたいだから、Koboldcppをopenai 互換で起動しておいてHostsか何かでopenaiへのアクセスをリダイレクトすればLocalLLM伺かを爆誕させることも出来るかも
0285名無しさん@ピンキー2025/01/11(土) 21:06:13.25ID:???
>>279
その機能って超単純な仕組みで追加出来るだろうからリクエスト出せば受け入れられそうやな
一定時間入力されない場合に入力されるプロンプトや特定箇所をクリックした時に入力されるプロンプトを数種類用意しとくだけで済むし
0286名無しさん@ピンキー2025/01/11(土) 21:17:28.04ID:???
Android アプリのコトモ、ChatGPTのボイスモードよりそれっぽい合成音声とガードの脅威的緩さがすごいな
ダメじゃない!?ってなる
これぐらいの合成音声がどこででも使えるようになると色々捗るんだけど
0288名無しさん@ピンキー2025/01/11(土) 21:44:47.68ID:???
Style-Bert-Vits2ですか
VITS-APIアクセス経由でDigital Mateと接続できたりするやつ...?
0290名無しさん@ピンキー2025/01/11(土) 22:29:22.47ID:???
sbv2入れてみたけど抑揚がおかしくて使ってないわ
あれいいのか?
それとも俺の設定がおかしいのか
0291名無しさん@ピンキー2025/01/11(土) 23:18:11.73ID:???
sbv2はモデルで発音に滅茶苦茶差があるからそれだと思われ
10月あたりにkotomoと比べたけど自分はそこまで差があるようには感じなかったわ
0292名無しさん@ピンキー2025/01/11(土) 23:23:19.14ID:???
そうなのか
もう1回チャレンジしてみよう
LLMで作った小説の朗読に使えそうなの探してるとこなんよな
0293名無しさん@ピンキー2025/01/12(日) 00:24:59.04ID:???
Japanese‐TextGen‐Kage‐v0.1.2‐2x78‐NSFW‐gguf
Mistral_Nemo_NSFW_E3V1_Q8_0‐GGUF
Ninja‐v1‐NSFW‐128k‐i1‐GGUF

最近入れて悪くないなってなったLLM
0294名無しさん@ピンキー2025/01/12(日) 07:12:04.12ID:???
>>293
おーありがとう参考になる
こんな感じでテンプレの>>15も最近の情報にどんどん入れ替えて欲しいな
最初のテンプレ書いたの自分だけどさすがに古いわ…
0297名無しさん@ピンキー2025/01/12(日) 09:42:19.75ID:???
120BクラスのQ8をそれなりの速度で動かせる環境が手に入って、Lumimaid-v0.2-123Bとmagnum-v4-123bを試して見たところ、普段使っているcalm3-22b-RP-v2と比べてそんなに優れているように感じませんでした
もし120Bクラスを常用している方がいたら感想やお薦めのモデルを教えていただけないでしょうか?
使途は日本語ERPです
0298名無しさん@ピンキー2025/01/12(日) 09:56:58.46ID:???
合成音声、パッと調べた感じだとStyle-Bert-VITS2からいろいろクリーンにしたAivisSpeechに移行中って感じなのかな
0299名無しさん@ピンキー2025/01/12(日) 09:57:56.29ID:???
おっと送っておる
いろいろ作っている最中です感あるから後から触るので良さそう
0301名無しさん@ピンキー2025/01/12(日) 10:38:46.71ID:???
>>297
普段はLumimaid-v0.2-12Bを使っててたまにLumimaid-v0.2-123Bを触るけど123Bの方が少ないプロンプトで理解してくれる(察してくれる)のは感じるかな
他のモデルは自分は触ってないけどLumimaidやmagnumの123Bをマージしたlumikabra-123B_v0.4とか良いかも
あとはMistral系のモデルはtemperatureを0.3程度にするのが推奨されていることが多いからそのへん弄ってみるとか
0302名無しさん@ピンキー2025/01/12(日) 12:15:59.32ID:???
>>297
プロンプトや用途によるのかな?

俺が使ってる小説強化プロンプトで試してみたけど、magnum-v4-123bはプロンプト通り小説が強化されてるのに対して、calm3-22b-RP-v2は強化されてないように感じる。
calm3-22b-RP-v2はよく似た文章の繰り返しが多いのガ気になったかな。
magnum-v4-123bだとガチャ要素が少なくて、ほぼ一発て通るからこれオンリーで使ってるよ。
あと察してくれるのはまさにその通り。

小説強化プロンプト
https://rentry.org/nz5nodmx
システムプロンプトなどに張り付けて、指示文を書くだけ
0304名無しさん@ピンキー2025/01/12(日) 13:36:49.96ID:???
>>303
ごめん、kobold使ってないからwsとか分からん
lmstudio使ってるんだけどシステムプロンプト書くところにリンクのプロンプト文を貼り付けて使ってるだけ
普通に1回目からリンクのプロンプトを投げるのでもいいのかもね
後は書いて欲しい内容を適当に投げて執筆してもらっています
0305名無しさん@ピンキー2025/01/12(日) 14:11:12.13ID:???
>>304
サンクス
帰ったら色々試してみるわ
koboldは最近追加されたstorywriterモードがいい感じなんでこれとうまく融合させてみる
0306名無しさん@ピンキー2025/01/12(日) 14:37:45.31ID:JeZR3A0c
エロ小説を書かせると2000文字ぐらいで切り上げられちゃうんだけど
もっと長文で書かせる定石みたいなのってあるの?
>>302使ってもあっさりした描写ですぐ射精して終わりになっちゃう
0307名無しさん@ピンキー2025/01/12(日) 15:43:40.12ID:JeZR3A0c
storywriterモード使ったらちょっと長くなったわ
でも複数キャラを出すと同じような展開ばっかりになっちゃうな
LLMで小説書き切る人はすげえわ
0308名無しさん@ピンキー2025/01/12(日) 15:51:38.61ID:???
>>307
storywriterモードは区切りのいいところで一旦終わってくれるので
そのまま続けてくれ とか
もっと〜を掘り下げて とか指示して流れを誘導していくのが面白い
0309名無しさん@ピンキー2025/01/12(日) 17:35:52.98ID:JeZR3A0c
>>308
あれinstructモードだからそういうことが出来るんか
0310名無しさん@ピンキー2025/01/12(日) 18:30:53.61ID:???
>>301, 302
情報ありがとうございます
いつも次の応答を誘導するようなプロンプトを書いているので少ないプロンプトでもいけるというのは盲点でした
モデル、プロンプトの紹介もありがとうございます
手もとで試してみようと思います
0311名無しさん@ピンキー2025/01/12(日) 19:38:54.79ID:XkamCAjb
小説家プロンプト、読み上げ環境で使うとたのしいな
AI文章は小説としてはまぁうんだけど目の前で即興でアイデアを喋っているという体裁があると気にならなくなる
0312名無しさん@ピンキー2025/01/12(日) 19:53:43.84ID:CCjnHkgm
>>298
AivisSpeechはVoicevoxのフロントエンドにStyle-Bert-VITS2を組み込みましたみたいなやつやで
ゆっくり実況的ななにかを作るなら便利そうやけど、単に音声バックエンドとしてつかうならStyle-Bert-VITS2で十分やと思うぞ
0313名無しさん@ピンキー2025/01/12(日) 20:25:53.60ID:XkamCAjb
今現在つかうならSBV2が正解だね
sasayaki28(ASMR風囁きスタイル)ちゃんに物語を読んでもらうのがとても良かった

ただSBV2はリポジトリの更新が止まってる、話速を調整すると単にスローモーションになるetcの問題がAivisSpeechでは解決されている、ファイル形式の刷新など下回りの整備をやっている…
てことは多分中の人たちはAivisSpeechにかかりっきりで、両者が統合されないにしてもSBV2の次の更新はAivisSpeech開発からのフィードバックがされてAivisSpeechベースの仕様になる雰囲気があるような

ならばいまのSBV2でより良い結果を求めて詳しくなるよりは、AivisSpeechベースになってから深く触ればいいかなと
AivisSpeechがうまく行って音声モデルがさらに増えてからのほうが面白みも増すだろうしね
0314名無しさん@ピンキー2025/01/12(日) 20:51:21.71ID:???
AivisはSBV2に比べてちと生成速度が遅いのが難点。
公式もそこは有料APIで補ってくれってスタンスだし。
0315名無しさん@ピンキー2025/01/12(日) 22:54:58.50ID:???
>>313
なんJRVC部の住人に普通にSBV2の作者がおるんやが
AIVISの作者とやり取りはあるけど基本的には関わってないみたい
最近はエロ音声の文字起こし精度を高める方向を頑張っててSBV2に組み込むやり方も解説してた
SBV2自体の更新はサボってしまってるとも
0316名無しさん@ピンキー2025/01/13(月) 00:29:35.13ID:GZRfBYqb
Deepseek以外でクソデカモデル含めると今一番日本語性能良いローカルモデルってMistral-Large系列?Qwen2.5 72b系の方が良かったりする?
0317名無しさん@ピンキー2025/01/13(月) 00:38:57.56ID:???
mistral largeでいいと思う
qwenはなんかネイティブ感が足りない
固い用途で使うなら別にqwenでも全然あり
0318名無しさん@ピンキー2025/01/13(月) 06:11:32.25ID:???
Chatbot Arena見るとllama 405Bは日本語性能も良いみたいだけどサイズデカすぎるわな
0319名無しさん@ピンキー2025/01/13(月) 06:20:33.83ID:???
>315
情報たすかる
まずはモデルを簡単に作れるようにするための仕事が先、という話にも聞こえるな
技術が切り拓かれていってるタイミングだからアンテナの張り方も大事になりそう
0320名無しさん@ピンキー2025/01/13(月) 12:16:50.48ID:v6bjGYjv
>>317
やっぱ微妙にカタコトなのか、参考になる

Aivisは結局SBV2ベースだけど音声合成専門でやってるような人に聞くと技術的に結構古くて最新のアーキテクチャとか使ったモデルの方がだいぶ性能良いらしいんよね
簡単に使えるレベルにまで降りてきてくれてないけど
0321名無しさん@ピンキー2025/01/13(月) 14:39:20.38ID:g1PkNzW0
濡れそぼるって表現をLLMで初めて知ったんだけど
エロ小説では一般的な表現なの?ちょくちょく出てくるんだよな
0322名無しさん@ピンキー2025/01/13(月) 15:01:37.51ID:???
濡れそぼつ、な
まろび出ると同じでなぜかエロでしか使われなくなった表現
0323名無しさん@ピンキー2025/01/13(月) 15:12:07.86ID:g1PkNzW0
>>322
濡れそぼつなのか
やっぱエロでしか使われないのね
語感的にそのまま消え去ってもおかしくなさそうなのになんでエロだと残ってるんだろうな
0324名無しさん@ピンキー2025/01/13(月) 17:00:30.65ID:???
意思に関係なしに身体は反応してるというドライで客観的な視点があるカモ
0325名無しさん@ピンキー2025/01/13(月) 17:17:42.10ID:hbsajKRA
>>322 >>323
濡れそぼつ、別にエロ用語じゃないやろ?ワイにとっては子供のころから普通に目にする言葉や
まろび出る、はあんまり見かけんが
0326名無しさん@ピンキー2025/01/13(月) 17:57:56.53ID:???
LM studio使ってる人ってどのくらいいるんやろ
GUI上で編集だの再生成だのを楽にできて特に困ってもいないから一旦はこれ使ってるんだが

他のプログラムとの連携とか考えだすと他の方がいいこともあるんだろうけど
0328名無しさん@ピンキー2025/01/13(月) 18:09:03.60ID:???
前スレで5chの連投スクリプトいなくなったから次スレからオナテク板から戻ろうって提案あったけど
やっぱ連投スクリプトいるじゃん
0329名無しさん@ピンキー2025/01/13(月) 18:40:22.92ID:???
しとどに濡れる、もエロ以外見かけないね
むしろエロは簡単な表現だったらエロくならん気がするけど
メスホールはヤバいくらいエモかった。
ヤバい。マジヤバい。五大湖かよ。

PC板は今けっこうスクリプト受けどるね
sikiガードも抜けてきよる
0330名無しさん@ピンキー2025/01/13(月) 18:51:38.17ID:???
>326
LM Studioは画面がシンプルリッチでごちゃごちゃ感も質素感もないのが良いよね

片端から使ってるけど、まだ機能的な差が少ないので用語さえ分かってしまえば他のものを使うのは難しくないよ
新機能部分はそれぞれあるけど実用レベルなものはあんまないからスルーでいい

あとLM StudioはふだんはEndpoint ( 127.0.0.1:5001 とか )が開かれていないけど、開発者タブの左上、Status:Stopの右側にあるボタンをONにすれば他から接続できるようになるよ
0331名無しさん@ピンキー2025/01/13(月) 18:53:59.45ID:???
ジャンルのそれぞれの文化とも結びついてるような
まろび出すも時代物読んでると臓物がまろび出しがち
0332名無しさん@ピンキー2025/01/13(月) 19:18:43.74ID:g1PkNzW0
ヤンキー女とチャットするの難しいな
全然まともに喋ってくれねえ

>>325
つまり子供のころからエッチな環境にいたってこと?
0333名無しさん@ピンキー2025/01/13(月) 20:56:26.65ID:g1PkNzW0
ダメだ
乱暴な口調にするとすぐに男化する
ヤンキーとか女戦士みたいな強い女キャラが好きなのに難しすぎる
0334名無しさん@ピンキー2025/01/13(月) 23:14:26.63ID:8EB7OGkW
男性的要素を持つ女性を表現するには
できればCR+以上のモデルが要るような気はする
0335名無しさん@ピンキー2025/01/14(火) 00:49:05.62ID:???
普通にマグナムさんどころか軽めのLLMでも、「レデースです」とか「いかにも不良っぽい、男勝りでつんけんした口調でしゃべります」って
システムプロンプトに書いたらいい感じに不良やってくれるぞ

態度も不良っぽくて割といい感じにイヤイヤ従ってくれる
0336名無しさん@ピンキー2025/01/14(火) 06:10:29.42ID:4t1GiLpM
マジ?
エッチなことをすると、一人称が俺様になったりチンポ生えたり
userを女扱いしたりすることが多くなるんだけどプロンプトの書き方が悪いのか
0337名無しさん@ピンキー2025/01/14(火) 06:54:16.69ID:???
10割で書かせるのはムリなのでは
Editや再生成で無かったことにしていくのが単純で簡単だけど、それだと魔法が解けてしまうひとも居そうだね
0338名無しさん@ピンキー2025/01/14(火) 07:51:49.35ID:4t1GiLpM
10割じゃなくても良いんだけどかなり頻度が上がるんだよな
クール系女戦士なら大丈夫なんだけど、荒くれものみたいな粗暴な口調にすると男になりやすい
0339名無しさん@ピンキー2025/01/14(火) 08:50:37.37ID:???
10割でなくて良いなら手間の問題だから、出力結果を二次加工する方法があると綺麗に解決できそう

画面表示する前に出力文を評価して女の子にちんちんが生えてたらレッドアラートを出してくれるLLM処理とか
ちんちん行為ををまんまん行為に書き換えてくれるLLM処理とか

単純な事に思えるからLM StudioかSillyTavernのプラグインに存在してもおかしくないような
0340名無しさん@ピンキー2025/01/14(火) 10:39:58.21ID:???
「今どんな感じ?」とか
トリガーワードつけて
雰囲気壊さないようにプロンプト説明はチャット画面に表記なしで
ゲームの1枚絵みたいに画像生成出来たらいいな
0341名無しさん@ピンキー2025/01/14(火) 10:43:50.79ID:???
そういやふつうのモデルって文章がNSFWかどうか判別して拒否してきたりするよね
てことは軽量だけど理解力はあるphi4.ggufちゃんを回して文章評価させればえっちな文章かどうかは判別できる、あるいは10段階でどのくらいえっちなのかも判別出来たりする...?
0342名無しさん@ピンキー2025/01/14(火) 11:08:31.49ID:4t1GiLpM
>>339
尻タブで探したけどよく分からなかった……
拡張機能ってどこで探せばいいんだ

>>340
koboldに画像の自動生成機能があったような

>>341
7Bのvecteus-v1-abliterated-q4_k_mでもそこそこエッチ度評価できたよ
プロンプトに

-会話のエッチ度の表記:文章の最後に[会話のエッチ度:n]という形式で会話内容のエッチ度を表示してください。
nには1〜10の数字が入り、数字が大きいほどエッチです。
基準として、乳揉みは[エッチ度:3]です。

って入れておくと、エッチなことをするとちゃんと数字が上がって、エッチじゃないと数字が下がる
そこまで賢いモデルじゃないからかなり大雑把だけど
0343名無しさん@ピンキー2025/01/14(火) 11:21:16.37ID:???
20個文章生成してえっち度で並び替えさせると使えそうだね

NSFWに厳しいモデルほどトレーニング段階でではえっち文章を食べてて、理解力がある可能性があるような
脱獄プロンプトで実力を試すとなかなかやりおるわけですし
0344名無しさん@ピンキー2025/01/14(火) 11:25:59.41ID:???
>>342
サンガツ
koboldもあるのか
STで画像生成プロンプト有りは
見たことあるが
相手がタグを喋りだしたら笑ってしまう
0345名無しさん@ピンキー2025/01/14(火) 11:32:11.75ID:j222OMVx
>>NSFWに厳しいモデルほどトレーニング段階でではえっち文章を食べてて、理解力がある可能性があるような
鋭い考察に見えるがどうなんやろうな?
エッチ関連の重みバッサリ削って申し訳領域に強制ご招待されてるだけな様な気もするが
0346名無しさん@ピンキー2025/01/14(火) 11:34:09.99ID:4t1GiLpM
乳揉みは[会話のエッチ度:3]です

は書いたらダメだったわ
マッサージで足を揉んでも「揉む」に反応して乳揉みと同程度までエッチ度が上がってしまう
この記述を消したらマッサージのエッチ度が下がった

>>343
エッチな文章をしっかり食ってないと判別して弾けないもんな
0347名無しさん@ピンキー2025/01/14(火) 19:13:16.24ID:8Osc4zgX
エロライトノベルをイメージしている人とフランス書院をイメージしている人の差があるスレでつね
0348名無しさん@ピンキー2025/01/15(水) 02:59:50.03ID:???
セッション長くなると繰り返しがちになる問題を検証してたんだけどベースモデルでかなり決まるっぽい
8gbに収まるサイズでテストしたらaya-expance-8b>mistral-nemo>gemma-2-9bの順で繰り返しの出現頻度が少なかったわ
ファインチューニングの問題だと思い込んでクレジット溶かしちまったぜ
0349名無しさん@ピンキー2025/01/15(水) 03:51:09.12ID:???
ayaは意外と優秀よな
cohereだしCR+程度かと思ってると案外やれる
0350名無しさん@ピンキー2025/01/15(水) 08:33:43.59ID:???
やっぱベースモデルの重要度でかいよね
音声でも似たような傾向あるわ
ファインチューニングでいくら頑張っても元が悪けりゃ無理だったり
0352名無しさん@ピンキー2025/01/15(水) 09:53:22.25ID:NzXTEQvb
digitsが出たらNSFW向けに調整した大型モデルも増えるのかな
7Bや11Bモデルでは満足できなくなってきたから待ち遠しい
0353名無しさん@ピンキー2025/01/15(水) 10:42:28.60ID:???
digitsは世界的にかなり引き合い強そうだし、そもそもAI開発者向けを謳ってるから販路も不明だしで、一般人がまともに買えるかちと怪しい。
0355名無しさん@ピンキー2025/01/15(水) 11:44:00.98ID:???
LCMは単語の上に概念があると言ってしまった時点で、概念のさらに上にあるものや下にあるもの、外側にある世界そのものや内側にあるなにかを考える必要が出てくる気がする

単語だけで全部出来るんだ、ならシンプルゆえの物量作戦で限界まで到達できる可能性あるけど、LCMは無限に作り直しが要求されるんじゃなかろうか
0356名無しさん@ピンキー2025/01/15(水) 12:25:11.39ID:???
ただまあ↑で言われてる繰り返し問題なんかはモロに改善されそうよね
0357名無しさん@ピンキー2025/01/15(水) 12:58:07.03ID:fMQ+7jju
同サイズでの進化があんまり見られないから新しい手法が来るのは嬉しい
0358名無しさん@ピンキー2025/01/15(水) 14:17:02.66ID:VhHIZkFo
海外のエロAIチャットサイトで色々モデル試したけどどうしても繰り返しが出ちゃって
ローカルならもっと改善されたモデル使えるかと思ってここにたどり着いたけどやっぱり難しいのか
0359名無しさん@ピンキー2025/01/15(水) 14:25:23.72ID:???
silly tavernの繰り返しペナルティ辺りの設定を詰めればなんとかなる事も多いけど使うモデルによって最適な設定は変わると思うので自分で試行錯誤するしかないっていう
そもそも繰り返しそうになったら手修正で防ぐという力技も
0360名無しさん@ピンキー2025/01/15(水) 14:40:43.98ID:fMQ+7jju
同じ話題や単語を避ければある程度は防げるんだけど
エッチなことしてると延々と同じことしまくりたくなるんだよね

>>359の言う通り、チャット履歴を遡って繰り返す単語や言い回しを削除・変更すれば繰り返しはほぼ消える
0361名無しさん@ピンキー2025/01/15(水) 16:10:52.33ID:???
LLMで再評価して自動修正出来ていい部分だと思うんだよな
LangFlowとかに手を出す必要があるんだろうか
0363名無しさん@ピンキー2025/01/15(水) 17:11:30.91ID:???
なんか今やってるセッション調子よくて、変な繰り返し少ないわ
同じルミメイドマグナム12bでも全然繰り返してたことあるんで原因不明

やたら長いシステムプロンプトが効いてるのか、
目まぐるしく変わる展開が効いてるのか、LMStudioのアプデ後が調子いいのかは分からん

繰り返しには困ってるからむしろ再現性欲しいぐらいなのだが
0364名無しさん@ピンキー2025/01/15(水) 17:15:28.82ID:???
尻タブだとアプデすると繰り返しや出力文がおかしくなるからバックアップ取って一旦設定とかリセットすると治ったりするってたまに言われてる
0365名無しさん@ピンキー2025/01/15(水) 17:19:48.13ID:fMQ+7jju
一人称とかの頻出単語も修正することになったりしないの?
繰り返しペナルティで問題になるのも確か頻出単語が引っ掛かることだったはず
0366名無しさん@ピンキー2025/01/15(水) 17:23:10.29ID:???
実際、変な癖覚える前に編集して改ざんしつつ続きから簡単に書かせられるのはLLMの大きなメリットだと思う
気になったら途中で出力止めて、少しだけ編集して助走つけつつ続きから書かせる形式がかなり良さげ

もうちょっとだけ文章欲しい時とか

だけ書くとセリフ書いてくれるし、その展開好みじゃないんだよなぁって時は主役側のセリフちょっと弄れば結構思い通りの展開になってくれる

TRPGのちょっと難しい処理とか、計算ミスしまくるんだけどそれはもう手動で修正することにしたし
0367名無しさん@ピンキー2025/01/15(水) 20:26:52.14ID:0kkiR7ce
>>354
面白そうやね。楽しみが増えたわ
0368名無しさん@ピンキー2025/01/16(木) 04:19:46.33ID:bid1l7+p
koboldとかだと>>366みたいに自分でちょっと書いて続きを書かせられるけど
これって尻タブでも出来る?

aaya-expance-8b試してみたけど結構良いね
ただ「私は女戦士だ。戦闘なら任せておけ」みたいな強そうな喋り方をなかなかしてくれないな
対話の例を書いても会話履歴を修正しても「私は女戦士よ。戦闘なら任せてね」みたいな女っぽい喋り方になりがち
他のモデルならちゃんと喋ってくれるんだけど
0369名無しさん@ピンキー2025/01/16(木) 05:07:48.87ID:bid1l7+p
同じセリフを繰り返すなら、同じセリフを繰り返すキャラとエッチすればいいんじゃね?
と思って4種類のセリフだけを喋るNPC姦をやってみたけど相性抜群だな
延々と特定のセリフを繰り返すしエッチなことをすればセリフに喘ぎ声だけを足すことも出来る
設定をしっかり練らないとセリフには無いことを喋り出すけど
0370名無しさん@ピンキー2025/01/16(木) 06:47:51.63ID:???
geminiも繰り返し多いんだよな
claudeはちょっとマシになる
chatGPTが一番繰り返しは少ない
0372名無しさん@ピンキー2025/01/16(木) 11:54:27.73ID:???
それ例えば練乳ぶっかけをエロと捉えるのか健全と捉えるのか気になるなw
0373名無しさん@ピンキー2025/01/16(木) 13:03:51.14ID:???
4時間かけて学んだこと
ロードできるからって下手にコンテキストサイズ大きくして読み込んだら一発目から出力がおかしくなる
あと長いチャットしててコンテキスト上限に行くと直前の出力を繰り返す

パラやテンプレートが合ってないのかと思って時間溶けた....
0374名無しさん@ピンキー2025/01/16(木) 14:08:26.36ID:bid1l7+p
出力内容ってコンテキストサイズに影響されたっけ?
上限行ったら文章壊れるのはその通りだけど
0376名無しさん@ピンキー2025/01/16(木) 14:38:28.33ID:???
コンテキストシフトとかそういうのあるはず
上限に来たら古いものから忘れて容量を回復
0377名無しさん@ピンキー2025/01/16(木) 14:49:16.38ID:???
10000トークンとかで入力読み込んだり3000程度にしたりと色々試すけど、そこが原因で壊れるかは怪しい気もする
はいそれ以上は無理ですみたいな感じに、なった記憶はあんまない
0378名無しさん@ピンキー2025/01/17(金) 12:32:21.20ID:???
>>366
まんまNovelAIの思想な気がする
生成確率のトップN単語の候補からポチポチ改変できたりメッチャUIUXが良いんだけど
どうもこのスレでは人気ないんだよなぁ
0379名無しさん@ピンキー2025/01/17(金) 14:16:01.47ID:???
メモwikiに掲示板を設定したついでにキャラカードを一つ配布してるから恥ずかしいけどよかったらどうぞ
気に入ったらやり取りをうpしてくれると凄く嬉しい
0380名無しさん@ピンキー2025/01/17(金) 16:25:51.34ID:trA+l9Ha
>>379
参考にさせてもらったよ

尻タブのテキストの修飾形式が載ってるページってどこにあるの?
**で囲うとかそういうやつ
0382名無しさん@ピンキー2025/01/17(金) 20:05:15.37ID:trA+l9Ha
Markdownなのかな?
「」で囲っても色変わるんだけど
0385名無しさん@ピンキー2025/01/18(土) 01:20:58.34ID:???
尻で使えるフォーマットを見るなら尻の入力欄に /? format で視覚的に確認できる
/? macros で確認できるマクロとかも頭が良ければ使えそうだけど、AI出力の頭に{{random:Joy,Anger,Grief,Pleasure,Hate}}:{{roll:d100}}で毎回違う感情値で文章を書かせる程度しかわからん
0386名無しさん@ピンキー2025/01/18(土) 11:16:30.81ID:???
hertogateis/SmallBot
これってdeepseekなんかな?
日本語性能すごくいい
0387名無しさん@ピンキー2025/01/18(土) 13:03:27.09ID:PaWqxbLX
>>386
人格付与してみたけど2手目で剥がれちゃうな…
性能は結構良い印象だけど一部の指示追従性に難ありか?
0388名無しさん@ピンキー2025/01/18(土) 13:20:11.51ID:???
hertogateis/deepseekchat
こっちの方はところどころ英文が混じるな
設定見ると同じdeekseek v3みたいだけど何でこんな差が出るんだろ
レスを投稿する


ニューススポーツなんでも実況