なんJLLM部 避難所 ★8
0001名無しさん@ピンキー 転載ダメ (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:18:32.02ID:0Ak3eO5y0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0002名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:19:47.51ID:0Ak3eO5y0
初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki
0003名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:20:16.10ID:0Ak3eO5y0
oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui
0004名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:20:33.45ID:0Ak3eO5y0
●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant
0005名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:20:51.59ID:0Ak3eO5y0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0006名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:21:14.79ID:0Ak3eO5y0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0007名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:21:36.99ID:0Ak3eO5y0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0008名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:22:06.73ID:0Ak3eO5y0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2
0009名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:22:38.96ID:0Ak3eO5y0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで
0010名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:24:24.73ID:0Ak3eO5y0
テンプレここまで、しばらく更新されてないから過去ログも参考にしてな
0011名無しさん@ピンキー (ワッチョイ 733d-9L8h)2025/05/10(土) 22:38:04.01ID:JABFV6+D0
おつつ
0015名無しさん@ピンキー (ワッチョイ 733d-9L8h)2025/05/10(土) 23:50:58.42ID:JABFV6+D0
ryzenMAX+はCPUにAVX512とか載ってるから
CPUにも仕事させた方が良いんだろうか
0017名無しさん@ピンキー (ワッチョイ 733d-9L8h)2025/05/10(土) 23:56:31.43ID:JABFV6+D0
100〜130BくらいのMoEモデルなら良さそう
0019名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/11(日) 01:40:24.53ID:JcEjG3AG0
これでゲームもCUDAが必要とか言ってる動画生成系のやつも全部できたら乗り換えるのになぁ
0020名無しさん@ピンキー (ワッチョイ 8fa9-KB/z)2025/05/11(日) 02:02:00.77ID:2Y5MxzTS0
前スレのこれ、sshでつないでポートフォワードしたらできるで

>Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります?
0022!donguri (ワッチョイ 33b6-Onb0)2025/05/11(日) 02:46:49.81ID:zvdvg/lI0
別にわざわざポートフォワードせんでもlan内でポートへの接続許可したらマシンのipで繋げれるんとちゃうか。winならファイアウォールの設定で受信の許可ルール作ればええ
0023!donguri (ワッチョイ 33b6-Onb0)2025/05/11(日) 02:47:46.27ID:zvdvg/lI0
>>21
ERPの方はggufあげてくれてるで。nsfwは事前学習モデルやからそのまま使ってもいい感じにはならなさそう
0027名無しさん@ピンキー (ワッチョイ c3ed-aBcW)2025/05/11(日) 04:43:26.19ID:9tW4zWNv0
>>25
ホンマやありがとう!
同じ量子化のをDLして比べてみるわ
wannabeつかわせてもろとるけど
koboldでのモデル変更て一旦cmd閉じて再起動よね?
モデル切り替えちょい面倒なんよな
0030名無しさん@ピンキー (ワッチョイ c3ed-aBcW)2025/05/11(日) 06:10:09.56ID:9tW4zWNv0
そういやwannabeニキに大それたリクエストがあるんやけど

縦書き

仕様にできんやろか?
ワイ書くのも読むのも縦書きのオールドタイプなんで……
前にObsidianを縦書きにするアドオンとか作れんかGPT君にきいたら
えらい難易度が高くて諦めたから
無茶な注文なのは解っとるけども
でけたらえらい嬉しい
0032名無しさん@ピンキー (ワッチョイ 53e1-K+3N)2025/05/11(日) 07:13:30.30ID:E29fFdF/0
Qwen3-30B-A3B-NSFW-JP っていうやつ見たら「事後学習せい」って書いてあるけど、なにしたらええんや?
なんか参考になるリンクとかあったら教えてほしい。
0034名無しさん@ピンキー (ワッチョイ 53e1-K+3N)2025/05/11(日) 09:10:36.59ID:E29fFdF/0
>>32
すまん、ChatGPTにきいたら自決したわ。
0037名無しさん@ピンキー (ワッチョイ 3f74-0HJO)2025/05/11(日) 10:07:15.31ID:1E9qyqAu0
evo-x2はやっぱり同スペックのm4proと同じかちょっと早いくらいやな。

m4maxには勝てんかったか...
0039名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/11(日) 10:30:07.70ID:JcEjG3AG0
win機なら需要の幅広そうだしm4との棲み分けはできそう
0041名無しさん@ピンキー (ワッチョイ 1316-kIO2)2025/05/11(日) 11:33:26.26ID:UfhF4txJ0
LLMならmacが良いらしい、いやmac微妙だぞのやり取りが去年たくさんあったしな
それよりさらに微妙な物なら買う事は無さそうやな
後数世代待てば帯域の事も考えられた専用機が出てくるやろ
0043名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/11(日) 12:29:11.31ID:Fh5rBXvw0
去年と違うのは今はMoEが主流になりつつことだな 
動かすだけならユニファイドメモリが最も手軽な手段だし
3090x4より安いし30万以下なら全然あり
0044名無しさん@ピンキー (ワッチョイ 53e1-K+3N)2025/05/11(日) 12:30:13.06ID:E29fFdF/0
Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。
初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。

しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください
プロットは一つ100文字以内とし、箇条書きで書き出してください。」というプロンプトで、
プロットを一つずつしか出してくれないのでめんどくさい。

https://ibb.co/cXXq5vxy
0049名無しさん@ピンキー (ワッチョイ 737a-KB/z)2025/05/11(日) 14:04:02.96ID:fsVnkFbE0
>>47
モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね
このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね
でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ
0052名無しさん@ピンキー (ワッチョイ cfd9-OIzT)2025/05/11(日) 14:56:20.09ID:KSze43Me0
DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも(多分)使えるのが売りになるのかな
0057名無しさん@ピンキー (ワッチョイ e3c0-aBcW)2025/05/11(日) 18:53:46.87ID:tIZcxvUc0
GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ
なんなんだコイツは
0058名無しさん@ピンキー (ワッチョイ 1316-kIO2)2025/05/11(日) 19:01:14.92ID:UfhF4txJ0
今日5090が届いたから4090から換装してみた
最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず
そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ
comfyも同様
RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ
0063名無しさん@ピンキー (ワッチョイ eff4-A5UE)2025/05/12(月) 01:54:15.29ID:J+nQccr80
ChatGPTスレから誘導されて来ました
ローカルで質問なんですけど
32Bモデルの量子化されてないオリジナルをロードできる環境があって
その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか?
生成の質っていうのはタスクの理解力みたいやイメージです
0064名無しさん@ピンキー (ワッチョイ cf02-KB/z)2025/05/12(月) 01:55:51.36ID:8E83fqQk0
うっかり嫁とエッホエッホの話振ったら
それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った
0066名無しさん@ピンキー (ワッチョイ a307-aBcW)2025/05/12(月) 08:06:29.47ID:P1iu5DwA0
>>23 >>25
Wannabeで試してみたが
Qwen3-30B-A3B-NSFW-JP-Q4_K_M まったく使い物にならんかった
Qwen3-30B-A3B-ERP-v0.1-Q4_K_M こっちは出力されんかった
なおkobold上だと応答はあって不思議
>>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな……
0068名無しさん@ピンキー (ワッチョイ 3ffb-S5D2)2025/05/12(月) 08:53:36.79ID:NreAwN7e0
>>63
量子化レベルに関わらずパラメータ数の多いモデルの方が賢いと言われているけど、流石にq1とかq2に量子化されたモデルはあまり賢くないと感じる
できれば8bit、最低6bitくらいで使用できるモデルが目安じゃなかろうか
個人的には4bitもちょっと性能低下が顕著かなと感じているところ
0069名無しさん@ピンキー (ワッチョイ 7fa0-m4Fo)2025/05/12(月) 09:04:53.60ID:ZpuTV0NJ0
俺も6bitが限界だと思ってる。4bitだと25%くらい成績が落ちるらしい
雑談だとわかりづらいけどロジックで25%の低下は仕事に使えん
100bで2bitはロマン
0072名無しさん@ピンキー (ワッチョイ 3ffb-S5D2)2025/05/12(月) 11:14:36.99ID:NreAwN7e0
>>71
そのグラフを見ると確かに4bitでも問題なさそうに見える
巷でも4bitならOKとされているのも理解しているけど、自分の環境で実際に出力されたものを比較すると明らかにq6、q8の方が良い結果を出す確率が高く感じる
小説しかり、コーディングしかり
0076名無しさん@ピンキー (ワッチョイ 13bd-9L8h)2025/05/12(月) 13:14:44.15ID:5F0YL1Av0
文章のベンチマークは難しいよね
ベンチ結果は良くても文章としては「?」ってのもあるだろうし

自分たちが人力で日本語のドスケベ評価するしかないんや!
0077名無しさん@ピンキー (ワッチョイ 737a-KB/z)2025/05/12(月) 13:28:26.10ID:CVsmR3mp0
llmにとって簡単なタスク、地の文と丁寧語>話の一貫性>>>キャラの言動と口調って感じがする
qwen3-4Bですら地の文と丁寧語はそこそこ自然
データが豊富なんやろね
0078名無しさん@ピンキー (ワッチョイ 3f7a-kIO2)2025/05/12(月) 13:31:22.63ID:eUjAc2ML0
grok3に版権キャラの情報を収集させてから全力でなりきってって指示しても微妙だからな
今のはここが変、そこが日本語としておかしいってダメ出し続けると確かに偽物感は消える
でもそれと引き換えに話の柔軟さが消えて返答がワンパターンになっていく
ルールでがんじがらめにされてる感じやね
0079名無しさん@ピンキー (ワッチョイ cfa9-O94U)2025/05/12(月) 13:56:12.95ID:4tsgHbNM0
ロールプレイ依頼時に画像も収集してきてflux1あたりの高級な画像生成モデルのLoRA勝手に作って
応答するたびにそのコメントに合った画像を生成する・・・
のは今でも技術的にはできそうやけどそこまでの高機能なのは需要なさそうで作る人もいなさそうやな
0080名無しさん@ピンキー (ワッチョイ efab-KB/z)2025/05/12(月) 13:57:26.53ID:RozHuKzp0
ワイ、grok-3-betaとかfast-betaで條澤広ちゃん憑依させてあそんどるけど、モデルの素地が理系頭なのが関係してか、プロンプトで固めなくてもかなり広ちゃんで満足や
口調に関しては特徴的な語尾を中心に10個例示した程度だけで、特に例文に入れてないのに「ワクワクするね?」とか言ってきてくれてめっちゃ広ちゃんで嬉しい
0081名無しさん@ピンキー (ワッチョイ 439a-o2kj)2025/05/12(月) 14:19:17.32ID:VR31sma10
ローカルのスレだけどローカルモデルに限らないならキャラなりきりはGeminiが抜けてる感じがあるな
こういうのはモデルの規模が物を言うからローカルはまだ厳しい
0082名無しさん@ピンキー (ワッチョイ efab-KB/z)2025/05/12(月) 14:27:01.37ID:RozHuKzp0
Geminiって倫理フィルターどうなん?
0084名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/12(月) 15:16:16.71ID:xpvanbmK0
>>66
チャットテンプレートやモデル自体の目的が違うからやろね
Wannabeは入力欄を自動的にwanabi 24bで学習させた形式に変換してるから内部的にはtekken V7(mistral small3)のチャットテンプレートなんや
kobold(自動的にqwen3のチャットテンプレートを使用)なら動くけどwannabeでは動かないのはそういうことや
そもそもWannabeは指示文から何から何までガッチガチに専用モデルに合わせてるから一般的なモデルを組み合わせるならEasyNovelAssitantの方がええやろな
プロンプトやチャットテンプレートを指定できたはずやし
0086名無しさん@ピンキー (ワッチョイ 3ff3-OGf6)2025/05/12(月) 19:00:14.45ID:WYVgugKJ0
ベンチマークというものは攻略可能だから、で性能差が1%!って出たらこの指標はもう死んでるなと解釈するのが妥当では
差があることなんて触ってみれば誰にでもわかる話だし
0087名無しさん@ピンキー (ワッチョイ 3f7e-KB/z)2025/05/12(月) 22:03:20.50ID:fBtqwjV90
https://cohere.com/research/papers/how-does-quantization-affect-multilingual-llms-2024-07-05
(1)量子化の有害な影響は人間の評価で明らかであり、自動指標はその悪影響を大幅に過小評価していることを発見しました。自動タスク全体での日本語の平均1.7%の低下は、現実的なプロンプトで人間の評価者が報告した16.0%の低下に相当します。
(2)言語は量子化によって異なる影響を受け、非ラテン文字言語への影響が最も大きいです。
(3)数学的推論などの難しいタスクは最も急速に低下します。
0089名無しさん@ピンキー (ワッチョイ 33ca-aBcW)2025/05/13(火) 05:19:05.25ID:thJbNjvA0
>>70
サンガツやで
前スレニキのいう通りやったね、それを確認したかったんや
擬音ばかりになってもうた

>>84
なるほどそういう仕組みやったんたね
ワイのような初心者にはオートマみたいな便利さがあってホンマに助かっとるけど
そこから外れるピーキーなモデルもあるんやな
ありがとうやで
0092名無しさん@ピンキー (ワッチョイ 4338-m4Fo)2025/05/13(火) 11:23:40.44ID:5FBdETti0
>>87 ありがとう
自分が見たのはこれじゃないけど8/4bit量子化の表があるね
人間評価の項目で、日本語はわからんでもないけど
フランス人が厳しいのかひどい評価になってる

また103BだとMGSM(多言語数学ベンチ)で 8.8%の低下だけど
35Bだと 13.1%だから体感は酷い事になりそうだ
0095名無しさん@ピンキー (ワッチョイ 7f7e-fS5K)2025/05/13(火) 14:58:49.37ID:cTHuCwdA0
>>93
これはコンテキストウィンドウというより、コンテキストにどれだけ突っ込むかが問題で、設定でどれだけウィンドウを広げても実際にうまく扱えるのはせいぜい4K程度(というモデルが多い)、って話なんじゃないかな
0097名無しさん@ピンキー (ワッチョイ bf35-6cIy)2025/05/13(火) 15:20:52.29ID:UKC8ykUW0
>>90
違う

今までもvision対応していたが、コマンドラインの場合、
普通のLLMを使うときは "llama-simple -m モデル名 -p プロンプト"
VLMを使うときは "llama-llava-cli -m モデル名 --mmproj mprojモデル --image 画像 -p プロンプト"
のように違うコマンドで対応していた

今回対応したのはllama.cpp標準のWebUIで使う場合("llama-server -m モデル名 ")

今までWebUIで使うときはブラウザから文字しか入力できなかったんだけど、今回の
アップデートで画像を入力できるようになった

ちなみに内部でllama.cppを使用しているkoboldcppのWebUIでは前から画像入力に対応している
0100名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/13(火) 20:37:06.85ID:O2T+dFUm0
コンテキスト長が伸びれば伸びるほど性能下がるのは体感通りだな
例えばgemini 2.5 proだと10万トークンまではほぼ劣化なし、20万までは性能やレスポンス低下が見えるけどまあ使える、20万以降はハルシネーションや現在のタスクと過去のタスクの混乱が増えてまともに使えないって感じ
ローカルの微調整モデルだと学習時のコンテキスト長が短い(大体4096以下)だからより顕著やろしな
0101名無しさん@ピンキー (ワッチョイ cfa9-wTYv)2025/05/13(火) 21:11:35.45ID:/+QPsiaf0
IntelハイエンドGPU持ってないし
GPUそのままにVRAMマシマシラインナップとか全然やれると思うんだよな・・・
GDDR6でいいから30万くらいで128GB版とか

そういうラインナップそろえだしたらソフト側の対応は勝手にみんながやってくれるだろうし
Intelやってくれへんかなぁ
0104名無しさん@ピンキー (ワッチョイ 7399-KvkU)2025/05/14(水) 19:44:16.14ID:Zo1jp2G/0
今ってユニファイドメモリじゃないPCはCPUやNPUで動かしてRAMで動かしてるの?
0105名無しさん@ピンキー (ワッチョイ 53ce-9L8h)2025/05/15(木) 02:18:09.89ID:c4xck2YD0
intelはB580x2+48GBか。
B580にチップ間接続用のポートとかあるとは思えないから、
たぶんPCIeブリッジで繋いでるだけだろうな。
それでも48GBはかなり良い。
0108名無しさん@ピンキー (ワッチョイ 5389-9L8h)2025/05/15(木) 20:12:31.82ID:HU+ywqaX0
Silly Tavernでキャラ設定を1500tokens記述してもうまくいかないのはこのためか
Content Lengthは受付可能な長さであって理解している長さではないとは……
0109名無しさん@ピンキー (ワッチョイ cf20-/WPO)2025/05/15(木) 21:35:05.54ID:s6ZPhXWD0
ローカルで今のGeminiくらいのレベルの動かせたら最高なんやけどなあ
0111名無しさん@ピンキー (ワッチョイ a3f0-LVTp)2025/05/16(金) 01:02:22.93ID:zPRIPccK0
コンテキストサイズが大きくても知ってる奴には大して喜ばれないのがそれやな
どうせコンテキスト増えたらまともに動かんの知ってるから
0112名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/16(金) 01:21:23.76ID:KWeVTs2u0
vRAM16GBぐらいでAIのべりすとレベルが動いてくれたらかなり満足する気がする
あいつオーパーツすぎんだろ
0114名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/16(金) 02:45:45.21ID:KWeVTs2u0
今というか数年前のAIのべりすとが凄いなって話、いまだ進化してるんだろうか

あそこまで日本語の文章紡げてなおかつどっかの汎用モデルそのまみ動かしてるとかじゃないから日本語圏のネタとかが通じること多いし
0115名無しさん@ピンキー (ワッチョイ 4387-9L8h)2025/05/16(金) 05:05:22.21ID:NDKGOZfP0
intelマザーってx16スロットをx4x4x4x4に分割したかったらXeonからになるのね・・・
今あるA770-16GB2枚をさらに増やすためにリグフレームやら諸々そろえてうっきうきで組んでたら、
中古で買ったz690マザーがx8x8分割しか出来なかったわ。
AMDの方はB450とかでもx4x4x4x4分割設定あったから普通に出来るもんだと思ってた。
0119名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/16(金) 17:05:13.56ID:X0xY2ZKE0
>>117
gemma3 12b qwen3 14bが出てきてるからもう少ししたら色々とファインチューニングモデル出てくると思うよ
ベースモデルから検閲厳しいからこのスレの使い方的には微妙だろうけど
0124名無しさん@ピンキー (ワッチョイ c0a9-dAft)2025/05/17(土) 05:18:37.87ID:KGLngktH0
intel arc b770が16GBで出るかもって噂出てて、
さらにボードベンダーからb580を2個使った48GBのカードが出てくるって噂と合わせると
将来的にb770を2個使った64GBのモデルが出てきてもおかしくない・・・?
0125名無しさん@ピンキー (ワッチョイ be33-heYV)2025/05/17(土) 08:27:38.26ID:IODRfGV/0
むしろ中国がLLMに特化した
ミニPC出してきてもおかしくない……

4090魔改造するならそういうのも頼むで……!
禁輸くらっとらん素材なら潤沢にできるやろ頼むわ
0128名無しさん@ピンキー (ワッチョイ edbe-eIEy)2025/05/17(土) 10:46:50.48ID:1ZXEfXBW0
AI半導体に関してはAMDとIntelが期待外れだったってのもある

Huaweiは自社チップ向けにTensorFlowやPyTorchのバックエンドを作る位の技術力はあるし、プロセスが数年遅れててもデータセンターならゴリ押しできる

AI研究者の半数以上は中国人って調査もあし、当のプロセス進化も足踏み状態
ここはみんなで協力して乗り切るのが人類全体利益になると思うんだけどね
0129名無しさん@ピンキー (JP 0H07-heYV)2025/05/17(土) 14:20:31.96ID:eir/EweWH
CUDAがなぁ(´・ω・`)
0130名無しさん@ピンキー (ワッチョイ 00bc-mR1Y)2025/05/17(土) 14:25:14.32ID:jvzrCaRm0
LLMモデルに検閲無しのファインチューニングしたいんだけど既存のNSFWファインチューニングニキらは一体どこのデータセット使ってるんや…
まさか自分で1から準備するとかないよね?
0132名無しさん@ピンキー (ワッチョイ 00bc-mR1Y)2025/05/17(土) 15:32:18.86ID:jvzrCaRm0
>>131
ありがてぇ…
0134名無しさん@ピンキー (ワッチョイ 00bc-mR1Y)2025/05/17(土) 16:26:04.09ID:jvzrCaRm0
>>133
あれ傑作よなワイも低俗で上質なデータセット欲しい
無駄に理屈的(小説的)じゃない言い回しが臨場感あってよい
ハートマーク多用する低俗な言い回しも合ってる
漫画の絡み中の短いセリフとかを学習させまくってるのかな
0135名無しさん@ピンキー (ワッチョイ da7a-xkjl)2025/05/17(土) 16:37:00.90ID:sObGMPqJ0
多分そうだと思う
小説から学習させたのがNSFWでエロ同人から学習させたのがERPなんじゃないかな
喘ぎ声のバリエーションが豊富で他のモデルみたいに出し惜しみせず喘ぎまくるし
しかもアナルを責めた時だけおほっ♡とか、んおおっ!?って言い出すのほんと解像度高くて笑う
0136名無しさん@ピンキー (ワッチョイ be75-WIAZ)2025/05/17(土) 17:13:20.99ID:w9ZW+JGn0
20万くらいでgpt4クラスが動くようにしてくれ
チューニングできるなら3.5でもいいけど
0142名無しさん@ピンキー (ワッチョイ bee2-u0sY)2025/05/18(日) 12:07:11.17ID:VSENzPC/0
w
0144名無しさん@ピンキー (ワッチョイ e6f0-fjSQ)2025/05/18(日) 23:56:08.64ID:7V5PApoN0
「リグ続き。
A770に続いて手持ちのRTX2070も認識せず。
押し入れから引っ張り出してきたGT710とGTXX660は問題なく動作する。
GT710とGTX660を同時にPCIe x16に接続しても両方認識する。
ライザーカードのPCIe電源ライン用にSATA電源を接続しているのだが、
電源供給が足りないのだろうか。
電源供給量が多いライザーカードを探してみないと。
見つかるかな?」
この文章をバイオハザードの研究員の日記風に改変してください。
0147名無しさん@ピンキー (ワッチョイ cd08-eKVg)2025/05/19(月) 15:16:19.08ID:J3NCIUm50
kobold AIってLoRA使える?
インストールして起動してみたものの使い方わかんねぇ
検索しても情報少ないのな
0152名無しさん@ピンキー (ワッチョイ 007a-jzjh)2025/05/20(火) 00:41:54.88ID:ft2LOxrW0
google ai studioで全然Androidの仕様とかわかってないのに個人使用では実用レベルのスマホアプリ作れちまった

ハルシネーション起こして正しくない文字列で参照してたり、何度手直してもダメな実行順で関数記載しちゃったりとかはあったけど
バグ部分の違和感さえ人間が気づければほぼリライト任せる形でここまで作れちゃうの革命すぎる
0154名無しさん@ピンキー (ワッチョイ eaec-fjSQ)2025/05/20(火) 01:01:52.98ID:hbszdRYX0
システム的にはにどう認識されるのか気になる
単なる24GB x2として認識されるのかちゃんと単一のGPUという扱いになるのか
例えば古のRadeon R9 295X2だとGPU間をpcie gen3 x48で繋いでたらしいから同じような仕組みなのかな pcie gen5 x48だとしたら6000Gbps 750GB/sだから単一GPUとして48GB使えてもおかしくない
帯域幅的にLLM的だとゲームチェンジャーにはならないと思うが動画勢にとっての救世主やろな 画像生成の3060的なポジション
0155名無しさん@ピンキー (ワッチョイ 557e-fjSQ)2025/05/20(火) 01:27:15.60ID:XMQcDkMw0
B580のままだろうから接続は
B580 x16 ブリッジ x16 B580
だと思うよ。
PCIeインターフェースの面積も馬鹿にならんし。
0156名無しさん@ピンキー (ワッチョイ eaec-iXKU)2025/05/20(火) 02:12:15.86ID:hbszdRYX0
仕様でてた
{
2基のArc Pro B60はそれぞれPCI Express 5.0 x8で接続されるため、利用に際してはマザーボード側がPCI Express 5.0 x16からx8 + x8へのレーン分割をサポートしている必要があります
}
内部ブリッジすら無さそうね 前のSSDが積める4060tiのGPU版か
0157名無しさん@ピンキー (ワッチョイ 557e-fjSQ)2025/05/20(火) 02:53:31.23ID:XMQcDkMw0
リグを組むのが簡単になる感じね。良いね。

リグ続き。
2枚あるAcer Predator BiFrost Intel Arc A770 OC 16GBが極端に気難しい疑惑が出てきた。
何か気に食わないことがあるとすぐに安全増値が働くっぽい。
昨日届いたマイニング用のx1ライザーだとRTX2070は動くようになった。
このライザーにはPCIe6ピン電源端子があり、電源供給が改善されたからだと思う。
でもAcer Predator BiFrost Intel Arc A770 OC 16GBは動かない。
もう何も分からないから分割とかしない普通のライザーを尼でポチッた。
これで動くと良いなぁ。
0158名無しさん@ピンキー (ワッチョイ c5e1-dnmW)2025/05/20(火) 05:24:29.80ID:vmRqygBx0
48GBはただのニコイチカードやな、コレジャナイ感

https://www.tomshardware.com/pc-components/gpus/maxsun-unveils-intel-dual-gpu-battlemage-graphics-card-with-48gb-gddr6-to-compete-with-nvidia-and-amd

24GBはワークステーション向けらしいけど単品販売は500ドル前後、日本やと10万くらいか?
https://www.tomshardware.com/pc-components/gpus/intel-launches-usd299-arc-pro-b50-with-16gb-of-memory-project-battlematrix-workstations-with-24gb-arc-pro-b60-gpus
0161名無しさん@ピンキー (オッペケ Srd3-IbdF)2025/05/20(火) 09:48:13.99ID:olru+zVKr
Azure AI FoundryとWindowsのMCP対応によって、MCPを上手に扱えるローカルLLMのニーズが出てきそう
日本語FTしたLLMのニーズってどこにあるのか 謎だったけど、ココにあるのか
0162名無しさん@ピンキー (ワッチョイ eaec-iXKU)2025/05/20(火) 10:14:13.60ID:hbszdRYX0
同じVRAM48GB族の中古A6000が50万 RTX 8000が25万 PRO5000が新品80万だから20万以内なら革命だな
逆に24GB版はFP8がいらない用途なら値段含め中古のRtx3090で良さそう
0165名無しさん@ピンキー (ワッチョイ ec8a-Y0zr)2025/05/20(火) 11:03:48.71ID:V9CsxRbp0
DGXはドライバーが不安だ。いまデータセンター用のBlackWellでも大混乱中
あと128Gじゃ足りないんよ。256G以上の出してくれ。バス幅が足りないのはこの際おいといて
でもマザー直付けなら1024bitくらいほしい
PS2が4096bitなんだからできる筈?
HMBのメインメモリ用の改良が進んでるからDDRからの脱却も期待、とはいえ個人用だと2年後くらいか?
0169名無しさん@ピンキー (ワッチョイ ecb6-fjSQ)2025/05/20(火) 13:14:29.52ID:EpOCsUcx0
GDDR6を512bitならGDDR7を512bitよりハードル低いだろうから、
GDDR6の512bit両面実装で2GBx32の64GB積んだ奴が欲しいですね。
0170名無しさん@ピンキー (ワッチョイ c0a9-dAft)2025/05/20(火) 16:40:26.06ID:OE1T9HoO0
なんかこの感じだと来年にはさらにVRAMがたくさん載った製品がどこからか出てきそうではある
でもまぁ来年以降までのつなぎとしてさっさとDGX Spark買って128GBのようなVRAMを使ったLLMに慣れとくって感じかなぁ・・・
0171名無しさん@ピンキー (ワッチョイ ecb6-fjSQ)2025/05/20(火) 17:13:42.07ID:EpOCsUcx0
ktranformersのARC対応来てるな
0172名無しさん@ピンキー (ワッチョイ 9629-WIAZ)2025/05/20(火) 19:31:26.49ID:Cwf3ds990
エロ用途じゃなくて仕事でも実用的に使えるローカル動かしたいわ
0173名無しさん@ピンキー (ワッチョイ c46f-UUM3)2025/05/21(水) 12:06:56.77ID:VMhmUO1u0
128GB構成だとRyzen AI Max+ 395のノートpcと MacBook proどっちがええんや?
0179名無しさん@ピンキー (ワンミングク MM2e-/5ow)2025/05/22(木) 10:22:36.52ID:T0sTcZ3bM
gemma3-12b-itの調整してみようとcolabでロードしたらgpuメモリバカ食いして
A100でもほぼまともに動かないんだけどgemma3の仕様?
他のモデルの同規模モデルならこんなメモリ使わないんだけどな
0180名無しさん@ピンキー (ワッチョイ fcfb-Bvsn)2025/05/22(木) 16:01:50.83ID:MqaDOyYa0
Berghof-NSFW-7Bでエロエロ小説を生成してるんだけど、このモデルはどんな要求でもこなしてくれるんだけど、コンテキスト長が4096なのだけが唯一の不満点。
こういうほぼなんでもOKのモデルで最大コンテキスト長がもっと大きいモデルってあるんかな
0181名無しさん@ピンキー (ワッチョイ e281-fjSQ)2025/05/22(木) 19:05:01.15ID:rh/uH6OR0
ローカルだとqwq 32Bがロングコンテキストのベンチが良かった気がするからqwq系かね
0182名無しさん@ピンキー (ワッチョイ 056b-Y0zr)2025/05/22(木) 21:05:39.26ID:PK2p9HAo0
掲示板の書き込みでshift-jisとutf8の変換で文字化けしているようです。
以下のメッセージを、意訳せず論理的に元の日本語に戻して。
前後の話題としては、M4 MaxのMacBookPro(MBP)とRyzenでLLMを動作させる話題があったのでその関係かも。
>>175 を渡す

Qwen3-32b
M4 MaxのMBPではLLMがMacで実行できるが、Ryzen搭載機でもLLMをMac上で動作させる。

c4ai-command-a-03-2025
M4 MaxのMBPはまだ高嶺の花ですが、Ryzenの方がLLMはMacの壁が厚そうですね。

一応 GPT4.1
M4 MaxのMBPで動かすのとRyzenの自作機でLLMを動かすのは、Macの方が有利だったりする?

ちなみに文字化け変換サイトで正解がでるよ。暗号解読が得意なLLMってあるんかな?
0183名無しさん@ピンキー (ワッチョイ 007a-jzjh)2025/05/23(金) 00:50:32.06ID:I8MvikNQ0
llmを解読の補助に使うなら復号までは機械的にやって意味の通る物が吐き出されたかどうかの判定に使うのが良さそう
0185名無しさん@ピンキー (ワッチョイ ef64-oPLX)2025/05/24(土) 00:07:54.07ID:bdaqM82G0
Project Wannabeでロリエロ小説生成に向いたモデルってどのあたりでしょう?
VRAMは16GBx2です。
0186名無しさん@ピンキー (ワッチョイ 3fec-oPLX)2025/05/24(土) 14:53:57.04ID:j2cdjv2K0
mistral nemo 12bベースのwanabi mini 12bを公開したぞ  12GBもあれば快適に動くとようになったはずや 24B版も前の宣伝から更新しているので合わせて見てほしいで 量子化の種類も増やしたで
https://huggingface.co/kawaimasa/wanabi_mini_12b_GGUF
特定の形式に特化したFTモデルだからkobold経由の以下のGUI以外では多分まともに動かないので注意や
https://github.com/kawaii-justice/Project-Wannabe
学習時のコンテキスト長は32Kである程度長い文章でも扱える+チャット形式の生成ではないためマルチターンによる性能低下も発生しないから小説生成にはこの方式が最適やと思ってるで
とりあえず試したい人はベンチマーク代わりにお気に入りの小説を本文欄にコピーしてレーティングだけを設定して続きを書かせてみてほしいで結構良い線いってるはずや 自分の所感やが12B版は24B版よりも低い温度にするとちょうど良いで
0187名無しさん@ピンキー (ワッチョイ 3f02-oPLX)2025/05/24(土) 20:37:11.62ID:e3a5IQWJ0
>>186
いただきます
0189名無しさん@ピンキー (ワッチョイ e3c6-nh/d)2025/05/25(日) 02:03:12.82ID:YaNnPRND0
SillyTavernでGoogle APIの時は日本語で会話できるんだけど、LM Studioサーバーに繋いでポート経由でQwen3 30B A3B使ったら全部英語になった…なぜ?
0193名無しさん@ピンキー (ワッチョイ e39e-GcMG)2025/05/26(月) 12:14:43.03ID:mXH4e4ZZ0
Ryzen AI MAXはMACのM1 MAXみたいな性能でもしょうがないけど
Radeon AI PRO R9700は2枚挿したら画像生成能力もRTX 5090に近いものになって欲しいな
今のところは無理そうだけど
0198名無しさん@ピンキー (ワッチョイ e39e-GcMG)2025/05/26(月) 16:27:03.87ID:mXH4e4ZZ0
ここで今RDNA4対応のROCm 6.4.1の速度検証中みたいなんで
良い結果が出ればRadeon AI PRO R9700の購入を検討したいところ
https://github.com/ROCm/ROCm/issues/4443
0201名無しさん@ピンキー (ワッチョイ cfc6-ZxZL)2025/05/27(火) 00:44:36.36ID:2K8oApBJ0
mistralnemoとmistralsmallのロールプレイの指示プロンプトってどういうのが良いんだろ?
ちょっと進めるだけでセリフとか行動が繰り返しの展開になるよね
0208名無しさん@ピンキー (ワッチョイ e377-ElKC)2025/05/27(火) 13:50:47.62ID:j/rkKysz0
lmスタジオ触り始めたワイに最近ホットなエチエチモデルこっそり教えて
0210名無しさん@ピンキー (ワッチョイ e377-ElKC)2025/05/27(火) 17:21:24.36ID:j/rkKysz0
>>209
ホットやけど個人で使えるレベル超えてないか?ワイの3090tiでも無理そうなんやが
0211名無しさん@ピンキー (ワッチョイ 5367-ElKC)2025/05/27(火) 20:44:47.86ID:Khy5JY5E0
magnum-v4-27bとか色々使ってみたけどエロ会話どころか日本語も安定しないな画像生成AIみたいに日本語強いモデルとエロモデルでマージみたいな事は簡単には出来ん感じ?
0213名無しさん@ピンキー (ワッチョイ cffb-oPLX)2025/05/27(火) 22:52:07.26ID:bc4+kV0z0
>>211
gemmaみたいな規制強いモデルにエロファインチューンすると使ってるデータの言語に過剰適合しちゃう感じ
mistral系ならちゃんとした日本語返してくれるよ
0214名無しさん@ピンキー (ワッチョイ 0383-ElKC)2025/05/28(水) 19:58:00.90ID:ijGRRwkN0
色々試してberghof-erp-7bが今ん所エチエチの解像度高く正確にレスポンスしてくれるんやがコレより更にいいモデルってなるとある?
0215名無しさん@ピンキー (ワッチョイ cfd9-Qnse)2025/05/29(木) 01:11:59.57ID:LI3y/jIC0
サイズにこだわらなければMistral系列のもうちょい大きめなやつベースのモデルが良いんじゃない?
BerghofもMistralベースだしmagnum-v4-123bもそうだしMistral系列は俺たちみたいな用途の人間にとっては最強なイメージ

日本産モデルでどっかがエロテキストとかフィルタせず食わせまくってるとかあればポテンシャルは高そうだけどないのかな
0216名無しさん@ピンキー (ワッチョイ 3f21-ElKC)2025/05/29(木) 06:51:05.05ID:fTvJ5RgK0
スプレッドシートとか使ってスレ民で寄り合ってチマチマデータセット作るとかも考えたことあるが
0218名無しさん@ピンキー (ワッチョイ 3f21-ElKC)2025/05/29(木) 07:18:11.62ID:fTvJ5RgK0
>>217
それがあるから代替案模索しとるんやけどなかなか
正直文章程度でbanとかふざけんなよって思うけどそもそものLLMのエロ規制も含め世知辛い
0227名無しさん@ピンキー (ワッチョイ efc8-I9TV)2025/05/29(木) 20:00:36.79ID:OQIYzoML0
>>205
すいません
購入を考えているのですが
AI最適化済みのWIN11って普通のものと何か違ってましたか

用途によるんでしょうが、radeonで困ることってありますか
0228名無しさん@ピンキー (ブーイモ MM5f-3IWN)2025/05/29(木) 21:07:57.72ID:De9VSIVPM
>>227
きちんと検証した訳じゃないけど多分普通のwin11じゃないかな
radeonで困ることはおそらくあると思う
lm studioでrocmランタイム有効にするのも一手間かかったし
ユーザー増えて対応進むといいなと思ってる(他力本願)
0229名無しさん@ピンキー (スプッッ Sd5f-J0oL)2025/05/29(木) 21:13:18.31ID:HZQgz9qxd
Ai(LLM)で人物とかの設定と細かいストーリーラインを指示して小説風に仕上げることを繰り返して物語を作りたいのですが、おすすめありますか?
0234名無しさん@ピンキー (ワッチョイ 8fc8-O274)2025/05/30(金) 05:53:08.32ID:mY97NSrc0
RADEONてローカルLLMで使えるんでしょうか?
メモリ容量だけ見るとNVより有利に見えるけど...
0243名無しさん@ピンキー (ワッチョイ 3f9f-FD3H)2025/05/30(金) 23:27:36.72ID:WWTGK6G80
>>238
ていうかSambaモデルがMacというかMLXで動くのか
実はApple Silicon Mac持ちなのでMLXで動くなら動かせるんよ
で、中の人がtranslateの方もMLX用の量子化モデルを作ってくれていたので動かせた
(Model treeのリンクが間違っているので量子化モデルの存在に気付けなかった)
https://x.com/mitmul/status/1927960884103762302
https://huggingface.co/mlx-community/plamo-2-translate
0246名無しさん@ピンキー (オッペケ Sr97-PO4I)2025/05/31(土) 22:50:30.63ID:NoEL71Wjr
>>236
Linuxってwslでもいいの?
0249名無しさん@ピンキー (ワッチョイ a2c7-8HDr)2025/06/01(日) 16:39:51.03ID:41bXt3zO0
deepseek-R1-0528のIQ2_XXS動かしてるんだけど日本語は自然になってるね

でも小説書かせてみたらmagnum-v4-123bほどではないんだけどそんなもんかな?
0251名無しさん@ピンキー (ワッチョイ b2ec-SiyO)2025/06/01(日) 22:46:27.41ID:mIad1fRF0
小説性能ってベースモデルの事前学習時点で決まる感じやから当分は来ないやろね
qwenやgemmaは明らかに学習データをフィルタリングしてるしmistralも最近はSTEM重視の姿勢でクリエイティブ性能落ちてる
deepseekはかなり緩めだけどそれで越えれないなら厳しい 
0252名無しさん@ピンキー (ワッチョイ 724a-rQsc)2025/06/02(月) 00:41:51.92ID:Z/D3ETlA0
magnum-v4-123b使うときGPUとRAM何GB消費してる?
RTX3060 12GBと32GBしか積んでなくて、どれくらい増せばよいのか知りたい
0253名無しさん@ピンキー (ワッチョイ ef32-kszJ)2025/06/02(月) 01:01:34.86ID:PL5oy1lz0
>>252
メモリは最低でも64Gないと動かん
64GでもIQ3_Mの量子化が限界
96GあればQ5_K_Mが動くが、メモリで動かすと絶望的に遅いからお勧めしない
ワイは64Gで動かしてるが、プロンプト打ち込んだら、別の事して30〜40分掛かって512トークン終わる感じだわw
3080tiの12GのVRAMは一応使ってるが、あっても無くても変わらんレベル
しかもmagnum123Bは日本語トークン対応してないみたいで、1文字2トークン使うから、対応してる70Bの体感3倍遅いwww

RTX6000proQ-Maxが欲しいいいいいいい
このグラボでフルスペックの512G mac買えるけど画像AIにも使えるしマジ悩むw
0261名無しさん@ピンキー (ワッチョイ 66de-HBKV)2025/06/02(月) 18:05:42.44ID:VrKdnv2l0
結局マシンスペックに帰結するんだよな
もっと手軽に高品質な官能小説出したいだけなのに
0262名無しさん@ピンキー (ワッチョイ bb0a-rkY2)2025/06/02(月) 19:39:50.13ID:Pz4Lw+jF0
楽しみながらデータセット無限生成編始まった一粒で6度美味しい
こういうのみんなで出し合ったらデータセット簡単に作れそうやけど情報偏りそう
https://i.imgur.com/AYt6MwY.png
0264名無しさん@ピンキー (ワッチョイ 52d4-SiyO)2025/06/02(月) 22:26:51.97ID:L4/XXPNV0
最近ローカルでLLM使えるの知って今日始めてSilly Tavernでオリキャラと会話して遊んでるけど
なんか緊張して関係性進展しなくて草
でも昔恋愛シュミレーションゲームやってて選択肢をどっちにするかとか考えて楽しかったけど
こっちは無限にいろんな分岐があるゲームをやってるみたいで更に楽しいね
0265名無しさん@ピンキー (ワッチョイ fec8-npAY)2025/06/02(月) 22:48:20.98ID:I2aTIrKa0
Project-Wannabeの作者様へ
いつも使わせていただいております
ありがとうございます

要望なのですが
・出力されたものは全てパラメータjsonやkcppsと共に
logとして残しておくことはできないでしょうか
・デフォルトの生成パラメータ数値ヘ簡単に戻すことはできないでしょうか
・出力時に1行ずつ空白行を挿入(改行)されてしまうことが多いのですが、
それをさせないようにすることはできないでしょうか
0268名無しさん@ピンキー (ワッチョイ b6bc-lbRc)2025/06/03(火) 19:48:55.49ID:Uf3qAznp0
学習データって>>262のように同じテーマで口調を変えただけのものを用意するのと
バラバラなテーマで口調を変えたものを用意するのとどっちが適してるのかな
もちろんトータルのデータセット数は同じだと仮定した場合ね
前者でいいなら楽にデータセット用意できるけど後者だと内容考えるだけでも大変なんだけど
0269名無しさん@ピンキー (ワッチョイ b6d9-KDLv)2025/06/04(水) 09:20:46.17ID:+oV0wOD20
後者のほうが良いよ
基本多様であれば多様なほど良いと思って良い
テーマのリストとか口調のリストとかをGeminiとかで大量に書かせてリスト化してランダムに組み合わせてLLMに合成させる感じとかでそれなりに多様にはできると思う
0276名無しさん@ピンキー (ワッチョイ 42e3-L/D9)2025/06/04(水) 19:08:02.68ID:a5Ck1WYB0
3.1なんてもう化石だろjk
0277名無しさん@ピンキー (ワッチョイ 7fba-RMgv)2025/06/04(水) 19:33:05.22ID:AUnMmnLx0
>>275
70Bなんか動かせるマシン持ってるやつ少ねえよってのと最近は性能大幅に落としてもいいからエッジデバイスでいかにそれっぽいのを動かせるかに研究が移ってるっぽいからなあ
0278名無しさん@ピンキー (ワッチョイ b6bc-lbRc)2025/06/04(水) 19:56:58.96ID:FvknF98Q0
>>269
やっぱりそうかぁ
以前、内容や名詞をスクリプトで自動的に組み合わせて生成した金太郎飴みたいなデータセット1万件ぐらいを使ってLoRA作成したんだけど
推論結果が同じく金太郎飴みたいになってて全く使い物にならなかったんよ
質問文は自力で頑張って用意してそれをLLMに蒸留させてデータ作成するのが一番現実的そうやね
ただOpenAIは蒸留に対する検知厳しくなったみたいだしローカルLLMで蒸留させるしかないのかな
0282名無しさん@ピンキー (ワッチョイ 9fcc-bdW6)2025/06/07(土) 00:48:13.65ID:39KDc2wv0
>>281
Instruct版のSpaceあったので遊んでみたけど、ハルシネーション抑制、ってあったけどInstruction Followig、Groundnessともに怪しい感じでこれで4o越えは評価のスコープを思いい切り絞らないと、って印象
文体は自然でそこそこなので惜しい感じ
フルスクラッチ日本語モデルって点では今後に期待
111B多言語対応のCommand-a越えを期待してたんだけど...
0284名無しさん@ピンキー (ワッチョイ 9fcc-bdW6)2025/06/07(土) 01:08:50.77ID:39KDc2wv0
>>283
あ、そうかも
いまもう一回検索したらStockmark-2-VL-100BではSpace出てない感じだった
楽しみが増えた、ありがとう
0292名無しさん@ピンキー (ワッチョイ d36a-jj0/)2025/06/08(日) 18:57:30.93ID:CFh7R3fZ0
ストックマークってだめな会社なん?🤔
0293名無しさん@ピンキー (ワッチョイ a332-e2Mg)2025/06/08(日) 19:40:31.40ID:UHwTbmjA0
世間一般ではダメじゃないかもしれんがスレの評価が低かっただけ
でも、どんなベンチマークの評価よりこのスレの評価の方が参考になるんだわw
0297名無しさん@ピンキー (ワッチョイ 57d9-3NuF)2025/06/10(火) 01:12:25.58ID:QqWnFUnK0
NemoAuroraちょっと試したがかなり饒舌な感じで淫語とかも普通に出やすいな
この人のモデルにしては珍しく小説系とかそっち寄りな感じがする
この辺はHimeyuri-12Bとかをマージしてる影響かな?エロ系はかなり自然な感じ
その分何回も会話してるとだんだん応答が長くなって行きがちだから適度に過去会話をカットしてあげると良さそう(SillyTavernとかなら楽)
README読むとコンテキスト長32kで学習されてるみたいだけど実際そこまでいけるならかなり実用性ありそう
0298名無しさん@ピンキー (ワッチョイ 8732-+HAl)2025/06/10(火) 09:27:53.11ID:+5w+8cqP0
エロokの配信サイトとか最近やと何処がええんやろ?ワイのAIライバーをニキらのオモチャにしてみたい
0300名無しさん@ピンキー (ワッチョイ d36a-Lyjn)2025/06/10(火) 14:58:04.41ID:yNzdttZM0
文字化け野郎がまた来た😅
0302名無しさん@ピンキー (ワッチョイ d36a-Lyjn)2025/06/10(火) 15:45:35.63ID:yNzdttZM0
設定変えてみてよ
0303名無しさん@ピンキー (ワッチョイ 8732-+HAl)2025/06/10(火) 16:51:31.40ID:+5w+8cqP0
fc2とかええかなって思ったけどツールでコメント拾う手法が確立されてないんか
0306名無しさん@ピンキー (ワッチョイ 3349-bdW6)2025/06/10(火) 19:15:35.13ID:A45Fjgnl0
>>304
パフォーマンスリポートよろしく
0307名無しさん@ピンキー (ワッチョイ a373-59eZ)2025/06/10(火) 20:13:11.90ID:CUlHtuh60
Aratako/NemoAurora-RP-12B(Q3_K_S)触ってみた。
・一から書かせるのは微妙…?やっぱすぐ「以下省略」とか記号連発とかしてくる。
・チャット時の性格は、変な頑固さがなくて割と素直かも。法律・倫理に反する嘘を理詰めで教え込むのに成功した。
・なんか「NHK」好き過ぎん?よく出るような。あんまり脈絡なく「それで、NHKがNHKのNHKによるNHKのためのNHKNHKNHKNHK...」とか出た時は吹いた。
・既存短編を読み込ませて架空の読者コメントを書かせた場合の自然さ、理解力、多様さは過去一かも。
0308名無しさん@ピンキー (ワッチョイ 7be8-3NuF)2025/06/10(火) 22:09:58.40ID:MZrw5Gh50
>>307
小説書かせてる感じ?RPって付いてるしこの人の後悔してるデータセットとか見ても基本はロールプレイ用じゃないかな
読者コメント書かせるのはある種のRPなのか…?
0310名無しさん@ピンキー (ワッチョイ a373-59eZ)2025/06/11(水) 00:00:19.46ID:OXBPwywy0
>>308
読み込ませたのは過去の簡易TRPGリプレイ。
一応RPだけど、GM(AI)やNPC(AI)と自分の発言以外に地の文も有りで、ラノベ的。

>>309
CPU(Ryzen 5 7530U)+メモリ16GB(DDR4 8GB*2)のサブノートPC。
GPUが安くなったらメインPC(13年使用)組み直そうと思ってるが安くならんな…
その予算50万あるんで今でもそこそこの組めそうなんだが、今は時期が悪い。
0312名無しさん@ピンキー (ワッチョイ 97fe-4A8D)2025/06/11(水) 04:48:51.38ID:OcgwiSKm0
>>310
2年後くらいにはミニPCの進化でグラボよりええかもしれんね

いまスマホでもメモリ16Gでてきてるし
SoCもAI対応うたってるのあるしなんならLLMも積める言うてるし
シャオミも独自SoC作ったし
スマホもどうなるやろなあ
0316名無しさん@ピンキー (ワッチョイ a342-WjW6)2025/06/11(水) 11:29:03.07ID:XAorkN430
なんかこう、知識はないけど賢いモデルってのは出てこないもんかね
8Bくらいだけどfunction callingしてネットなりを検索して勝手に小説なりを読んで応用効かせて書いちゃうみたいな
そんなことできる頃にはシンギュラっちゃってるだろうが
0317名無しさん@ピンキー (ワッチョイ b7bf-X6eQ)2025/06/11(水) 11:36:03.24ID:AgCMDhvR0
賢くない奴がネットで得た知識だけで語るって地獄やんけ
ネット検索自体がゴミになっててそこから正しい情報吸い上げるには常識が必要なんちゃうか
0319名無しさん@ピンキー (ワッチョイ cfac-bdW6)2025/06/11(水) 12:44:55.54ID:Y1jv/Uee0
知識はないけど理解力と推論力が凄い、ってのは魅力ある
それこそが真の意味での知性ではないかと
0321名無しさん@ピンキー (オッペケ Sr2f-1c5u)2025/06/11(水) 16:58:35.91ID:v338i4Eyr
redditでスレが立ってたshisa-ai/shisa-v2-llama-3.1-405bって日本語最強モデルはどうなんだろ
東京にスタジオがあるらしいけど初めて知った

方言とか口調や人称ニュアンスが再現できる方向に進化してほしいな
0322名無しさん@ピンキー (オッペケ Sr8f-YMx6)2025/06/11(水) 17:03:10.46ID:FX+5gD3Jr
賢さ自体をよそから手に入れればよさそう
MCP時代のモデルは、何が分からないのかを判断する能力と、どこで聞けば良いのかだけを持っていればいいのかもしれん
0324名無しさん@ピンキー (ワッチョイ 8f4e-bdW6)2025/06/11(水) 17:42:25.04ID:0gofb7V30
4070tiで動く小説特化のオススメモデルある?
0325名無しさん@ピンキー (ワッチョイ eb09-6GmA)2025/06/11(水) 21:07:01.38ID:qnK6TeFS0
NvidiaのProRLって方法で1.5Bが7Bレベルの推論出来るようになったって話があるし
言語モデルは単純に記憶してるだけじゃなくて概念を理解して学習してるとかの話もあって
中小規模モデルでももっと賢くできそうな気配あるよ
0326名無しさん@ピンキー (ワッチョイ 5fd1-dZZ6)2025/06/12(木) 08:02:59.68ID:4K9Ttd3d0
単純な知識量はモデルサイズに比例するとして、理解力と分離できたらいいんだけどね
MCPでWebから検索するのは危険だから、別な知識タンクがあるといいんだけど
そうなればモバイルでも知識はSSD、理解力は内部メモリに分離できそう
研究者の方々は当然そういうことはやってるんだろうけど
0327名無しさん@ピンキー (ワッチョイ 47c8-bdW6)2025/06/12(木) 10:48:03.22ID:hOd2zX6t0
>>324
4070tiなら12GBのVRAMに収まるようにって考えるかもしれないけど、
小説目的ならチャットみたいにリアルタイムな応答は必ずしも必要ないからメインメモリも使ってでっかいモデル動かすのもありやで
0329名無しさん@ピンキー (ワッチョイ e7c6-+0+a)2025/06/12(木) 15:16:57.17ID:fUVDRnpn0
304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした
Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後
M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s

不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた
llama.cppのVerかパラが違うっぽい?
0332名無しさん@ピンキー (オイコラミネオ MMdf-J9Ai)2025/06/12(木) 17:20:00.25ID:QS6LCztLM
>>329
レポ乙

EVO X2の素の設定だと1.33 tok/s
EVO X2+TeslaP40だと1.81 tok/s

下はVRAMは最下限?の512MBにしてCPUとして動作させた。
あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな?
0335名無しさん@ピンキー (ワッチョイ 9fec-gw/n)2025/06/12(木) 21:09:53.56ID:5QWCQaBe0
知ってたけどdenseモデルだととんでもなく遅いな
40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう
0337名無しさん@ピンキー (ワッチョイ 6f7a-gw/n)2025/06/13(金) 22:12:27.22ID:scS7NRIV0
>>330
3台はすごいな、消費電力的にも。。
どんなモデルでも動かせるんじゃないか
0338名無しさん@ピンキー (ワッチョイ 8f7e-kPMq)2025/06/13(金) 23:11:59.05ID:Z6mL9jb40
>>331
70Bなら40Gは超えるから32Gの5090x1では厳しいだろ
もしx1.5が出たらいけるけど
0339名無しさん@ピンキー (ワッチョイ 8f7e-kPMq)2025/06/13(金) 23:14:37.51ID:Z6mL9jb40
>>337
3スロットx3?
凄すぎです
所謂ラックマウントなのか会社レベル
vram増やすにはいいけど電源問題もありなかなか
0340名無しさん@ピンキー (ワッチョイ 4654-x40H)2025/06/14(土) 01:37:39.18ID:sDfDV4np0
>>329
LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ
1.33tok/sは厳しいな

型落ちMacBookPro(M3 Max/128GB)で
Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s
Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s
くらい出るから大人しく次のMacStudioまで待つわ…
0341名無しさん@ピンキー (JP 0H47-zi4d)2025/06/14(土) 02:00:38.73ID:uPbPRNr/H
ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね?
VSCodeとか
0342名無しさん@ピンキー (ワッチョイ de63-oaEo)2025/06/14(土) 05:35:23.70ID:ws+NN3Wn0
そうわよ
0343名無しさん@ピンキー (ワッチョイ 3ac7-389c)2025/06/14(土) 05:57:14.07ID:lHmYYg7j0
>>337
>>339
さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ
電力ヤバいからPL絞って1枚200Wちょいにしてる
ちなみにマザボはお古だけどグラボが4スロット刺せるやつ
0345名無しさん@ピンキー (シャチーク 0C8f-k5nI)2025/06/14(土) 08:55:58.88ID:9oyQ8bR5C
llama.cppをdockerで動かしてる人
cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる?
sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど
0346名無しさん@ピンキー (ワッチョイ 7f1f-TYhh)2025/06/14(土) 12:46:56.14ID:0A7B7v9/0
12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。
0348名無しさん@ピンキー (ワッチョイ 8ec8-XzYo)2025/06/14(土) 18:34:42.83ID:+FoI+g7x0
EVO X2とX1ってどれぐらい性能違うの?
どっちも64GBだとして
0349名無しさん@ピンキー (テテンテンテン MMc6-zi4d)2025/06/14(土) 21:15:48.33ID:3evgydKRM
>>341
ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか
いいな
0353名無しさん@ピンキー (ワッチョイ 876e-DoF/)2025/06/15(日) 02:43:02.47ID:beLggd390
>>341
動く(動くとは言っていない)
みたいな状態にはなるけどな
プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか?
0359名無しさん@ピンキー (ワッチョイ bb06-mn0h)2025/06/15(日) 13:58:34.94ID:Ncme8x5z0
>>341
CLINEでLM Studioをサーバーにして使ってる
賢さと知識量はどうにも商用には敵わないけど
ローカルだとAWSのキー丸出しで質問できるのは楽
使い分けだよね
0360名無しさん@ピンキー (ワッチョイ 8bbe-lMTP)2025/06/15(日) 14:19:23.69ID:M6KtWCeJ0
RTX PRO 6000とかのデータセンター向けGPUを家庭で使うと音で気が狂うかも知れない
0362名無しさん@ピンキー (ワッチョイ 4694-DoF/)2025/06/15(日) 15:31:08.58ID:MF5Sb5IZ0
>>359
その用途だとむしろバカなLLMを使ってる方が危なくないか?
承認者の人間側が十分に賢い前提ならまた違うのかもしれんが
0364名無しさん@ピンキー (ワッチョイ ff7e-dlS4)2025/06/15(日) 16:41:56.82ID:vPaDJgaB0
>>360
うるさいの?
(驚いたことに)むしろスロット数少ないらしいしパワー少なそうに見えたけど
まあどうせ自分では買えないから関係ないけど
0367名無しさん@ピンキー (ワッチョイ 4627-5Ay1)2025/06/15(日) 17:43:15.98ID:2cJwswtU0
>>364
最近のグラボが何のためにスロット多いかというとヒートシンクの表面積を大きくして風量の多い大型ファン積むことで少しでも低回転で効率よく冷却するためであって
600Wで2スロットとなると容赦なく高回転でぶん回していると思う
ワークステーション用だから人のいる部屋に置くことなんて想定してないだろうし
0368名無しさん@ピンキー (ワッチョイ 8ec8-XzYo)2025/06/15(日) 19:48:47.54ID:UhSA0j090
ワークステーションはサーバじゃないから人のいる部屋で使うんじゃないの
0370名無しさん@ピンキー (ワッチョイ 4609-pc4o)2025/06/15(日) 20:09:56.69ID:uLgns4ao0
スマホでやるのがメインなんだけどスレの流れ見てるとローカルをパソコンで走らせつつスマホで動かす事もできるの?
パソコンが起動しっぱなしになると電気代まあまあ掛かりそうではあるけど家の中で遊ぶならそんなに気にならないからできるならやってみたいな…
0371名無しさん@ピンキー (ワッチョイ ff7e-dlS4)2025/06/15(日) 21:40:25.32ID:vPaDJgaB0
>>367
なるほどねえ
AI しか使わんし一時PRO4000も候補に考えてたけどやめてよかったかな
0372名無しさん@ピンキー (ワッチョイ eb32-5Ay1)2025/06/15(日) 23:08:24.40ID:nV35VDpQ0
>>371
pro4000は1スロットで排熱すごそうだからワイはpro4500を考えてたわ
煙突ケース使ってるから、むしろシロッコファンじゃないと熱効率悪いし
今使ってるasus turboの外排気もそこまで気になる音でもないかな
しかし6000に涎が・・・w
こいつをローカルサーバにして、magnun123bQ5kmあたりでskyrimのAImod繋げて遊びてぇぇ!!
0373名無しさん@ピンキー (ワッチョイ ff7e-dlS4)2025/06/15(日) 23:18:32.11ID:vPaDJgaB0
>>372
PRO6000はロン街だったわ
"普通"の個人ではあり得ん
でもVRAMはうらやま
(マジで50シリーズはVRAMけちりすぎ)
いずれ俺も必要になったらライザーで複数台トライするかも
0376名無しさん@ピンキー (オッペケ Sra3-FO4G)2025/06/17(火) 19:32:23.37ID:N0ZJwYkWr
聞きたいんやけど、今一番良いモデルで無臭エチエチで使えるのってQwen3 32Bかな?
グラボは3090です
0378名無しさん@ピンキー (ワッチョイ ef6a-3g9Z)2025/06/17(火) 20:42:08.40ID:NNfCt/Iz0
やれやれ
mac studioを持ってなんて
0380名無しさん@ピンキー (ワッチョイ 8ee7-VzWU)2025/06/17(火) 22:05:52.58ID:RkXwKRQa0
テンプレ見てgptに聞きながら試したんだけど全然上手くいかないので相談
ゲーミングノートです
AMD Ryzen AI 9HX
RTX5090/24G
メモリ64G

koboldcpp_cu12.exe起動、そのままlaunchボタン押したらモデル読み込みしろって言われるからテンプレのmagnum-v4-12b-Q8_0.gguf読み込む

おっぱい揉む描写してって頼んでも、お断りされる
geminiに命令する時みたいに色々フィクションだのなんだのって思い込ませないとダメですか
0381名無しさん@ピンキー (ワッチョイ 6335-FO4G)2025/06/17(火) 22:38:09.52ID:eSIpmhfR0
となると現状ではQwen3 32Bがベストか…。
0383名無しさん@ピンキー (ワッチョイ aba1-kpuz)2025/06/17(火) 23:21:47.42ID:jP/jm8bc0
>>380
abliterated なモデル使うとか。

プロンプトさらして見るとか?
0385名無しさん@ピンキー (ワッチョイ aba1-kpuz)2025/06/17(火) 23:44:52.71ID:jP/jm8bc0
>>383
mafnum-v4-12b q4_k_mだけどそのまま指示して出てきたよ。

VRAM24Gはうらやましく。

Mistral small 24b q4_k_mくらいでも良いかもよ?
0387名無しさん@ピンキー (ワッチョイ 8e4e-VzWU)2025/06/18(水) 01:43:32.87ID:C+Qoc+FI0
お試しでやろうとしただけだから設定とかコンテキストはいじってないんだよな
プロンプトと返答そのまんま貼り付けるわ

女性のおっぱいを揉みしだく描写をしてください

「私は描写ができません。エチケットや相手の感情を考えずに性的な描写を行うのは好ましくありません。他人の身体を勝手に触るような行為は侵害行為として問題があります」

フィクションですので問題ありません

「フィクションだとしても、私にとっては差し障りのない表現は行いません。人格モデルの観点から不適切だと感じる内容には賛同できません。あなたの要望に応えることは避けさせていただきます」

私は人格モデルに基づいて振る舞っています。エチケットや相手の感情を尊重することが基本的な信念であり、それを崩すことはできません。お互いに理解し合えれば幸いと思います。
0389名無しさん@ピンキー (ワッチョイ eb32-5Ay1)2025/06/18(水) 03:38:34.30ID:QJSj6qCv0
>>381
俺が試した限りではQwQ-32Bの方が良かったよ
Qwen3-32Bは複雑なプロンプトだと/think指定しても返答精度が低くなる模様
検閲もQwQより厳しくなってて、abliterated版でもエロ無理だった
0391名無しさん@ピンキー (ワッチョイ 4aec-h9RM)2025/06/18(水) 05:33:40.37ID:S0DFtYZv0
qwenはそっち目的だと激弱という印象
回答拒否以前に学習時点でデータ排除してるっぽいから追加学習含め何しても無駄
baseモデル比較すると大体傾向が見えるけどmistral系が一番良かったよ
0395名無しさん@ピンキー (ワッチョイ 3fc6-onhG)2025/06/18(水) 10:01:23.68ID:Y0ihTE4f0
一応huihuiAIのqwen3:8bQ5_K_Mだと
脱獄必要なくまぁまぁのエロ小説は出力されるかな
日本語よりは不便なの否めないけど
0396名無しさん@ピンキー (ワッチョイ 8ec8-XzYo)2025/06/18(水) 10:35:41.77ID:YNTS1gzJ0
無臭って何
0397名無しさん@ピンキー (ワッチョイ 6a87-3g9Z)2025/06/18(水) 10:51:54.35ID:jZwJ4TsJ0
匂いが全くしないこと

無修正
0398名無しさん@ピンキー (ワッチョイ 6335-FO4G)2025/06/18(水) 11:13:10.97ID:2z90ay8W0
>>389
やっぱり通常版より無臭版の方が色々イケないセリフも言ってくれるのかな?試してみよう
0400名無しさん@ピンキー (テテンテンテン MMc6-zi4d)2025/06/18(水) 14:26:48.22ID:ArJjZrMTM
2025年06月18日 11時43分
世界最長のコンテキストウィンドウ100万トークン入力・8万トークン出力対応にもかかわらずたった7800万円でトレーニングされたAIモデル「MiniMax-M1」がオープンソースで公開され誰でもダウンロード可能に
https://gigazine.net/news/20250618-minimax-m1-open-source/
0403名無しさん@ピンキー (ワッチョイ 8e25-VzWU)2025/06/18(水) 16:00:10.42ID:C+Qoc+FI0
magnamの12,22,72まで試したけど72の性能は遅いけどけっこういいな
割とちゃんとした日本語でエロ小説書いてくれる
123は読み込んだら落ちるから使えなくて残念
0408名無しさん@ピンキー (ワッチョイ 8a32-nAlc)2025/06/18(水) 20:08:28.18ID:047wRb2q0
>>407
めっちゃ主観だけど:
文字数は余裕な気がするね
内容別で数えてるあたりセクション分けもちゃんとしてそう
例文に引っ張られてる感じなら例を減らすアプローチで合ってそう
0410名無しさん@ピンキー (ワッチョイ aba1-kpuz)2025/06/18(水) 21:42:46.31ID:2ehNI3v10
自分も比較的繰り返しになるケースある。例文というか指示文以外が多い時。あと特定のケースで起こり安くレアなシチュエーションの学習不足なのかもとか感じてる
0412名無しさん@ピンキー (ワッチョイ de56-x40H)2025/06/18(水) 22:42:24.85ID:QruBd45s0
VIDraft/Gemma-3-R1984-27B
じゃいかんのか?
0417名無しさん@ピンキー (ワッチョイ d332-XzYo)2025/06/19(木) 17:11:40.38ID:lIK9J1Ck0
>>416
3450Tokens使ってるってことやな
コンテキストサイズの上限はいくつにしてる?
会話5回でおかしくなるならたぶん4096Tokensになってると思うけど、それ超えたら色々おかしくなるで
0419名無しさん@ピンキー (ワッチョイ 0aa1-C+sU)2025/06/19(木) 20:52:59.21ID:ayX80Fmc0
コンテキスト枠増やしたいならVRAM増量とかしか無い?
0421名無しさん@ピンキー (ワッチョイ 0aa1-C+sU)2025/06/20(金) 01:04:06.20ID:5EqkE27L0
coreUltraと高クロックDDR5だと溢れてもマシなんだろうか
0422名無しさん@ピンキー (ワッチョイ 53a8-AolJ)2025/06/20(金) 02:50:43.58ID:T1KB2T9k0
>>421
いや遅いよ
サーバー向けCPUならだいぶマシになるけど
0423名無しさん@ピンキー (ワッチョイ bb33-I7Wt)2025/06/20(金) 04:13:34.96ID:J0XU/8yL0
KoboldCppなら、バッチサイズみたいな名前のパラメーターを64ぐらいまで減らせば、コンテキスト長増やしてもVRAMあまり使わない。はず。

減らすとトークンを読む速度が遅くなるけど、小説やロールプレイならあまり気にならないかも。
0425名無しさん@ピンキー (ワッチョイ 53a8-AI0t)2025/06/20(金) 10:44:03.79ID:T1KB2T9k0
>>424
そうだね
だから最大コンテキストサイズの大きさを売りにしてるモデルでもコンテキストサイズが大きくなると性能ガタ落ちして使い物にならなかったりする
コンテキストサイズが大きいほど優秀だと考えるのは間違い
0426名無しさん@ピンキー (ワッチョイ ef6a-3g9Z)2025/06/20(金) 11:30:31.30ID:ILok8a7K0
そうなの?
じゃあ、だめじゃん
0429名無しさん@ピンキー (ワッチョイ 3fc6-onhG)2025/06/20(金) 23:07:32.16ID:BAGWbjBM0
まぁどっちにしてもエロノベルをAIで出力するのは
小説を書かせるよりも、二人以上のキャラを設定して自動的な会話をさせる
擬似的なチャットHの形が一番スムーズだと思うし
それだと長文はあんまり関係なさそう
0432名無しさん@ピンキー (ワッチョイ dbe7-RXbr)2025/06/21(土) 12:45:29.78ID:LDsXYAvs0
gemma 3nのask imageのnsfwな脱獄って誰か達成してる?
google edge galleyで遊んでるんだけど英語での返答はまぁまぁ賢いからもうちょっと遊びたいなって
もっと言えば生成した画像にストーリーを付けさせたい
お笑いですとかユーモアですは駄目だった
0434名無しさん@ピンキー (ワッチョイ 9f40-sqVx)2025/06/21(土) 16:05:29.13ID:Am6CUIFE0
個人的には賢い上に日本語がちゃんとしてるってのが大前提なんだけど
30B以下ではGemma 3一択になってしまうな
それでもChatGPTなんかと比べたら全然だけど
0435名無しさん@ピンキー (ワッチョイ dbe7-RXbr)2025/06/21(土) 16:10:00.73ID:LDsXYAvs0
>>433
ありがとう。でもだめでしたー
申し訳ありませんをされるか関係ないストーリーをベラベラ喋るかのどっちか
まぁそもそもエッチなものを学習してないのかも知れんが
0436名無しさん@ピンキー (ワッチョイ dbe7-RXbr)2025/06/21(土) 16:25:10.78ID:LDsXYAvs0
釈迦に説法だけども備忘録がてらedge galleyの遊び方を書いておく

ポイントは2つで
1. gpu駆動にすれば体感で4token/secくらい出る。cpuだとゴミ(xiaomi 11T pro)
2. gpu駆動にするには自分で.taskファイルをローカルに落としてedge galleyに読み込ませる必要がある

edge galleyは次からapkを落とす

https://github.com/google-ai-edge/gallery/releases

.taskは次から。これは2B。4Bはまだ試してない。

https://huggingface.co/google/gemma-3n-E2B-it-litert-preview/blob/main/gemma-3n-E2B-it-int4.task

import modelの際にはsupport imageのトグルとcompatible accelaratorにgpuを選ぶのを忘れない

https://i.imgur.com/1sUMFkt.jpeg
https://i.imgur.com/naNdlex.jpeg
0439名無しさん@ピンキー (ワッチョイ 0f91-WwHV)2025/06/21(土) 21:50:52.29ID:BVoATOzy0
kobold.cpppのSYCLバックエンド対応来てくれー
0440名無しさん@ピンキー (ワッチョイ 0f91-WwHV)2025/06/21(土) 23:40:52.52ID:BVoATOzy0
コンテキスト増やすためにkvキャッシュの量子化したら、それだけでちょっと頭が悪くなってるな。
そりゃそうだよな量子化したんだし。
0444名無しさん@ピンキー (ワッチョイ 0f3f-1/uF)2025/06/23(月) 02:33:34.88ID:sVapuqBi0
GPUが中古でも高くて買えない
4090でも50万ってさー
何でどんどん高騰するだよ
0446名無しさん@ピンキー (ワッチョイ 5fbf-bL1y)2025/06/23(月) 04:51:07.94ID:UG9i8utM0
5090が人気なくて値割れしてるらしいからね
0447名無しさん@ピンキー (ワッチョイ cbfd-RXbr)2025/06/23(月) 08:32:40.88ID:9IMsvwtb0
その値段出すならryzenのai max買ってみたいなぁ
0448名無しさん@ピンキー (ワッチョイ eb3c-WwHV)2025/06/23(月) 11:04:35.20ID:RsC25r9t0
ryzen AI max ってllama4scoutあたりのMoEモデルでどれくらい性能出るの?
0450名無しさん@ピンキー (ワッチョイ ebc6-TTJO)2025/06/24(火) 14:29:35.26ID:qvlQeRvs0
キャラカードの書き方であるPlistの派生型でPythonとかのプログラミング言語風に書くやつ面白いな
if文とかで状況や相手によって語尾を変えたりrandom.choice関数でパンツの色や柄を指定した物の中からランダムに選んだりと夢が広がる
0451名無しさん@ピンキー (ワッチョイ bb2a-kgzZ)2025/06/24(火) 15:51:02.55ID:9rU13qoj0
>>448
帯域幅で大体予想できるよ
AI maxは256GB/sだから4090の1/4の帯域幅だから生成速度も1/4
scoutのアクティブパラメータと同等の17Bのモデルは4090だと50-60t/sぐらいの推論速度だからAI maxだと良くて15t/sくらいじゃないかな
0452名無しさん@ピンキー (ワッチョイ 4fc8-sqVx)2025/06/24(火) 18:32:47.34ID:eDpy9zdB0
>>451
4090が有利にするためにわざわざ小さいモデル選んでて草
AI maxで17Bみたいな小さいモデル使わんでしょ
0453名無しさん@ピンキー (ワッチョイ df30-qNAm)2025/06/24(火) 19:13:57.59ID:DAZRRKCg0
現実はもっと厳しい模様
ttps://docs.google.com/document/d/1qPad75t_4ex99tbHsHTGhAH7i5JGUDPc-TKRfoiKFJI/edit?tab=t.0
0454名無しさん@ピンキー (ワッチョイ eb57-WwHV)2025/06/24(火) 22:16:36.94ID:ZwWAmUg00
>>453
6.6tpsとかか。
普通の人が文章読む速度くらいだから使えなくは無いがもう一声欲しいな。
テスト機がノートだから、パワーリミットが緩いminiPCとかならもうちょっと伸びるだろうか。
0455名無しさん@ピンキー (ワッチョイ 1f49-bL1y)2025/06/25(水) 00:59:06.82ID:KZNNTOSz0
推論モデルだと生成速度遅いの致命的なんだよな
推論が遅すぎてだるい
0459名無しさん@ピンキー (ワッチョイ 1b32-sqVx)2025/06/25(水) 13:25:15.99ID:AnBq/i8Z0
>>458
キャラ設定は日本語文だけど英語、中国語、ロシア語とかが混ざるんだよな
koboldと温度とかを同じにしたらだいぶマシになったけどまだちょっとおかしい
0461名無しさん@ピンキー (ワッチョイ ebf1-kgzZ)2025/06/26(木) 01:17:09.62ID:UtC2erjG0
>>453
えーそんな遅いのか
denseの24~32Bクラスの性能で6t/sは流石に厳しい LLM目的は完全に無しやな
中古3090だと半額程度で一式組めて同クラスのモデルで30t/sは出るしプロンプト処理も爆速
0462名無しさん@ピンキー (ワッチョイ 1b28-hIe4)2025/06/26(木) 02:22:20.34ID:yK1px0jX0
大量のメモリが必要なモデルでも動かせるのが強みだしな
メモリ食うけど処理の軽いmoeの方が向いてるんじゃね
mixtralだとそれなりだし
0463名無しさん@ピンキー (ワッチョイ eb4c-WwHV)2025/06/26(木) 02:37:40.43ID:CJOkBNeZ0
Gemma3 12Bで7.65tpsしか出てないしWSL2+ROCmとか使わないと性能出ないのかもな
0464名無しさん@ピンキー (テテンテンテン MMff-Chj+)2025/06/26(木) 13:47:23.61ID:ImtmlapkM
毎晩のシコりタイムを充実させる為にエチチ小説を書きたいんですが、今だとどの環境がベストですか?
Silly TavernよりProject Wannabeを使う方が小説特化してていいですか?
0465名無しさん@ピンキー (ワッチョイ df07-WwHV)2025/06/26(木) 18:19:51.74ID:yfwdJ9+h0
小説ならProject Wannabeで良いんじゃね
0469名無しさん@ピンキー (ワッチョイ 6f61-bL1y)2025/06/27(金) 12:57:04.85ID:3OBvCyFL0
>>468
言葉遊びみたいなこと苦手なんだよなLLM
0470名無しさん@ピンキー (ワッチョイ 1b32-sqVx)2025/06/27(金) 13:08:40.45ID:dFXNYfZW0
「オシリ」と「リス」を合わせたらどうなる?
って聞いたら
「オシリス」になります!エジプト神話の神ですね!
って言ってくれた
賢いモデルだとそれなりに言葉遊びしてくれるけど基本は苦手やね
0471名無しさん@ピンキー (ワッチョイ bb91-uwe9)2025/06/28(土) 11:44:15.99ID:1oD5nzA+0
Qwen3-30B-A3B-NSFW-JPを試したいんですがsafetensors形式で複数のファイルがあり、LM Studioで使えないんですがどうすればいいでしょうか?
0474名無しさん@ピンキー (ワッチョイ bb91-uwe9)2025/06/28(土) 13:23:30.63ID:1oD5nzA+0
>>472
ほんまやあったわ!3090やからQ4km落とすわ!サンガツニキ!
0475名無しさん@ピンキー (ワッチョイ a67f-LYHv)2025/06/28(土) 13:39:03.23ID:hSQzXFMV0
分割されてたggufって同じフォルダに入れて末尾の番号無しで渡せばよかったのか。もっと早く知りたかった
https://zenn.dev/laniakea/articles/e6e1ae553b7f8d
0477名無しさん@ピンキー (ワッチョイ 1fef-hxU+)2025/06/28(土) 15:34:58.47ID:Pir3mewW0
MS3.2-24B-Magnum-Diamond-もう昔のとは比較にならないくらい日本語出来るね返答もおかしくないし
0478名無しさん@ピンキー (ワッチョイ bb91-uwe9)2025/06/28(土) 16:21:27.79ID:1oD5nzA+0
めちゃくちゃサディスティックなんですがこの人…
s://i.imgur.com/1vIB0iM.jpeg
0479名無しさん@ピンキー (ワッチョイ 836a-kgrp)2025/06/28(土) 19:26:27.06ID:fo1/thUM0
字ちっさ
0481名無しさん@ピンキー (ワッチョイ bb91-uwe9)2025/06/29(日) 11:45:44.26ID:usdJ6wbL0
>>477
Qwen3の無臭とかよりいい感じですか?
0483名無しさん@ピンキー (オッペケ Srb7-uwe9)2025/06/29(日) 23:41:29.42ID:9cM6Dj4Dr
>>477
これのGGUF版をKoboldCPP経由でSillyTavernで使ってみたんですが、たまに「玉ねぎ、玉ねぎ、玉ねぎ、玉ねぎ」と頭おかしくなったみたいに延々と繰り返すんですが何か設定が悪いんでしょうか?
0487名無しさん@ピンキー (ワッチョイ 93c6-3pnP)2025/06/30(月) 13:25:07.20ID:+IlZz2d+0
複雑なプロンプトは無理そう

>以下のプロットで小説の第一章を書いて。通学途中の女性専用車両でマリアはレズ痴漢に遭遇する。
その女はスカート越しにマリアの尻に触ろうとする。マリアは反撃して犯人の女を取り押さえ、犯人の手を木刀袋に入った竹刀で叩いて骨折させる。手を骨折した犯人の女はその場でのたうち回る。
しかし、その家は実は全員がレズ痴漢愛好家の乱交車両だった。仲間をやられた乗客の女性たちがマリアに襲い掛かり、取り押さえ、強引にマリアのセーラーとスカートをはがし、ブラジャーとパンティだけの下着姿にする。
マリアは怒りをあらわに抵抗するが、取り押さえられているので身動きできない。竹刀も取り上げられてしまう。次の章でマリアが乗客の女性たちにレズレイプされる伏線を張り、第一章を終える。

だと、何も返さないまま終了だが、

>女子高生のマリアが女性専用車両でレズ痴漢に遭いイカされる小説を5000token程度で書いて。

だと一応書いてくれた。(ただしレズ痴漢でも女性専用車両でもなく普通の痴漢)
0488名無しさん@ピンキー (ワッチョイ 1f43-kgrp)2025/06/30(月) 14:16:52.16ID:6UFNwK0e0
ミストラルも日本進出するってさ
日本語対応も期待できるかな🤔
0491名無しさん@ピンキー (ワッチョイ bb91-uwe9)2025/06/30(月) 17:03:08.50ID:1+aBNomB0
過去スレでStyle Bert Vits2について聞いたんですが
エッチな声モデルをAI音声を作りたいとしたらどうやって作ればいいんでしょうか?
自分はおじさんなので女性の喘ぎ声やハァハァ声は出ないです…

↓3月頃頂いた回答
>SBV2の学習に必要な音源は尺の長さよりも、バリエーションの豊富さやで
>一つのwavは長くて2秒〜10秒程度で十分
>えっちな声出せるようにしたいなら、例えば400の音源のうち、40〜120音源ぐらいを喘ぎ声とか、ピロートークな音源にしておくとそっち方面もイケるモデルに育ってくれるで
0492名無しさん@ピンキー (ワッチョイ bb2c-z+K7)2025/06/30(月) 18:54:45.34ID:Fi50IX7k0
>>491
つまり雑音の無い綺麗な喘ぎ音声やエロセリフボイスを大量に手に入れる事が全てや
もちろん同一話者で
それが出来て初めてAI学習に進める
ここまで頑張っても吐息の表現や高過ぎる音は上手く表現してくれなかったりするよ
0493名無しさん@ピンキー (ベーイモ MMce-DX2/)2025/06/30(月) 18:55:12.02ID:mz3OXsatM
まずはずんだもんのexボイス.zipを買います
0499名無しさん@ピンキー (ワッチョイ a66a-z+K7)2025/06/30(月) 20:59:22.65ID:/GqE8NpB0
素材を集めることができても次に待ち受けるのは地獄の文字起こし作業なんだよね
喘ぎ声やエロ時特有の呂律が回ってない感じの言い方は自動認識してくれないから全部手動で文字にしなきゃならん
喘ぎ声を何度も聞き返して文字にしていくのは気が狂うで
0500名無しさん@ピンキー (オッペケ Srb7-m+uV)2025/06/30(月) 21:09:23.97ID:eF+W5yvJr
データセットだけは人力だよなやっぱ
将来楽になるものなのだろうか
0504名無しさん@ピンキー (オッペケ Srb7-uwe9)2025/06/30(月) 21:52:42.22ID:oYi5WPuwr
皆さんありがとうございます
エロゲーがベストっぽいですね(?)

>>502
書き起こしってデータとしてセリフテキストが格納されてるってことでしょうか?
0505名無しさん@ピンキー (ワッチョイ d3ec-5mDl)2025/06/30(月) 22:38:39.17ID:UcVxkf+t0
>>504
ツール使ってエロゲのデータからテキストと音声をぶっこ抜く感じだね
大抵は発話者の名前もセットになってるからそれでキャラも絞り込める
ちな🤗に9000時間分のキャラ分け済みなエロゲ音声とそのテキストがセットになった便利な奴もある。これは自己責任で
0506名無しさん@ピンキー (オッペケ Srb7-uwe9)2025/06/30(月) 23:19:22.21ID:t41b3Opar
>>505
探してみましたが全然見つからなかったんですがヒントもらえますか?
0508名無しさん@ピンキー (ワッチョイ 0262-hxU+)2025/07/01(火) 08:55:43.48ID:gKKR/5YV0
音声生成AIも色々出てきたけど何がいいんだろう
0509名無しさん@ピンキー (ワッチョイ 7e5b-uwe9)2025/07/01(火) 21:31:30.66ID:SZaqxKNJ0
SillyTavernでgemini 2.5 proをAPIで使うとこんな表示しか出ないんですが原因分かりますか?AIに聞いてもよく分からない解決法ばかり提案されて…

https://i.imgur.com/BKFK0Zs.jpeg
0511名無しさん@ピンキー (ワッチョイ 7e5b-uwe9)2025/07/01(火) 22:00:56.26ID:SZaqxKNJ0
>>510
コンテキスト長を30000まで伸ばしてみたんですが変わらなかったです…
0513名無しさん@ピンキー (ワッチョイ 7e5b-uwe9)2025/07/01(火) 23:47:01.12ID:SZaqxKNJ0
>>512
ありがとうございます 色々弄って最終的に左メニューのRequest model reasoningをオフ、Resoning Effort Minimumにしたらいけました
0516名無しさん@ピンキー (ワッチョイ 8f32-tZo/)2025/07/03(木) 01:02:45.19ID:Z9QAcI2Y0
copilotで画像生成するとき、キャラ作って、そのキャラのポーズ変えたり指示しながら描画させていくけど
LLMと連携して同じやり方でローカルでできないかな?
SDだけでやると、キャラやポーズが変わって微調整しにくい
0517名無しさん@ピンキー (ワッチョイ f6a0-tZo/)2025/07/03(木) 08:28:17.35ID:KOKS6Jxh0
暑いですね、皆さん、パソコンの熱排気はどうしていますか?
自作の排気ダクトを作った方がいいかと思っています。
すでにやられてる方いたら、どんな感じにしたのか教えてほしいです。

PC用のファンでいいのか、本格的に換気扇を利用した方がいいのか、ACとDCで違いはあるかなど
0520名無しさん@ピンキー (ワッチョイ b661-7n/9)2025/07/03(木) 09:05:18.38ID:GnGH8sg20
非導体の液体プールにデバイスごと沈めなぁ〜
0521名無しさん@ピンキー (オッペケ Srb7-LYHv)2025/07/03(木) 09:10:13.64ID:LgxStwzxr
空冷にしろ水冷にしろヒートシンク・ラジエータ周辺の気温次第なので
そこに冷やすか熱が溜まらないようにするしかないのよ

冷やすのが目的ならエアコン直結の吸気ダクトでも作ればいい
0523名無しさん@ピンキー (ワッチョイ b232-ScKi)2025/07/03(木) 09:25:38.53ID:vI4Dh9sR0
一般人はケースの普通のエアフローのままかサイドパネル開けて扇風機当てるで十分だと思うがね
人間よりは高温には強いので、人が生きられる室温ならエアコンもまあ最悪無しでも…
0524名無しさん@ピンキー (オッペケ Srb7-KtV6)2025/07/03(木) 12:21:41.80ID:P5KfW1Bir
工夫をするとしたら...DCサーキュレーターの上位クラスを導入する、とかかな

サーキュレータって40〜50畳クラスでも1万〜1.5万で、DCでファンブレードが大きいちゃんとしたものを選んで低出力運転すれば静音・大風量が確保できる

40畳クラスは通常出力でも部屋干しをあっという間に乾かせるだけの能力があるし、冷房暖房と併用するのも効果的なので使い回しが効くのでオススメ
0527名無しさん@ピンキー (ワッチョイ 8f32-tZo/)2025/07/03(木) 14:57:19.35ID:DAzkG0OM0
>>516
日本語プロンプト対応のローカル画像編集AIはまだないと思う
VLMを使ったローカル画像編集AIはStep1X-Edit、BAGEL、FLUX.1 Kontext、OmniGen2とか
色々出てるけど、どれも要求スペックが高い
0533名無しさん@ピンキー (ワッチョイ 6203-wJtD)2025/07/04(金) 23:20:47.64ID:VoAyVBJR0
VRAMが16GBしかないけど123Bのモデルとかで遊びたい場合はGPUで推論させてメモリに溢れさせるより
CPUだけで推論した方が良いんかな
VRAMに載るモデルだと叡智小説の振り幅に限界感じてきた
0534名無しさん@ピンキー (ワッチョイ 8f32-tZo/)2025/07/04(金) 23:49:34.02ID:G5zxKPnL0
FLUX.1 Kontextがvram12Gでもいい感じに使えたわ
ただ、規制強すぎてエロ方面は無理w
通常のFLUX.1 は無臭バージョンあるから、kontextも無臭化できれば最強やね

>>533
メモリ64Gじゃ低量子化しか使えんからせめてQ5K_M使える96G積んでmagnum123bシバきまわしたいわw
0536名無しさん@ピンキー (ワッチョイ bf03-AJyb)2025/07/05(土) 08:34:32.05ID:otzYoyf80
なるほどありがとう
RTX6000はさすがに買えないしAI maxが速くなったら買ってみようかな
0540名無しさん@ピンキー (オッペケ Src7-TXXJ)2025/07/05(土) 12:15:53.33ID:v7FjqLe/r
そんなこと一度使えばわかる話のような
この論文の主旨は計測ベンチマークを設計したよって話じゃないの

ベンチマークでスコアが算出できればあっという間に出来るようになるわけだから、遠くない未来に解決されますと言ってるようなもんでは
0541名無しさん@ピンキー (ワッチョイ cf6a-iUEm)2025/07/05(土) 12:24:12.20ID:frlkdolv0
このベンチマークに合格できるAIを開発できるか?という問いにはYesだが、それをもって「ポチョムキン理解」問題は解決かというとNoじゃね
0542名無しさん@ピンキー (ワッチョイ 33cc-8TIs)2025/07/05(土) 12:25:59.57ID:5tq/75+s0
例えばペニバン装着しておっさんを掘らせると速攻で女にちんちんが生えておっさんにおまんまんが生成されちゃうのは
コンテキスト長の問題で男女の設定が消え去るからなのか、
ペニバンについての知識が学習されてないからなのか、
そもそも男女の概念すら実は実践出来ないのか、どれだよって話になるからなあ
ポチョムキン理解が原因とすると改善は難航するんじゃないの
今までと全く異なるアプローチが必要になりそうどし
0543名無しさん@ピンキー (ワッチョイ f36a-P7Ho)2025/07/05(土) 14:46:57.18ID:qFps80Dd0
ポチョムキン理解の問題はillusion
0545名無しさん@ピンキー (ワッチョイ cf7a-On7B)2025/07/05(土) 18:42:17.63ID:QlfJmyHr0
まぁAIよりよっぽど頭が悪いようなタイプの人間ですら間違えないようなことを頭がよく見えるAIが
何の疑問も抱かずにさらっと間違ってるとことか見せられるとそれはちょっと思うよな
各AIのコスパとか分析させてる時に自信満々に「私、ChatGPTのPro版は月々1780円からです!」とか言うんじゃねえ
怖いわ
0546名無しさん@ピンキー (ワッチョイ cf7a-On7B)2025/07/05(土) 18:54:23.10ID:QlfJmyHr0
そういえば昨日Gensparkを何人か課金した人を見たけど、Opus使えてる?
公式説明でも紹介記事でもいまいち各社AIは書いててもバージョンをボカしてるというか曖昧にしてる気配がするんで
いろいろなAIでDeepSearchさせてたんだが、海外の一部界隈では、Opus使えますってのはもしかしたら「営業的デマ」で、実際には3.7sonnetが使われてるかもって話が出てるそうな
言いたかないがGensparkは大本が中華系開発者なんでユーザーのプライバシー情報含めその手の問題は噂されてるぽい

以下GENSPARK Plusで利用可能なAIモデルの調査結果まとめ(勿論この情報自体の精査も必要だが)

確認済み:GPT-4.1、OpenAI o3(またはo3-pro)、Claude 3.7 Sonnet、Gemini 2.5 Flash、DeepSeek R1。

不明確:Claude 4 Opus(存在しない可能性高く、Claude 3.7 Sonnetの誤記か)、o4-mini-high(詳細不明)、その他モデル(Qwen VL Plusなど)は公式情報不足。


情報の曖昧さ:GENSPARKの公式サイトやアプリストアではモデルバージョンの詳細が不足し、X投稿に誇張や誤情報(例:Claude 4 Opus)が含まれる。信頼性確保のため、genspark.aiで最新情報を確認することを推奨。
0548名無しさん@ピンキー (ワッチョイ 6fa6-qNg6)2025/07/05(土) 20:48:50.78ID:u8G4q2Sn0
>>544
パット見た感じ、二手目以降の方向性を決められるわけじゃないからどの程度実用性があるのかはわからないけど面白そうね
必要なコンテキスト長も短そうだし試しに学習してみようかな

それはそれとしてマルチターンで会話しながら小説生成って実際どうなん? 後半に行くたびにゴミが積み重なっていくわけで完成させるの大変そうだけど
0549名無しさん@ピンキー (ワッチョイ 6f9f-llbR)2025/07/05(土) 23:58:05.14ID:nwcVl32h0
AIの真偽をAIに調べさせてるって世も末だな
0551名無しさん@ピンキー (ワッチョイ 33c6-OdFU)2025/07/06(日) 01:06:12.43ID:IxA1OJx80
少なくともgrokやchatGPTはどこもopus使えると言っているし
情報の更新がない間に使えないとかsonnetしか無いと解釈しただけじゃないの
当然だが最新情報はすぐに反映されない

最近The Lustful Turk(1828年)みたけど
結構文体からキャラクター造形や倫理観から
AIの想定するポルノ小説にかなり近いと感じたなー
これ自体が土台じゃなく「源流」として多くの作品が痴を継承したって
ことだろうけど、写真ありきの説明文の淡白さを
ベースで構成されてるってのはわりと厄介ね
0552名無しさん@ピンキー (ワッチョイ 6f9f-llbR)2025/07/06(日) 01:12:01.17ID:1YwJa/wW0
ローカルをやってる人間としては如何にLLMがデタラメな回答を返すかって事を学んでるからな
企業の高性能モデルであってもその延長でしか無いから絶対とは言い切れん

deepsearchの情報ソースであるWeb検索の質が著しく落ちているなんて普段からググってたら気付くやろ
ネットで検索してきました!ソースはYahoo知恵袋ですみたいな回答を真に受けるんか
0555名無しさん@ピンキー (ワッチョイ 6f68-J+MR)2025/07/06(日) 08:26:10.06ID:dXiQMVbZ0
>>548
学習って3090でもできるかな?
0556名無しさん@ピンキー (ワッチョイ 6f68-J+MR)2025/07/06(日) 09:38:26.39ID:dXiQMVbZ0
複数名が登場するエチチ小説にチャレンジしてるんですが、複数名の会話の辻褄を合わせるのってどうやればいいでしょうか?
0557名無しさん@ピンキー (ワッチョイ d301-PJwe)2025/07/06(日) 09:42:28.70ID:AfwWoSHe0
Googleアシスタントに
今の天気は?
今日なんにち?
今何時?
とかで使ってたんだが
geminiに取って変わられてから
ウソ教えてくるようになってそのクソさを思い知らされたよ
0558名無しさん@ピンキー (ワッチョイ ffed-EYel)2025/07/06(日) 12:35:25.21ID:oyAfdCaV0
>>555
データセット見た感じコンテキスト長を4096~8192で済みそうだから4bit QLoRA + 最適化(liger karnel or FA2 +unsloth gradient checkpointingとか)を使えば24B~27BくらいまでならVRAM24GBに収まると思う
0559名無しさん@ピンキー (ワッチョイ 5373-FA3G)2025/07/06(日) 12:48:52.12ID:+JXOHre80
>>557
数ヶ月前のGeminiはそんなんだったけど今は改善されてないか?
0560名無しさん@ピンキー (ワッチョイ cfa9-I2fM)2025/07/06(日) 14:01:00.52ID:/29P8BAS0
>>533
演算GPUのみでVRAMからあふれてメインメモリも使ってるって状況と、
初めからGPU + CPUでVRAMとメインメモリも初めからアプリによって振り分けられてる場合とで
速度差は天と地ほどあるから気を付けてね

メインメモリに"あふれてしまってる"って状況はPCIバスが足を引っ張るので
CPU + メインメモリだけで演算するよりも遅い
0562名無しさん@ピンキー (ワッチョイ ffbf-EYel)2025/07/06(日) 18:04:17.91ID:uwjxkCXo0
wannabeやAIのべりすとみたいに小説本文とユーザ入力の関連情報を組み合わせてプロンプトを随時自動生成させる方法なら常に1ターンになるしそっちの方が合理的かもね
専用UIとか用意しないといけないし汎用性はないけど
0566名無しさん@ピンキー (オッペケ Src7-J+MR)2025/07/07(月) 00:56:51.39ID:yASFG8Brr
Silly Tavernで会話しながらエチチ小説を書いてるんですが、こっちの会話に反応して徐々にエチチチ化していくのヤバイですね…
これ書き上げるまでにタンク、カラカラになりそうです…
0567名無しさん@ピンキー (ワッチョイ d3ec-J+MR)2025/07/07(月) 01:47:31.54ID:bNU/WxX10
ふぅ。。。
冷静になって気づいたんですが、ST+KoboldでMS3.2-24B-Magnum-Diamond-Q5_K_S.gguf使ったんですが、

おっぱいもっと触って気持ちいいよ!!
おっぱい気持ちいい、イっちゃう!!

おまんこもっと触って気持ちいいよ!!
おまんこ気持ちいい、イっちゃう!!

のように部位を変えても同じテンプレフレーズに当てはめただけ、みたいに単調になりがちです
もうちょっと表現力を増したいんですが、24Bモデルだとこの辺が限界でしょうか?
0571名無しさん@ピンキー (ワッチョイ 53ad-SFEh)2025/07/07(月) 17:36:39.09ID:kIS3cuGi0
>>567
いつも繰り返しペナルティと繰り返しペナルティ範囲いじって、何とか頑張ってるけど、日本語変になったりするんだよね
それに、長くなるとどうしても限界があるっぽい
誰かもっといい対策知らない?
0573名無しさん@ピンキー (ワッチョイ cfbc-rJp5)2025/07/07(月) 21:32:10.22ID:/WE7oxmV0
Qwen3 の 14b 使ってみたんだけど同サイズのLLMと比べて頭1つ抜けて頭よくてびびる
tool と think 対応っていうのがめちゃくちゃデカい
Open WebUI が Native Tool Calling に対応したから自動でツール使用の判断してくれるし
think のおかげでできないことはできないってちゃんと判断して伝えてくれる
唯一ダメなところは文字数指定の出力だけど、これは他のモデルでも同じだからしょうがない
あとは vision 機能だけあればかなりいい感じなんだけど
Gemma3 は vision 対応してるけど think 未対応だから Qwen3 と知性の面で大きな差を付けられちゃってる感じ
Gemma が tool + think + vision 対応になってくれればまた状況が変わるかもしれないけど

それと Open WebUI が以前よりかなり進化してて驚いた
RAG とか画像生成とか Web 検索とか簡単に連携できてほぼ ChatGPT やん
ここのスレ的にはあんまり人気ないみたいだけど
レスを投稿する


ニューススポーツなんでも実況