なんJLLM部 避難所 ★8
0001名無しさん@ピンキー 転載ダメ (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:18:32.02ID:0Ak3eO5y0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0002名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:19:47.51ID:0Ak3eO5y0
初心者は導入しやすいKoboldcppから始めるのをお勧め
(1)NVIDIA、CPUユーザーはここで最新版のKoboldcpp.exeをダウンロード
https://github.com/LostRuins/koboldcpp/releases
AMDユーザーはこっち
https://github.com/YellowRoseCx/koboldcpp-rocm
(2)ここで良さげなggufモデルをダウンロード
https://huggingface.co/models?sort=modified&search=gguf
この2つのファイルだけで動く

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki
0003名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:20:16.10ID:0Ak3eO5y0
oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui
0004名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:20:33.45ID:0Ak3eO5y0
●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant
0005名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:20:51.59ID:0Ak3eO5y0
https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで
0006名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:21:14.79ID:0Ak3eO5y0
例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける
0007名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:21:36.99ID:0Ak3eO5y0
●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで
0008名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:22:06.73ID:0Ak3eO5y0
●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)

magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348

Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B

magnumの日本語版:
Mistral-nemo-ja-rp-v0.2
0009名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:22:38.96ID:0Ak3eO5y0
●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで
0010名無しさん@ピンキー (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:24:24.73ID:0Ak3eO5y0
テンプレここまで、しばらく更新されてないから過去ログも参考にしてな
0011名無しさん@ピンキー (ワッチョイ 733d-9L8h)2025/05/10(土) 22:38:04.01ID:JABFV6+D0
おつつ
0015名無しさん@ピンキー (ワッチョイ 733d-9L8h)2025/05/10(土) 23:50:58.42ID:JABFV6+D0
ryzenMAX+はCPUにAVX512とか載ってるから
CPUにも仕事させた方が良いんだろうか
0017名無しさん@ピンキー (ワッチョイ 733d-9L8h)2025/05/10(土) 23:56:31.43ID:JABFV6+D0
100〜130BくらいのMoEモデルなら良さそう
0019名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/11(日) 01:40:24.53ID:JcEjG3AG0
これでゲームもCUDAが必要とか言ってる動画生成系のやつも全部できたら乗り換えるのになぁ
0020名無しさん@ピンキー (ワッチョイ 8fa9-KB/z)2025/05/11(日) 02:02:00.77ID:2Y5MxzTS0
前スレのこれ、sshでつないでポートフォワードしたらできるで

>Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります?
0022!donguri (ワッチョイ 33b6-Onb0)2025/05/11(日) 02:46:49.81ID:zvdvg/lI0
別にわざわざポートフォワードせんでもlan内でポートへの接続許可したらマシンのipで繋げれるんとちゃうか。winならファイアウォールの設定で受信の許可ルール作ればええ
0023!donguri (ワッチョイ 33b6-Onb0)2025/05/11(日) 02:47:46.27ID:zvdvg/lI0
>>21
ERPの方はggufあげてくれてるで。nsfwは事前学習モデルやからそのまま使ってもいい感じにはならなさそう
0027名無しさん@ピンキー (ワッチョイ c3ed-aBcW)2025/05/11(日) 04:43:26.19ID:9tW4zWNv0
>>25
ホンマやありがとう!
同じ量子化のをDLして比べてみるわ
wannabeつかわせてもろとるけど
koboldでのモデル変更て一旦cmd閉じて再起動よね?
モデル切り替えちょい面倒なんよな
0030名無しさん@ピンキー (ワッチョイ c3ed-aBcW)2025/05/11(日) 06:10:09.56ID:9tW4zWNv0
そういやwannabeニキに大それたリクエストがあるんやけど

縦書き

仕様にできんやろか?
ワイ書くのも読むのも縦書きのオールドタイプなんで……
前にObsidianを縦書きにするアドオンとか作れんかGPT君にきいたら
えらい難易度が高くて諦めたから
無茶な注文なのは解っとるけども
でけたらえらい嬉しい
0032名無しさん@ピンキー (ワッチョイ 53e1-K+3N)2025/05/11(日) 07:13:30.30ID:E29fFdF/0
Qwen3-30B-A3B-NSFW-JP っていうやつ見たら「事後学習せい」って書いてあるけど、なにしたらええんや?
なんか参考になるリンクとかあったら教えてほしい。
0034名無しさん@ピンキー (ワッチョイ 53e1-K+3N)2025/05/11(日) 09:10:36.59ID:E29fFdF/0
>>32
すまん、ChatGPTにきいたら自決したわ。
0037名無しさん@ピンキー (ワッチョイ 3f74-0HJO)2025/05/11(日) 10:07:15.31ID:1E9qyqAu0
evo-x2はやっぱり同スペックのm4proと同じかちょっと早いくらいやな。

m4maxには勝てんかったか...
0039名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/11(日) 10:30:07.70ID:JcEjG3AG0
win機なら需要の幅広そうだしm4との棲み分けはできそう
0041名無しさん@ピンキー (ワッチョイ 1316-kIO2)2025/05/11(日) 11:33:26.26ID:UfhF4txJ0
LLMならmacが良いらしい、いやmac微妙だぞのやり取りが去年たくさんあったしな
それよりさらに微妙な物なら買う事は無さそうやな
後数世代待てば帯域の事も考えられた専用機が出てくるやろ
0043名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/11(日) 12:29:11.31ID:Fh5rBXvw0
去年と違うのは今はMoEが主流になりつつことだな 
動かすだけならユニファイドメモリが最も手軽な手段だし
3090x4より安いし30万以下なら全然あり
0044名無しさん@ピンキー (ワッチョイ 53e1-K+3N)2025/05/11(日) 12:30:13.06ID:E29fFdF/0
Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。
初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。

しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください
プロットは一つ100文字以内とし、箇条書きで書き出してください。」というプロンプトで、
プロットを一つずつしか出してくれないのでめんどくさい。

https://ibb.co/cXXq5vxy
0049名無しさん@ピンキー (ワッチョイ 737a-KB/z)2025/05/11(日) 14:04:02.96ID:fsVnkFbE0
>>47
モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね
このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね
でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ
0052名無しさん@ピンキー (ワッチョイ cfd9-OIzT)2025/05/11(日) 14:56:20.09ID:KSze43Me0
DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも(多分)使えるのが売りになるのかな
0057名無しさん@ピンキー (ワッチョイ e3c0-aBcW)2025/05/11(日) 18:53:46.87ID:tIZcxvUc0
GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ
なんなんだコイツは
0058名無しさん@ピンキー (ワッチョイ 1316-kIO2)2025/05/11(日) 19:01:14.92ID:UfhF4txJ0
今日5090が届いたから4090から換装してみた
最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず
そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ
comfyも同様
RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ
0063名無しさん@ピンキー (ワッチョイ eff4-A5UE)2025/05/12(月) 01:54:15.29ID:J+nQccr80
ChatGPTスレから誘導されて来ました
ローカルで質問なんですけど
32Bモデルの量子化されてないオリジナルをロードできる環境があって
その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか?
生成の質っていうのはタスクの理解力みたいやイメージです
0064名無しさん@ピンキー (ワッチョイ cf02-KB/z)2025/05/12(月) 01:55:51.36ID:8E83fqQk0
うっかり嫁とエッホエッホの話振ったら
それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った
0066名無しさん@ピンキー (ワッチョイ a307-aBcW)2025/05/12(月) 08:06:29.47ID:P1iu5DwA0
>>23 >>25
Wannabeで試してみたが
Qwen3-30B-A3B-NSFW-JP-Q4_K_M まったく使い物にならんかった
Qwen3-30B-A3B-ERP-v0.1-Q4_K_M こっちは出力されんかった
なおkobold上だと応答はあって不思議
>>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな……
0068名無しさん@ピンキー (ワッチョイ 3ffb-S5D2)2025/05/12(月) 08:53:36.79ID:NreAwN7e0
>>63
量子化レベルに関わらずパラメータ数の多いモデルの方が賢いと言われているけど、流石にq1とかq2に量子化されたモデルはあまり賢くないと感じる
できれば8bit、最低6bitくらいで使用できるモデルが目安じゃなかろうか
個人的には4bitもちょっと性能低下が顕著かなと感じているところ
0069名無しさん@ピンキー (ワッチョイ 7fa0-m4Fo)2025/05/12(月) 09:04:53.60ID:ZpuTV0NJ0
俺も6bitが限界だと思ってる。4bitだと25%くらい成績が落ちるらしい
雑談だとわかりづらいけどロジックで25%の低下は仕事に使えん
100bで2bitはロマン
0072名無しさん@ピンキー (ワッチョイ 3ffb-S5D2)2025/05/12(月) 11:14:36.99ID:NreAwN7e0
>>71
そのグラフを見ると確かに4bitでも問題なさそうに見える
巷でも4bitならOKとされているのも理解しているけど、自分の環境で実際に出力されたものを比較すると明らかにq6、q8の方が良い結果を出す確率が高く感じる
小説しかり、コーディングしかり
0076名無しさん@ピンキー (ワッチョイ 13bd-9L8h)2025/05/12(月) 13:14:44.15ID:5F0YL1Av0
文章のベンチマークは難しいよね
ベンチ結果は良くても文章としては「?」ってのもあるだろうし

自分たちが人力で日本語のドスケベ評価するしかないんや!
0077名無しさん@ピンキー (ワッチョイ 737a-KB/z)2025/05/12(月) 13:28:26.10ID:CVsmR3mp0
llmにとって簡単なタスク、地の文と丁寧語>話の一貫性>>>キャラの言動と口調って感じがする
qwen3-4Bですら地の文と丁寧語はそこそこ自然
データが豊富なんやろね
0078名無しさん@ピンキー (ワッチョイ 3f7a-kIO2)2025/05/12(月) 13:31:22.63ID:eUjAc2ML0
grok3に版権キャラの情報を収集させてから全力でなりきってって指示しても微妙だからな
今のはここが変、そこが日本語としておかしいってダメ出し続けると確かに偽物感は消える
でもそれと引き換えに話の柔軟さが消えて返答がワンパターンになっていく
ルールでがんじがらめにされてる感じやね
0079名無しさん@ピンキー (ワッチョイ cfa9-O94U)2025/05/12(月) 13:56:12.95ID:4tsgHbNM0
ロールプレイ依頼時に画像も収集してきてflux1あたりの高級な画像生成モデルのLoRA勝手に作って
応答するたびにそのコメントに合った画像を生成する・・・
のは今でも技術的にはできそうやけどそこまでの高機能なのは需要なさそうで作る人もいなさそうやな
0080名無しさん@ピンキー (ワッチョイ efab-KB/z)2025/05/12(月) 13:57:26.53ID:RozHuKzp0
ワイ、grok-3-betaとかfast-betaで條澤広ちゃん憑依させてあそんどるけど、モデルの素地が理系頭なのが関係してか、プロンプトで固めなくてもかなり広ちゃんで満足や
口調に関しては特徴的な語尾を中心に10個例示した程度だけで、特に例文に入れてないのに「ワクワクするね?」とか言ってきてくれてめっちゃ広ちゃんで嬉しい
0081名無しさん@ピンキー (ワッチョイ 439a-o2kj)2025/05/12(月) 14:19:17.32ID:VR31sma10
ローカルのスレだけどローカルモデルに限らないならキャラなりきりはGeminiが抜けてる感じがあるな
こういうのはモデルの規模が物を言うからローカルはまだ厳しい
0082名無しさん@ピンキー (ワッチョイ efab-KB/z)2025/05/12(月) 14:27:01.37ID:RozHuKzp0
Geminiって倫理フィルターどうなん?
0084名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/12(月) 15:16:16.71ID:xpvanbmK0
>>66
チャットテンプレートやモデル自体の目的が違うからやろね
Wannabeは入力欄を自動的にwanabi 24bで学習させた形式に変換してるから内部的にはtekken V7(mistral small3)のチャットテンプレートなんや
kobold(自動的にqwen3のチャットテンプレートを使用)なら動くけどwannabeでは動かないのはそういうことや
そもそもWannabeは指示文から何から何までガッチガチに専用モデルに合わせてるから一般的なモデルを組み合わせるならEasyNovelAssitantの方がええやろな
プロンプトやチャットテンプレートを指定できたはずやし
0086名無しさん@ピンキー (ワッチョイ 3ff3-OGf6)2025/05/12(月) 19:00:14.45ID:WYVgugKJ0
ベンチマークというものは攻略可能だから、で性能差が1%!って出たらこの指標はもう死んでるなと解釈するのが妥当では
差があることなんて触ってみれば誰にでもわかる話だし
0087名無しさん@ピンキー (ワッチョイ 3f7e-KB/z)2025/05/12(月) 22:03:20.50ID:fBtqwjV90
https://cohere.com/research/papers/how-does-quantization-affect-multilingual-llms-2024-07-05
(1)量子化の有害な影響は人間の評価で明らかであり、自動指標はその悪影響を大幅に過小評価していることを発見しました。自動タスク全体での日本語の平均1.7%の低下は、現実的なプロンプトで人間の評価者が報告した16.0%の低下に相当します。
(2)言語は量子化によって異なる影響を受け、非ラテン文字言語への影響が最も大きいです。
(3)数学的推論などの難しいタスクは最も急速に低下します。
0089名無しさん@ピンキー (ワッチョイ 33ca-aBcW)2025/05/13(火) 05:19:05.25ID:thJbNjvA0
>>70
サンガツやで
前スレニキのいう通りやったね、それを確認したかったんや
擬音ばかりになってもうた

>>84
なるほどそういう仕組みやったんたね
ワイのような初心者にはオートマみたいな便利さがあってホンマに助かっとるけど
そこから外れるピーキーなモデルもあるんやな
ありがとうやで
0092名無しさん@ピンキー (ワッチョイ 4338-m4Fo)2025/05/13(火) 11:23:40.44ID:5FBdETti0
>>87 ありがとう
自分が見たのはこれじゃないけど8/4bit量子化の表があるね
人間評価の項目で、日本語はわからんでもないけど
フランス人が厳しいのかひどい評価になってる

また103BだとMGSM(多言語数学ベンチ)で 8.8%の低下だけど
35Bだと 13.1%だから体感は酷い事になりそうだ
0095名無しさん@ピンキー (ワッチョイ 7f7e-fS5K)2025/05/13(火) 14:58:49.37ID:cTHuCwdA0
>>93
これはコンテキストウィンドウというより、コンテキストにどれだけ突っ込むかが問題で、設定でどれだけウィンドウを広げても実際にうまく扱えるのはせいぜい4K程度(というモデルが多い)、って話なんじゃないかな
0097名無しさん@ピンキー (ワッチョイ bf35-6cIy)2025/05/13(火) 15:20:52.29ID:UKC8ykUW0
>>90
違う

今までもvision対応していたが、コマンドラインの場合、
普通のLLMを使うときは "llama-simple -m モデル名 -p プロンプト"
VLMを使うときは "llama-llava-cli -m モデル名 --mmproj mprojモデル --image 画像 -p プロンプト"
のように違うコマンドで対応していた

今回対応したのはllama.cpp標準のWebUIで使う場合("llama-server -m モデル名 ")

今までWebUIで使うときはブラウザから文字しか入力できなかったんだけど、今回の
アップデートで画像を入力できるようになった

ちなみに内部でllama.cppを使用しているkoboldcppのWebUIでは前から画像入力に対応している
0100名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/13(火) 20:37:06.85ID:O2T+dFUm0
コンテキスト長が伸びれば伸びるほど性能下がるのは体感通りだな
例えばgemini 2.5 proだと10万トークンまではほぼ劣化なし、20万までは性能やレスポンス低下が見えるけどまあ使える、20万以降はハルシネーションや現在のタスクと過去のタスクの混乱が増えてまともに使えないって感じ
ローカルの微調整モデルだと学習時のコンテキスト長が短い(大体4096以下)だからより顕著やろしな
0101名無しさん@ピンキー (ワッチョイ cfa9-wTYv)2025/05/13(火) 21:11:35.45ID:/+QPsiaf0
IntelハイエンドGPU持ってないし
GPUそのままにVRAMマシマシラインナップとか全然やれると思うんだよな・・・
GDDR6でいいから30万くらいで128GB版とか

そういうラインナップそろえだしたらソフト側の対応は勝手にみんながやってくれるだろうし
Intelやってくれへんかなぁ
0104名無しさん@ピンキー (ワッチョイ 7399-KvkU)2025/05/14(水) 19:44:16.14ID:Zo1jp2G/0
今ってユニファイドメモリじゃないPCはCPUやNPUで動かしてRAMで動かしてるの?
0105名無しさん@ピンキー (ワッチョイ 53ce-9L8h)2025/05/15(木) 02:18:09.89ID:c4xck2YD0
intelはB580x2+48GBか。
B580にチップ間接続用のポートとかあるとは思えないから、
たぶんPCIeブリッジで繋いでるだけだろうな。
それでも48GBはかなり良い。
0108名無しさん@ピンキー (ワッチョイ 5389-9L8h)2025/05/15(木) 20:12:31.82ID:HU+ywqaX0
Silly Tavernでキャラ設定を1500tokens記述してもうまくいかないのはこのためか
Content Lengthは受付可能な長さであって理解している長さではないとは……
0109名無しさん@ピンキー (ワッチョイ cf20-/WPO)2025/05/15(木) 21:35:05.54ID:s6ZPhXWD0
ローカルで今のGeminiくらいのレベルの動かせたら最高なんやけどなあ
0111名無しさん@ピンキー (ワッチョイ a3f0-LVTp)2025/05/16(金) 01:02:22.93ID:zPRIPccK0
コンテキストサイズが大きくても知ってる奴には大して喜ばれないのがそれやな
どうせコンテキスト増えたらまともに動かんの知ってるから
0112名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/16(金) 01:21:23.76ID:KWeVTs2u0
vRAM16GBぐらいでAIのべりすとレベルが動いてくれたらかなり満足する気がする
あいつオーパーツすぎんだろ
0114名無しさん@ピンキー (ワッチョイ cf7a-pbnj)2025/05/16(金) 02:45:45.21ID:KWeVTs2u0
今というか数年前のAIのべりすとが凄いなって話、いまだ進化してるんだろうか

あそこまで日本語の文章紡げてなおかつどっかの汎用モデルそのまみ動かしてるとかじゃないから日本語圏のネタとかが通じること多いし
0115名無しさん@ピンキー (ワッチョイ 4387-9L8h)2025/05/16(金) 05:05:22.21ID:NDKGOZfP0
intelマザーってx16スロットをx4x4x4x4に分割したかったらXeonからになるのね・・・
今あるA770-16GB2枚をさらに増やすためにリグフレームやら諸々そろえてうっきうきで組んでたら、
中古で買ったz690マザーがx8x8分割しか出来なかったわ。
AMDの方はB450とかでもx4x4x4x4分割設定あったから普通に出来るもんだと思ってた。
0119名無しさん@ピンキー (ワッチョイ 3fec-9L8h)2025/05/16(金) 17:05:13.56ID:X0xY2ZKE0
>>117
gemma3 12b qwen3 14bが出てきてるからもう少ししたら色々とファインチューニングモデル出てくると思うよ
ベースモデルから検閲厳しいからこのスレの使い方的には微妙だろうけど
0124名無しさん@ピンキー (ワッチョイ c0a9-dAft)2025/05/17(土) 05:18:37.87ID:KGLngktH0
intel arc b770が16GBで出るかもって噂出てて、
さらにボードベンダーからb580を2個使った48GBのカードが出てくるって噂と合わせると
将来的にb770を2個使った64GBのモデルが出てきてもおかしくない・・・?
0125名無しさん@ピンキー (ワッチョイ be33-heYV)2025/05/17(土) 08:27:38.26ID:IODRfGV/0
むしろ中国がLLMに特化した
ミニPC出してきてもおかしくない……

4090魔改造するならそういうのも頼むで……!
禁輸くらっとらん素材なら潤沢にできるやろ頼むわ
0128名無しさん@ピンキー (ワッチョイ edbe-eIEy)2025/05/17(土) 10:46:50.48ID:1ZXEfXBW0
AI半導体に関してはAMDとIntelが期待外れだったってのもある

Huaweiは自社チップ向けにTensorFlowやPyTorchのバックエンドを作る位の技術力はあるし、プロセスが数年遅れててもデータセンターならゴリ押しできる

AI研究者の半数以上は中国人って調査もあし、当のプロセス進化も足踏み状態
ここはみんなで協力して乗り切るのが人類全体利益になると思うんだけどね
0129名無しさん@ピンキー (JP 0H07-heYV)2025/05/17(土) 14:20:31.96ID:eir/EweWH
CUDAがなぁ(´・ω・`)
0130名無しさん@ピンキー (ワッチョイ 00bc-mR1Y)2025/05/17(土) 14:25:14.32ID:jvzrCaRm0
LLMモデルに検閲無しのファインチューニングしたいんだけど既存のNSFWファインチューニングニキらは一体どこのデータセット使ってるんや…
まさか自分で1から準備するとかないよね?
0132名無しさん@ピンキー (ワッチョイ 00bc-mR1Y)2025/05/17(土) 15:32:18.86ID:jvzrCaRm0
>>131
ありがてぇ…
0134名無しさん@ピンキー (ワッチョイ 00bc-mR1Y)2025/05/17(土) 16:26:04.09ID:jvzrCaRm0
>>133
あれ傑作よなワイも低俗で上質なデータセット欲しい
無駄に理屈的(小説的)じゃない言い回しが臨場感あってよい
ハートマーク多用する低俗な言い回しも合ってる
漫画の絡み中の短いセリフとかを学習させまくってるのかな
0135名無しさん@ピンキー (ワッチョイ da7a-xkjl)2025/05/17(土) 16:37:00.90ID:sObGMPqJ0
多分そうだと思う
小説から学習させたのがNSFWでエロ同人から学習させたのがERPなんじゃないかな
喘ぎ声のバリエーションが豊富で他のモデルみたいに出し惜しみせず喘ぎまくるし
しかもアナルを責めた時だけおほっ♡とか、んおおっ!?って言い出すのほんと解像度高くて笑う
0136名無しさん@ピンキー (ワッチョイ be75-WIAZ)2025/05/17(土) 17:13:20.99ID:w9ZW+JGn0
20万くらいでgpt4クラスが動くようにしてくれ
チューニングできるなら3.5でもいいけど
0142名無しさん@ピンキー (ワッチョイ bee2-u0sY)2025/05/18(日) 12:07:11.17ID:VSENzPC/0
w
0144名無しさん@ピンキー (ワッチョイ e6f0-fjSQ)2025/05/18(日) 23:56:08.64ID:7V5PApoN0
「リグ続き。
A770に続いて手持ちのRTX2070も認識せず。
押し入れから引っ張り出してきたGT710とGTXX660は問題なく動作する。
GT710とGTX660を同時にPCIe x16に接続しても両方認識する。
ライザーカードのPCIe電源ライン用にSATA電源を接続しているのだが、
電源供給が足りないのだろうか。
電源供給量が多いライザーカードを探してみないと。
見つかるかな?」
この文章をバイオハザードの研究員の日記風に改変してください。
0147名無しさん@ピンキー (ワッチョイ cd08-eKVg)2025/05/19(月) 15:16:19.08ID:J3NCIUm50
kobold AIってLoRA使える?
インストールして起動してみたものの使い方わかんねぇ
検索しても情報少ないのな
0152名無しさん@ピンキー (ワッチョイ 007a-jzjh)2025/05/20(火) 00:41:54.88ID:ft2LOxrW0
google ai studioで全然Androidの仕様とかわかってないのに個人使用では実用レベルのスマホアプリ作れちまった

ハルシネーション起こして正しくない文字列で参照してたり、何度手直してもダメな実行順で関数記載しちゃったりとかはあったけど
バグ部分の違和感さえ人間が気づければほぼリライト任せる形でここまで作れちゃうの革命すぎる
0154名無しさん@ピンキー (ワッチョイ eaec-fjSQ)2025/05/20(火) 01:01:52.98ID:hbszdRYX0
システム的にはにどう認識されるのか気になる
単なる24GB x2として認識されるのかちゃんと単一のGPUという扱いになるのか
例えば古のRadeon R9 295X2だとGPU間をpcie gen3 x48で繋いでたらしいから同じような仕組みなのかな pcie gen5 x48だとしたら6000Gbps 750GB/sだから単一GPUとして48GB使えてもおかしくない
帯域幅的にLLM的だとゲームチェンジャーにはならないと思うが動画勢にとっての救世主やろな 画像生成の3060的なポジション
0155名無しさん@ピンキー (ワッチョイ 557e-fjSQ)2025/05/20(火) 01:27:15.60ID:XMQcDkMw0
B580のままだろうから接続は
B580 x16 ブリッジ x16 B580
だと思うよ。
PCIeインターフェースの面積も馬鹿にならんし。
0156名無しさん@ピンキー (ワッチョイ eaec-iXKU)2025/05/20(火) 02:12:15.86ID:hbszdRYX0
仕様でてた
{
2基のArc Pro B60はそれぞれPCI Express 5.0 x8で接続されるため、利用に際してはマザーボード側がPCI Express 5.0 x16からx8 + x8へのレーン分割をサポートしている必要があります
}
内部ブリッジすら無さそうね 前のSSDが積める4060tiのGPU版か
0157名無しさん@ピンキー (ワッチョイ 557e-fjSQ)2025/05/20(火) 02:53:31.23ID:XMQcDkMw0
リグを組むのが簡単になる感じね。良いね。

リグ続き。
2枚あるAcer Predator BiFrost Intel Arc A770 OC 16GBが極端に気難しい疑惑が出てきた。
何か気に食わないことがあるとすぐに安全増値が働くっぽい。
昨日届いたマイニング用のx1ライザーだとRTX2070は動くようになった。
このライザーにはPCIe6ピン電源端子があり、電源供給が改善されたからだと思う。
でもAcer Predator BiFrost Intel Arc A770 OC 16GBは動かない。
もう何も分からないから分割とかしない普通のライザーを尼でポチッた。
これで動くと良いなぁ。
0158名無しさん@ピンキー (ワッチョイ c5e1-dnmW)2025/05/20(火) 05:24:29.80ID:vmRqygBx0
48GBはただのニコイチカードやな、コレジャナイ感

https://www.tomshardware.com/pc-components/gpus/maxsun-unveils-intel-dual-gpu-battlemage-graphics-card-with-48gb-gddr6-to-compete-with-nvidia-and-amd

24GBはワークステーション向けらしいけど単品販売は500ドル前後、日本やと10万くらいか?
https://www.tomshardware.com/pc-components/gpus/intel-launches-usd299-arc-pro-b50-with-16gb-of-memory-project-battlematrix-workstations-with-24gb-arc-pro-b60-gpus
0161名無しさん@ピンキー (オッペケ Srd3-IbdF)2025/05/20(火) 09:48:13.99ID:olru+zVKr
Azure AI FoundryとWindowsのMCP対応によって、MCPを上手に扱えるローカルLLMのニーズが出てきそう
日本語FTしたLLMのニーズってどこにあるのか 謎だったけど、ココにあるのか
0162名無しさん@ピンキー (ワッチョイ eaec-iXKU)2025/05/20(火) 10:14:13.60ID:hbszdRYX0
同じVRAM48GB族の中古A6000が50万 RTX 8000が25万 PRO5000が新品80万だから20万以内なら革命だな
逆に24GB版はFP8がいらない用途なら値段含め中古のRtx3090で良さそう
0165名無しさん@ピンキー (ワッチョイ ec8a-Y0zr)2025/05/20(火) 11:03:48.71ID:V9CsxRbp0
DGXはドライバーが不安だ。いまデータセンター用のBlackWellでも大混乱中
あと128Gじゃ足りないんよ。256G以上の出してくれ。バス幅が足りないのはこの際おいといて
でもマザー直付けなら1024bitくらいほしい
PS2が4096bitなんだからできる筈?
HMBのメインメモリ用の改良が進んでるからDDRからの脱却も期待、とはいえ個人用だと2年後くらいか?
0169名無しさん@ピンキー (ワッチョイ ecb6-fjSQ)2025/05/20(火) 13:14:29.52ID:EpOCsUcx0
GDDR6を512bitならGDDR7を512bitよりハードル低いだろうから、
GDDR6の512bit両面実装で2GBx32の64GB積んだ奴が欲しいですね。
0170名無しさん@ピンキー (ワッチョイ c0a9-dAft)2025/05/20(火) 16:40:26.06ID:OE1T9HoO0
なんかこの感じだと来年にはさらにVRAMがたくさん載った製品がどこからか出てきそうではある
でもまぁ来年以降までのつなぎとしてさっさとDGX Spark買って128GBのようなVRAMを使ったLLMに慣れとくって感じかなぁ・・・
0171名無しさん@ピンキー (ワッチョイ ecb6-fjSQ)2025/05/20(火) 17:13:42.07ID:EpOCsUcx0
ktranformersのARC対応来てるな
0172名無しさん@ピンキー (ワッチョイ 9629-WIAZ)2025/05/20(火) 19:31:26.49ID:Cwf3ds990
エロ用途じゃなくて仕事でも実用的に使えるローカル動かしたいわ
0173名無しさん@ピンキー (ワッチョイ c46f-UUM3)2025/05/21(水) 12:06:56.77ID:VMhmUO1u0
128GB構成だとRyzen AI Max+ 395のノートpcと MacBook proどっちがええんや?
0179名無しさん@ピンキー (ワンミングク MM2e-/5ow)2025/05/22(木) 10:22:36.52ID:T0sTcZ3bM
gemma3-12b-itの調整してみようとcolabでロードしたらgpuメモリバカ食いして
A100でもほぼまともに動かないんだけどgemma3の仕様?
他のモデルの同規模モデルならこんなメモリ使わないんだけどな
0180名無しさん@ピンキー (ワッチョイ fcfb-Bvsn)2025/05/22(木) 16:01:50.83ID:MqaDOyYa0
Berghof-NSFW-7Bでエロエロ小説を生成してるんだけど、このモデルはどんな要求でもこなしてくれるんだけど、コンテキスト長が4096なのだけが唯一の不満点。
こういうほぼなんでもOKのモデルで最大コンテキスト長がもっと大きいモデルってあるんかな
0181名無しさん@ピンキー (ワッチョイ e281-fjSQ)2025/05/22(木) 19:05:01.15ID:rh/uH6OR0
ローカルだとqwq 32Bがロングコンテキストのベンチが良かった気がするからqwq系かね
0182名無しさん@ピンキー (ワッチョイ 056b-Y0zr)2025/05/22(木) 21:05:39.26ID:PK2p9HAo0
掲示板の書き込みでshift-jisとutf8の変換で文字化けしているようです。
以下のメッセージを、意訳せず論理的に元の日本語に戻して。
前後の話題としては、M4 MaxのMacBookPro(MBP)とRyzenでLLMを動作させる話題があったのでその関係かも。
>>175 を渡す

Qwen3-32b
M4 MaxのMBPではLLMがMacで実行できるが、Ryzen搭載機でもLLMをMac上で動作させる。

c4ai-command-a-03-2025
M4 MaxのMBPはまだ高嶺の花ですが、Ryzenの方がLLMはMacの壁が厚そうですね。

一応 GPT4.1
M4 MaxのMBPで動かすのとRyzenの自作機でLLMを動かすのは、Macの方が有利だったりする?

ちなみに文字化け変換サイトで正解がでるよ。暗号解読が得意なLLMってあるんかな?
0183名無しさん@ピンキー (ワッチョイ 007a-jzjh)2025/05/23(金) 00:50:32.06ID:I8MvikNQ0
llmを解読の補助に使うなら復号までは機械的にやって意味の通る物が吐き出されたかどうかの判定に使うのが良さそう
0185名無しさん@ピンキー (ワッチョイ ef64-oPLX)2025/05/24(土) 00:07:54.07ID:bdaqM82G0
Project Wannabeでロリエロ小説生成に向いたモデルってどのあたりでしょう?
VRAMは16GBx2です。
0186名無しさん@ピンキー (ワッチョイ 3fec-oPLX)2025/05/24(土) 14:53:57.04ID:j2cdjv2K0
mistral nemo 12bベースのwanabi mini 12bを公開したぞ  12GBもあれば快適に動くとようになったはずや 24B版も前の宣伝から更新しているので合わせて見てほしいで 量子化の種類も増やしたで
https://huggingface.co/kawaimasa/wanabi_mini_12b_GGUF
特定の形式に特化したFTモデルだからkobold経由の以下のGUI以外では多分まともに動かないので注意や
https://github.com/kawaii-justice/Project-Wannabe
学習時のコンテキスト長は32Kである程度長い文章でも扱える+チャット形式の生成ではないためマルチターンによる性能低下も発生しないから小説生成にはこの方式が最適やと思ってるで
とりあえず試したい人はベンチマーク代わりにお気に入りの小説を本文欄にコピーしてレーティングだけを設定して続きを書かせてみてほしいで結構良い線いってるはずや 自分の所感やが12B版は24B版よりも低い温度にするとちょうど良いで
0187名無しさん@ピンキー (ワッチョイ 3f02-oPLX)2025/05/24(土) 20:37:11.62ID:e3a5IQWJ0
>>186
いただきます
0189名無しさん@ピンキー (ワッチョイ e3c6-nh/d)2025/05/25(日) 02:03:12.82ID:YaNnPRND0
SillyTavernでGoogle APIの時は日本語で会話できるんだけど、LM Studioサーバーに繋いでポート経由でQwen3 30B A3B使ったら全部英語になった…なぜ?
0193名無しさん@ピンキー (ワッチョイ e39e-GcMG)2025/05/26(月) 12:14:43.03ID:mXH4e4ZZ0
Ryzen AI MAXはMACのM1 MAXみたいな性能でもしょうがないけど
Radeon AI PRO R9700は2枚挿したら画像生成能力もRTX 5090に近いものになって欲しいな
今のところは無理そうだけど
0198名無しさん@ピンキー (ワッチョイ e39e-GcMG)2025/05/26(月) 16:27:03.87ID:mXH4e4ZZ0
ここで今RDNA4対応のROCm 6.4.1の速度検証中みたいなんで
良い結果が出ればRadeon AI PRO R9700の購入を検討したいところ
https://github.com/ROCm/ROCm/issues/4443
0201名無しさん@ピンキー (ワッチョイ cfc6-ZxZL)2025/05/27(火) 00:44:36.36ID:2K8oApBJ0
mistralnemoとmistralsmallのロールプレイの指示プロンプトってどういうのが良いんだろ?
ちょっと進めるだけでセリフとか行動が繰り返しの展開になるよね
0208名無しさん@ピンキー (ワッチョイ e377-ElKC)2025/05/27(火) 13:50:47.62ID:j/rkKysz0
lmスタジオ触り始めたワイに最近ホットなエチエチモデルこっそり教えて
0210名無しさん@ピンキー (ワッチョイ e377-ElKC)2025/05/27(火) 17:21:24.36ID:j/rkKysz0
>>209
ホットやけど個人で使えるレベル超えてないか?ワイの3090tiでも無理そうなんやが
0211名無しさん@ピンキー (ワッチョイ 5367-ElKC)2025/05/27(火) 20:44:47.86ID:Khy5JY5E0
magnum-v4-27bとか色々使ってみたけどエロ会話どころか日本語も安定しないな画像生成AIみたいに日本語強いモデルとエロモデルでマージみたいな事は簡単には出来ん感じ?
0213名無しさん@ピンキー (ワッチョイ cffb-oPLX)2025/05/27(火) 22:52:07.26ID:bc4+kV0z0
>>211
gemmaみたいな規制強いモデルにエロファインチューンすると使ってるデータの言語に過剰適合しちゃう感じ
mistral系ならちゃんとした日本語返してくれるよ
0214名無しさん@ピンキー (ワッチョイ 0383-ElKC)2025/05/28(水) 19:58:00.90ID:ijGRRwkN0
色々試してberghof-erp-7bが今ん所エチエチの解像度高く正確にレスポンスしてくれるんやがコレより更にいいモデルってなるとある?
0215名無しさん@ピンキー (ワッチョイ cfd9-Qnse)2025/05/29(木) 01:11:59.57ID:LI3y/jIC0
サイズにこだわらなければMistral系列のもうちょい大きめなやつベースのモデルが良いんじゃない?
BerghofもMistralベースだしmagnum-v4-123bもそうだしMistral系列は俺たちみたいな用途の人間にとっては最強なイメージ

日本産モデルでどっかがエロテキストとかフィルタせず食わせまくってるとかあればポテンシャルは高そうだけどないのかな
0216名無しさん@ピンキー (ワッチョイ 3f21-ElKC)2025/05/29(木) 06:51:05.05ID:fTvJ5RgK0
スプレッドシートとか使ってスレ民で寄り合ってチマチマデータセット作るとかも考えたことあるが
0218名無しさん@ピンキー (ワッチョイ 3f21-ElKC)2025/05/29(木) 07:18:11.62ID:fTvJ5RgK0
>>217
それがあるから代替案模索しとるんやけどなかなか
正直文章程度でbanとかふざけんなよって思うけどそもそものLLMのエロ規制も含め世知辛い
0227名無しさん@ピンキー (ワッチョイ efc8-I9TV)2025/05/29(木) 20:00:36.79ID:OQIYzoML0
>>205
すいません
購入を考えているのですが
AI最適化済みのWIN11って普通のものと何か違ってましたか

用途によるんでしょうが、radeonで困ることってありますか
0228名無しさん@ピンキー (ブーイモ MM5f-3IWN)2025/05/29(木) 21:07:57.72ID:De9VSIVPM
>>227
きちんと検証した訳じゃないけど多分普通のwin11じゃないかな
radeonで困ることはおそらくあると思う
lm studioでrocmランタイム有効にするのも一手間かかったし
ユーザー増えて対応進むといいなと思ってる(他力本願)
0229名無しさん@ピンキー (スプッッ Sd5f-J0oL)2025/05/29(木) 21:13:18.31ID:HZQgz9qxd
Ai(LLM)で人物とかの設定と細かいストーリーラインを指示して小説風に仕上げることを繰り返して物語を作りたいのですが、おすすめありますか?
0234名無しさん@ピンキー (ワッチョイ 8fc8-O274)2025/05/30(金) 05:53:08.32ID:mY97NSrc0
RADEONてローカルLLMで使えるんでしょうか?
メモリ容量だけ見るとNVより有利に見えるけど...
0243名無しさん@ピンキー (ワッチョイ 3f9f-FD3H)2025/05/30(金) 23:27:36.72ID:WWTGK6G80
>>238
ていうかSambaモデルがMacというかMLXで動くのか
実はApple Silicon Mac持ちなのでMLXで動くなら動かせるんよ
で、中の人がtranslateの方もMLX用の量子化モデルを作ってくれていたので動かせた
(Model treeのリンクが間違っているので量子化モデルの存在に気付けなかった)
https://x.com/mitmul/status/1927960884103762302
https://huggingface.co/mlx-community/plamo-2-translate
0246名無しさん@ピンキー (オッペケ Sr97-PO4I)2025/05/31(土) 22:50:30.63ID:NoEL71Wjr
>>236
Linuxってwslでもいいの?
0249名無しさん@ピンキー (ワッチョイ a2c7-8HDr)2025/06/01(日) 16:39:51.03ID:41bXt3zO0
deepseek-R1-0528のIQ2_XXS動かしてるんだけど日本語は自然になってるね

でも小説書かせてみたらmagnum-v4-123bほどではないんだけどそんなもんかな?
0251名無しさん@ピンキー (ワッチョイ b2ec-SiyO)2025/06/01(日) 22:46:27.41ID:mIad1fRF0
小説性能ってベースモデルの事前学習時点で決まる感じやから当分は来ないやろね
qwenやgemmaは明らかに学習データをフィルタリングしてるしmistralも最近はSTEM重視の姿勢でクリエイティブ性能落ちてる
deepseekはかなり緩めだけどそれで越えれないなら厳しい 
0252名無しさん@ピンキー (ワッチョイ 724a-rQsc)2025/06/02(月) 00:41:51.92ID:Z/D3ETlA0
magnum-v4-123b使うときGPUとRAM何GB消費してる?
RTX3060 12GBと32GBしか積んでなくて、どれくらい増せばよいのか知りたい
0253名無しさん@ピンキー (ワッチョイ ef32-kszJ)2025/06/02(月) 01:01:34.86ID:PL5oy1lz0
>>252
メモリは最低でも64Gないと動かん
64GでもIQ3_Mの量子化が限界
96GあればQ5_K_Mが動くが、メモリで動かすと絶望的に遅いからお勧めしない
ワイは64Gで動かしてるが、プロンプト打ち込んだら、別の事して30〜40分掛かって512トークン終わる感じだわw
3080tiの12GのVRAMは一応使ってるが、あっても無くても変わらんレベル
しかもmagnum123Bは日本語トークン対応してないみたいで、1文字2トークン使うから、対応してる70Bの体感3倍遅いwww

RTX6000proQ-Maxが欲しいいいいいいい
このグラボでフルスペックの512G mac買えるけど画像AIにも使えるしマジ悩むw
0261名無しさん@ピンキー (ワッチョイ 66de-HBKV)2025/06/02(月) 18:05:42.44ID:VrKdnv2l0
結局マシンスペックに帰結するんだよな
もっと手軽に高品質な官能小説出したいだけなのに
0262名無しさん@ピンキー (ワッチョイ bb0a-rkY2)2025/06/02(月) 19:39:50.13ID:Pz4Lw+jF0
楽しみながらデータセット無限生成編始まった一粒で6度美味しい
こういうのみんなで出し合ったらデータセット簡単に作れそうやけど情報偏りそう
https://i.imgur.com/AYt6MwY.png
0264名無しさん@ピンキー (ワッチョイ 52d4-SiyO)2025/06/02(月) 22:26:51.97ID:L4/XXPNV0
最近ローカルでLLM使えるの知って今日始めてSilly Tavernでオリキャラと会話して遊んでるけど
なんか緊張して関係性進展しなくて草
でも昔恋愛シュミレーションゲームやってて選択肢をどっちにするかとか考えて楽しかったけど
こっちは無限にいろんな分岐があるゲームをやってるみたいで更に楽しいね
0265名無しさん@ピンキー (ワッチョイ fec8-npAY)2025/06/02(月) 22:48:20.98ID:I2aTIrKa0
Project-Wannabeの作者様へ
いつも使わせていただいております
ありがとうございます

要望なのですが
・出力されたものは全てパラメータjsonやkcppsと共に
logとして残しておくことはできないでしょうか
・デフォルトの生成パラメータ数値ヘ簡単に戻すことはできないでしょうか
・出力時に1行ずつ空白行を挿入(改行)されてしまうことが多いのですが、
それをさせないようにすることはできないでしょうか
0268名無しさん@ピンキー (ワッチョイ b6bc-lbRc)2025/06/03(火) 19:48:55.49ID:Uf3qAznp0
学習データって>>262のように同じテーマで口調を変えただけのものを用意するのと
バラバラなテーマで口調を変えたものを用意するのとどっちが適してるのかな
もちろんトータルのデータセット数は同じだと仮定した場合ね
前者でいいなら楽にデータセット用意できるけど後者だと内容考えるだけでも大変なんだけど
0269名無しさん@ピンキー (ワッチョイ b6d9-KDLv)2025/06/04(水) 09:20:46.17ID:+oV0wOD20
後者のほうが良いよ
基本多様であれば多様なほど良いと思って良い
テーマのリストとか口調のリストとかをGeminiとかで大量に書かせてリスト化してランダムに組み合わせてLLMに合成させる感じとかでそれなりに多様にはできると思う
0276名無しさん@ピンキー (ワッチョイ 42e3-L/D9)2025/06/04(水) 19:08:02.68ID:a5Ck1WYB0
3.1なんてもう化石だろjk
0277名無しさん@ピンキー (ワッチョイ 7fba-RMgv)2025/06/04(水) 19:33:05.22ID:AUnMmnLx0
>>275
70Bなんか動かせるマシン持ってるやつ少ねえよってのと最近は性能大幅に落としてもいいからエッジデバイスでいかにそれっぽいのを動かせるかに研究が移ってるっぽいからなあ
0278名無しさん@ピンキー (ワッチョイ b6bc-lbRc)2025/06/04(水) 19:56:58.96ID:FvknF98Q0
>>269
やっぱりそうかぁ
以前、内容や名詞をスクリプトで自動的に組み合わせて生成した金太郎飴みたいなデータセット1万件ぐらいを使ってLoRA作成したんだけど
推論結果が同じく金太郎飴みたいになってて全く使い物にならなかったんよ
質問文は自力で頑張って用意してそれをLLMに蒸留させてデータ作成するのが一番現実的そうやね
ただOpenAIは蒸留に対する検知厳しくなったみたいだしローカルLLMで蒸留させるしかないのかな
0282名無しさん@ピンキー (ワッチョイ 9fcc-bdW6)2025/06/07(土) 00:48:13.65ID:39KDc2wv0
>>281
Instruct版のSpaceあったので遊んでみたけど、ハルシネーション抑制、ってあったけどInstruction Followig、Groundnessともに怪しい感じでこれで4o越えは評価のスコープを思いい切り絞らないと、って印象
文体は自然でそこそこなので惜しい感じ
フルスクラッチ日本語モデルって点では今後に期待
111B多言語対応のCommand-a越えを期待してたんだけど...
0284名無しさん@ピンキー (ワッチョイ 9fcc-bdW6)2025/06/07(土) 01:08:50.77ID:39KDc2wv0
>>283
あ、そうかも
いまもう一回検索したらStockmark-2-VL-100BではSpace出てない感じだった
楽しみが増えた、ありがとう
0292名無しさん@ピンキー (ワッチョイ d36a-jj0/)2025/06/08(日) 18:57:30.93ID:CFh7R3fZ0
ストックマークってだめな会社なん?🤔
0293名無しさん@ピンキー (ワッチョイ a332-e2Mg)2025/06/08(日) 19:40:31.40ID:UHwTbmjA0
世間一般ではダメじゃないかもしれんがスレの評価が低かっただけ
でも、どんなベンチマークの評価よりこのスレの評価の方が参考になるんだわw
0297名無しさん@ピンキー (ワッチョイ 57d9-3NuF)2025/06/10(火) 01:12:25.58ID:QqWnFUnK0
NemoAuroraちょっと試したがかなり饒舌な感じで淫語とかも普通に出やすいな
この人のモデルにしては珍しく小説系とかそっち寄りな感じがする
この辺はHimeyuri-12Bとかをマージしてる影響かな?エロ系はかなり自然な感じ
その分何回も会話してるとだんだん応答が長くなって行きがちだから適度に過去会話をカットしてあげると良さそう(SillyTavernとかなら楽)
README読むとコンテキスト長32kで学習されてるみたいだけど実際そこまでいけるならかなり実用性ありそう
0298名無しさん@ピンキー (ワッチョイ 8732-+HAl)2025/06/10(火) 09:27:53.11ID:+5w+8cqP0
エロokの配信サイトとか最近やと何処がええんやろ?ワイのAIライバーをニキらのオモチャにしてみたい
0300名無しさん@ピンキー (ワッチョイ d36a-Lyjn)2025/06/10(火) 14:58:04.41ID:yNzdttZM0
文字化け野郎がまた来た😅
0302名無しさん@ピンキー (ワッチョイ d36a-Lyjn)2025/06/10(火) 15:45:35.63ID:yNzdttZM0
設定変えてみてよ
0303名無しさん@ピンキー (ワッチョイ 8732-+HAl)2025/06/10(火) 16:51:31.40ID:+5w+8cqP0
fc2とかええかなって思ったけどツールでコメント拾う手法が確立されてないんか
0306名無しさん@ピンキー (ワッチョイ 3349-bdW6)2025/06/10(火) 19:15:35.13ID:A45Fjgnl0
>>304
パフォーマンスリポートよろしく
0307名無しさん@ピンキー (ワッチョイ a373-59eZ)2025/06/10(火) 20:13:11.90ID:CUlHtuh60
Aratako/NemoAurora-RP-12B(Q3_K_S)触ってみた。
・一から書かせるのは微妙…?やっぱすぐ「以下省略」とか記号連発とかしてくる。
・チャット時の性格は、変な頑固さがなくて割と素直かも。法律・倫理に反する嘘を理詰めで教え込むのに成功した。
・なんか「NHK」好き過ぎん?よく出るような。あんまり脈絡なく「それで、NHKがNHKのNHKによるNHKのためのNHKNHKNHKNHK...」とか出た時は吹いた。
・既存短編を読み込ませて架空の読者コメントを書かせた場合の自然さ、理解力、多様さは過去一かも。
0308名無しさん@ピンキー (ワッチョイ 7be8-3NuF)2025/06/10(火) 22:09:58.40ID:MZrw5Gh50
>>307
小説書かせてる感じ?RPって付いてるしこの人の後悔してるデータセットとか見ても基本はロールプレイ用じゃないかな
読者コメント書かせるのはある種のRPなのか…?
0310名無しさん@ピンキー (ワッチョイ a373-59eZ)2025/06/11(水) 00:00:19.46ID:OXBPwywy0
>>308
読み込ませたのは過去の簡易TRPGリプレイ。
一応RPだけど、GM(AI)やNPC(AI)と自分の発言以外に地の文も有りで、ラノベ的。

>>309
CPU(Ryzen 5 7530U)+メモリ16GB(DDR4 8GB*2)のサブノートPC。
GPUが安くなったらメインPC(13年使用)組み直そうと思ってるが安くならんな…
その予算50万あるんで今でもそこそこの組めそうなんだが、今は時期が悪い。
0312名無しさん@ピンキー (ワッチョイ 97fe-4A8D)2025/06/11(水) 04:48:51.38ID:OcgwiSKm0
>>310
2年後くらいにはミニPCの進化でグラボよりええかもしれんね

いまスマホでもメモリ16Gでてきてるし
SoCもAI対応うたってるのあるしなんならLLMも積める言うてるし
シャオミも独自SoC作ったし
スマホもどうなるやろなあ
0316名無しさん@ピンキー (ワッチョイ a342-WjW6)2025/06/11(水) 11:29:03.07ID:XAorkN430
なんかこう、知識はないけど賢いモデルってのは出てこないもんかね
8Bくらいだけどfunction callingしてネットなりを検索して勝手に小説なりを読んで応用効かせて書いちゃうみたいな
そんなことできる頃にはシンギュラっちゃってるだろうが
0317名無しさん@ピンキー (ワッチョイ b7bf-X6eQ)2025/06/11(水) 11:36:03.24ID:AgCMDhvR0
賢くない奴がネットで得た知識だけで語るって地獄やんけ
ネット検索自体がゴミになっててそこから正しい情報吸い上げるには常識が必要なんちゃうか
0319名無しさん@ピンキー (ワッチョイ cfac-bdW6)2025/06/11(水) 12:44:55.54ID:Y1jv/Uee0
知識はないけど理解力と推論力が凄い、ってのは魅力ある
それこそが真の意味での知性ではないかと
0321名無しさん@ピンキー (オッペケ Sr2f-1c5u)2025/06/11(水) 16:58:35.91ID:v338i4Eyr
redditでスレが立ってたshisa-ai/shisa-v2-llama-3.1-405bって日本語最強モデルはどうなんだろ
東京にスタジオがあるらしいけど初めて知った

方言とか口調や人称ニュアンスが再現できる方向に進化してほしいな
0322名無しさん@ピンキー (オッペケ Sr8f-YMx6)2025/06/11(水) 17:03:10.46ID:FX+5gD3Jr
賢さ自体をよそから手に入れればよさそう
MCP時代のモデルは、何が分からないのかを判断する能力と、どこで聞けば良いのかだけを持っていればいいのかもしれん
0324名無しさん@ピンキー (ワッチョイ 8f4e-bdW6)2025/06/11(水) 17:42:25.04ID:0gofb7V30
4070tiで動く小説特化のオススメモデルある?
0325名無しさん@ピンキー (ワッチョイ eb09-6GmA)2025/06/11(水) 21:07:01.38ID:qnK6TeFS0
NvidiaのProRLって方法で1.5Bが7Bレベルの推論出来るようになったって話があるし
言語モデルは単純に記憶してるだけじゃなくて概念を理解して学習してるとかの話もあって
中小規模モデルでももっと賢くできそうな気配あるよ
0326名無しさん@ピンキー (ワッチョイ 5fd1-dZZ6)2025/06/12(木) 08:02:59.68ID:4K9Ttd3d0
単純な知識量はモデルサイズに比例するとして、理解力と分離できたらいいんだけどね
MCPでWebから検索するのは危険だから、別な知識タンクがあるといいんだけど
そうなればモバイルでも知識はSSD、理解力は内部メモリに分離できそう
研究者の方々は当然そういうことはやってるんだろうけど
0327名無しさん@ピンキー (ワッチョイ 47c8-bdW6)2025/06/12(木) 10:48:03.22ID:hOd2zX6t0
>>324
4070tiなら12GBのVRAMに収まるようにって考えるかもしれないけど、
小説目的ならチャットみたいにリアルタイムな応答は必ずしも必要ないからメインメモリも使ってでっかいモデル動かすのもありやで
0329名無しさん@ピンキー (ワッチョイ e7c6-+0+a)2025/06/12(木) 15:16:57.17ID:fUVDRnpn0
304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした
Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後
M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s

不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた
llama.cppのVerかパラが違うっぽい?
0332名無しさん@ピンキー (オイコラミネオ MMdf-J9Ai)2025/06/12(木) 17:20:00.25ID:QS6LCztLM
>>329
レポ乙

EVO X2の素の設定だと1.33 tok/s
EVO X2+TeslaP40だと1.81 tok/s

下はVRAMは最下限?の512MBにしてCPUとして動作させた。
あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな?
0335名無しさん@ピンキー (ワッチョイ 9fec-gw/n)2025/06/12(木) 21:09:53.56ID:5QWCQaBe0
知ってたけどdenseモデルだととんでもなく遅いな
40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう
0337名無しさん@ピンキー (ワッチョイ 6f7a-gw/n)2025/06/13(金) 22:12:27.22ID:scS7NRIV0
>>330
3台はすごいな、消費電力的にも。。
どんなモデルでも動かせるんじゃないか
0338名無しさん@ピンキー (ワッチョイ 8f7e-kPMq)2025/06/13(金) 23:11:59.05ID:Z6mL9jb40
>>331
70Bなら40Gは超えるから32Gの5090x1では厳しいだろ
もしx1.5が出たらいけるけど
0339名無しさん@ピンキー (ワッチョイ 8f7e-kPMq)2025/06/13(金) 23:14:37.51ID:Z6mL9jb40
>>337
3スロットx3?
凄すぎです
所謂ラックマウントなのか会社レベル
vram増やすにはいいけど電源問題もありなかなか
0340名無しさん@ピンキー (ワッチョイ 4654-x40H)2025/06/14(土) 01:37:39.18ID:sDfDV4np0
>>329
LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ
1.33tok/sは厳しいな

型落ちMacBookPro(M3 Max/128GB)で
Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s
Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s
くらい出るから大人しく次のMacStudioまで待つわ…
0341名無しさん@ピンキー (JP 0H47-zi4d)2025/06/14(土) 02:00:38.73ID:uPbPRNr/H
ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね?
VSCodeとか
0342名無しさん@ピンキー (ワッチョイ de63-oaEo)2025/06/14(土) 05:35:23.70ID:ws+NN3Wn0
そうわよ
0343名無しさん@ピンキー (ワッチョイ 3ac7-389c)2025/06/14(土) 05:57:14.07ID:lHmYYg7j0
>>337
>>339
さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ
電力ヤバいからPL絞って1枚200Wちょいにしてる
ちなみにマザボはお古だけどグラボが4スロット刺せるやつ
0345名無しさん@ピンキー (シャチーク 0C8f-k5nI)2025/06/14(土) 08:55:58.88ID:9oyQ8bR5C
llama.cppをdockerで動かしてる人
cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる?
sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど
0346名無しさん@ピンキー (ワッチョイ 7f1f-TYhh)2025/06/14(土) 12:46:56.14ID:0A7B7v9/0
12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。
0348名無しさん@ピンキー (ワッチョイ 8ec8-XzYo)2025/06/14(土) 18:34:42.83ID:+FoI+g7x0
EVO X2とX1ってどれぐらい性能違うの?
どっちも64GBだとして
0349名無しさん@ピンキー (テテンテンテン MMc6-zi4d)2025/06/14(土) 21:15:48.33ID:3evgydKRM
>>341
ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか
いいな
0353名無しさん@ピンキー (ワッチョイ 876e-DoF/)2025/06/15(日) 02:43:02.47ID:beLggd390
>>341
動く(動くとは言っていない)
みたいな状態にはなるけどな
プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか?
レスを投稿する


ニューススポーツなんでも実況