なんJLLM部 避難所 ★7
レス数が1000を超えています。これ以上書き込みはできません。
0001名無しさん@ピンキー2025/03/23(日) 14:58:05.71ID:bsaTSAD8
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/
0954名無しさん@ピンキー2025/05/09(金) 12:02:45.90ID:???
qwen3 8b nsfw jpのベースモデルを>>777と同じ基準で比較したけど
なかなか面白い 勢い全振り 前文との文章の整合性とか前の喘ぎ方とか全部忘れてずっとアクセル全開で騒ぎまくる感じ
エロいというよりうるさい 
0955名無しさん@ピンキー2025/05/09(金) 12:22:26.14ID:???
>>954
ファインチューニング前提なのかな
まぁベースモデルは基本的にそうではあるけども
0956名無しさん@ピンキー2025/05/09(金) 12:33:54.92ID:AaIseE7W
そのまま使うならERPで素材に使うならNSFWをチューニングしてどうぞってことじゃないのか
0957名無しさん@ピンキー2025/05/09(金) 13:56:51.95ID:???
指示追従型じゃないモデルは
指示に全然従わなくて出力内容が滅茶苦茶になる?
0960名無しさん@ピンキー2025/05/09(金) 15:19:26.04ID:???
>>959
速度アップ術というよりVRAM節約術やね
VRAMに乗り切らないサイズのモデル使ってるなら今よりVRAMに乗せられるようになるから結果的に速度が上がる、と
てことはVRAMに収まってる小型モデルでも今よりコンテキスト長を確保できるようになるんかな
めちゃ良さそうやん
0961名無しさん@ピンキー2025/05/09(金) 15:46:20.45ID:???
どのぐらいVRAM量変わるかこのページからだと分からんけど
書いてあるレイヤー数から考えると1割は削減できそうだな
0962名無しさん@ピンキー2025/05/09(金) 16:18:48.28ID:???
cohereのモデルがgemini2.5proくらい賢くなったら言うことない
来年には叶うかなあ
0963名無しさん@ピンキー2025/05/09(金) 18:08:53.45ID:???
今気づいたがsarashina2.2-3bって何の制限もなさそう

llama.cpp+sarashina2.2-3b-instruct-v0.1-Q5_K_M.ggufで
特別なことせず叡智小説を書いてくれた
0964名無しさん@ピンキー2025/05/09(金) 19:22:00.17ID:???
>>954
もう少し使ってみたけどやっぱりエロ小説関連ベースモデルの性能だけで言えばmistral nemoが14b以下じゃ抜けてると思う
やっぱり数十万円規模の学習じゃbaseモデルが劇的に良くなることはないという 
0965名無しさん@ピンキー2025/05/09(金) 19:27:16.54ID:???
30b以上じゃないと汎用品としては使い物にならんな

小型モデルをFTして有頂天な奴らにはニーズが有るのかも知れないが非常にニッチな用途でしかない
ラズパイとか組み込み系の趣味に似ている
0966名無しさん@ピンキー2025/05/09(金) 19:33:34.94ID:???
そういや次スレはワッチョイかID出すようにせんか?
番号またいで研究結果報告してくれるニキもおるから
そっちのほうが追いやすいと思うんやが
0967名無しさん@ピンキー2025/05/09(金) 19:56:31.26ID:???
汎用的な用途なら100bクラスでやっと劣化クラウドLLMになる感じやからな
30bクラスでも日本語になると途端にポンコツ化するんやからローカルの利用法がニッチな用途に特化していくのはしゃーない
0971名無しさん@ピンキー2025/05/09(金) 21:21:19.61ID:q4SNaQpJ
次スレワッチョイありは賛成や
0973名無しさん@ピンキー2025/05/09(金) 22:44:53.16ID:+XPtzUJh
スレチかもしれないけど今無料でAIエージェント試すならどの組み合わせがいいかな?ちょっと前にBoltっての試したけど、簡単な計算機すら起動できなかった…
やっぱLLM側の性能によるところが大きいよね
0974名無しさん@ピンキー2025/05/09(金) 22:53:02.61ID:???
>>973
ワイはエージェント使うほどじゃないからアレやけどClineとかCursorの方が名前を聞く印象……LLMの方が重要なんはそうやないかな
geminiの2.5proがたまに使うコーディングで一番すこやな、今は

あと、>>959だけどkoboldcppのGUIから
「Token」セクションの「overridetensors」に"\.\d+\.ffn_up=CPU"で多分だけど目論見通りになった
0975名無しさん@ピンキー2025/05/09(金) 22:56:57.65ID:???
>>959
これ試してみたんだけどIQ3、kvキャッシュQ4でVRAMぴったりだったのが
IQ4、kvキャッシュQ8まで精度上げれたわ
0976名無しさん@ピンキー2025/05/10(土) 00:28:36.52ID:???
GeminiやChatGPTみたいに
雑に指示をぶん投げても良い感じにそれっぽい小説書いてくれる、みたいのはローカルLLMでは無理だろうか
プロンプトを工夫して、何度も書き直しさせる覚悟が必要?
ChatGPTとか使ってた時もリテイクはやってはいたけど、それより回数必要な感じ?

このスレ来といて何だけど、時間効率だけ求めるなら
Gemini使う方が良い気もしてきてしまった
NSFWな小説執筆が必要な場合は脱獄する
CohereLabsのCommand系はAPIあるし、デモ使った限りではかなりユルユルに思える

でもGeminiだと似たような表現出がちな気もする
プロンプトが悪いのか、データが多過ぎて画一的になってるのか
ローカルLLMの方が学習データの個性出て、面白い応答出たりする事もあったり?
0977名無しさん@ピンキー2025/05/10(土) 00:58:53.86ID:???
>>950
ERPの方で8Bと30B両方試してみたけど、明らかに30Bの方がいい感じだな
細かな表現力とか長い会話続けた時の初期の方のプロンプト維持力とかは30Bの方がだいぶ上に感じる
8Bの方が細かい追従性高いかもって作者の人言ってたけど、細かい部分気にしなければ30Bの方が圧倒的に良さそうな印象
0978名無しさん@ピンキー2025/05/10(土) 01:54:35.80ID:???
30Bはモデルサイズ自体は8Bより圧倒的にでかいから表現力とか多様さとかは全体で獲得できてるけど使われる部分は3Bで少ないから細かい指示に従う能力が弱いとかそんな感じだったりするんかな
0980名無しさん@ピンキー2025/05/10(土) 08:28:33.07ID:Cn/fzFwB
5070Superが15万くらいで買える最適解になるのかなぁ、待つかなぁ
0984名無しさん@ピンキー2025/05/10(土) 13:18:28.25ID:???
>>965
なんか前も似たようなこと言ってるやついたけどローカルに何を求めてるんだ?
オンラインに比べたら五十歩百歩だと思うんだけど
0985名無しさん@ピンキー2025/05/10(土) 13:27:34.29ID:???
AIとの会話に慣れてしまうと>>965みたいな攻撃的で嫌味ったらしいレスが新鮮に見えるな
0986名無しさん@ピンキー2025/05/10(土) 13:44:39.13ID:???
何を求めてるとかでなくて、単に正しい理解をしてるだけでは....?
人数で見たら非常にニッチなのは分かりきってる話だし、ラズパイや組み込み系的な趣味だよ

Silly TavernやLM Studioで会話する時点で既にそこに半歩踏み込んでる、できる事だけから考えると面倒くさすぎるやつで、試行錯誤がたのちぃって人しかやらないやつでしょ
0987名無しさん@ピンキー2025/05/10(土) 13:53:47.97ID:mhfVPoVg
>>974
コーディングしてるけど環境作りとかで何回もドライバーとかcuda,cuDNNのインストアンインスト繰り返したり、pipの依存関係とかもあるからやり直し必須だし、やっぱエージェントAIでも一回では出来なさそうだね…
0988名無しさん@ピンキー2025/05/10(土) 14:14:32.26ID:TS2J+VV1
Mistral-Small-24B-Instruct-2501-abliterated
FluentlyLM-Prinum-abliterated (32.8B)
70Bも含めて色々日本語モデル触らせてもらったけど、この辺り以上のものに出会えてない
0990名無しさん@ピンキー2025/05/10(土) 14:20:31.57ID:TS2J+VV1
123Bなんか俺の環境じゃQ2ぐらいまで落とさないとVRAMに入らんがな
0991名無しさん@ピンキー2025/05/10(土) 14:29:09.26ID:???
>>986
所詮小型FTなんてニッチな需要しかないと何故か見下したように言った上に
対比として挙げた汎用性の高いモデルとやらがローカルの30bなのが突っ込まれてるのでは?
別に誰も汎用性がどうとか言ってないのにいきなりブツブツ言い始めたのもガイジ味を感じる
0992名無しさん@ピンキー2025/05/10(土) 15:03:52.57ID:8xyqhTGW
>>977
そんな変わらんだろと思って触ってみたが確かに30Bの方がだいぶ良いわ
こっちはBaseモデルから継続事前学習で作ってるから良いってのもありそう
0993名無しさん@ピンキー2025/05/10(土) 15:18:56.48ID:???
Mistralの24BをSTで使うとなんかテンプレートがあってないような挙動だったけど下のテンプレート使ったら治ったっぽい?
huggingface.co/sleepdeprived3/Mistral-V7-Tekken-T5-XML
0994名無しさん@ピンキー2025/05/10(土) 16:28:56.55ID:???
>>993
silly tavernのテンプレートで用意されてるmistral V7では駄目だったってことなん?
そういう事もあるのか
0995名無しさん@ピンキー2025/05/10(土) 20:19:40.85ID:JABFV6+D
Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります?
0996名無しさん@ピンキー2025/05/10(土) 21:09:21.85ID:???
>>995
悪いんやが、現時点では対応してないんや
src\core\kobld_client.pyの
def _get_api_url(self) -> str:
"""Constructs the API URL from settings."""
port = self._current_settings.get("kobold_port", 5001)
return f"http://127.0.0.1:{port}/api/extra/generate/stream"
の127.0.0.1をkoboldcppを起動してるPCのIPアドレスに変えれば一応動くはずや
0997名無しさん@ピンキー2025/05/10(土) 21:54:48.34ID:JABFV6+D
>>996
ありがとうございます。
チャレンジしてみます。
0998名無しさん@ピンキー2025/05/10(土) 22:15:12.13ID:???
とりあえずテンプレそのままIDワッチョイありでいいのか?建ててみる
10011001Over 1000Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
life time: 48日 7時間 41分 21秒
10021002Over 1000Thread
BBSPINKの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。


───────────────────
《プレミアム会員の主な特典》
★ 専用ブラウザからの広告除去
★ 過去ログを取得
★ 書き込み規制の緩和
───────────────────

会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。

▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/

▼ 浪人ログインはこちら ▼
https://login.bbspink.com/login.php
レス数が1000を超えています。これ以上書き込みはできません。