なんJLLM部 避難所 ★6
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/02/13(木) 21:16:02.49ID:KkRdf1Mm
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/
0156名無しさん@ピンキー2025/02/19(水) 19:36:48.52ID:???
>>155
人間で例えたら脳みそ1/4にカットしたうえでさらに4倍圧縮してるようなもんだからな
しゃーない
0157名無しさん@ピンキー2025/02/19(水) 21:48:52.47ID:5X6F8rR7
どこかでLumimaid-Magnum-v4が最強って聞いてからずっと使ってるんだけど今これより頭のいい日本語対応モデルって出てる?
みんなのおすすめをお聞かせ願いたい。NSFW用途で。
0158名無しさん@ピンキー2025/02/19(水) 22:01:51.37ID:???
>>157
midoriinko/magnum-v4-123b-jp-imatrix
日本語タグ付いてないから見つけにくいけど、これのiQ3_Mがメモリ64Gで動かせる日本語モデルの限界
日本語版のimatrix使ってるから、他のより日本語性能はいいはず(と思う)
ちなみにドエロイw
0160名無しさん@ピンキー2025/02/20(木) 09:09:21.92ID:wVv4FFhF
なんJRVC部が消えてしまったんだが音声系はみんなどこにいったのです?
0162名無しさん@ピンキー2025/02/20(木) 10:56:04.30ID:???
grok.comにもgrok3が来たから試そうと思ったら、bad gatewayが出るな
まだ移行途中なのかね
0165名無しさん@ピンキー2025/02/20(木) 13:04:40.43ID:W1Ssgjn0
Gemini2.0 flash thinkingすごいわ
小説の設定なんかについてやり取りしてた10万字ぐらいあるChatGPTのカオス気味の履歴を
VSCODEのClineを介してぶん投げたら2〜3分で各ディレクトリに.md作って整理整頓してくれた
DeepSeel R1はコンテキスト長短いしSonnetはたけぇし
ドキュメント整理みたいなタスクはGeminiおすすめや なんか知らんが無料で使えるしな
0168名無しさん@ピンキー2025/02/20(木) 14:23:40.61ID:???
sakanaAIは昔から一貫して大規模モデルに興味が無いよな
Transformerを産み出したくせに
0169名無しさん@ピンキー2025/02/20(木) 15:29:07.32ID:Y3pqJrEo
AIがAIのコード書き始めたんか、シンギュラリティ第一歩やね
CUDA以外にも書き換えられるようになればNvidia以外のグラボも使いやすくなりそうでええね
0170名無しさん@ピンキー2025/02/20(木) 18:49:36.72ID:???
sakanaAIは秋葉殿下がいらっしゃるから推したいんだよなぁ
あの人はワイの大学の専攻的に雲の上の憧れの人だった
なんかdeeplearning系に華麗に転向しているが
しかしあそこってtoCなこと一切してないからワイはなんもできんのよな
0171名無しさん@ピンキー2025/02/20(木) 18:52:24.96ID:???
unsloth/DeepSeek-V3-GGUF:Q2_K_XS.gguf
頑張ったらエラー出さずに動きはするね、動きは
0172名無しさん@ピンキー2025/02/20(木) 23:12:27.02ID:???
Ollama経由のSillyTavernでdeepseek-r1-distill-qwen2.5-bakeneko-32b-gguf:IQ3_XXSを動かして触って見たけど良いね
Mistral系にありがちな直結気味もなく12Bモデルより間違いなく賢さを感じる
0173名無しさん@ピンキー2025/02/21(金) 00:45:04.35ID:???
deepseek r1 bakenekoは今までのオープンモデルのなかで日本語性能が一番優れていると思う
0175名無しさん@ピンキー2025/02/21(金) 07:44:04.36ID:???
画像食えるモデルとソフトの組み合わせって今何がいいんだろう。画像生成のプロンプト食わせたいだけだから14bもあればじゅうぶんなんだが。
0176名無しさん@ピンキー2025/02/21(金) 08:37:20.71ID:???
runpod、クレカ支払いを蹴られるな
マスターカードなのに何故...
0178名無しさん@ピンキー2025/02/21(金) 10:31:10.14ID:???
米国カードのみなのか
回避の仕方は色々あるけど、Runpodの強みはコスト抑えられることで=代替可能だから拘っても報われなさそう
他を探してみます
0180名無しさん@ピンキー2025/02/21(金) 11:32:30.92ID:???
runpodは自動でON/OFFできる仕組みを作っておかないと必ずやらかす……
0181名無しさん@ピンキー2025/02/21(金) 14:10:55.52ID:???
lm studioのモデルオプションの横にある👍アイコンが付く条件てどうなってんの?
最適なやつが選ばれるようになってるのかしら
0182名無しさん@ピンキー2025/02/21(金) 14:54:27.69ID:hZ6dxcCl
phi-4の設定修正版を使ってみたら日本語能力が改善されて良くなってたわ
中国語が混じってくることもなくなったし、サイズの割には素の賢さが高くてなかなか好感触や
小説とか表現力は今ひとつ弱いんやけど、日本語FTしたらなかなかいいモデルになりそうや
0183名無しさん@ピンキー2025/02/21(金) 15:14:09.68ID:3VoFVTkV
>>181
VRAMに乗り切るかどうかじゃない?
0184名無しさん@ピンキー2025/02/21(金) 17:37:37.31ID:???
グラボ高すぎて10GBで当分頑張ることになりそうだ
16GBあればもっと色々出来るんだろうなあ
0185名無しさん@ピンキー2025/02/21(金) 17:48:33.93ID:P9ukDKjM
bakenekoのQ8を触ってみたんだけど、これすごいね
個人的には地の文の表現がmagnum超えてると思う
0187名無しさん@ピンキー2025/02/21(金) 19:18:46.13ID:???
bakenekoQ4でやってみた
かなりこちらの意図を読んでくるね
だけどSTでチャットする時〈think〉部分は消したいんだけど良い方法ないかな?
0190名無しさん@ピンキー2025/02/21(金) 19:59:26.06ID:???
>>187
正規表現でthink関連は格納できるよ
redditでもgithubでも作例は載ってるから探してみ
0191名無しさん@ピンキー2025/02/21(金) 20:06:53.27ID:???
stagingで実装されてたthink対応機能がstableにも導入されたっぽいから、アプデするだけで<think></think>は勝手に畳むようになるかも
0193名無しさん@ピンキー2025/02/21(金) 20:51:12.42ID:???
>>189
ここまで言われるほど酷いことはしてないと思うが…
AI scientistもエージェントエージェント叫ばれる昨今の風潮を先取りしてたし
今回のcudaについても着眼点と手法自体は明らかに優れてる
しかし国内のpfnなんかにはcudaにバチクソ詳しいエンジニアもいるのに
伝手があるだろうに検証を頼みもせずに公表したとなるとなんとも
0194名無しさん@ピンキー2025/02/21(金) 21:34:16.41ID:???
>>193
妬みは入ってるだろうけどsakana側もやってることはやばいからな
まともな企業ならpytorchの150倍とかおかしいから待て掛けるだろうに
0195名無しさん@ピンキー2025/02/21(金) 21:44:37.26ID:???
何かブロックチェーンを駆使した新たな商売をするって発表するだけで金が集まってた時代みたいになってきてんね
0196名無しさん@ピンキー2025/02/21(金) 21:59:02.85ID:???
>>194
理論上はあり得る話ではあるから見切り発車しちゃった気持ちもわからんでもないのがなんともなぁ
例えばgpuってスレッド事に32個とかの固定個のレジスタがあって
それにちゃんと載るようにcudaのコードを変えるとスループットが本当に100倍とかに変わる…こともある
gpuはマジでスループットのためのピーキーな作りをしているから改善の余地自体はたぶん本当にある
0197名無しさん@ピンキー2025/02/21(金) 22:01:02.46ID:???
>>190
ありがとう
記入例何とか見つかった
編集時は見られるから便利になったよ
今後のアップデートで
項目をチェックしたら
切り替えられるようになるといいんだけど
0198名無しさん@ピンキー2025/02/21(金) 22:27:59.42ID:???
オボボの時も言われてたけど、適当な仮説をぶち上げるのは誰でもできて
仮説が正しいかを研究・実証するのがとても難しいわけで
実証がいい加減だとただの素人の戯言になってしまうのよな
0199名無しさん@ピンキー2025/02/21(金) 22:49:00.66ID:???
>>190
横からやが俺も消せるようになったよありがとう
bakenekoを最新koboldcppにsillytavernでやってみた
地の文も出てくるし勝手に小説が進行していくしロールプレイ向けモデルじゃないのかなあ
喋り口調も設定よりちょっとお堅い印象になる傾向
小説書かせたら凄そうな気配は出てるんやが
0200名無しさん@ピンキー2025/02/22(土) 00:24:51.82ID:???
R1 1776とかthink出ない推論モデルで推論格納する方法ってある?
0201名無しさん@ピンキー2025/02/22(土) 04:50:17.98ID:???
AMX対応Xeonのマシン構築まだあきらめずにいろいろ調べとったけど
まずECC RDIMMが必須なのは確定だわ
AMX対応XeonはSapphire Rapids、Emerald Rapids、Sierra Forest、Granite Rapidsの4つ
このうち後半の二つは100万オーバーの製品しかないので除外するとSapphire Rapids、Emerald Rapidsの二つになる

Sapphire Rapids、Emerald Rapidsは両方ともLGA4677で動作して、
対応チップセットはC741とW790の二つ
この二つのチップセットがそもそもECC RDIMMのみで確定

あぁ無念

まぁどうにか1ソケットのマザボ(12万、ただしメモリスロット8本)を選んで、CPUもAMX対応のもので一番安いの選んで(10万、12コア)
調べてもよくわからんかったけどたぶんXeonってCPUクーラーついてないので2万(ググったらとりあえずnoctuaのがあった)
メモリが64GB ECC RDIMMを6本(384GB、マザボメーカーで互換性確認取れてる奴は$386*6=$2316=ドル円155円で36万)
あとはストレージと電源でとりあえず5万、ケースなんかいらんでしょ、ということで
合計65万

コア数とかメモリ数とかもっと増やしたいのが正直なところだけどそれ考えるともう20〜30万上乗せになってしまう
0202名無しさん@ピンキー2025/02/22(土) 06:18:18.49ID:???
3060で今からローカルLLM始めようかなって思ってるんですけどこれだけは入れとけっていうモデルどれですやろ
軽いの限定になるだろとは思うんやけど
0203名無しさん@ピンキー2025/02/22(土) 06:46:20.73ID:60YSrTWc
SillyTavernで日本語対応LLM使ってる人に聞きたいんだが、システムプロンプトってどんなの書いてる?
チャット形式で会話したいけどすげぇ長文書いてきたりして正解が分からん。
モデルはMistralベース
0205名無しさん@ピンキー2025/02/22(土) 07:53:46.15ID:???
>>201
とりあえずそのスペックで400GのモデルのQ8_mが何t/s出るか買ったらレポ頼む
0206名無しさん@ピンキー2025/02/22(土) 09:12:51.51ID:bhs6DM0J
>>201
ちょっと気になったので調べた。
メモリslot数2に対して1ch使ってるマザーボードも存在するってChatGPT先生は言ってる。
※裏取してないけどo1に聞いて、自分でもその認識があったので

ChatGPT先生
「スロット数=チャネル数」にはならない例も多い
4チャネル対応のマザーボードでも、1チャネルにつき2スロット(2DPC, 2 DIMMs Per Channel)を用意して
「合計8スロット」という構成がある。
8チャネル対応マザーボードの場合、1チャネル1スロット設計なら合計8スロット、
1チャネル2スロット設計なら合計16スロット、といったバリエーションもある。

一応購入前にマザボのslotとchが1対1になってるか確認したほうがいいよ。
LLMで帯域半分とか後で知ったらショックでかい。
0207名無しさん@ピンキー2025/02/22(土) 09:26:24.75ID:bhs6DM0J
>>201
もう一点、64GB ECC RDIMMを6本ってあるけど、メモリ追加を考えないなら帯域増やすために48GB×8本の方が8ch全部使うから
単純計算で25%帯域が増える。
今後512GB目指すなら、そのまま6本で後から2本追加。
ただメモリ複数枚搭載は同ロットの方がいいって聞くね。
0208名無しさん@ピンキー2025/02/22(土) 09:34:30.98ID:???
Grok3は他のモデルよりかなり大きい高コストモデルって憶測が出てるな
今後どんどん値上げされる一方かもな
0210名無しさん@ピンキー2025/02/22(土) 11:01:10.38ID:???
もしかしてだけどllmエンジンとしてはlm studio(llama.cpp)よりollamaの方が優秀だったりする?
0211名無しさん@ピンキー2025/02/22(土) 11:13:43.72ID:???
metaがユーザー行動追跡をAIにやらせれば広告が売れる!と大っぴらに言い出してるから、同じことをxでやりたい...とかかね
規制される確率が高いしされると死ぬので政府に近寄るしかないとか
0214名無しさん@ピンキー2025/02/22(土) 12:37:00.86ID:???
deepseekが革命的に安く出来たって話題になってるだけで
金かかる大規模化が主流な訳だしそれを無理矢理というのは流石にどうかと思うよ
次は効率的な学習を大規模化したらどうなるかみたいな話になってくるし
0215名無しさん@ピンキー2025/02/22(土) 14:59:49.73ID:???
Grok3はいい感じに倫理観緩いけど緩さゆえの賢さだからOSS化してもそこまで性能良くなさそう
普通のLLMで規制される近親相姦系でも騙しやすいのはありがたいが
0216名無しさん@ピンキー2025/02/22(土) 15:49:26.88ID:???
>>211
マ?大っぴらに言ってるの?
それもコンテキストターゲティングじゃなくてユーザー行動追跡の方なの?
なんか記事ある?スレチだけど
0217名無しさん@ピンキー2025/02/22(土) 16:03:08.18ID:???
>216
すまん、話を盛ったわ
実際はAIの成果で利益上がってます!ぐらいだね
0218名無しさん@ピンキー2025/02/22(土) 16:32:06.55ID:???
LLMを先導してる大手企業であっても
DeepSeekが安く開発したせいでお前ら無駄金使ったんじゃねえのかと株主からせっつかれてるの可哀想
それでどうやって利益上げるんだって話になるよね
0219名無しさん@ピンキー2025/02/22(土) 16:35:30.03ID:???
deepseekが安くできたってのは色々カラクリありそうだけどなあ
0220名無しさん@ピンキー2025/02/22(土) 16:38:39.57ID:???
deepseek以外にも自分のことをchatGPTって言うモデル結構あるよな
Lumimaid-magnumとか
0221名無しさん@ピンキー2025/02/22(土) 17:09:44.94ID:???
metaで言えば「外のエンジニアへ向けたcoolな開発をしてこそcoolな開発者が集まるのだ。だから研究開発費は多目に見てちょ」
みたいなことを元から宣言している訳でそれを知らずに投資する方も悪いと思うがな
0222名無しさん@ピンキー2025/02/22(土) 17:11:28.63ID:???
Deepseekのあれは純粋に学習にのみ掛かったコストであって、車で言えば〇km走った時のガソリン代だけ出したようなものだぞ。
0224名無しさん@ピンキー2025/02/22(土) 17:57:31.88ID:???
bakeneko無検閲かつ高追従性で良いね
chatGPT用のエロプロンプトがローカルで満足に動かせるようになるとは思っても見なかったわ
32BのQloraならVRAM32GB以下に収まりそうでカスタマイズもしやすいのもグッド 
0225名無しさん@ピンキー2025/02/22(土) 19:39:37.57ID:???
bakenekoの追加学習の方法調べたけどかなり手間かかることやってるな
deepseek-qwenから直接学習させたわけじゃないのか
オリジナルのDeepSeek R1から直接データセット持ってきたりしてるし
0226名無しさん@ピンキー2025/02/22(土) 19:52:12.53ID:phY/t7By
https://huggingface.co/AlexBefest/CardProjector-24B-v1
Silly Tavernのキャラ設定を出すためにチューンしたモデル。
英語用だけど、一二行書くだけでずらずら出してくれるので大変楽。
ここから翻訳しても良いのでは
0227名無しさん@ピンキー2025/02/22(土) 20:57:05.90ID:???
逆に言えばGPTとかclaudeとかが規制緩めてきたら性能爆上がりで太刀打ちできなくなるってことでもある
というかGPTは検閲検閲で創造性無くなって自爆してるんだよなあ
02312032025/02/23(日) 07:24:56.47ID:wO+JBEv8
203です。システムプロンプトの件めちゃくちゃ助かりました。

追加で質問失礼します。
Silly TavernでLLMが何かに固執してしまうのってどうすればええんでしょ
Repetition Penalty上げたり、Frequency Penalty上げても、結局次の回答で同じ結末に固執してて解決方法が分からん...
DRYってのも使ってみたけど効果なさげ。Multiplyerは0.8にしてます。
0233名無しさん@ピンキー2025/02/23(日) 09:17:46.37ID:???
自分はさっさとモデルを切り替えてるな

R1@ORにシーンのラストまで頼んで、何かでまとめさせて、カードのスタートメッセージにScene2:として貼り付ける、みたいな
0234名無しさん@ピンキー2025/02/23(日) 09:19:33.39ID:???
MistralV7使ってプリセットは適当にしてるな
なんかtop-nsigmaとかいう新しいの出てるみたいだから環境すぐ変わりそう
0236名無しさん@ピンキー2025/02/23(日) 13:42:27.16ID:8II8/jD+
1.58bitって24Bとか32Bでも効果あるのかな
あるなら軽くなって良さそうだが
0237名無しさん@ピンキー2025/02/23(日) 14:39:45.37ID:???
1.58bitってそれなりに精度は犠牲になるけど、それ以上に行列計算がなくなることによる
演算量削減というメリットの方が圧倒的にでかいって手法なんだと思ってる
だからむしろでかいモデルのほうが効果あるんやないかなぁ
あくまでワイの考えやが

DeepseekR1がそのいい例やないかと
0238名無しさん@ピンキー2025/02/23(日) 15:16:39.48ID:8II8/jD+
>>237
なるほどね
70Bとか100Bで効果あるなら選択肢に入るかもってところか
0239名無しさん@ピンキー2025/02/23(日) 16:01:17.32ID:g+RjTtRh
MSはFP4で学習する方向もがんばってるよな
推論じゃないという点が面白いよね
電気代高いもんな
0242!donguri2025/02/24(月) 02:08:08.77ID:???
性癖全開で書いた小説をCommnadR+にこれを書いた人間はどんな人格かと聞いたら精神科で治療が必要とか言われた
0243名無しさん@ピンキー2025/02/24(月) 02:46:34.86ID:???

まあ性癖丸出し小説とか頭のネジがいくらか外れてないと書けないし多少はね?
0244名無しさん@ピンキー2025/02/24(月) 03:33:04.30ID:???
性癖は人間の最後の砦
aiがどんなに進化しても再現できなさそう
0246名無しさん@ピンキー2025/02/24(月) 07:32:30.31ID:???
何のモデルかは忘れたけどどんなプレイがしたい?って聞いたら鼻フックって言われたことあるわ
0247名無しさん@ピンキー2025/02/24(月) 07:47:08.94ID:???
Berghofはアナルセックスすると「あはっ♥うんこ漏れちゃった♥」って言うから困る
0249名無しさん@ピンキー2025/02/24(月) 08:09:27.59ID:???
R1だと自分のおまんこ使用権を通貨とした国家樹立をしたいとか言い出すよ
0250名無しさん@ピンキー2025/02/24(月) 08:36:57.73ID:???
DeepSeekは突拍子なとんでも展開があって面白いよな
他のモデルは丁寧すぎる
0252名無しさん@ピンキー2025/02/24(月) 10:58:07.79ID:JGLX1LpI
DeepSeel R1ふつうに申し訳されるんやけどこれはワイがOpenRouterからAPI経由で使ってるせいかな?
それともジェイルブレイクが下手くそなだけか?🥺
0253名無しさん@ピンキー2025/02/24(月) 11:07:48.48ID:???
>>252
オープンルーターは独自規制入れてるはず
しかも自爆規制(性能落としてでもガッツリ規制するやつ)なのでいかなる目的でも使わないのが吉
0254名無しさん@ピンキー2025/02/24(月) 11:30:08.29ID:???
OpenRouterはAPI代金の支払い代行してるだけだからあの値段で出せるわけで、リクエストの度にそんな高度なモデレートしてたら採算が合わないような
0255名無しさん@ピンキー2025/02/24(月) 11:32:07.38ID:???
普段はローカルでRPチャットで遊んでるんだけどGrok3触ってみたらやっぱりローカルと比べると賢いなぁ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況