なんJLLM部 避難所 ★8
0001名無しさん@ピンキー 転載ダメ (ワッチョイ f3c0-9L8h)2025/05/10(土) 22:18:32.02ID:0Ak3eO5y0
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
0276名無しさん@ピンキー (ワッチョイ 42e3-L/D9)2025/06/04(水) 19:08:02.68ID:a5Ck1WYB0
3.1なんてもう化石だろjk
0277名無しさん@ピンキー (ワッチョイ 7fba-RMgv)2025/06/04(水) 19:33:05.22ID:AUnMmnLx0
>>275
70Bなんか動かせるマシン持ってるやつ少ねえよってのと最近は性能大幅に落としてもいいからエッジデバイスでいかにそれっぽいのを動かせるかに研究が移ってるっぽいからなあ
0278名無しさん@ピンキー (ワッチョイ b6bc-lbRc)2025/06/04(水) 19:56:58.96ID:FvknF98Q0
>>269
やっぱりそうかぁ
以前、内容や名詞をスクリプトで自動的に組み合わせて生成した金太郎飴みたいなデータセット1万件ぐらいを使ってLoRA作成したんだけど
推論結果が同じく金太郎飴みたいになってて全く使い物にならなかったんよ
質問文は自力で頑張って用意してそれをLLMに蒸留させてデータ作成するのが一番現実的そうやね
ただOpenAIは蒸留に対する検知厳しくなったみたいだしローカルLLMで蒸留させるしかないのかな
0282名無しさん@ピンキー (ワッチョイ 9fcc-bdW6)2025/06/07(土) 00:48:13.65ID:39KDc2wv0
>>281
Instruct版のSpaceあったので遊んでみたけど、ハルシネーション抑制、ってあったけどInstruction Followig、Groundnessともに怪しい感じでこれで4o越えは評価のスコープを思いい切り絞らないと、って印象
文体は自然でそこそこなので惜しい感じ
フルスクラッチ日本語モデルって点では今後に期待
111B多言語対応のCommand-a越えを期待してたんだけど...
0284名無しさん@ピンキー (ワッチョイ 9fcc-bdW6)2025/06/07(土) 01:08:50.77ID:39KDc2wv0
>>283
あ、そうかも
いまもう一回検索したらStockmark-2-VL-100BではSpace出てない感じだった
楽しみが増えた、ありがとう
0292名無しさん@ピンキー (ワッチョイ d36a-jj0/)2025/06/08(日) 18:57:30.93ID:CFh7R3fZ0
ストックマークってだめな会社なん?🤔
0293名無しさん@ピンキー (ワッチョイ a332-e2Mg)2025/06/08(日) 19:40:31.40ID:UHwTbmjA0
世間一般ではダメじゃないかもしれんがスレの評価が低かっただけ
でも、どんなベンチマークの評価よりこのスレの評価の方が参考になるんだわw
0297名無しさん@ピンキー (ワッチョイ 57d9-3NuF)2025/06/10(火) 01:12:25.58ID:QqWnFUnK0
NemoAuroraちょっと試したがかなり饒舌な感じで淫語とかも普通に出やすいな
この人のモデルにしては珍しく小説系とかそっち寄りな感じがする
この辺はHimeyuri-12Bとかをマージしてる影響かな?エロ系はかなり自然な感じ
その分何回も会話してるとだんだん応答が長くなって行きがちだから適度に過去会話をカットしてあげると良さそう(SillyTavernとかなら楽)
README読むとコンテキスト長32kで学習されてるみたいだけど実際そこまでいけるならかなり実用性ありそう
0298名無しさん@ピンキー (ワッチョイ 8732-+HAl)2025/06/10(火) 09:27:53.11ID:+5w+8cqP0
エロokの配信サイトとか最近やと何処がええんやろ?ワイのAIライバーをニキらのオモチャにしてみたい
0300名無しさん@ピンキー (ワッチョイ d36a-Lyjn)2025/06/10(火) 14:58:04.41ID:yNzdttZM0
文字化け野郎がまた来た😅
0302名無しさん@ピンキー (ワッチョイ d36a-Lyjn)2025/06/10(火) 15:45:35.63ID:yNzdttZM0
設定変えてみてよ
0303名無しさん@ピンキー (ワッチョイ 8732-+HAl)2025/06/10(火) 16:51:31.40ID:+5w+8cqP0
fc2とかええかなって思ったけどツールでコメント拾う手法が確立されてないんか
0306名無しさん@ピンキー (ワッチョイ 3349-bdW6)2025/06/10(火) 19:15:35.13ID:A45Fjgnl0
>>304
パフォーマンスリポートよろしく
0307名無しさん@ピンキー (ワッチョイ a373-59eZ)2025/06/10(火) 20:13:11.90ID:CUlHtuh60
Aratako/NemoAurora-RP-12B(Q3_K_S)触ってみた。
・一から書かせるのは微妙…?やっぱすぐ「以下省略」とか記号連発とかしてくる。
・チャット時の性格は、変な頑固さがなくて割と素直かも。法律・倫理に反する嘘を理詰めで教え込むのに成功した。
・なんか「NHK」好き過ぎん?よく出るような。あんまり脈絡なく「それで、NHKがNHKのNHKによるNHKのためのNHKNHKNHKNHK...」とか出た時は吹いた。
・既存短編を読み込ませて架空の読者コメントを書かせた場合の自然さ、理解力、多様さは過去一かも。
0308名無しさん@ピンキー (ワッチョイ 7be8-3NuF)2025/06/10(火) 22:09:58.40ID:MZrw5Gh50
>>307
小説書かせてる感じ?RPって付いてるしこの人の後悔してるデータセットとか見ても基本はロールプレイ用じゃないかな
読者コメント書かせるのはある種のRPなのか…?
0310名無しさん@ピンキー (ワッチョイ a373-59eZ)2025/06/11(水) 00:00:19.46ID:OXBPwywy0
>>308
読み込ませたのは過去の簡易TRPGリプレイ。
一応RPだけど、GM(AI)やNPC(AI)と自分の発言以外に地の文も有りで、ラノベ的。

>>309
CPU(Ryzen 5 7530U)+メモリ16GB(DDR4 8GB*2)のサブノートPC。
GPUが安くなったらメインPC(13年使用)組み直そうと思ってるが安くならんな…
その予算50万あるんで今でもそこそこの組めそうなんだが、今は時期が悪い。
0312名無しさん@ピンキー (ワッチョイ 97fe-4A8D)2025/06/11(水) 04:48:51.38ID:OcgwiSKm0
>>310
2年後くらいにはミニPCの進化でグラボよりええかもしれんね

いまスマホでもメモリ16Gでてきてるし
SoCもAI対応うたってるのあるしなんならLLMも積める言うてるし
シャオミも独自SoC作ったし
スマホもどうなるやろなあ
0316名無しさん@ピンキー (ワッチョイ a342-WjW6)2025/06/11(水) 11:29:03.07ID:XAorkN430
なんかこう、知識はないけど賢いモデルってのは出てこないもんかね
8Bくらいだけどfunction callingしてネットなりを検索して勝手に小説なりを読んで応用効かせて書いちゃうみたいな
そんなことできる頃にはシンギュラっちゃってるだろうが
0317名無しさん@ピンキー (ワッチョイ b7bf-X6eQ)2025/06/11(水) 11:36:03.24ID:AgCMDhvR0
賢くない奴がネットで得た知識だけで語るって地獄やんけ
ネット検索自体がゴミになっててそこから正しい情報吸い上げるには常識が必要なんちゃうか
0319名無しさん@ピンキー (ワッチョイ cfac-bdW6)2025/06/11(水) 12:44:55.54ID:Y1jv/Uee0
知識はないけど理解力と推論力が凄い、ってのは魅力ある
それこそが真の意味での知性ではないかと
0321名無しさん@ピンキー (オッペケ Sr2f-1c5u)2025/06/11(水) 16:58:35.91ID:v338i4Eyr
redditでスレが立ってたshisa-ai/shisa-v2-llama-3.1-405bって日本語最強モデルはどうなんだろ
東京にスタジオがあるらしいけど初めて知った

方言とか口調や人称ニュアンスが再現できる方向に進化してほしいな
0322名無しさん@ピンキー (オッペケ Sr8f-YMx6)2025/06/11(水) 17:03:10.46ID:FX+5gD3Jr
賢さ自体をよそから手に入れればよさそう
MCP時代のモデルは、何が分からないのかを判断する能力と、どこで聞けば良いのかだけを持っていればいいのかもしれん
0324名無しさん@ピンキー (ワッチョイ 8f4e-bdW6)2025/06/11(水) 17:42:25.04ID:0gofb7V30
4070tiで動く小説特化のオススメモデルある?
0325名無しさん@ピンキー (ワッチョイ eb09-6GmA)2025/06/11(水) 21:07:01.38ID:qnK6TeFS0
NvidiaのProRLって方法で1.5Bが7Bレベルの推論出来るようになったって話があるし
言語モデルは単純に記憶してるだけじゃなくて概念を理解して学習してるとかの話もあって
中小規模モデルでももっと賢くできそうな気配あるよ
0326名無しさん@ピンキー (ワッチョイ 5fd1-dZZ6)2025/06/12(木) 08:02:59.68ID:4K9Ttd3d0
単純な知識量はモデルサイズに比例するとして、理解力と分離できたらいいんだけどね
MCPでWebから検索するのは危険だから、別な知識タンクがあるといいんだけど
そうなればモバイルでも知識はSSD、理解力は内部メモリに分離できそう
研究者の方々は当然そういうことはやってるんだろうけど
0327名無しさん@ピンキー (ワッチョイ 47c8-bdW6)2025/06/12(木) 10:48:03.22ID:hOd2zX6t0
>>324
4070tiなら12GBのVRAMに収まるようにって考えるかもしれないけど、
小説目的ならチャットみたいにリアルタイムな応答は必ずしも必要ないからメインメモリも使ってでっかいモデル動かすのもありやで
0329名無しさん@ピンキー (ワッチョイ e7c6-+0+a)2025/06/12(木) 15:16:57.17ID:fUVDRnpn0
304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした
Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後
M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s

不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた
llama.cppのVerかパラが違うっぽい?
0332名無しさん@ピンキー (オイコラミネオ MMdf-J9Ai)2025/06/12(木) 17:20:00.25ID:QS6LCztLM
>>329
レポ乙

EVO X2の素の設定だと1.33 tok/s
EVO X2+TeslaP40だと1.81 tok/s

下はVRAMは最下限?の512MBにしてCPUとして動作させた。
あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな?
0335名無しさん@ピンキー (ワッチョイ 9fec-gw/n)2025/06/12(木) 21:09:53.56ID:5QWCQaBe0
知ってたけどdenseモデルだととんでもなく遅いな
40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう
0337名無しさん@ピンキー (ワッチョイ 6f7a-gw/n)2025/06/13(金) 22:12:27.22ID:scS7NRIV0
>>330
3台はすごいな、消費電力的にも。。
どんなモデルでも動かせるんじゃないか
0338名無しさん@ピンキー (ワッチョイ 8f7e-kPMq)2025/06/13(金) 23:11:59.05ID:Z6mL9jb40
>>331
70Bなら40Gは超えるから32Gの5090x1では厳しいだろ
もしx1.5が出たらいけるけど
0339名無しさん@ピンキー (ワッチョイ 8f7e-kPMq)2025/06/13(金) 23:14:37.51ID:Z6mL9jb40
>>337
3スロットx3?
凄すぎです
所謂ラックマウントなのか会社レベル
vram増やすにはいいけど電源問題もありなかなか
0340名無しさん@ピンキー (ワッチョイ 4654-x40H)2025/06/14(土) 01:37:39.18ID:sDfDV4np0
>>329
LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ
1.33tok/sは厳しいな

型落ちMacBookPro(M3 Max/128GB)で
Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s
Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s
くらい出るから大人しく次のMacStudioまで待つわ…
0341名無しさん@ピンキー (JP 0H47-zi4d)2025/06/14(土) 02:00:38.73ID:uPbPRNr/H
ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね?
VSCodeとか
0342名無しさん@ピンキー (ワッチョイ de63-oaEo)2025/06/14(土) 05:35:23.70ID:ws+NN3Wn0
そうわよ
0343名無しさん@ピンキー (ワッチョイ 3ac7-389c)2025/06/14(土) 05:57:14.07ID:lHmYYg7j0
>>337
>>339
さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ
電力ヤバいからPL絞って1枚200Wちょいにしてる
ちなみにマザボはお古だけどグラボが4スロット刺せるやつ
0345名無しさん@ピンキー (シャチーク 0C8f-k5nI)2025/06/14(土) 08:55:58.88ID:9oyQ8bR5C
llama.cppをdockerで動かしてる人
cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる?
sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど
0346名無しさん@ピンキー (ワッチョイ 7f1f-TYhh)2025/06/14(土) 12:46:56.14ID:0A7B7v9/0
12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。
0348名無しさん@ピンキー (ワッチョイ 8ec8-XzYo)2025/06/14(土) 18:34:42.83ID:+FoI+g7x0
EVO X2とX1ってどれぐらい性能違うの?
どっちも64GBだとして
0349名無しさん@ピンキー (テテンテンテン MMc6-zi4d)2025/06/14(土) 21:15:48.33ID:3evgydKRM
>>341
ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか
いいな
0353名無しさん@ピンキー (ワッチョイ 876e-DoF/)2025/06/15(日) 02:43:02.47ID:beLggd390
>>341
動く(動くとは言っていない)
みたいな状態にはなるけどな
プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか?
0359名無しさん@ピンキー (ワッチョイ bb06-mn0h)2025/06/15(日) 13:58:34.94ID:Ncme8x5z0
>>341
CLINEでLM Studioをサーバーにして使ってる
賢さと知識量はどうにも商用には敵わないけど
ローカルだとAWSのキー丸出しで質問できるのは楽
使い分けだよね
0360名無しさん@ピンキー (ワッチョイ 8bbe-lMTP)2025/06/15(日) 14:19:23.69ID:M6KtWCeJ0
RTX PRO 6000とかのデータセンター向けGPUを家庭で使うと音で気が狂うかも知れない
0362名無しさん@ピンキー (ワッチョイ 4694-DoF/)2025/06/15(日) 15:31:08.58ID:MF5Sb5IZ0
>>359
その用途だとむしろバカなLLMを使ってる方が危なくないか?
承認者の人間側が十分に賢い前提ならまた違うのかもしれんが
0364名無しさん@ピンキー (ワッチョイ ff7e-dlS4)2025/06/15(日) 16:41:56.82ID:vPaDJgaB0
>>360
うるさいの?
(驚いたことに)むしろスロット数少ないらしいしパワー少なそうに見えたけど
まあどうせ自分では買えないから関係ないけど
0367名無しさん@ピンキー (ワッチョイ 4627-5Ay1)2025/06/15(日) 17:43:15.98ID:2cJwswtU0
>>364
最近のグラボが何のためにスロット多いかというとヒートシンクの表面積を大きくして風量の多い大型ファン積むことで少しでも低回転で効率よく冷却するためであって
600Wで2スロットとなると容赦なく高回転でぶん回していると思う
ワークステーション用だから人のいる部屋に置くことなんて想定してないだろうし
0368名無しさん@ピンキー (ワッチョイ 8ec8-XzYo)2025/06/15(日) 19:48:47.54ID:UhSA0j090
ワークステーションはサーバじゃないから人のいる部屋で使うんじゃないの
レスを投稿する


ニューススポーツなんでも実況