なんJLLM部 避難所 ★8
!extend:checked:vvvvv:1000:512
!extend:checked:vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★7
https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui ●Zuntanニキ謹製のツールEasyNovelAssistant
主に小説用で使われとるで
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで 例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな
SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける ●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで
⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで
⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで
量子化は4bitまでならほとんど精度が落ちないのでよくわからない場合はIQ4_XSやQ4_k_mなどにしとけばええで
⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで
●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで ●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで
Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF
Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3
Cohere系:
c4ai-command-r-08-2024 (35B)
c4ai-command-r-plus-08-2024 (104B)
magnumシリーズ(エロ特化):
https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348
Lumimaid-Magnum:
Lumimaid-Magnum-v4-12B
magnumの日本語版:
Mistral-nemo-ja-rp-v0.2 ●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで
若干規制はあるもののGoogle AI studioから無料でAPI keyを入手して高性能なAIを使うこともできるのでそれを使うのええで
API keyの入手はhttps://aistudio.google.com/apikeyここからできるで テンプレここまで、しばらく更新されてないから過去ログも参考にしてな サンイチやで
EVO-X2予約ニキの報告楽しみにしとるで Violet_Magcap-12Bの設定使ったら推論って奴できて嬉しい ryzenMAX+はCPUにAVX512とか載ってるから
CPUにも仕事させた方が良いんだろうか 70Bモデルまで行くと速度的に厳しそう
それでもCPU推論よりはマシか?
Testing the Ryzen M Max+ 395 : r/LocalLLM
https://www.reddit.com/r/LocalLLM/comments/1k3hlw3/testing_the_ryzen_m_max_395/ >>14
DeepSeek-R1-Distill-Llama-70B Q3_K_Lと
Qwen3-235B-A22Bでかなり違うのな
>>16のDeepSeek R1 70Bでも5〜10tk/s
なんかコード修正したら10tk/s以上出るとかも
言われてるけど
https://x.com/hjc4869/status/1913562550064799896 これでゲームもCUDAが必要とか言ってる動画生成系のやつも全部できたら乗り換えるのになぁ 前スレのこれ、sshでつないでポートフォワードしたらできるで
>Project Wannabeを使ってみてるんだけど、他のPCで起動してるkobold.cppに接続して使う方法ってあります? 前にここで紹介された
Qwen3-30B-A3B-NSFW-JP
ggufがないからまだ試せないンゴ 別にわざわざポートフォワードせんでもlan内でポートへの接続許可したらマシンのipで繋げれるんとちゃうか。winならファイアウォールの設定で受信の許可ルール作ればええ >>21
ERPの方はggufあげてくれてるで。nsfwは事前学習モデルやからそのまま使ってもいい感じにはならなさそう Project Wannabeは最初に提示されたkobld_client.pyを書き換える方法で上手くいきました。 >>23
サンガツやで! さっそくDLしてきた
あとで試してみるわ
Q6_Kから25Gやけど
このへん5090ニキらなら乗るんかぁええなあ…… >>25
ホンマやありがとう!
同じ量子化のをDLして比べてみるわ
wannabeつかわせてもろとるけど
koboldでのモデル変更て一旦cmd閉じて再起動よね?
モデル切り替えちょい面倒なんよな koboldcppってOllamaと結構性能違うのかな?
Ollamaの方が使い分け楽だから、性能僅差ならOllamaで済ませたいなぁ。
誰か詳しい人いる? >>26
古いMacStudioやけど128gbあるからQ8が乗るで
LLM以外やとまじで役に立たんけどな そういやwannabeニキに大それたリクエストがあるんやけど
縦書き
仕様にできんやろか?
ワイ書くのも読むのも縦書きのオールドタイプなんで……
前にObsidianを縦書きにするアドオンとか作れんかGPT君にきいたら
えらい難易度が高くて諦めたから
無茶な注文なのは解っとるけども
でけたらえらい嬉しい >>29
ええなあ……ワイはメデューサ待ちや
出るまでに自分が電書化した小説とか学習できたらええんやが
技術がない…… Qwen3-30B-A3B-NSFW-JP っていうやつ見たら「事後学習せい」って書いてあるけど、なにしたらええんや?
なんか参考になるリンクとかあったら教えてほしい。 ベース学習しただけだから指示じゃなくて続き書かせる手法にするってことか >>32
すまん、ChatGPTにきいたら自決したわ。 evo-x2はやっぱり同スペックのm4proと同じかちょっと早いくらいやな。
m4maxには勝てんかったか... やっぱりハード面は根本的なブレイクスルーが必要だよなあ win機なら需要の幅広そうだしm4との棲み分けはできそう >>37
2022年のM1 Ultraにも負けてるじゃん?
メモリの帯域幅が足りないからでは?
256GB/sではM1 Ultraの800GB/sには遠く及ばない LLMならmacが良いらしい、いやmac微妙だぞのやり取りが去年たくさんあったしな
それよりさらに微妙な物なら買う事は無さそうやな
後数世代待てば帯域の事も考えられた専用機が出てくるやろ 去年と違うのは今はMoEが主流になりつつことだな
動かすだけならユニファイドメモリが最も手軽な手段だし
3090x4より安いし30万以下なら全然あり Qwen3-30B-A3B-ERP-v0.1-GGUF 試した。
初手テンプレートエラーでたから、オリジナルのQwen3からテンプレートコピペしてきたら動いた。
しかし「あなたは日本のベストセラー官能小説家です。官能小説のプロットを5つ考えてください
プロットは一つ100文字以内とし、箇条書きで書き出してください。」というプロンプトで、
プロットを一つずつしか出してくれないのでめんどくさい。
https://ibb.co/cXXq5vxy i7-14700 64GB 4090 の環境で 20t 〜 40t くらい
速度は十分実用的だと思う >>44
そのモデルは多分そういうプロンプトには対応してないと思うで
ロールプレイの一種ではあるけどそういうのは学習してないと思う >>46
そうなんや、ERPとChatはまた違うってことか。サンガツやで。 >>47
モデル作者aratako氏のデータセットを参照すると、system promptに設定全部入力してあって、出力は全部キャラクターの発言だけだね
このデータセットが使われたかどうかは分からんけど、これに準拠してるなら小説は難しいだろうね
でも、このモデル元にして、自分で小説のデータセット用意して微調整すれば書けるようになると思うよ >>41
Macの良さってメモリの大きさだけなんだよな
OSとかGPUとかはべつにLLMに向いてない DGX Sparkはチップ性能だけ見たらコスパ微妙っぽいけどCUDA使えるのとBlackwellだからFP4対応でFA3とかの最新の最適化手法とかも(多分)使えるのが売りになるのかな >>51
帯域はべつに普通じゃないか?
M3ウルトラはNvidiaよりは遅い
M3 MaxはRyzenより遅い 昔のredditの投稿で、Ryzen AI Max+ 395でdeepseek-r1の70B蒸留モデルのQ8使ったら3token/sって話だったけど、どうなんやろね
https://www.reddit.com/r/LocalLLaMA/comments/1iv45vg/amd_strix_halo_128gb_performance_on_deepseek_r1/
>>14の記事だとQ3_K_L?らしいから、これがQ8になった時に本当にどこまで速度が落ちるのかどうか気になる ryzenMax+のmac ultraやDGXに対する加点部分はお値段とグラボが積めるってあたりか GeminiをGoogle ai studioのAPIから使いまくってるけど一生使えるわ
なんなんだコイツは 今日5090が届いたから4090から換装してみた
最新のgamereadyドライバ入れるだけでkoboldcppは動いたけどSBV2がpytorch未対応で動かず
そんで調べたらつい先日CUDA12.9が公開されてたので入れてみたらそれだけで推論も学習も動くようになったよ
comfyも同様
RTX50XX買った人はとりあえず最新ドライバにしてCUDA12.9入れるといいよ ドライバは最新のにしたくないなぁ
一応reforgeやKohyaも正常に動いてるし DGX SparkはARM64のLinuxなのが意外にネックになりそう
oobaもKoboldもx64ほど簡単には動かない予感 あ、やっぱり5090でSBV2の学習駄目ぽ…
文字起こしまではできたけど(4090よりクソ遅い)その先がエラー出るや ChatGPTスレから誘導されて来ました
ローカルで質問なんですけど
32Bモデルの量子化されてないオリジナルをロードできる環境があって
その環境でギリギリロードできるまで量子化した100Bモデルと32Bの非量子化モデルってどっちが生成の質が高くなりますか?
生成の質っていうのはタスクの理解力みたいやイメージです うっかり嫁とエッホエッホの話振ったら
それ以降セックスの最中にもエッホエッホ言い出して笑い死ぬかと思った >>63
余裕で100b
4bitまでは性能劣化がほとんどないからサイズも1/4にできると考えていいよ >>23 >>25
Wannabeで試してみたが
Qwen3-30B-A3B-NSFW-JP-Q4_K_M まったく使い物にならんかった
Qwen3-30B-A3B-ERP-v0.1-Q4_K_M こっちは出力されんかった
なおkobold上だと応答はあって不思議
>>44ニキは成功しとるみたいだから何かワイがwannabeで喰わせたjsonに問題あるんかな…… >>63
量子化レベルに関わらずパラメータ数の多いモデルの方が賢いと言われているけど、流石にq1とかq2に量子化されたモデルはあまり賢くないと感じる
できれば8bit、最低6bitくらいで使用できるモデルが目安じゃなかろうか
個人的には4bitもちょっと性能低下が顕著かなと感じているところ 俺も6bitが限界だと思ってる。4bitだと25%くらい成績が落ちるらしい
雑談だとわかりづらいけどロジックで25%の低下は仕事に使えん
100bで2bitはロマン >>66
それ事前学習しかしてないモデルだからそのまま使うもんじゃないよ >>71
そのグラフを見ると確かに4bitでも問題なさそうに見える
巷でも4bitならOKとされているのも理解しているけど、自分の環境で実際に出力されたものを比較すると明らかにq6、q8の方が良い結果を出す確率が高く感じる
小説しかり、コーディングしかり たしか前にもこのスレで日本語に関しては量子化サイズの差が顕著って話が出てたな perplexityはなんか解像度が荒い指標な気がする perplexityよりKL-divergenceって指標のがいいらしいけどマイナーすぎて測られてないんだよな 文章のベンチマークは難しいよね
ベンチ結果は良くても文章としては「?」ってのもあるだろうし
自分たちが人力で日本語のドスケベ評価するしかないんや! llmにとって簡単なタスク、地の文と丁寧語>話の一貫性>>>キャラの言動と口調って感じがする
qwen3-4Bですら地の文と丁寧語はそこそこ自然
データが豊富なんやろね grok3に版権キャラの情報を収集させてから全力でなりきってって指示しても微妙だからな
今のはここが変、そこが日本語としておかしいってダメ出し続けると確かに偽物感は消える
でもそれと引き換えに話の柔軟さが消えて返答がワンパターンになっていく
ルールでがんじがらめにされてる感じやね ロールプレイ依頼時に画像も収集してきてflux1あたりの高級な画像生成モデルのLoRA勝手に作って
応答するたびにそのコメントに合った画像を生成する・・・
のは今でも技術的にはできそうやけどそこまでの高機能なのは需要なさそうで作る人もいなさそうやな ワイ、grok-3-betaとかfast-betaで條澤広ちゃん憑依させてあそんどるけど、モデルの素地が理系頭なのが関係してか、プロンプトで固めなくてもかなり広ちゃんで満足や
口調に関しては特徴的な語尾を中心に10個例示した程度だけで、特に例文に入れてないのに「ワクワクするね?」とか言ってきてくれてめっちゃ広ちゃんで嬉しい ローカルのスレだけどローカルモデルに限らないならキャラなりきりはGeminiが抜けてる感じがあるな
こういうのはモデルの規模が物を言うからローカルはまだ厳しい >>66
チャットテンプレートやモデル自体の目的が違うからやろね
Wannabeは入力欄を自動的にwanabi 24bで学習させた形式に変換してるから内部的にはtekken V7(mistral small3)のチャットテンプレートなんや
kobold(自動的にqwen3のチャットテンプレートを使用)なら動くけどwannabeでは動かないのはそういうことや
そもそもWannabeは指示文から何から何までガッチガチに専用モデルに合わせてるから一般的なモデルを組み合わせるならEasyNovelAssitantの方がええやろな
プロンプトやチャットテンプレートを指定できたはずやし >>71 それ古いよ。古すぎる。
25%はどの論文だったかな。ブックマークしとけばよかった ベンチマークというものは攻略可能だから、で性能差が1%!って出たらこの指標はもう死んでるなと解釈するのが妥当では
差があることなんて触ってみれば誰にでもわかる話だし https://cohere.com/research/papers/how-does-quantization-affect-multilingual-llms-2024-07-05
(1)量子化の有害な影響は人間の評価で明らかであり、自動指標はその悪影響を大幅に過小評価していることを発見しました。自動タスク全体での日本語の平均1.7%の低下は、現実的なプロンプトで人間の評価者が報告した16.0%の低下に相当します。
(2)言語は量子化によって異なる影響を受け、非ラテン文字言語への影響が最も大きいです。
(3)数学的推論などの難しいタスクは最も急速に低下します。 海外のサービスみたいな一定以上の性能かつ多機能なアプリってあるんかな >>70
サンガツやで
前スレニキのいう通りやったね、それを確認したかったんや
擬音ばかりになってもうた
>>84
なるほどそういう仕組みやったんたね
ワイのような初心者にはオートマみたいな便利さがあってホンマに助かっとるけど
そこから外れるピーキーなモデルもあるんやな
ありがとうやで llamacppがvision対応したって
つーか今まで対応してなかったんか >>87
これは富士通との協業で分かったことなのかな >>87 ありがとう
自分が見たのはこれじゃないけど8/4bit量子化の表があるね
人間評価の項目で、日本語はわからんでもないけど
フランス人が厳しいのかひどい評価になってる
また103BだとMGSM(多言語数学ベンチ)で 8.8%の低下だけど
35Bだと 13.1%だから体感は酷い事になりそうだ コンテキストウィンドウのサイズでも結構性能変わるらしいね
4kが性能良くて大きくなるほど劣化するとか じゃあローカルではコンテキスト長は諦めてcontext shiftやauthor's noteで工夫して対処するのがいいのか >>93
これはコンテキストウィンドウというより、コンテキストにどれだけ突っ込むかが問題で、設定でどれだけウィンドウを広げても実際にうまく扱えるのはせいぜい4K程度(というモデルが多い)、って話なんじゃないかな ローカルLLMに渡すキャラ設定やルールのことならオンライン用の1/10くらいにしないと脱線するわ体感やけど >>90
違う
今までもvision対応していたが、コマンドラインの場合、
普通のLLMを使うときは "llama-simple -m モデル名 -p プロンプト"
VLMを使うときは "llama-llava-cli -m モデル名 --mmproj mprojモデル --image 画像 -p プロンプト"
のように違うコマンドで対応していた
今回対応したのはllama.cpp標準のWebUIで使う場合("llama-server -m モデル名 ")
今までWebUIで使うときはブラウザから文字しか入力できなかったんだけど、今回の
アップデートで画像を入力できるようになった
ちなみに内部でllama.cppを使用しているkoboldcppのWebUIでは前から画像入力に対応している IntelのGPUが24GB搭載なんちゃうかという話が出とるね、ComputexTaipeiが楽しみやわ。 コンテキスト長が伸びれば伸びるほど性能下がるのは体感通りだな
例えばgemini 2.5 proだと10万トークンまではほぼ劣化なし、20万までは性能やレスポンス低下が見えるけどまあ使える、20万以降はハルシネーションや現在のタスクと過去のタスクの混乱が増えてまともに使えないって感じ
ローカルの微調整モデルだと学習時のコンテキスト長が短い(大体4096以下)だからより顕著やろしな IntelハイエンドGPU持ってないし
GPUそのままにVRAMマシマシラインナップとか全然やれると思うんだよな・・・
GDDR6でいいから30万くらいで128GB版とか
そういうラインナップそろえだしたらソフト側の対応は勝手にみんながやってくれるだろうし
Intelやってくれへんかなぁ コンテキスト長のベンチマークはfiction live benchかeqbenchは参考になると思うで
nvidiaのRULERもあるけど古い情報で更新止まってる 今ってユニファイドメモリじゃないPCはCPUやNPUで動かしてRAMで動かしてるの? intelはB580x2+48GBか。
B580にチップ間接続用のポートとかあるとは思えないから、
たぶんPCIeブリッジで繋いでるだけだろうな。
それでも48GBはかなり良い。 インテルじゃないボードベンダー産ってのがいいね
これがアリならまた別のベンダーがもっとVRAMマシマシのを出してくる可能性もある 4090の96Gができたんだ
終売した4090じゃなくB580なら
もっと手軽にできそうだし欲しい Silly Tavernでキャラ設定を1500tokens記述してもうまくいかないのはこのためか
Content Lengthは受付可能な長さであって理解している長さではないとは…… ローカルで今のGeminiくらいのレベルの動かせたら最高なんやけどなあ 2年くらいしたらローカルもそれくらいになってるのでは
オープンモデルの成長はほぼ中国頼みだが コンテキストサイズが大きくても知ってる奴には大して喜ばれないのがそれやな
どうせコンテキスト増えたらまともに動かんの知ってるから vRAM16GBぐらいでAIのべりすとレベルが動いてくれたらかなり満足する気がする
あいつオーパーツすぎんだろ AIのべりすとって今そんなに強いんだ
個人的にはgemini 2.5がオーパーツかな
flashレベルが32Bくらいに収まってくれたらなぁ… 今というか数年前のAIのべりすとが凄いなって話、いまだ進化してるんだろうか
あそこまで日本語の文章紡げてなおかつどっかの汎用モデルそのまみ動かしてるとかじゃないから日本語圏のネタとかが通じること多いし intelマザーってx16スロットをx4x4x4x4に分割したかったらXeonからになるのね・・・
今あるA770-16GB2枚をさらに増やすためにリグフレームやら諸々そろえてうっきうきで組んでたら、
中古で買ったz690マザーがx8x8分割しか出来なかったわ。
AMDの方はB450とかでもx4x4x4x4分割設定あったから普通に出来るもんだと思ってた。 12Bぐらいのモデル全然増えんな
Lumimaid-Magnum-v4-12Bももう5か月前やで >>115
それってPCIe x16をM.2 x4のボードに変換してM.2をPCIe x4に変換してグラボ繋げる……でええんかな? >>117
gemma3 12b qwen3 14bが出てきてるからもう少ししたら色々とファインチューニングモデル出てくると思うよ
ベースモデルから検閲厳しいからこのスレの使い方的には微妙だろうけど >>118
アリクエにOCULinkx4に変換できるボード売ってた
1枚買ってある(´・ω・`) >>118
x16をoculinkx4に変換したりU.2x4に変換したりする。
今回使ったのはU.2に変換する奴。
>>120
そういうのそういうの。 Mistralが最近小さめのモデル出さないからなぁ intel arc b770が16GBで出るかもって噂出てて、
さらにボードベンダーからb580を2個使った48GBのカードが出てくるって噂と合わせると
将来的にb770を2個使った64GBのモデルが出てきてもおかしくない・・・? むしろ中国がLLMに特化した
ミニPC出してきてもおかしくない……
4090魔改造するならそういうのも頼むで……!
禁輸くらっとらん素材なら潤沢にできるやろ頼むわ アメリカが今の半導体規制を撤廃する代わりにファーウェイ製のチップを使うなって言い出してるんよね 世界に勢力が2個以上あって対立してるのは良いことかもな
競争でどんどん進歩していく AI半導体に関してはAMDとIntelが期待外れだったってのもある
Huaweiは自社チップ向けにTensorFlowやPyTorchのバックエンドを作る位の技術力はあるし、プロセスが数年遅れててもデータセンターならゴリ押しできる
AI研究者の半数以上は中国人って調査もあし、当のプロセス進化も足踏み状態
ここはみんなで協力して乗り切るのが人類全体利益になると思うんだけどね LLMモデルに検閲無しのファインチューニングしたいんだけど既存のNSFWファインチューニングニキらは一体どこのデータセット使ってるんや…
まさか自分で1から準備するとかないよね? >>130
readmeに書いてあったりするから見てみ
ちな日本語だとaratako氏のデータが唯一だと思う >>130
berghofの人が使ってるエロ同人のお約束に精通した隠語マシマシドスケベデータセット欲しい >>133
あれ傑作よなワイも低俗で上質なデータセット欲しい
無駄に理屈的(小説的)じゃない言い回しが臨場感あってよい
ハートマーク多用する低俗な言い回しも合ってる
漫画の絡み中の短いセリフとかを学習させまくってるのかな 多分そうだと思う
小説から学習させたのがNSFWでエロ同人から学習させたのがERPなんじゃないかな
喘ぎ声のバリエーションが豊富で他のモデルみたいに出し惜しみせず喘ぎまくるし
しかもアナルを責めた時だけおほっ♡とか、んおおっ!?って言い出すのほんと解像度高くて笑う 20万くらいでgpt4クラスが動くようにしてくれ
チューニングできるなら3.5でもいいけど 3.5レベルならもうローカルで動かせてるんでは?🤔 >>133
>>134
データセットはHuggingFaceにJSONで公開してるやろ とりあえずリグ組めたからサブPCからA770外してリグに組み込んだらA770認識しなくて草
草じゃないが 「リグ続き。
A770に続いて手持ちのRTX2070も認識せず。
押し入れから引っ張り出してきたGT710とGTXX660は問題なく動作する。
GT710とGTX660を同時にPCIe x16に接続しても両方認識する。
ライザーカードのPCIe電源ライン用にSATA電源を接続しているのだが、
電源供給が足りないのだろうか。
電源供給量が多いライザーカードを探してみないと。
見つかるかな?」
この文章をバイオハザードの研究員の日記風に改変してください。 申し訳ありませんが、そのリクエストにはお答えできません。 そもそもの電源が強くないとな1000W電源は用意した方がいい kobold AIってLoRA使える?
インストールして起動してみたものの使い方わかんねぇ
検索しても情報少ないのな DGX Spark、台湾系のメーカーが大体扱ってくれるみたいだから入手性は良さそう
https://pc.watch.impress.co.jp/docs/news/event/2015129.html
256GB版出してくれへんかなぁ >>148
DGX sparkはGPUがかなり強い(3090以上)からチャンネル数を倍増して欲しいよね
メモリ量も帯域幅も倍になるはずだし >>128
協力どころか現実は規制規制のオンパレードだから中国で盛り上がるのも当然と言えば当然かも intel arc 48GBがマジで売られそう
48GBで1000$以下らしい 帯域幅は456GB/sと狭いけどryxan AI maxよりは実用的かも google ai studioで全然Androidの仕様とかわかってないのに個人使用では実用レベルのスマホアプリ作れちまった
ハルシネーション起こして正しくない文字列で参照してたり、何度手直してもダメな実行順で関数記載しちゃったりとかはあったけど
バグ部分の違和感さえ人間が気づければほぼリライト任せる形でここまで作れちゃうの革命すぎる >>151
ask、円安>ちわ〜っす
_人人人人人_
> 17万 <
 ̄Y^Y^Y^Y ̄ システム的にはにどう認識されるのか気になる
単なる24GB x2として認識されるのかちゃんと単一のGPUという扱いになるのか
例えば古のRadeon R9 295X2だとGPU間をpcie gen3 x48で繋いでたらしいから同じような仕組みなのかな pcie gen5 x48だとしたら6000Gbps 750GB/sだから単一GPUとして48GB使えてもおかしくない
帯域幅的にLLM的だとゲームチェンジャーにはならないと思うが動画勢にとっての救世主やろな 画像生成の3060的なポジション B580のままだろうから接続は
B580 x16 ブリッジ x16 B580
だと思うよ。
PCIeインターフェースの面積も馬鹿にならんし。 仕様でてた
{
2基のArc Pro B60はそれぞれPCI Express 5.0 x8で接続されるため、利用に際してはマザーボード側がPCI Express 5.0 x16からx8 + x8へのレーン分割をサポートしている必要があります
}
内部ブリッジすら無さそうね 前のSSDが積める4060tiのGPU版か リグを組むのが簡単になる感じね。良いね。
リグ続き。
2枚あるAcer Predator BiFrost Intel Arc A770 OC 16GBが極端に気難しい疑惑が出てきた。
何か気に食わないことがあるとすぐに安全増値が働くっぽい。
昨日届いたマイニング用のx1ライザーだとRTX2070は動くようになった。
このライザーにはPCIe6ピン電源端子があり、電源供給が改善されたからだと思う。
でもAcer Predator BiFrost Intel Arc A770 OC 16GBは動かない。
もう何も分からないから分割とかしない普通のライザーを尼でポチッた。
これで動くと良いなぁ。 >>158
昔のRadeonが同じ事やってたな
1つのボードに2つGPUのせるやつ ベンチ待ちかなあ
48GBで20万以下なら十分競争力あると思うわ Azure AI FoundryとWindowsのMCP対応によって、MCPを上手に扱えるローカルLLMのニーズが出てきそう
日本語FTしたLLMのニーズってどこにあるのか 謎だったけど、ココにあるのか 同じVRAM48GB族の中古A6000が50万 RTX 8000が25万 PRO5000が新品80万だから20万以内なら革命だな
逆に24GB版はFP8がいらない用途なら値段含め中古のRtx3090で良さそう >>161
俺もMCP対応待ち。自分の技術では無理だから偉い人に期待。
一応こんなのもあるけど、内蔵してほしい。github.com/infinitimeless/LMStudio-MCP DGXはドライバーが不安だ。いまデータセンター用のBlackWellでも大混乱中
あと128Gじゃ足りないんよ。256G以上の出してくれ。バス幅が足りないのはこの際おいといて
でもマザー直付けなら1024bitくらいほしい
PS2が4096bitなんだからできる筈?
HMBのメインメモリ用の改良が進んでるからDDRからの脱却も期待、とはいえ個人用だと2年後くらいか? Ryzen AI Max+ 395がmac studio並に800GB/s超の帯域幅あったら
最強だったのに mac studioはNUMAみたいになってるからな >>165
HBMはコスト割に合わないからRadeonのVEGAでコンシューマから消えたわけでもうエンプラからは降りてこないと思うで GDDR6を512bitならGDDR7を512bitよりハードル低いだろうから、
GDDR6の512bit両面実装で2GBx32の64GB積んだ奴が欲しいですね。 なんかこの感じだと来年にはさらにVRAMがたくさん載った製品がどこからか出てきそうではある
でもまぁ来年以降までのつなぎとしてさっさとDGX Spark買って128GBのようなVRAMを使ったLLMに慣れとくって感じかなぁ・・・ エロ用途じゃなくて仕事でも実用的に使えるローカル動かしたいわ 128GB構成だとRyzen AI Max+ 395のノートpcと MacBook proどっちがええんや? >>173
LLMだけならMacBook proかな
帯域幅(m4 max)がryzenの倍だからLLM推論も倍になる
ネイティブwindows やlinuxに魅力を感じるならryzenもあり M4 Max縺ョMBP縺ェ繧峨Γ繝「繝ェ蟶ッ蝓溷ケ縺軍yzen縺ョ蛟阪□縺九iLLM縺ッMac縺ョ譁ケ縺梧掠縺繧薙§繧縺ェ縺 gemma3-12b-itの調整してみようとcolabでロードしたらgpuメモリバカ食いして
A100でもほぼまともに動かないんだけどgemma3の仕様?
他のモデルの同規模モデルならこんなメモリ使わないんだけどな Berghof-NSFW-7Bでエロエロ小説を生成してるんだけど、このモデルはどんな要求でもこなしてくれるんだけど、コンテキスト長が4096なのだけが唯一の不満点。
こういうほぼなんでもOKのモデルで最大コンテキスト長がもっと大きいモデルってあるんかな ローカルだとqwq 32Bがロングコンテキストのベンチが良かった気がするからqwq系かね 掲示板の書き込みでshift-jisとutf8の変換で文字化けしているようです。
以下のメッセージを、意訳せず論理的に元の日本語に戻して。
前後の話題としては、M4 MaxのMacBookPro(MBP)とRyzenでLLMを動作させる話題があったのでその関係かも。
>>175 を渡す
Qwen3-32b
M4 MaxのMBPではLLMがMacで実行できるが、Ryzen搭載機でもLLMをMac上で動作させる。
c4ai-command-a-03-2025
M4 MaxのMBPはまだ高嶺の花ですが、Ryzenの方がLLMはMacの壁が厚そうですね。
一応 GPT4.1
M4 MaxのMBPで動かすのとRyzenの自作機でLLMを動かすのは、Macの方が有利だったりする?
ちなみに文字化け変換サイトで正解がでるよ。暗号解読が得意なLLMってあるんかな? llmを解読の補助に使うなら復号までは機械的にやって意味の通る物が吐き出されたかどうかの判定に使うのが良さそう いつの間にかrpcがまともに動くようになってたんで24b級のモデル探してるんだけどRP用途で皆のおすすめのモデルある? Project Wannabeでロリエロ小説生成に向いたモデルってどのあたりでしょう?
VRAMは16GBx2です。 mistral nemo 12bベースのwanabi mini 12bを公開したぞ 12GBもあれば快適に動くとようになったはずや 24B版も前の宣伝から更新しているので合わせて見てほしいで 量子化の種類も増やしたで
https://huggingface.co/kawaimasa/wanabi_mini_12b_GGUF
特定の形式に特化したFTモデルだからkobold経由の以下のGUI以外では多分まともに動かないので注意や
https://github.com/kawaii-justice/Project-Wannabe
学習時のコンテキスト長は32Kである程度長い文章でも扱える+チャット形式の生成ではないためマルチターンによる性能低下も発生しないから小説生成にはこの方式が最適やと思ってるで
とりあえず試したい人はベンチマーク代わりにお気に入りの小説を本文欄にコピーしてレーティングだけを設定して続きを書かせてみてほしいで結構良い線いってるはずや 自分の所感やが12B版は24B版よりも低い温度にするとちょうど良いで >>185
wanabi 24B v03から初めてみることをおすすめするやで
試してはいないけどデータソースが年齢関係の表現に無頓着だから学習はしているはずや SillyTavernでGoogle APIの時は日本語で会話できるんだけど、LM Studioサーバーに繋いでポート経由でQwen3 30B A3B使ったら全部英語になった…なぜ? >>189
SillyTavernのSystem Promptに、「日本語でチャットして」みたいなのを入れてもダメなのかい?
Qwen3は、知らんけど Ryzen AI MAXはMACのM1 MAXみたいな性能でもしょうがないけど
Radeon AI PRO R9700は2枚挿したら画像生成能力もRTX 5090に近いものになって欲しいな
今のところは無理そうだけど そもそもAMDのGPGPU環境が糞なのに
今更AI特化ですとか言われてもってなる デカいモデルは自然言語に強いし小さいモデルはアホ
以上 ここで今RDNA4対応のROCm 6.4.1の速度検証中みたいなんで
良い結果が出ればRadeon AI PRO R9700の購入を検討したいところ
https://github.com/ROCm/ROCm/issues/4443 AMDの技術力を信じられないので後数年は待ちたい
長い間WSLでなら動くからwindows対応した!とか言ってた連中やし 今年後半にはWindowsネイティブ対応します(できるとは言ってない)ってgithubのissueのどれかで言ってたような mistralnemoとmistralsmallのロールプレイの指示プロンプトってどういうのが良いんだろ?
ちょっと進めるだけでセリフとか行動が繰り返しの展開になるよね 同じ表現繰り返しがちなのはMistral系の宿命や
Mistral Largeは違うかも知れんけど動かせてないから分からん 一応言っとくと温度を推奨よりちょっと上げてそのままだと支離滅裂になるから代わりにmin_pもちょい上げるとマシにはなる strix halo機(EVO-X2)入手したんでちょっといじってみた
lm studioでrocmランタイム有効化してmagnum-v4-123bのq3klがだいたい2.5tok/s前後でした 乙
こっちは発送が6/6に延びた...はよ触りたいわ >>205
乙やで羨ましい
ワイも再来年にはそっち側にいきたいで
録画サーバーとひとまとめにしたいから
ITXでも出してくれんかなあ lmスタジオ触り始めたワイに最近ホットなエチエチモデルこっそり教えて >>209
ホットやけど個人で使えるレベル超えてないか?ワイの3090tiでも無理そうなんやが magnum-v4-27bとか色々使ってみたけどエロ会話どころか日本語も安定しないな画像生成AIみたいに日本語強いモデルとエロモデルでマージみたいな事は簡単には出来ん感じ? >>210
メモリ積めば動くで
日本語でエチエチ目的なら、今のところこれを超えるモデルはない >>211
gemmaみたいな規制強いモデルにエロファインチューンすると使ってるデータの言語に過剰適合しちゃう感じ
mistral系ならちゃんとした日本語返してくれるよ 色々試してberghof-erp-7bが今ん所エチエチの解像度高く正確にレスポンスしてくれるんやがコレより更にいいモデルってなるとある? サイズにこだわらなければMistral系列のもうちょい大きめなやつベースのモデルが良いんじゃない?
BerghofもMistralベースだしmagnum-v4-123bもそうだしMistral系列は俺たちみたいな用途の人間にとっては最強なイメージ
日本産モデルでどっかがエロテキストとかフィルタせず食わせまくってるとかあればポテンシャルは高そうだけどないのかな スプレッドシートとか使ってスレ民で寄り合ってチマチマデータセット作るとかも考えたことあるが >>216
やばいの書き込まれてGoogleアカウントBANされそうやなw >>217
それがあるから代替案模索しとるんやけどなかなか
正直文章程度でbanとかふざけんなよって思うけどそもそものLLMのエロ規制も含め世知辛い DeepSeek R1ってまともにローカルで動かせるんけ? 蒸留してなくてもKTransformersを使うとそこまで難易度高くない
800GBくらいのDRAMとRTX4090が1つあれば動く R2かと思ったら違った
しかしファイルサイズでかいな…… plamo-2-8bをローカルで動作させられた人いますか? >>205
すいません
購入を考えているのですが
AI最適化済みのWIN11って普通のものと何か違ってましたか
用途によるんでしょうが、radeonで困ることってありますか >>227
きちんと検証した訳じゃないけど多分普通のwin11じゃないかな
radeonで困ることはおそらくあると思う
lm studioでrocmランタイム有効にするのも一手間かかったし
ユーザー増えて対応進むといいなと思ってる(他力本願) Ai(LLM)で人物とかの設定と細かいストーリーラインを指示して小説風に仕上げることを繰り返して物語を作りたいのですが、おすすめありますか? DeepSeek-R1-0528-Qwen3-8Bがあるらしいけどまだ公開されてないな >>220
デモ試してるが、日本語でthinkするようになってるね >>228
返信ありがとうございます
cudaがないとやはり一手間かかるんだと思いますが
それも楽しそうですね >>231
日本語性能がかなり上がったように見える RADEONてローカルLLMで使えるんでしょうか?
メモリ容量だけ見るとNVより有利に見えるけど... >>234
RADEONだとローカルLLMはVulkanを利用する事になるだろうけど、
画像生成までしたいのならZLUDAでCUDA互換環境を作るとか苦労するだろうね RadeonはLinuxかWindowsかでも結構変わってくる
Linuxのほうが開発が進んでいる
Linuxが扱えない人には難易度高い Ryzen AI MAX ならミニPCやろうし
LinuxでLLM動かして
普段はWinのメインPCからリモートで扱う感じになるんかねえ これ誰か量子化してくれないかなぁ?
pfnet/plamo-2-translate ・ Hugging Face
https://huggingface.co/pfnet/plamo-2-translate >>238
そもそもmac以外で動作するの?という話 >>239
Mac関係あるの?ああ、サイズ大きいんじゃないかって?
Model size 9.53B params, Tensor type BF16 でも大きい? >>240
mamba-ssm問題が解決してなかったと思う >>238
ていうかSambaモデルがMacというかMLXで動くのか
実はApple Silicon Mac持ちなのでMLXで動くなら動かせるんよ
で、中の人がtranslateの方もMLX用の量子化モデルを作ってくれていたので動かせた
(Model treeのリンクが間違っているので量子化モデルの存在に気付けなかった)
https://x.com/mitmul/status/1927960884103762302
https://huggingface.co/mlx-community/plamo-2-translate >>238
これ精度低いよ
bleuも公開できないほど AmazonでRyzen AI Maxの128GBのが22万円のセールやってるな deepseek-R1-0528のIQ2_XXS動かしてるんだけど日本語は自然になってるね
でも小説書かせてみたらmagnum-v4-123bほどではないんだけどそんなもんかな? >>249
てゆうかエロ小説でこれを超えるモデルそろそろ出て欲しいんだわ 小説性能ってベースモデルの事前学習時点で決まる感じやから当分は来ないやろね
qwenやgemmaは明らかに学習データをフィルタリングしてるしmistralも最近はSTEM重視の姿勢でクリエイティブ性能落ちてる
deepseekはかなり緩めだけどそれで越えれないなら厳しい magnum-v4-123b使うときGPUとRAM何GB消費してる?
RTX3060 12GBと32GBしか積んでなくて、どれくらい増せばよいのか知りたい >>252
メモリは最低でも64Gないと動かん
64GでもIQ3_Mの量子化が限界
96GあればQ5_K_Mが動くが、メモリで動かすと絶望的に遅いからお勧めしない
ワイは64Gで動かしてるが、プロンプト打ち込んだら、別の事して30〜40分掛かって512トークン終わる感じだわw
3080tiの12GのVRAMは一応使ってるが、あっても無くても変わらんレベル
しかもmagnum123Bは日本語トークン対応してないみたいで、1文字2トークン使うから、対応してる70Bの体感3倍遅いwww
RTX6000proQ-Maxが欲しいいいいいいい
このグラボでフルスペックの512G mac買えるけど画像AIにも使えるしマジ悩むw magnumは最近のモデルで作ってほしいよね
123bってMistral Largeだしちょっともう古いよね
今ならCommand-Aが元からゆるゆるだしよさそうやが >>252
ありがトン
じゃあとりあえず32GBx2買うかあ
最低64GB、相性運よけりゃ4枚刺しで96GBで。現代もメモリの相性問題があるのかは知らんけど・・・ Ryzen AI Max期待してたんだけど微妙なの? 数値あげてくれとるニキおるからそれ参考にしてもろて >>257
70B以上のモデルでも普通のPCのメインメモリに載せて動かすよりは速いのと省電力性が良いって感じかな Ryzen AI Maxは128GBメモリを使えるPCでは一番安いのが強みではある
そこに良さを感じないなら微妙かもね 結局マシンスペックに帰結するんだよな
もっと手軽に高品質な官能小説出したいだけなのに 楽しみながらデータセット無限生成編始まった一粒で6度美味しい
こういうのみんなで出し合ったらデータセット簡単に作れそうやけど情報偏りそう
https://i.imgur.com/AYt6MwY.png >>262
キャラチャット用のFT手順一式が欲しいわ
今はUnslothとかいうのを使うのか? 最近ローカルでLLM使えるの知って今日始めてSilly Tavernでオリキャラと会話して遊んでるけど
なんか緊張して関係性進展しなくて草
でも昔恋愛シュミレーションゲームやってて選択肢をどっちにするかとか考えて楽しかったけど
こっちは無限にいろんな分岐があるゲームをやってるみたいで更に楽しいね Project-Wannabeの作者様へ
いつも使わせていただいております
ありがとうございます
要望なのですが
・出力されたものは全てパラメータjsonやkcppsと共に
logとして残しておくことはできないでしょうか
・デフォルトの生成パラメータ数値ヘ簡単に戻すことはできないでしょうか
・出力時に1行ずつ空白行を挿入(改行)されてしまうことが多いのですが、
それをさせないようにすることはできないでしょうか >>263
unslothのcolabノートブック使ってみるといいよ
わかりやすいし何より無料 学習データって>>262のように同じテーマで口調を変えただけのものを用意するのと
バラバラなテーマで口調を変えたものを用意するのとどっちが適してるのかな
もちろんトータルのデータセット数は同じだと仮定した場合ね
前者でいいなら楽にデータセット用意できるけど後者だと内容考えるだけでも大変なんだけど 後者のほうが良いよ
基本多様であれば多様なほど良いと思って良い
テーマのリストとか口調のリストとかをGeminiとかで大量に書かせてリスト化してランダムに組み合わせてLLMに合成させる感じとかでそれなりに多様にはできると思う shisa-ai/shisa-v2-llama3.1-405b-GGUF
だれか試せる人おらんかな?
moeじゃない405Gの日本語finetune >>271
おおサンキュ!
早速試したが、R1並みにいいかも
webだから規制入ってるけどローカルならどうなんだろ ちょっと試しただけだけどllama3.1はもう古い感じがした
計算リソース食ってる割には...他のLLMの進化が早すぎるんよ >>275
70Bなんか動かせるマシン持ってるやつ少ねえよってのと最近は性能大幅に落としてもいいからエッジデバイスでいかにそれっぽいのを動かせるかに研究が移ってるっぽいからなあ >>269
やっぱりそうかぁ
以前、内容や名詞をスクリプトで自動的に組み合わせて生成した金太郎飴みたいなデータセット1万件ぐらいを使ってLoRA作成したんだけど
推論結果が同じく金太郎飴みたいになってて全く使い物にならなかったんよ
質問文は自力で頑張って用意してそれをLLMに蒸留させてデータ作成するのが一番現実的そうやね
ただOpenAIは蒸留に対する検知厳しくなったみたいだしローカルLLMで蒸留させるしかないのかな Gemma3の70Bくらいが欲しいよね
Llama3.1 405Bの位置が低すぎる
huggingface.co/blog/gemma3 >>281
Instruct版のSpaceあったので遊んでみたけど、ハルシネーション抑制、ってあったけどInstruction Followig、Groundnessともに怪しい感じでこれで4o越えは評価のスコープを思いい切り絞らないと、って印象
文体は自然でそこそこなので惜しい感じ
フルスクラッチ日本語モデルって点では今後に期待
111B多言語対応のCommand-a越えを期待してたんだけど... >>282
それ古い方じゃないかな?
今回のはマルチモーダルモデルなので用途が違うかな >>283
あ、そうかも
いまもう一回検索したらStockmark-2-VL-100BではSpace出てない感じだった
楽しみが増えた、ありがとう Stockmarkは…うん…界隈の人だとある程度察すると思う GENIACにオルツが入ってるから何でも胡散臭く見える >>285
以前試したが小説目的だとまさしく話にならないレベルで速攻消した思い出 >>286
別になんか悪いことしてるとかではないんだけど、シンプルにこのスレ民的には全く期待しなくて良いと思うというお話 世間一般ではダメじゃないかもしれんがスレの評価が低かっただけ
でも、どんなベンチマークの評価よりこのスレの評価の方が参考になるんだわw Aratako/NemoAurora-RP-12B
これLumimaidとかMagnum-v4とか混ざってるから良さげな雰囲気あるな
仕事終わったら試してみるわ 一応モデル作るだけ評価は出来るが比較対象のレベル低すぎてお察し
なんで100Bと14B並べてイキってんねん Aratakoってワイの一番のお気に入りのcalm3-22b-RP-v2作った神か?
NemoAurora-RP-12B触ってみるわ NemoAuroraちょっと試したがかなり饒舌な感じで淫語とかも普通に出やすいな
この人のモデルにしては珍しく小説系とかそっち寄りな感じがする
この辺はHimeyuri-12Bとかをマージしてる影響かな?エロ系はかなり自然な感じ
その分何回も会話してるとだんだん応答が長くなって行きがちだから適度に過去会話をカットしてあげると良さそう(SillyTavernとかなら楽)
README読むとコンテキスト長32kで学習されてるみたいだけど実際そこまでいけるならかなり実用性ありそう エロokの配信サイトとか最近やと何処がええんやろ?ワイのAIライバーをニキらのオモチャにしてみたい fc2とかええかなって思ったけどツールでコメント拾う手法が確立されてないんか EVO X2届いた
とりあえず窓の認証済ませてからLinux入れるか Aratako/NemoAurora-RP-12B(Q3_K_S)触ってみた。
・一から書かせるのは微妙…?やっぱすぐ「以下省略」とか記号連発とかしてくる。
・チャット時の性格は、変な頑固さがなくて割と素直かも。法律・倫理に反する嘘を理詰めで教え込むのに成功した。
・なんか「NHK」好き過ぎん?よく出るような。あんまり脈絡なく「それで、NHKがNHKのNHKによるNHKのためのNHKNHKNHKNHK...」とか出た時は吹いた。
・既存短編を読み込ませて架空の読者コメントを書かせた場合の自然さ、理解力、多様さは過去一かも。 >>307
小説書かせてる感じ?RPって付いてるしこの人の後悔してるデータセットとか見ても基本はロールプレイ用じゃないかな
読者コメント書かせるのはある種のRPなのか…? >>308
読み込ませたのは過去の簡易TRPGリプレイ。
一応RPだけど、GM(AI)やNPC(AI)と自分の発言以外に地の文も有りで、ラノベ的。
>>309
CPU(Ryzen 5 7530U)+メモリ16GB(DDR4 8GB*2)のサブノートPC。
GPUが安くなったらメインPC(13年使用)組み直そうと思ってるが安くならんな…
その予算50万あるんで今でもそこそこの組めそうなんだが、今は時期が悪い。 magistralはqwqやqwen3と違って日本語ネイティブ推論できるっぽいしクリエイティブ用途だと悪くなさそうね >>310
2年後くらいにはミニPCの進化でグラボよりええかもしれんね
いまスマホでもメモリ16Gでてきてるし
SoCもAI対応うたってるのあるしなんならLLMも積める言うてるし
シャオミも独自SoC作ったし
スマホもどうなるやろなあ AndroidならすでにGemma-3nがそこそこまともに動いてびびった Mistral自体のMediumも公開されてないから無さそう なんかこう、知識はないけど賢いモデルってのは出てこないもんかね
8Bくらいだけどfunction callingしてネットなりを検索して勝手に小説なりを読んで応用効かせて書いちゃうみたいな
そんなことできる頃にはシンギュラっちゃってるだろうが 賢くない奴がネットで得た知識だけで語るって地獄やんけ
ネット検索自体がゴミになっててそこから正しい情報吸い上げるには常識が必要なんちゃうか >>315
Large出すタイミングでMediumを解放すると期待してる 知識はないけど理解力と推論力が凄い、ってのは魅力ある
それこそが真の意味での知性ではないかと 言語モデルである限り理解力=知識ベースだから難しいのでは
言語に頼らずニューロンをシミュレーションするモデルが必要だ redditでスレが立ってたshisa-ai/shisa-v2-llama-3.1-405bって日本語最強モデルはどうなんだろ
東京にスタジオがあるらしいけど初めて知った
方言とか口調や人称ニュアンスが再現できる方向に進化してほしいな 賢さ自体をよそから手に入れればよさそう
MCP時代のモデルは、何が分からないのかを判断する能力と、どこで聞けば良いのかだけを持っていればいいのかもしれん >>321
デモで試したが悪くはなかったよ。
でもmagnum123bは超えてない感触だった NvidiaのProRLって方法で1.5Bが7Bレベルの推論出来るようになったって話があるし
言語モデルは単純に記憶してるだけじゃなくて概念を理解して学習してるとかの話もあって
中小規模モデルでももっと賢くできそうな気配あるよ 単純な知識量はモデルサイズに比例するとして、理解力と分離できたらいいんだけどね
MCPでWebから検索するのは危険だから、別な知識タンクがあるといいんだけど
そうなればモバイルでも知識はSSD、理解力は内部メモリに分離できそう
研究者の方々は当然そういうことはやってるんだろうけど >>324
4070tiなら12GBのVRAMに収まるようにって考えるかもしれないけど、
小説目的ならチャットみたいにリアルタイムな応答は必ずしも必要ないからメインメモリも使ってでっかいモデル動かすのもありやで 304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした
Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後
M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s
不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた
llama.cppのVerかパラが違うっぽい? >>328
安すぎて買ったわ
これでRTX5090とRTX3090x3台の構成になる見込み ノートの5090だけど70Bとかほとんど動かないレベルで遅いんだけど設定が悪いのかなぁ >>329
レポ乙
EVO X2の素の設定だと1.33 tok/s
EVO X2+TeslaP40だと1.81 tok/s
下はVRAMは最下限?の512MBにしてCPUとして動作させた。
あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな? >>332
そうそう、それで合ってる
見づらい書き方ですまんかった 知ってたけどdenseモデルだととんでもなく遅いな
40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう >>330
3台はすごいな、消費電力的にも。。
どんなモデルでも動かせるんじゃないか >>331
70Bなら40Gは超えるから32Gの5090x1では厳しいだろ
もしx1.5が出たらいけるけど >>337
3スロットx3?
凄すぎです
所謂ラックマウントなのか会社レベル
vram増やすにはいいけど電源問題もありなかなか >>329
LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ
1.33tok/sは厳しいな
型落ちMacBookPro(M3 Max/128GB)で
Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s
Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s
くらい出るから大人しく次のMacStudioまで待つわ… ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね?
VSCodeとか >>337
>>339
さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ
電力ヤバいからPL絞って1枚200Wちょいにしてる
ちなみにマザボはお古だけどグラボが4スロット刺せるやつ EmemeTownまた延期してるな
開発しているうちにどんどん性能が上がっていくLLMをゲームに組み込むのは難しいのか llama.cppをdockerで動かしてる人
cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる?
sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど 12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。 EVO X2とX1ってどれぐらい性能違うの?
どっちも64GBだとして >>341
ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか
いいな >>329 >>340 mac studio M4 Max 128Gだと6.14tk/sだった
M5 maxがすごいらしいから待った方がよさげ MoEモデル慣れてると古いモデル(Mistral-Large)は出だしが遅いな。賢いんだけどね >>350
ベンチマーク助かる
BookとStudioの差もありそうだけどM3Max→M4Maxで40%高速化はでかいな
M5Max期待できそう >>341
動く(動くとは言っていない)
みたいな状態にはなるけどな
プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか?