なんJLLM部 避難所 ★8 	
■ このスレッドは過去ログ倉庫に格納されています
 !extend:checked:vvvvv:1000:512 
 !extend:checked:vvvvv:1000:512 
  
 AIに色々なことをしゃべってもらうんやで 
 そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 
 自薦・他薦のモデルやツールは>>2以降 
  
 本スレ(避難中) 
 なんJLLM部 ★7 
 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 
 前スレ(実質本スレ) 
 なんJLLM部 避難所 ★7   
 https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/ 
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured  >>263 
 unslothのcolabノートブック使ってみるといいよ 
 わかりやすいし何より無料  学習データって>>262のように同じテーマで口調を変えただけのものを用意するのと 
 バラバラなテーマで口調を変えたものを用意するのとどっちが適してるのかな 
 もちろんトータルのデータセット数は同じだと仮定した場合ね 
 前者でいいなら楽にデータセット用意できるけど後者だと内容考えるだけでも大変なんだけど  後者のほうが良いよ 
 基本多様であれば多様なほど良いと思って良い 
 テーマのリストとか口調のリストとかをGeminiとかで大量に書かせてリスト化してランダムに組み合わせてLLMに合成させる感じとかでそれなりに多様にはできると思う  shisa-ai/shisa-v2-llama3.1-405b-GGUF 
  
 だれか試せる人おらんかな? 
 moeじゃない405Gの日本語finetune  >>271 
 おおサンキュ! 
 早速試したが、R1並みにいいかも 
 webだから規制入ってるけどローカルならどうなんだろ  ちょっと試しただけだけどllama3.1はもう古い感じがした 
 計算リソース食ってる割には...他のLLMの進化が早すぎるんよ  >>275 
 70Bなんか動かせるマシン持ってるやつ少ねえよってのと最近は性能大幅に落としてもいいからエッジデバイスでいかにそれっぽいのを動かせるかに研究が移ってるっぽいからなあ  >>269 
 やっぱりそうかぁ 
 以前、内容や名詞をスクリプトで自動的に組み合わせて生成した金太郎飴みたいなデータセット1万件ぐらいを使ってLoRA作成したんだけど 
 推論結果が同じく金太郎飴みたいになってて全く使い物にならなかったんよ 
 質問文は自力で頑張って用意してそれをLLMに蒸留させてデータ作成するのが一番現実的そうやね 
 ただOpenAIは蒸留に対する検知厳しくなったみたいだしローカルLLMで蒸留させるしかないのかな  Gemma3の70Bくらいが欲しいよね 
  
 Llama3.1 405Bの位置が低すぎる 
 huggingface.co/blog/gemma3  >>281 
 Instruct版のSpaceあったので遊んでみたけど、ハルシネーション抑制、ってあったけどInstruction Followig、Groundnessともに怪しい感じでこれで4o越えは評価のスコープを思いい切り絞らないと、って印象 
 文体は自然でそこそこなので惜しい感じ 
 フルスクラッチ日本語モデルって点では今後に期待 
 111B多言語対応のCommand-a越えを期待してたんだけど...  >>282 
 それ古い方じゃないかな? 
 今回のはマルチモーダルモデルなので用途が違うかな  >>283 
 あ、そうかも 
 いまもう一回検索したらStockmark-2-VL-100BではSpace出てない感じだった 
 楽しみが増えた、ありがとう  Stockmarkは…うん…界隈の人だとある程度察すると思う  GENIACにオルツが入ってるから何でも胡散臭く見える  >>285 
 以前試したが小説目的だとまさしく話にならないレベルで速攻消した思い出  >>286 
 別になんか悪いことしてるとかではないんだけど、シンプルにこのスレ民的には全く期待しなくて良いと思うというお話  世間一般ではダメじゃないかもしれんがスレの評価が低かっただけ 
 でも、どんなベンチマークの評価よりこのスレの評価の方が参考になるんだわw  Aratako/NemoAurora-RP-12B 
  
 これLumimaidとかMagnum-v4とか混ざってるから良さげな雰囲気あるな 
 仕事終わったら試してみるわ  一応モデル作るだけ評価は出来るが比較対象のレベル低すぎてお察し 
 なんで100Bと14B並べてイキってんねん  Aratakoってワイの一番のお気に入りのcalm3-22b-RP-v2作った神か? 
 NemoAurora-RP-12B触ってみるわ  NemoAuroraちょっと試したがかなり饒舌な感じで淫語とかも普通に出やすいな 
 この人のモデルにしては珍しく小説系とかそっち寄りな感じがする 
 この辺はHimeyuri-12Bとかをマージしてる影響かな?エロ系はかなり自然な感じ 
 その分何回も会話してるとだんだん応答が長くなって行きがちだから適度に過去会話をカットしてあげると良さそう(SillyTavernとかなら楽) 
 README読むとコンテキスト長32kで学習されてるみたいだけど実際そこまでいけるならかなり実用性ありそう  エロokの配信サイトとか最近やと何処がええんやろ?ワイのAIライバーをニキらのオモチャにしてみたい  fc2とかええかなって思ったけどツールでコメント拾う手法が確立されてないんか  EVO X2届いた 
 とりあえず窓の認証済ませてからLinux入れるか  Aratako/NemoAurora-RP-12B(Q3_K_S)触ってみた。 
 ・一から書かせるのは微妙…?やっぱすぐ「以下省略」とか記号連発とかしてくる。 
 ・チャット時の性格は、変な頑固さがなくて割と素直かも。法律・倫理に反する嘘を理詰めで教え込むのに成功した。 
 ・なんか「NHK」好き過ぎん?よく出るような。あんまり脈絡なく「それで、NHKがNHKのNHKによるNHKのためのNHKNHKNHKNHK...」とか出た時は吹いた。 
 ・既存短編を読み込ませて架空の読者コメントを書かせた場合の自然さ、理解力、多様さは過去一かも。  >>307 
 小説書かせてる感じ?RPって付いてるしこの人の後悔してるデータセットとか見ても基本はロールプレイ用じゃないかな 
 読者コメント書かせるのはある種のRPなのか…?  >>308 
 読み込ませたのは過去の簡易TRPGリプレイ。 
 一応RPだけど、GM(AI)やNPC(AI)と自分の発言以外に地の文も有りで、ラノベ的。 
  
 >>309 
 CPU(Ryzen 5 7530U)+メモリ16GB(DDR4 8GB*2)のサブノートPC。 
 GPUが安くなったらメインPC(13年使用)組み直そうと思ってるが安くならんな… 
 その予算50万あるんで今でもそこそこの組めそうなんだが、今は時期が悪い。  magistralはqwqやqwen3と違って日本語ネイティブ推論できるっぽいしクリエイティブ用途だと悪くなさそうね  >>310 
 2年後くらいにはミニPCの進化でグラボよりええかもしれんね 
  
 いまスマホでもメモリ16Gでてきてるし 
 SoCもAI対応うたってるのあるしなんならLLMも積める言うてるし 
 シャオミも独自SoC作ったし 
 スマホもどうなるやろなあ  AndroidならすでにGemma-3nがそこそこまともに動いてびびった  Mistral自体のMediumも公開されてないから無さそう  なんかこう、知識はないけど賢いモデルってのは出てこないもんかね 
 8Bくらいだけどfunction callingしてネットなりを検索して勝手に小説なりを読んで応用効かせて書いちゃうみたいな 
 そんなことできる頃にはシンギュラっちゃってるだろうが  賢くない奴がネットで得た知識だけで語るって地獄やんけ 
 ネット検索自体がゴミになっててそこから正しい情報吸い上げるには常識が必要なんちゃうか  >>315 
 Large出すタイミングでMediumを解放すると期待してる  知識はないけど理解力と推論力が凄い、ってのは魅力ある 
 それこそが真の意味での知性ではないかと  言語モデルである限り理解力=知識ベースだから難しいのでは 
 言語に頼らずニューロンをシミュレーションするモデルが必要だ  redditでスレが立ってたshisa-ai/shisa-v2-llama-3.1-405bって日本語最強モデルはどうなんだろ 
 東京にスタジオがあるらしいけど初めて知った 
  
 方言とか口調や人称ニュアンスが再現できる方向に進化してほしいな  賢さ自体をよそから手に入れればよさそう 
 MCP時代のモデルは、何が分からないのかを判断する能力と、どこで聞けば良いのかだけを持っていればいいのかもしれん  >>321 
 デモで試したが悪くはなかったよ。 
 でもmagnum123bは超えてない感触だった  NvidiaのProRLって方法で1.5Bが7Bレベルの推論出来るようになったって話があるし 
 言語モデルは単純に記憶してるだけじゃなくて概念を理解して学習してるとかの話もあって 
 中小規模モデルでももっと賢くできそうな気配あるよ  単純な知識量はモデルサイズに比例するとして、理解力と分離できたらいいんだけどね 
 MCPでWebから検索するのは危険だから、別な知識タンクがあるといいんだけど 
 そうなればモバイルでも知識はSSD、理解力は内部メモリに分離できそう 
 研究者の方々は当然そういうことはやってるんだろうけど  >>324 
 4070tiなら12GBのVRAMに収まるようにって考えるかもしれないけど、 
 小説目的ならチャットみたいにリアルタイムな応答は必ずしも必要ないからメインメモリも使ってでっかいモデル動かすのもありやで  304だけどbartowski/Mistral-Large-Instruct-2411-GGUF-IQ4_XS(65.43GB)で軽くテストした 
 Windows11ProのLM Studio v0.3.16でVRAMデフォの64GB(Vulkan)設定、Context4096で1.33 tok/s前後 
 M.2に挿したOCuLink拡張ボード経由でTeslaP40接続してDebian12のDocker(text-generation-webui-cuda)でContext4096、P40のVRAMギリギリまでGPUオフロード、EVO-X2のVRAMはBIOSから512MBまで下げた状態で1.81 tokens/s 
  
 不思議だったのはWindowsでタスクマネージャー起動させながら見てたらLM StudioだとモデルをVRAMに読み込んでCPUが使われてて、窓でtextgen-portable-3.4-windows-vulkanを使ってみたらメインメモリとVRAMをそれぞれ消費してGPUを使ってた 
 llama.cppのVerかパラが違うっぽい?  >>328 
 安すぎて買ったわ 
 これでRTX5090とRTX3090x3台の構成になる見込み  ノートの5090だけど70Bとかほとんど動かないレベルで遅いんだけど設定が悪いのかなぁ  >>329 
 レポ乙 
  
 EVO X2の素の設定だと1.33 tok/s 
 EVO X2+TeslaP40だと1.81 tok/s 
  
 下はVRAMは最下限?の512MBにしてCPUとして動作させた。 
 あと、グラボ指すところがないからM.2スロットを使ってTeslaP40繋いだという理解でいいのかな?  >>332 
 そうそう、それで合ってる 
 見づらい書き方ですまんかった  知ってたけどdenseモデルだととんでもなく遅いな 
 40万出せば組める3090 x3で10tok/sくらい出るから電源問題すら無視するならそっちの方が良さそう  >>330 
 3台はすごいな、消費電力的にも。。 
 どんなモデルでも動かせるんじゃないか  >>331 
 70Bなら40Gは超えるから32Gの5090x1では厳しいだろ 
 もしx1.5が出たらいけるけど  >>337 
 3スロットx3? 
 凄すぎです 
 所謂ラックマウントなのか会社レベル 
 vram増やすにはいいけど電源問題もありなかなか  >>329 
 LLM用にRyzen AI 395 マシン買うか迷ってたから参考になったわ 
 1.33tok/sは厳しいな 
  
 型落ちMacBookPro(M3 Max/128GB)で 
 Mistral-Large-Instruct-2411-IQ4_XS: 4.4tok/s 
 Mistral-Large-Instruct-2411-MLX_Q4: 4.8tok/s 
 くらい出るから大人しく次のMacStudioまで待つわ…  ローカルでLLMを動かせると、そのローカルLLMのAPIを発行して、ネット上のAPIを入力して動かすツールを、全部無料で動かせるってことだよね? 
 VSCodeとか  >>337 
 >>339 
 さすがにあのデカさで3枚は直挿し無理なんで、ライザーで伸ばしてオープンエアで運用してるよ 
 電力ヤバいからPL絞って1枚200Wちょいにしてる 
 ちなみにマザボはお古だけどグラボが4スロット刺せるやつ  EmemeTownまた延期してるな 
 開発しているうちにどんどん性能が上がっていくLLMをゲームに組み込むのは難しいのか  llama.cppをdockerで動かしてる人 
 cuda toolkitとかはネイティブじゃなくてdocker内にインスコしてる? 
 sdの環境ではcuda11にしたいから上手く使い分けれればいいんだけど  12Bとか使ってるけど日本語の言い回しとか下手すぎるな〜一部の7Bのが賢く思えるレベルで文脈おかしくなる。  EVO X2とX1ってどれぐらい性能違うの? 
 どっちも64GBだとして  >>341 
 ローカルで動くVeo3みたいな動画生成AIも組み合わせれば、制限なしで動かし続けて2時間映画も作れちゃうのか 
 いいな  >>329 >>340 mac studio M4 Max 128Gだと6.14tk/sだった 
 M5 maxがすごいらしいから待った方がよさげ  MoEモデル慣れてると古いモデル(Mistral-Large)は出だしが遅いな。賢いんだけどね  >>350 
 ベンチマーク助かる 
 BookとStudioの差もありそうだけどM3Max→M4Maxで40%高速化はでかいな 
 M5Max期待できそう  >>341 
 動く(動くとは言っていない) 
 みたいな状態にはなるけどな 
 プログラミング用途ならclaudeかcopilotなら定額だしgeminiは無料枠デカいしローカル使う必要ないんじゃないか?  品質がどうでも良い用途ならローカルでもいいんじゃないの?  5090で動画生成 
 4090で画像生成 
 3090複数台(または4060Ti/5060Ti)でLLM/VLM 
 GPUでできる個人レベルの理想形はこんな感じか  rtx pro 6000 なら全部できるな・・・( ゚д゚)  なおrtx pro 6000買うだけの金があれば中古3090を10台以上買える模様 
 高杉  >>341 
 CLINEでLM Studioをサーバーにして使ってる 
 賢さと知識量はどうにも商用には敵わないけど 
 ローカルだとAWSのキー丸出しで質問できるのは楽 
 使い分けだよね  RTX PRO 6000とかのデータセンター向けGPUを家庭で使うと音で気が狂うかも知れない  >>360 
 用途がAIなら別室におくのがいいね 
 エアコンは必須だけど  >>359 
 その用途だとむしろバカなLLMを使ってる方が危なくないか? 
 承認者の人間側が十分に賢い前提ならまた違うのかもしれんが  >>360 
 Q-max版なら300wやで 
 悩ましいわw  >>360 
 うるさいの? 
 (驚いたことに)むしろスロット数少ないらしいしパワー少なそうに見えたけど 
 まあどうせ自分では買えないから関係ないけど  workstation版は5090のFEと同等だから許容できる騒音だろうけど300W版はシロッコファンだから地獄みたいな騒音やろな  >>360 
 RTX Pro 6000はワークステーション向けやで。 
 画像生成スレの御仁も使ってるぞ ■ このスレッドは過去ログ倉庫に格納されています