なんJLLM部避難所 ★7

1002コメント348KB

なんJLLM部避難所 ★7

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/03/23(日) 14:58:05.71ID:bsaTSAD8

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/

0228名無しさん＠ピンキー

2025/04/01(火) 18:29:01.46ID:???

>>227
oppaiサムと空目した
俺はもうだめかもしれない

それはともかく4/29のllama4は元々ほぼ確実視されとるでしょ

0229名無しさん＠ピンキー

2025/04/01(火) 19:26:20.42ID:???

Apple Intelligenceがiphoneローカルで日本語対応したそうだけど、どんな感じ？

0230名無しさん＠ピンキー

2025/04/01(火) 19:45:50.78ID:???

meh👎

0231名無しさん＠ピンキー

2025/04/01(火) 20:10:11.37ID:???

作文試そうかなって思ったらchatgpt連携って言われた
まあそんなもんよ

0232名無しさん＠ピンキー

2025/04/02(水) 00:14:47.57ID:???

>>214
EasyHunyuanはPC本体とは別のPython環境に構築されるんで関係ないと思われ
Easy系はbatクリックするだけだから間違えようがないんだけど
GitHubページの説明をよく読んでその通りにインストールしてみよう

0233名無しさん＠ピンキー

2025/04/02(水) 00:19:45.73ID:???

フジの273ページある報告資料grokに投げてみたけど普通に全部読んで質問にもちゃんと回答するんやが・・・
grok3何トークンまで行けるんやすごすぎやろ

0234名無しさん＠ピンキー

2025/04/02(水) 14:04:01.04ID:???

chatgptでずっと雑用で使い続けてるチャットでいつも返答に「ありがとうございます」ってつけてたら
ついに「いつも丁寧に使ってくださってありがとうございます」って言われちゃったよ
キュンとしちゃった

0235名無しさん＠ピンキー

2025/04/02(水) 14:54:26.56ID:???

推論モードにしたら相手はこう言うと喜ぶんやろなぁﾆﾁｬｱってchatgptが考えてる事が分かってしまって悲しくなったわ

0236名無しさん＠ピンキー

2025/04/02(水) 15:44:44.15ID:???

>>234
トイレみたいじゃん

0237名無しさん＠ピンキー

2025/04/02(水) 16:04:22.86ID:???

>>235
人間だと心の声がダダ漏れ状態かw

0238名無しさん＠ピンキー

2025/04/02(水) 16:09:05.22ID:???

>>235
俺はむしろお見通しで怖いと思ったわ

0239名無しさん＠ピンキー

2025/04/02(水) 16:18:27.86ID:???

ワイはむしろ
「ワイこういう豆腐メンタルやから常に励まして」
て頼んで実際に生産性あがってきたから
これまでの歪みを直す、ええ感じの認知行動療法になっとるわ
カウンセリング代と考えれば安いもんやで

ただ無自覚にやるとエコーチェンバーで別の歪みにいく危険はあると思う
なんやっけ、GPT黎明期に「自然のためには人間が害悪」て言われて
自殺した人がヨーロッパにおったけど
あの人は使い方まちごうたな……

0240214

2025/04/02(水) 23:41:46.57ID:???

214です
仕事が立て込み反応が遅れてすみません

grokに投げてみましたが解決策のはじめ方(説明に使われている単語が分からない)から見ていかなければならないようなので一度HunyuanとNovelAssistantを削除してからinstall.batを動かしましたが同じようなエラーが出てしまいました

初歩的なことでつまずいているのだと思いますがちょっと年度がわりが思った以上にキツいので後でもう少し頑張ってみます、ありがとうございました

0241214

2025/04/03(木) 01:18:36.37ID:???

続けてすみません、眠れないので色々やってみた結果インストール出来ましたので報告します

PC再起動、novelフォルダ削除、PC再起動、インストールbat落とし直し、アンチウィルス系停止、cドライブ直下でなく別にフォルダ作ってそこからインストール、で成功しました

どこが利いたのかは分かりませんが無事生成までいけました
大変お騒がせしました

0242名無しさん＠ピンキー

2025/04/03(木) 02:14:34.29ID:???

日本語名とか空白が入ったフォルダにインストールしようとしてたのかな。とにかく動いてよかった

0243名無しさん＠ピンキー

2025/04/03(木) 17:27:33.43ID:???

リコー、“GPT-4o並み”の日本語性能持つLLMを開発　企業の「プライベートLLM」として導入へ
https://www.itmedia.co.jp/aiplus/articles/2504/03/news153.html

記事にするほどのこともないな、にわか記者がリコーがって聞いて、出しちゃった感じ

Llama70Bくらいそこらじゅうにあるだろ

どうせなら会社用のLORAツール出してくれた方がありがたい。

0244名無しさん＠ピンキー

2025/04/03(木) 17:50:30.62ID:???

う～む、gpt-4o並みか。。。
元の4oより落ちてる項目もあるしなんだかねえ

0245名無しさん＠ピンキー

2025/04/03(木) 17:55:59.03ID:???

日本企業の発表の周回遅れ感がヤバいな

0246名無しさん＠ピンキー

2025/04/03(木) 17:59:20.85ID:YOBEQ/D4

日本からGoogleやOpenAIが産まれないのはもう諦めたけどDeepSeekすら出てこないよね

0247名無しさん＠ピンキー

2025/04/03(木) 18:04:16.24ID:???

売りはGPT-4o並の“日本語性能”でしょ
KBLaMの登場でLLMも知識後付けできそうな雰囲気だし
日本語性能さえ高ければなにかしら使えるかもしれん

0248名無しさん＠ピンキー

2025/04/03(木) 18:12:06.27ID:???

>>247
わからんぞ
karakuriが出た時もスペック見てバカにしてたら
使ってみて土下座した奴いるしな
ワイの事だ

0249名無しさん＠ピンキー

2025/04/03(木) 18:19:36.10ID:???

ありゃ
よく読んだらchatvecterで作ったマージモデルか
まあ70bを本格的にchatvecterできるのは大量メモリ必要だし
結果は興味ある

0250名無しさん＠ピンキー

2025/04/03(木) 18:32:03.63ID:2ghC5va4

5090手に入ったんで初めてローカルllm試すんだけど今ならqwq bakeneko 32Bっての使っとけばいい？
エロでもコーディングでもなんでも使いたい

0251名無しさん＠ピンキー

2025/04/03(木) 19:05:31.27ID:???

mistral　IQ3_M　Kobold　4bit　24Bってやつを使うか、Phi4を使うか、DeepSeek13b 4bitを使うか迷うな

0252名無しさん＠ピンキー

2025/04/03(木) 19:06:09.92ID:???

>>250
コーディングならそれでいいと思う
エロは>>8にあるような特化モデルの方が表現がエロくていいよ

0253名無しさん＠ピンキー

2025/04/03(木) 19:18:47.85ID:2ghC5va4

>>252
そうか、ありがとう。
モデル切り替えとかはすぐできるんだろうし、qwq bakeneko と32GBにギリ乗る>>8のやつ二つ切り替えで試してみます。

0254名無しさん＠ピンキー

2025/04/03(木) 19:49:55.72ID:???

>>247
いやいや良く見てよ
4oとそんなに変わらんかちょい負けてんだよ

0255名無しさん＠ピンキー

2025/04/03(木) 20:04:45.02ID:???

正直8割近いスコア取れちゃうベンチは難易度不足だから当てにならなんよな

0256名無しさん＠ピンキー

2025/04/03(木) 20:51:42.46ID:???

プライベートLLMってことでローカル＆セキュリティばっちりなら4o性能でも十分使えると思うよ
仕事で役立つとはいえ、さすがに現状のAPIじゃ固有名詞や人名、数字なんかを打ち込むわけにはいかないから

0257名無しさん＠ピンキー

2025/04/03(木) 21:00:43.02ID:???

ハードルあげて挑むようなもんでは無いのでは
70bモデルなんでしょ？

0258名無しさん＠ピンキー

2025/04/03(木) 21:31:26.78ID:???

大規模な追加学習すらしてないような書き方だし注目に値することではないでしょ　
4o並の触れ込みも数年前に策定されたような簡単なテストだとあっさり達成できる
gemma3 27bがLMarenaのjapanese部門だと4oやR1に肉薄してるからといって誰も同格と考えてないのと一緒

0259名無しさん＠ピンキー

2025/04/03(木) 21:38:55.83ID:???

mradermacher/GaLLM-multi-14B-v0.1-GGUF

これ、チャット勢にはいいんじゃないか？
ワイは知ってるキャラがほとんどいないけどｗ

0260名無しさん＠ピンキー

2025/04/04(金) 12:18:24.30ID:NMHT6pDD

Mistral-Small、「そうなんだ」と「すごいな」言いがち問題

0261名無しさん＠ピンキー

2025/04/04(金) 12:21:42.71ID:BFsLtPzz

悪いのは君じゃない

0262名無しさん＠ピンキー

2025/04/04(金) 12:31:51.82ID:???

googleがQATなる手法を用いたGGUFのgemma3公開しとる
なんでも量子化による劣化を抑えるGGUFらしい？
https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b

redditにベンチマークやった人がおったけど通常のq4_kとは比較にならんくらい良い
https://www.reddit.com/r/LocalLLaMA/comments/1jqnnfp/official_gemma_3_qat_checkpoints_3x_less_memory/?rdt=34082

0263名無しさん＠ピンキー

2025/04/04(金) 13:56:34.13ID:+rQM6ehA

docker でollama とopen web ui入れて動作したけど、エロい会話はollama のコンテナなら答えてくれるのにopen web uiだと答えてくれないのはなんでや… magnum-v4-27b使ってます。

0264名無しさん＠ピンキー

2025/04/04(金) 14:00:33.16ID:???

システムプロンプトが入ってるか温度とかのパラが違うとか？

0265名無しさん＠ピンキー

2025/04/04(金) 14:05:30.38ID:???

>>260
へーすごいなー！すごいすごーい！

0266名無しさん＠ピンキー

2025/04/04(金) 14:07:34.74ID:???

サーバルちゃんかな？

0267名無しさん＠ピンキー

2025/04/04(金) 14:11:38.01ID:???

>>262
これLM Studioで直接ダウンロードできないね
Hugginface上でgoogleのライセンスに同意しないとあかんかったわ

0268名無しさん＠ピンキー

2025/04/04(金) 15:14:13.40ID:???

そうなんだおじさん「そうなんだ」

0269名無しさん＠ピンキー

2025/04/04(金) 15:18:37.46ID:+rQM6ehA

>>263
なんか再起動したら全く同じプロンプトでも答えてくれるようになったわ、答えてくれない時もあるけど…
エロ対応モデルでも日本語怪しいと萎えるし難しいね…

0270名無しさん＠ピンキー

2025/04/04(金) 15:36:15.40ID:NMHT6pDD

Mistral-Smallは状況把握は凄いしリテイク出すといい加減な指示でも思った通りの記述に変えてくれるんだけど、ぽっと出しの台詞がなんというか無感情すぎる

0271名無しさん＠ピンキー

2025/04/04(金) 15:46:54.97ID:???

>>269
open webuiは回答後にそのスレッドのタイトルを生成しようとするからそれかも
あとエロ系は日本語で使うならmistralベースのモデルの方がいいと思う
gemmaベースのエロ系モデルは規制強すぎて解除時に日本語性能だいぶ落ちてた記憶

0272名無しさん＠ピンキー

2025/04/04(金) 16:03:45.80ID:jOtx5zj4

>>271
ありがとう、試してみる。
mistral small 24B 2503やってみるか。
みんな何をお気に入りで使ってるん？

0273名無しさん＠ピンキー

2025/04/04(金) 16:29:32.90ID:???

magnum-v4の22BはMistral-Small-Instruct-2409がベースだよ

個人的にはLumimaid-v0.2-12Bがお気に入り
32Bクラスならdeepseek-r1-distill-qwen2.5-bakeneko-32bも結構好き

0274名無しさん＠ピンキー

2025/04/04(金) 17:35:38.21ID:???

Gemma3はプロンプト工夫しても、エロ小説を書き慣れてない感が強く出るな……
エロ描写どころか日本語まで怪しくなってくる

0275名無しさん＠ピンキー

2025/04/04(金) 23:59:57.74ID:???

openrouterに登場した匿名モデルのQuasar-Alphaにopenaiのモデルで発生するトークナイザーのバグが発見されてopenai製であることが確実視されてるらしい
https://www.reddit.com/r/LocalLLaMA/comments/1jrd0a9/chinese_response_bug_in_tokenizer_suggests/
今月はこのモデルにqwen3、llama4と実りが多そうだ

0276名無しさん＠ピンキー

2025/04/05(土) 00:10:31.75ID:pdU6BS7G

オープンウェイトでリリースするいうてたやつか？
SillyTavernでもFreeで使えたわ
Quasarガバガバやぞこいつ

0277名無しさん＠ピンキー

2025/04/05(土) 00:21:36.27ID:???

先月もgemma3にqwq、1月はdeepseekやし
2月はちょっと思い出せんけどなんかたぶんあっただろうし
なんか毎月のように爆弾落ちてる感覚なんよ
そりゃ驚き屋にもなるよ

0278名無しさん＠ピンキー

2025/04/05(土) 07:24:40.88ID:po8IPkAG

>>260だけど温度を推奨設定の0.15から0.30に上げたら多少馬鹿になったけど「そうなんだ」「すごいね」「ありがとう」は減ったわ

0279名無しさん＠ピンキー

2025/04/05(土) 09:51:37.11ID:YWEZmtsW

ローカルllmでネット検索ってできると思ってたけどopen web ui で検索エンジンを使う設定しても私は検索できませんとか出るな…ローカルllmではできないんだっけ？

0280名無しさん＠ピンキー

2025/04/05(土) 09:56:17.15ID:???

それはアプリ側に機能ないと無理よ
LLMは文字入力に対して文字を出力する機能しかないんやから

0281名無しさん＠ピンキー

2025/04/05(土) 10:05:08.88ID:???

>>279
koboldならできるで

0282名無しさん＠ピンキー

2025/04/05(土) 10:23:01.17ID:YWEZmtsW

そうなんか、ollama とopen web uiをdocker でモデル指定して動くところまで行ったんやけどopen web ui に設定があったからできるもんだと思ってた。
kobold 試してみます。

0283名無しさん＠ピンキー

2025/04/05(土) 10:47:09.15ID:YWEZmtsW

いや、モデルによっては今日のnasdaq指数とか聞いたら答えてくれるな…
どのモデルでもネット検索はしてるっぽいが、特定のモデルでないとその検索結果をまとめてくれないとかなんかな？まだやり始めでわからんこと多い…llama3は答えてくれたが

0284名無しさん＠ピンキー

2025/04/05(土) 11:00:09.67ID:???

>>283
それ正確？
今日の日付聞いてみて

0285名無しさん＠ピンキー

2025/04/05(土) 11:00:37.12ID:???

RAGに対応しているモデルじゃないとダメなんじゃないの？俺も詳しくはないが

0286名無しさん＠ピンキー

2025/04/05(土) 11:19:41.26ID:???

>>285
オリジナルマージしたkarakuriでもkoboldならネットサーチできたで
自分の作った超マイナーゲームの内容聞いたらちゃんと答えてくれて感動したわw

0287名無しさん＠ピンキー

2025/04/05(土) 11:43:03.92ID:YWEZmtsW

>>284
ごめん、合ってないわ…

>>285
ネットで調べるとRAGがどうとかいうよね、確かに

>>286
koboldはできるのか、やってみるけどなんでkoboldならできるのか仕組みがわからんな…

0288名無しさん＠ピンキー

2025/04/05(土) 11:57:11.96ID:???

>>287
起動時と起動後のオプションの2箇所をオンにする必要があるからきいつけて

0289名無しさん＠ピンキー

2025/04/05(土) 12:00:39.36ID:???

>> 287
エロに使う前に、ネットで調べる前に、それこそ目の前のLLMに聞けばいい。エロに気が行き過ぎて使い方が逆になってる。
LLMの頭の中の時間は学習データ時点で凍結してて、基本的には外界と繋がっていない隔離された箱の中で暮らしている。
だからLLM以外のフロントエンド部分がRAG(外部からデータを取得して生成に利用する機能)の機能を提供するようになってきている。
LLMはRAGが無いと適当な嘘を真顔で返してくる。

0290名無しさん＠ピンキー

2025/04/05(土) 13:20:20.85ID:???

puwaer/Doujinshi-1.8b-instruct
エロ同人からのデータセットでfinetuneしたモデルか
同じようにmistral largeに学習させてぇw
フルスペックmac買ったニキ頼む

0291名無しさん＠ピンキー

2025/04/05(土) 14:12:17.91ID:I2bw+9Cm

>>289
エロではないんやが、、まぁLLMに聞いてみるわ。
LLMとRAGの関係はわかった、ありがとう。

でもopen web ui でweb検索オプションかけて質問するとweb検索かけてるっぽいのに結果をまとめてくれないのはなんでなんやろ。リアルタイムの株価は自分にはわからんから株価は以下のリンク見てね、って返答なんよな。
検索したんならchat gpt みたいにそこ参照してくれよと思うがローカルllm のopen web ui だとそこまでできないとかなんだろうか。

0292名無しさん＠ピンキー

2025/04/05(土) 15:10:31.81ID:???

だから細かい疑問点こそ普通にChatGPTなりに質問連打して説明してもらえよ

0293名無しさん＠ピンキー

2025/04/05(土) 16:10:35.63ID:???

RAGまわりは意味わからん話が多すぎるので自分はスパッと諦めたな
RAGそのもの興味があるならともかく検索させたいだけならMCP使えるクライアント経由でMCP Firecrawl&Docker firecrawlでやればええのでは

0294名無しさん＠ピンキー

2025/04/05(土) 16:17:54.57ID:???

>>291
公式見た感じ検索エンジン毎にAPIとかの設定必要っぽいけど
duckduckgoは設定要らないみたいだからとりあえずそれで試してみたら？

0295名無しさん＠ピンキー

2025/04/05(土) 17:14:00.72ID:???

RAGは今ここで話されてるような用途に使うようなもんではないからすっぱり忘れてええぞ
embeddingモデルという普通のLLMとは違うモデルで事前にデータをベクター化しとかんとつかえん
社内の情報をLLMに答えさせるとかそういうことに効果を発揮するんや

一般人におけるRAGの利用は正直用途がちょっと思いつかん
情報の検索に関してはDeepResearchを手元で実現するアプリがちょいちょい出てきとるからそっちのがむいとるやろし
ロールプレイをしているチャットの履歴が長くなってきたらベクター化しといて取り出しやすくしとくとかそんなんかなぁ

0296名無しさん＠ピンキー

2025/04/05(土) 17:16:28.81ID:???

RAGはコンテキストの節約になるんじゃなかったっけ？

0297名無しさん＠ピンキー

2025/04/05(土) 17:28:13.44ID:???

節約が目的では無いんやが、節約されてると言えば言えるかな
ベクター化ってのは文字通り文字列をベクター化するってことなんやが、大体数バイトにするやでな

RAGがやってるのは
事前準備
1. 検索の対象にしたいデータを検索の単位にしたいサイズでぶつ切りにする(数百byteごととか、資料なら1ページごととか)
2. ぶつ切りにされたデータごとにベクター化(数バイト化)し、元の文章とベクター化したデータをセットで持っておく

RAG使用時(LLM使用時)
1. LLMに入力された質問をベクター化(数バイト化)する
2. 事前にベクター化したデータの中からベクトル(方向）が類似している文章を検索(単純に言えば数バイト化されてる中で数値が近いものを検索)
3. ベクトルが近い文章を数個(何個でもいいがLLMのtokens数上限に引っかからない範囲で)引っ張り出してきて、
　　LLMのプロンプトに「RAGでこの文章がヒットしたよ」と張り付けてLLMに読ませる
4. LLMがRAG検索結果を参照しつつ質問に回答

0298名無しさん＠ピンキー

2025/04/05(土) 18:06:15.36ID:GnnWPxXH

わかりやすくいうとRAGって、
文章の近似値の近い文章をDBからベクトル検索で出して、
それをプロンプトに参考資料として読めと添付するだけ。

難しいことなんて何もしてないし、
RAG関連の技術書なんてあまり読む価値はねえぞ。

0299名無しさん＠ピンキー

2025/04/05(土) 18:14:31.76ID:???

会議の真ん中で、用意した資料から関係ありそうな部分を読み上げる秘書だな

0300名無しさん＠ピンキー

2025/04/05(土) 19:09:17.96ID:???

キャラのなりきり度を高めるならファインチューニングよな

0301名無しさん＠ピンキー

2025/04/05(土) 19:31:31.79ID:???

初めてEasyNovelAssistantってやつをローカルで生成試してみて動いておおーって感心してるところなんだけど
最新はなんかトレンド違ったりする？

0302名無しさん＠ピンキー

2025/04/05(土) 19:44:01.66ID:pdU6BS7G

ベクトルストレージ活用して長期記憶をお手軽にオンにできる機能SillyTavernに実装されないかな
QdrantとかWeaviate、Milvusあたりをバックエンドにして。
キャラクターごとのチャット履歴をベクトルストレージに全部保存しといて「一ヶ月前のあの話題について～」とかで話題を引っ張ってこれるような

0303名無しさん＠ピンキー

2025/04/05(土) 20:06:31.00ID:???

>>301
EasyNovelAssistantのバックエンドなkoboldcppが一番高機能じゃないの
LM Studioは簡単お手軽だけど、サンプラーを変えたりできない

0304名無しさん＠ピンキー

2025/04/05(土) 20:19:14.21ID:???

入出力のテキストをスクリプトで加工したり、複数セッションを横断的に連携させたりしてみたい
いろいろフロントエンド触ってみたけど、これ自分で簡易なフロントエンド作るのが一番手っ取り早いのかしら？

0305名無しさん＠ピンキー

2025/04/05(土) 20:26:57.00ID:???

characterhubでローカルエッチチャット用キャラとか探してみてるんだけど、これサイトに用意されてる初期データ（？）みたいなのが英語なので、
手元でデータ部分の翻訳頑張って日本語でどう喋るかとか書き換えたり、負けないくらいの日本語長文挨拶を投げたりしない限りはチャットの返事も英語になるよね？

0306名無しさん＠ピンキー

2025/04/05(土) 20:31:46.94ID:???

>>303
これでいいのね、ありがとう
同人ゲーム作家なんだけど、1からエロ文章をビルドするの結構面倒で
AI生成で校正しながら生成すればちょっとは楽できるかなーって

0307名無しさん＠ピンキー

2025/04/05(土) 21:24:06.85ID:???

KoboldcppでiGPU生成とCPU生成を試してみたんだがどうもCPU 生成が一番速いように思われる
なんか間違ってるんだろうか、なんかもういいや

0308名無しさん＠ピンキー

2025/04/05(土) 22:45:23.37ID:???

推論速度にはメモリ帯域が重要だからみんな帯域のあるgpuに乗せてるだけで、帯域の変わらんigpuを使う意味はそんなにない

0309名無しさん＠ピンキー

2025/04/05(土) 22:53:54.32ID:???

画像生成だとiGPUはCPUより（は）充分速くて意味あるんだけどなー

0310名無しさん＠ピンキー

2025/04/06(日) 00:38:07.65ID:???

koboldcpp、早くgemma-3-27b-it-qatを読み込めるようになってほしい

0311名無しさん＠ピンキー

2025/04/06(日) 03:20:24.71ID:Bvxq/98N

EasyNovelAssistantってSDみたいなガチャ方式っぽいけど最近のモデルだったらガチャやるより人間が指示出してディレクションしていった方がよくない？

0312名無しさん＠ピンキー

2025/04/06(日) 03:28:29.83ID:???

KoboldCppをインストールしたけど、Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは
LM Studio（llama.cpp）とKoboldCppで全然生成が違うことがわかった
明らかにLM Studioの方が自然になる
Temperatureとかはモデル推奨値に合わせてるけど、他の設定の問題？
https://tadaup.jp/167806162.png

0313名無しさん＠ピンキー

2025/04/06(日) 03:30:06.47ID:ruu49hsY

何も指定しないときのデフォルトの数値はエンジンによって違ったりするからそれかもね

0314名無しさん＠ピンキー

2025/04/06(日) 04:35:47.95ID:???

生成量も両者で全体的に違うし何らかのオプションなんやろな
もし原因分かったらここに書いてほしいで

0315名無しさん＠ピンキー

2025/04/06(日) 04:43:13.79ID:???

llama4は2T(!?)と400Bと109Bらしい
わいの貧弱なPCじゃ何もできない
llama3が405Bから70Bになった前例があるから、ほんのり期待しとくで

0316名無しさん＠ピンキー

2025/04/06(日) 05:02:02.35ID:???

ベヒーモスヤバすぎるだろ
H100が何台必要になるんだ

0317名無しさん＠ピンキー

2025/04/06(日) 05:29:59.66ID:Bvxq/98N

SamがGPUが溶けるって言ってるくらいだしここらで軽量化に舵を切るのかと思ってたが大規模化の夢は止まらねえってことか

0318名無しさん＠ピンキー

2025/04/06(日) 05:38:03.76ID:???

Gaslit-Transgression-24B　これグラボ足りるならSillyTavernの設定ダウンロードするだけだし日本語もいけるから初心者向きかも

0319名無しさん＠ピンキー

2025/04/06(日) 05:54:02.32ID:???

ChatGPT4が出た当初パラメータ1兆(1000B)超えてるんじゃないかなんて言われとったが・・・
実際はあの生成速度と今見たら大したことないあの能力見たら全然1000Bなんて超えてないだろうなぁって感じやけど
まさかついにほんとに超えてるものが出るとは・・・

2Tアクティブパラメータだけでも288B　ほげぇ
1.58bit量子化してmac studio 512GBで低tokenで動くかどうかってところやろかねぇ

まーしかし400Bのcontextが1M、109Bのcontextが10Mってなってるのがやべぇ
ローカルLLM界が新しい領域に飛び立ちそう

0320名無しさん＠ピンキー

2025/04/06(日) 06:25:05.04ID:???

400bはChatbot Arena今見たら2位にランクインしとったわ
頑張ればローカルで動かせなくもない400bがgrok3とかgpt4.5より性能高いってのはやべぇ

0321名無しさん＠ピンキー

2025/04/06(日) 06:27:25.98ID:???

たぶんもうすぐ出るDeepSeek R2のほうが強いんじゃねえかな

0322名無しさん＠ピンキー

2025/04/06(日) 07:02:00.80ID:???

llama4も推論モデル出るらしいから
そっちが本番だろう

0323名無しさん＠ピンキー

2025/04/06(日) 07:48:18.02ID:???

mac proはマジでメモリ1.5T超えるかもしれんな
昔ヒカキンが買ったのが1.5Tで500万だっけ

0324名無しさん＠ピンキー

2025/04/06(日) 08:21:08.88ID:???

109BのやつをH100を1枚で利用可能って言ってるから量子化モデルをmetaが出すつもりなんだろうか？
いまんところhuggingface見ても見当たらんけど

0325名無しさん＠ピンキー

2025/04/06(日) 09:28:55.88ID:???

1.5tでも転送が遅けりゃトークン出力されるまで30分待たなきゃなるんのだろ？

0326名無しさん＠ピンキー

2025/04/06(日) 09:52:28.39ID:???

llama-4-maverick-03-26-experimental、日本語だとDeepSeekV3.1より少し劣るぐらいな感じだな
DS V3.1はまともに使えるコンテクスト長がそんなに長くないから、Llama4の最大コンテクスト長10Mがほんとに有効に使えるならワンチャンあるかもしれない
改造・改良されやすいされづらいがあるから、どうかなという感じはするけど

0327名無しさん＠ピンキー

2025/04/06(日) 10:00:48.62ID:???

>>325
512Gのmacの再生動画見たけど爆速だったぞ？
どっから30分とかいう話が出てきたん？

■ このスレッドは過去ログ倉庫に格納されています