なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ docker でollama とopen web ui入れて動作したけど、エロい会話はollama のコンテナなら答えてくれるのにopen web uiだと答えてくれないのはなんでや… magnum-v4-27b使ってます。 システムプロンプトが入ってるか温度とかのパラが違うとか? >>262
これLM Studioで直接ダウンロードできないね
Hugginface上でgoogleのライセンスに同意しないとあかんかったわ >>263
なんか再起動したら全く同じプロンプトでも答えてくれるようになったわ、答えてくれない時もあるけど…
エロ対応モデルでも日本語怪しいと萎えるし難しいね… Mistral-Smallは状況把握は凄いしリテイク出すといい加減な指示でも思った通りの記述に変えてくれるんだけど、ぽっと出しの台詞がなんというか無感情すぎる >>269
open webuiは回答後にそのスレッドのタイトルを生成しようとするからそれかも
あとエロ系は日本語で使うならmistralベースのモデルの方がいいと思う
gemmaベースのエロ系モデルは規制強すぎて解除時に日本語性能だいぶ落ちてた記憶 >>271
ありがとう、試してみる。
mistral small 24B 2503やってみるか。
みんな何をお気に入りで使ってるん? magnum-v4の22BはMistral-Small-Instruct-2409がベースだよ
個人的にはLumimaid-v0.2-12Bがお気に入り
32Bクラスならdeepseek-r1-distill-qwen2.5-bakeneko-32bも結構好き Gemma3はプロンプト工夫しても、エロ小説を書き慣れてない感が強く出るな……
エロ描写どころか日本語まで怪しくなってくる openrouterに登場した匿名モデルのQuasar-Alphaにopenaiのモデルで発生するトークナイザーのバグが発見されてopenai製であることが確実視されてるらしい
https://www.reddit.com/r/LocalLLaMA/comments/1jrd0a9/chinese_response_bug_in_tokenizer_suggests/
今月はこのモデルにqwen3、llama4と実りが多そうだ オープンウェイトでリリースするいうてたやつか?
SillyTavernでもFreeで使えたわ
Quasarガバガバやぞこいつ 先月もgemma3にqwq、1月はdeepseekやし
2月はちょっと思い出せんけどなんかたぶんあっただろうし
なんか毎月のように爆弾落ちてる感覚なんよ
そりゃ驚き屋にもなるよ >>260だけど温度を推奨設定の0.15から0.30に上げたら多少馬鹿になったけど「そうなんだ」「すごいね」「ありがとう」は減ったわ ローカルllmでネット検索ってできると思ってたけどopen web ui で検索エンジンを使う設定しても私は検索できませんとか出るな…ローカルllmではできないんだっけ? それはアプリ側に機能ないと無理よ
LLMは文字入力に対して文字を出力する機能しかないんやから そうなんか、ollama とopen web uiをdocker でモデル指定して動くところまで行ったんやけどopen web ui に設定があったからできるもんだと思ってた。
kobold 試してみます。 いや、モデルによっては今日のnasdaq指数とか聞いたら答えてくれるな…
どのモデルでもネット検索はしてるっぽいが、特定のモデルでないとその検索結果をまとめてくれないとかなんかな?まだやり始めでわからんこと多い…llama3は答えてくれたが RAGに対応しているモデルじゃないとダメなんじゃないの?俺も詳しくはないが >>285
オリジナルマージしたkarakuriでもkoboldならネットサーチできたで
自分の作った超マイナーゲームの内容聞いたらちゃんと答えてくれて感動したわw >>284
ごめん、合ってないわ…
>>285
ネットで調べるとRAGがどうとかいうよね、確かに
>>286
koboldはできるのか、やってみるけどなんでkoboldならできるのか仕組みがわからんな… >>287
起動時と起動後のオプションの2箇所をオンにする必要があるからきいつけて >> 287
エロに使う前に、ネットで調べる前に、それこそ目の前のLLMに聞けばいい。エロに気が行き過ぎて使い方が逆になってる。
LLMの頭の中の時間は学習データ時点で凍結してて、基本的には外界と繋がっていない隔離された箱の中で暮らしている。
だからLLM以外のフロントエンド部分がRAG(外部からデータを取得して生成に利用する機能)の機能を提供するようになってきている。
LLMはRAGが無いと適当な嘘を真顔で返してくる。 puwaer/Doujinshi-1.8b-instruct
エロ同人からのデータセットでfinetuneしたモデルか
同じようにmistral largeに学習させてぇw
フルスペックmac買ったニキ頼む >>289
エロではないんやが、、まぁLLMに聞いてみるわ。
LLMとRAGの関係はわかった、ありがとう。
でもopen web ui でweb検索オプションかけて質問するとweb検索かけてるっぽいのに結果をまとめてくれないのはなんでなんやろ。リアルタイムの株価は自分にはわからんから株価は以下のリンク見てね、って返答なんよな。
検索したんならchat gpt みたいにそこ参照してくれよと思うがローカルllm のopen web ui だとそこまでできないとかなんだろうか。 だから細かい疑問点こそ普通にChatGPTなりに質問連打して説明してもらえよ RAGまわりは意味わからん話が多すぎるので自分はスパッと諦めたな
RAGそのもの興味があるならともかく検索させたいだけならMCP使えるクライアント経由でMCP Firecrawl&Docker firecrawlでやればええのでは >>291
公式見た感じ検索エンジン毎にAPIとかの設定必要っぽいけど
duckduckgoは設定要らないみたいだからとりあえずそれで試してみたら? RAGは今ここで話されてるような用途に使うようなもんではないからすっぱり忘れてええぞ
embeddingモデルという普通のLLMとは違うモデルで事前にデータをベクター化しとかんとつかえん
社内の情報をLLMに答えさせるとかそういうことに効果を発揮するんや
一般人におけるRAGの利用は正直用途がちょっと思いつかん
情報の検索に関してはDeepResearchを手元で実現するアプリがちょいちょい出てきとるからそっちのがむいとるやろし
ロールプレイをしているチャットの履歴が長くなってきたらベクター化しといて取り出しやすくしとくとかそんなんかなぁ RAGはコンテキストの節約になるんじゃなかったっけ? 節約が目的では無いんやが、節約されてると言えば言えるかな
ベクター化ってのは文字通り文字列をベクター化するってことなんやが、大体数バイトにするやでな
RAGがやってるのは
事前準備
1. 検索の対象にしたいデータを検索の単位にしたいサイズでぶつ切りにする(数百byteごととか、資料なら1ページごととか)
2. ぶつ切りにされたデータごとにベクター化(数バイト化)し、元の文章とベクター化したデータをセットで持っておく
RAG使用時(LLM使用時)
1. LLMに入力された質問をベクター化(数バイト化)する
2. 事前にベクター化したデータの中からベクトル(方向)が類似している文章を検索(単純に言えば数バイト化されてる中で数値が近いものを検索)
3. ベクトルが近い文章を数個(何個でもいいがLLMのtokens数上限に引っかからない範囲で)引っ張り出してきて、
LLMのプロンプトに「RAGでこの文章がヒットしたよ」と張り付けてLLMに読ませる
4. LLMがRAG検索結果を参照しつつ質問に回答 わかりやすくいうとRAGって、
文章の近似値の近い文章をDBからベクトル検索で出して、
それをプロンプトに参考資料として読めと添付するだけ。
難しいことなんて何もしてないし、
RAG関連の技術書なんてあまり読む価値はねえぞ。 会議の真ん中で、用意した資料から関係ありそうな部分を読み上げる秘書だな キャラのなりきり度を高めるならファインチューニングよな 初めてEasyNovelAssistantってやつをローカルで生成試してみて動いておおーって感心してるところなんだけど
最新はなんかトレンド違ったりする? ベクトルストレージ活用して長期記憶をお手軽にオンにできる機能SillyTavernに実装されないかな
QdrantとかWeaviate、Milvusあたりをバックエンドにして。
キャラクターごとのチャット履歴をベクトルストレージに全部保存しといて「一ヶ月前のあの話題について〜」とかで話題を引っ張ってこれるような >>301
EasyNovelAssistantのバックエンドなkoboldcppが一番高機能じゃないの
LM Studioは簡単お手軽だけど、サンプラーを変えたりできない 入出力のテキストをスクリプトで加工したり、複数セッションを横断的に連携させたりしてみたい
いろいろフロントエンド触ってみたけど、これ自分で簡易なフロントエンド作るのが一番手っ取り早いのかしら? characterhubでローカルエッチチャット用キャラとか探してみてるんだけど、これサイトに用意されてる初期データ(?)みたいなのが英語なので、
手元でデータ部分の翻訳頑張って日本語でどう喋るかとか書き換えたり、負けないくらいの日本語長文挨拶を投げたりしない限りはチャットの返事も英語になるよね? >>303
これでいいのね、ありがとう
同人ゲーム作家なんだけど、1からエロ文章をビルドするの結構面倒で
AI生成で校正しながら生成すればちょっとは楽できるかなーって KoboldcppでiGPU生成とCPU生成を試してみたんだがどうもCPU 生成が一番速いように思われる
なんか間違ってるんだろうか、なんかもういいや 推論速度にはメモリ帯域が重要だからみんな帯域のあるgpuに乗せてるだけで、帯域の変わらんigpuを使う意味はそんなにない 画像生成だとiGPUはCPUより(は)充分速くて意味あるんだけどなー koboldcpp、早くgemma-3-27b-it-qatを読み込めるようになってほしい EasyNovelAssistantってSDみたいなガチャ方式っぽいけど最近のモデルだったらガチャやるより人間が指示出してディレクションしていった方がよくない? KoboldCppをインストールしたけど、Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは
LM Studio(llama.cpp)とKoboldCppで全然生成が違うことがわかった
明らかにLM Studioの方が自然になる
Temperatureとかはモデル推奨値に合わせてるけど、他の設定の問題?
https://tadaup.jp/167806162.png 何も指定しないときのデフォルトの数値はエンジンによって違ったりするからそれかもね 生成量も両者で全体的に違うし何らかのオプションなんやろな
もし原因分かったらここに書いてほしいで llama4は2T(!?)と400Bと109Bらしい
わいの貧弱なPCじゃ何もできない
llama3が405Bから70Bになった前例があるから、ほんのり期待しとくで ベヒーモスヤバすぎるだろ
H100が何台必要になるんだ SamがGPUが溶けるって言ってるくらいだしここらで軽量化に舵を切るのかと思ってたが大規模化の夢は止まらねえってことか Gaslit-Transgression-24B これグラボ足りるならSillyTavernの設定ダウンロードするだけだし日本語もいけるから初心者向きかも ChatGPT4が出た当初パラメータ1兆(1000B)超えてるんじゃないかなんて言われとったが・・・
実際はあの生成速度と今見たら大したことないあの能力見たら全然1000Bなんて超えてないだろうなぁって感じやけど
まさかついにほんとに超えてるものが出るとは・・・
2Tアクティブパラメータだけでも288B ほげぇ
1.58bit量子化してmac studio 512GBで低tokenで動くかどうかってところやろかねぇ
まーしかし400Bのcontextが1M、109Bのcontextが10Mってなってるのがやべぇ
ローカルLLM界が新しい領域に飛び立ちそう 400bはChatbot Arena今見たら2位にランクインしとったわ
頑張ればローカルで動かせなくもない400bがgrok3とかgpt4.5より性能高いってのはやべぇ たぶんもうすぐ出るDeepSeek R2のほうが強いんじゃねえかな llama4も推論モデル出るらしいから
そっちが本番だろう mac proはマジでメモリ1.5T超えるかもしれんな
昔ヒカキンが買ったのが1.5Tで500万だっけ 109BのやつをH100を1枚で利用可能って言ってるから量子化モデルをmetaが出すつもりなんだろうか?
いまんところhuggingface見ても見当たらんけど 1.5tでも転送が遅けりゃトークン出力されるまで30分待たなきゃなるんのだろ? llama-4-maverick-03-26-experimental、日本語だとDeepSeekV3.1より少し劣るぐらいな感じだな
DS V3.1はまともに使えるコンテクスト長がそんなに長くないから、Llama4の最大コンテクスト長10Mがほんとに有効に使えるならワンチャンあるかもしれない
改造・改良されやすいされづらいがあるから、どうかなという感じはするけど >>325
512Gのmacの再生動画見たけど爆速だったぞ?
どっから30分とかいう話が出てきたん? >>327
2000bのfp16モデルならメモリ4T必要だから転送発生するといいたいんじゃないの
転送発生してもさすがに30分はかからないんじゃないかとは思うけど
ストレージからの読み込みで転送量糞多いからまぁまぁかかるんじゃないかとは思う
まぁそもそも4TBメモリ用意できてないときにfp16モデル使うなよって話だとは思うけど 今後MoEが主力になるならMacやdgxが輝くな
GPU勢には辛い時代や iMatQ4XSで58GBくらいになるんじゃない?
32GBx2基のGPU積むか、
64GBのMacだとワンチャンいけそう。 109Bのscoutはgemma3相当らしいから10Mコンテキスト以外価値なさそう でも10MもあるならRPとかエロ小説用途ならLORA作らなくても会話履歴にデータセットを流し込めばそれなりに機能したりするのかな これベヒんもスのトレーニング費用いくらかかってるんや……? パラメータ量の巨大化が加速してもローカルだとあんまり活かせなくてストレスがマッハ
個人的に最近感動したのはgemma3やねえ 1.5t積んで全部メモリに載っても
最初のトークンが出てくるまで結構待つの?🤔 llama4はカスタマイズしたモデルを発表するときにはモデル名の先頭にllamaを付けることを義務付けたみたいだな Quasar楽しすぎてローカル触る暇なくなった
無料の今のうちにRoo Codeでコーディングするだけするしかねえ context 10Mは業務への影響マジででかそう
今までローカルに興味なかった企業も気になるやろなぁこれ
10Mもあったら開発してるソフトのソース全部入れてリファクタさせるとかできるんやないかな
クラウドだとソース流出の危険があるからやらなかった企業はたくさんあるだろうけど
ローカルならその心配がない 上限10Mあっても使い物になるかねぇ
今の技術じゃコンテキスト増えれば増えるほど抜けがいっぱい出てくるし 10m contextって見て最初に思ったのは動画そのまま処理できそうだなって vLLM曰くH100x8でやっと1M contextらしい単純計算で10M contextには80個のH100がいるらしい
H100 80個を導入できる企業ってどれだけあるんだろ このまま肥大化が進んだら企業側も耐えられなくなるよな
確率分岐を計算でやってるから電力バカ食いだし
アナログチップのブレイクスルーがないと限界あるわ そこで Groq チップですよ
欲しいのはグラフィックボードじゃなくてLLMの計算エンジン(LPU)
レイトレーシングとかビデオエンコーダーにシリコン面積使ってないのが欲しい 詳しくないけどマイニングも今は専用チップなんでしょ?
今後はどこも専用チップ作ってHBM盛ってCUDAも使わないのが未来像? マイニングに必要な計算は純粋な数学パズルに近くて、運営者が意図的にデザインしたものだよ
GPUを使わなくなったのはGPUでは効率が悪いようにデザイン変更をした結果なので例としてはあんまり... 旧DS V3くらいの日本語だから、llamaにしては 頑張ったと見るか実用的には物足りないと見るかだね
学習をちゃんとやってないからか、画像から日本語読み取るのもいまいちだし
10Mコンテクストも文章ではうまく扱えず、画像をたくさん読み込めますというだけみたい
API料金がDS V3並に安いのが良いところかな x見てるとllama4はベンチマーク番長で実用性はあまり高くないんじゃないかって話出てるけど
でも人が評価するchatbot arenaではいきなり2位に来てるんだよな
うーむよくわからん
400bが2位の実力あり、みんながテストしやすい109bが大したことないってことなんかな >>353
スタイルコントロール適用すると一気にスコア落ちるから AiderのベンチマークだとマーベリックがQwQ-32B以下だからやばい
https://i.imgur.com/acuJyui.jpeg もう32BはQwQか派生モデルで頭打ちってことかな DeepSeekがR1のときみたいにR2で32Bの蒸留モデルを出してくれるかもしれない >>355
マーベリックって400Bのほうか
それが負けたらいかんでしょ コーディング?
でもchatbot arenaだとコーディング部門1位なんだけど
もうこれ分かんねーな ■ このスレッドは過去ログ倉庫に格納されています