なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー2025/03/23(日) 14:58:05.71ID:bsaTSAD8
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/
0279名無しさん@ピンキー2025/04/05(土) 09:51:37.11ID:YWEZmtsW
ローカルllmでネット検索ってできると思ってたけどopen web ui で検索エンジンを使う設定しても私は検索できませんとか出るな…ローカルllmではできないんだっけ?
0280名無しさん@ピンキー2025/04/05(土) 09:56:17.15ID:???
それはアプリ側に機能ないと無理よ
LLMは文字入力に対して文字を出力する機能しかないんやから
0282名無しさん@ピンキー2025/04/05(土) 10:23:01.17ID:YWEZmtsW
そうなんか、ollama とopen web uiをdocker でモデル指定して動くところまで行ったんやけどopen web ui に設定があったからできるもんだと思ってた。
kobold 試してみます。
0283名無しさん@ピンキー2025/04/05(土) 10:47:09.15ID:YWEZmtsW
いや、モデルによっては今日のnasdaq指数とか聞いたら答えてくれるな…
どのモデルでもネット検索はしてるっぽいが、特定のモデルでないとその検索結果をまとめてくれないとかなんかな?まだやり始めでわからんこと多い…llama3は答えてくれたが
0285名無しさん@ピンキー2025/04/05(土) 11:00:37.12ID:???
RAGに対応しているモデルじゃないとダメなんじゃないの?俺も詳しくはないが
0286名無しさん@ピンキー2025/04/05(土) 11:19:41.26ID:???
>>285
オリジナルマージしたkarakuriでもkoboldならネットサーチできたで
自分の作った超マイナーゲームの内容聞いたらちゃんと答えてくれて感動したわw
0287名無しさん@ピンキー2025/04/05(土) 11:43:03.92ID:YWEZmtsW
>>284
ごめん、合ってないわ…

>>285
ネットで調べるとRAGがどうとかいうよね、確かに

>>286
koboldはできるのか、やってみるけどなんでkoboldならできるのか仕組みがわからんな…
0288名無しさん@ピンキー2025/04/05(土) 11:57:11.96ID:???
>>287
起動時と起動後のオプションの2箇所をオンにする必要があるからきいつけて
0289名無しさん@ピンキー2025/04/05(土) 12:00:39.36ID:???
>> 287
エロに使う前に、ネットで調べる前に、それこそ目の前のLLMに聞けばいい。エロに気が行き過ぎて使い方が逆になってる。
LLMの頭の中の時間は学習データ時点で凍結してて、基本的には外界と繋がっていない隔離された箱の中で暮らしている。
だからLLM以外のフロントエンド部分がRAG(外部からデータを取得して生成に利用する機能)の機能を提供するようになってきている。
LLMはRAGが無いと適当な嘘を真顔で返してくる。
0290名無しさん@ピンキー2025/04/05(土) 13:20:20.85ID:???
puwaer/Doujinshi-1.8b-instruct
エロ同人からのデータセットでfinetuneしたモデルか
同じようにmistral largeに学習させてぇw
フルスペックmac買ったニキ頼む
0291名無しさん@ピンキー2025/04/05(土) 14:12:17.91ID:I2bw+9Cm
>>289
エロではないんやが、、まぁLLMに聞いてみるわ。
LLMとRAGの関係はわかった、ありがとう。

でもopen web ui でweb検索オプションかけて質問するとweb検索かけてるっぽいのに結果をまとめてくれないのはなんでなんやろ。リアルタイムの株価は自分にはわからんから株価は以下のリンク見てね、って返答なんよな。
検索したんならchat gpt みたいにそこ参照してくれよと思うがローカルllm のopen web ui だとそこまでできないとかなんだろうか。
0292名無しさん@ピンキー2025/04/05(土) 15:10:31.81ID:???
だから細かい疑問点こそ普通にChatGPTなりに質問連打して説明してもらえよ
0293名無しさん@ピンキー2025/04/05(土) 16:10:35.63ID:???
RAGまわりは意味わからん話が多すぎるので自分はスパッと諦めたな
RAGそのもの興味があるならともかく検索させたいだけならMCP使えるクライアント経由でMCP Firecrawl&Docker firecrawlでやればええのでは
0294名無しさん@ピンキー2025/04/05(土) 16:17:54.57ID:???
>>291
公式見た感じ検索エンジン毎にAPIとかの設定必要っぽいけど
duckduckgoは設定要らないみたいだからとりあえずそれで試してみたら?
0295名無しさん@ピンキー2025/04/05(土) 17:14:00.72ID:???
RAGは今ここで話されてるような用途に使うようなもんではないからすっぱり忘れてええぞ
embeddingモデルという普通のLLMとは違うモデルで事前にデータをベクター化しとかんとつかえん
社内の情報をLLMに答えさせるとかそういうことに効果を発揮するんや

一般人におけるRAGの利用は正直用途がちょっと思いつかん
情報の検索に関してはDeepResearchを手元で実現するアプリがちょいちょい出てきとるからそっちのがむいとるやろし
ロールプレイをしているチャットの履歴が長くなってきたらベクター化しといて取り出しやすくしとくとかそんなんかなぁ
0297名無しさん@ピンキー2025/04/05(土) 17:28:13.44ID:???
節約が目的では無いんやが、節約されてると言えば言えるかな
ベクター化ってのは文字通り文字列をベクター化するってことなんやが、大体数バイトにするやでな

RAGがやってるのは
事前準備
1. 検索の対象にしたいデータを検索の単位にしたいサイズでぶつ切りにする(数百byteごととか、資料なら1ページごととか)
2. ぶつ切りにされたデータごとにベクター化(数バイト化)し、元の文章とベクター化したデータをセットで持っておく

RAG使用時(LLM使用時)
1. LLMに入力された質問をベクター化(数バイト化)する
2. 事前にベクター化したデータの中からベクトル(方向)が類似している文章を検索(単純に言えば数バイト化されてる中で数値が近いものを検索)
3. ベクトルが近い文章を数個(何個でもいいがLLMのtokens数上限に引っかからない範囲で)引っ張り出してきて、
  LLMのプロンプトに「RAGでこの文章がヒットしたよ」と張り付けてLLMに読ませる
4. LLMがRAG検索結果を参照しつつ質問に回答
0298名無しさん@ピンキー2025/04/05(土) 18:06:15.36ID:GnnWPxXH
わかりやすくいうとRAGって、
文章の近似値の近い文章をDBからベクトル検索で出して、
それをプロンプトに参考資料として読めと添付するだけ。

難しいことなんて何もしてないし、
RAG関連の技術書なんてあまり読む価値はねえぞ。
0299名無しさん@ピンキー2025/04/05(土) 18:14:31.76ID:???
会議の真ん中で、用意した資料から関係ありそうな部分を読み上げる秘書だな
0300名無しさん@ピンキー2025/04/05(土) 19:09:17.96ID:???
キャラのなりきり度を高めるならファインチューニングよな
0301名無しさん@ピンキー2025/04/05(土) 19:31:31.79ID:???
初めてEasyNovelAssistantってやつをローカルで生成試してみて動いておおーって感心してるところなんだけど
最新はなんかトレンド違ったりする?
0302名無しさん@ピンキー2025/04/05(土) 19:44:01.66ID:pdU6BS7G
ベクトルストレージ活用して長期記憶をお手軽にオンにできる機能SillyTavernに実装されないかな
QdrantとかWeaviate、Milvusあたりをバックエンドにして。
キャラクターごとのチャット履歴をベクトルストレージに全部保存しといて「一ヶ月前のあの話題について〜」とかで話題を引っ張ってこれるような
0303名無しさん@ピンキー2025/04/05(土) 20:06:31.00ID:???
>>301
EasyNovelAssistantのバックエンドなkoboldcppが一番高機能じゃないの
LM Studioは簡単お手軽だけど、サンプラーを変えたりできない
0304名無しさん@ピンキー2025/04/05(土) 20:19:14.21ID:???
入出力のテキストをスクリプトで加工したり、複数セッションを横断的に連携させたりしてみたい
いろいろフロントエンド触ってみたけど、これ自分で簡易なフロントエンド作るのが一番手っ取り早いのかしら?
0305名無しさん@ピンキー2025/04/05(土) 20:26:57.00ID:???
characterhubでローカルエッチチャット用キャラとか探してみてるんだけど、これサイトに用意されてる初期データ(?)みたいなのが英語なので、
手元でデータ部分の翻訳頑張って日本語でどう喋るかとか書き換えたり、負けないくらいの日本語長文挨拶を投げたりしない限りはチャットの返事も英語になるよね?
0306名無しさん@ピンキー2025/04/05(土) 20:31:46.94ID:???
>>303
これでいいのね、ありがとう
同人ゲーム作家なんだけど、1からエロ文章をビルドするの結構面倒で
AI生成で校正しながら生成すればちょっとは楽できるかなーって
0307名無しさん@ピンキー2025/04/05(土) 21:24:06.85ID:???
KoboldcppでiGPU生成とCPU生成を試してみたんだがどうもCPU 生成が一番速いように思われる
なんか間違ってるんだろうか、なんかもういいや
0308名無しさん@ピンキー2025/04/05(土) 22:45:23.37ID:???
推論速度にはメモリ帯域が重要だからみんな帯域のあるgpuに乗せてるだけで、帯域の変わらんigpuを使う意味はそんなにない
0309名無しさん@ピンキー2025/04/05(土) 22:53:54.32ID:???
画像生成だとiGPUはCPUより(は)充分速くて意味あるんだけどなー
0310名無しさん@ピンキー2025/04/06(日) 00:38:07.65ID:???
koboldcpp、早くgemma-3-27b-it-qatを読み込めるようになってほしい
0311名無しさん@ピンキー2025/04/06(日) 03:20:24.71ID:Bvxq/98N
EasyNovelAssistantってSDみたいなガチャ方式っぽいけど最近のモデルだったらガチャやるより人間が指示出してディレクションしていった方がよくない?
0312名無しさん@ピンキー2025/04/06(日) 03:28:29.83ID:???
KoboldCppをインストールしたけど、Qwen2.5-QwQ-37B-Eureka-Triple-Cubed-abliterated-uncensored-GGUF Q4_K_Sは
LM Studio(llama.cpp)とKoboldCppで全然生成が違うことがわかった
明らかにLM Studioの方が自然になる
Temperatureとかはモデル推奨値に合わせてるけど、他の設定の問題?
https://tadaup.jp/167806162.png
0313名無しさん@ピンキー2025/04/06(日) 03:30:06.47ID:ruu49hsY
何も指定しないときのデフォルトの数値はエンジンによって違ったりするからそれかもね
0314名無しさん@ピンキー2025/04/06(日) 04:35:47.95ID:???
生成量も両者で全体的に違うし何らかのオプションなんやろな
もし原因分かったらここに書いてほしいで
0315名無しさん@ピンキー2025/04/06(日) 04:43:13.79ID:???
llama4は2T(!?)と400Bと109Bらしい
わいの貧弱なPCじゃ何もできない
llama3が405Bから70Bになった前例があるから、ほんのり期待しとくで
0317名無しさん@ピンキー2025/04/06(日) 05:29:59.66ID:Bvxq/98N
SamがGPUが溶けるって言ってるくらいだしここらで軽量化に舵を切るのかと思ってたが大規模化の夢は止まらねえってことか
0318名無しさん@ピンキー2025/04/06(日) 05:38:03.76ID:???
Gaslit-Transgression-24B これグラボ足りるならSillyTavernの設定ダウンロードするだけだし日本語もいけるから初心者向きかも
0319名無しさん@ピンキー2025/04/06(日) 05:54:02.32ID:???
ChatGPT4が出た当初パラメータ1兆(1000B)超えてるんじゃないかなんて言われとったが・・・
実際はあの生成速度と今見たら大したことないあの能力見たら全然1000Bなんて超えてないだろうなぁって感じやけど
まさかついにほんとに超えてるものが出るとは・・・

2Tアクティブパラメータだけでも288B ほげぇ
1.58bit量子化してmac studio 512GBで低tokenで動くかどうかってところやろかねぇ

まーしかし400Bのcontextが1M、109Bのcontextが10Mってなってるのがやべぇ
ローカルLLM界が新しい領域に飛び立ちそう
0320名無しさん@ピンキー2025/04/06(日) 06:25:05.04ID:???
400bはChatbot Arena今見たら2位にランクインしとったわ
頑張ればローカルで動かせなくもない400bがgrok3とかgpt4.5より性能高いってのはやべぇ
0323名無しさん@ピンキー2025/04/06(日) 07:48:18.02ID:???
mac proはマジでメモリ1.5T超えるかもしれんな
昔ヒカキンが買ったのが1.5Tで500万だっけ
0324名無しさん@ピンキー2025/04/06(日) 08:21:08.88ID:???
109BのやつをH100を1枚で利用可能って言ってるから量子化モデルをmetaが出すつもりなんだろうか?
いまんところhuggingface見ても見当たらんけど
0325名無しさん@ピンキー2025/04/06(日) 09:28:55.88ID:???
1.5tでも転送が遅けりゃトークン出力されるまで30分待たなきゃなるんのだろ?
0326名無しさん@ピンキー2025/04/06(日) 09:52:28.39ID:???
llama-4-maverick-03-26-experimental、日本語だとDeepSeekV3.1より少し劣るぐらいな感じだな
DS V3.1はまともに使えるコンテクスト長がそんなに長くないから、Llama4の最大コンテクスト長10Mがほんとに有効に使えるならワンチャンあるかもしれない
改造・改良されやすいされづらいがあるから、どうかなという感じはするけど
0327名無しさん@ピンキー2025/04/06(日) 10:00:48.62ID:???
>>325
512Gのmacの再生動画見たけど爆速だったぞ?
どっから30分とかいう話が出てきたん?
0329名無しさん@ピンキー2025/04/06(日) 11:04:54.60ID:???
>>327
2000bのfp16モデルならメモリ4T必要だから転送発生するといいたいんじゃないの
転送発生してもさすがに30分はかからないんじゃないかとは思うけど
ストレージからの読み込みで転送量糞多いからまぁまぁかかるんじゃないかとは思う

まぁそもそも4TBメモリ用意できてないときにfp16モデル使うなよって話だとは思うけど
0330名無しさん@ピンキー2025/04/06(日) 11:37:47.01ID:???
今後MoEが主力になるならMacやdgxが輝くな
GPU勢には辛い時代や
0331名無しさん@ピンキー2025/04/06(日) 13:13:48.45ID:5sc3tZdz
iMatQ4XSで58GBくらいになるんじゃない?
32GBx2基のGPU積むか、
64GBのMacだとワンチャンいけそう。
0333名無しさん@ピンキー2025/04/06(日) 13:33:38.11ID:???
109Bのscoutはgemma3相当らしいから10Mコンテキスト以外価値なさそう
0334名無しさん@ピンキー2025/04/06(日) 13:39:18.62ID:???
でも10MもあるならRPとかエロ小説用途ならLORA作らなくても会話履歴にデータセットを流し込めばそれなりに機能したりするのかな
0335名無しさん@ピンキー2025/04/06(日) 13:49:40.34ID:???
これベヒんもスのトレーニング費用いくらかかってるんや……?
0336名無しさん@ピンキー2025/04/06(日) 14:06:40.71ID:???
パラメータ量の巨大化が加速してもローカルだとあんまり活かせなくてストレスがマッハ
個人的に最近感動したのはgemma3やねえ
0338名無しさん@ピンキー2025/04/06(日) 16:12:44.45ID:???
1.5t積んで全部メモリに載っても
最初のトークンが出てくるまで結構待つの?🤔
0339名無しさん@ピンキー2025/04/06(日) 18:18:36.80ID:???
llama4はカスタマイズしたモデルを発表するときにはモデル名の先頭にllamaを付けることを義務付けたみたいだな
0341名無しさん@ピンキー2025/04/06(日) 19:29:12.02ID:???
Quasar楽しすぎてローカル触る暇なくなった
無料の今のうちにRoo Codeでコーディングするだけするしかねえ
0342名無しさん@ピンキー2025/04/06(日) 21:12:39.61ID:???
context 10Mは業務への影響マジででかそう
今までローカルに興味なかった企業も気になるやろなぁこれ

10Mもあったら開発してるソフトのソース全部入れてリファクタさせるとかできるんやないかな
クラウドだとソース流出の危険があるからやらなかった企業はたくさんあるだろうけど
ローカルならその心配がない
0343名無しさん@ピンキー2025/04/06(日) 21:22:09.27ID:???
上限10Mあっても使い物になるかねぇ
今の技術じゃコンテキスト増えれば増えるほど抜けがいっぱい出てくるし
0344名無しさん@ピンキー2025/04/06(日) 21:37:31.04ID:???
10m contextって見て最初に思ったのは動画そのまま処理できそうだなって
0345名無しさん@ピンキー2025/04/07(月) 01:35:31.66ID:???
vLLM曰くH100x8でやっと1M contextらしい単純計算で10M contextには80個のH100がいるらしい
H100 80個を導入できる企業ってどれだけあるんだろ
0346名無しさん@ピンキー2025/04/07(月) 02:51:37.69ID:???
このまま肥大化が進んだら企業側も耐えられなくなるよな
確率分岐を計算でやってるから電力バカ食いだし
アナログチップのブレイクスルーがないと限界あるわ
0347名無しさん@ピンキー2025/04/07(月) 03:25:32.74ID:???
そこで Groq チップですよ
欲しいのはグラフィックボードじゃなくてLLMの計算エンジン(LPU)
レイトレーシングとかビデオエンコーダーにシリコン面積使ってないのが欲しい
0348名無しさん@ピンキー2025/04/07(月) 10:44:42.04ID:???
詳しくないけどマイニングも今は専用チップなんでしょ?
今後はどこも専用チップ作ってHBM盛ってCUDAも使わないのが未来像?
0350名無しさん@ピンキー2025/04/07(月) 12:36:15.13ID:???
マイニングに必要な計算は純粋な数学パズルに近くて、運営者が意図的にデザインしたものだよ
GPUを使わなくなったのはGPUでは効率が悪いようにデザイン変更をした結果なので例としてはあんまり...
0352名無しさん@ピンキー2025/04/07(月) 14:55:39.30ID:???
旧DS V3くらいの日本語だから、llamaにしては 頑張ったと見るか実用的には物足りないと見るかだね
学習をちゃんとやってないからか、画像から日本語読み取るのもいまいちだし
10Mコンテクストも文章ではうまく扱えず、画像をたくさん読み込めますというだけみたい
API料金がDS V3並に安いのが良いところかな
0353名無しさん@ピンキー2025/04/07(月) 18:21:18.40ID:???
x見てるとllama4はベンチマーク番長で実用性はあまり高くないんじゃないかって話出てるけど
でも人が評価するchatbot arenaではいきなり2位に来てるんだよな

うーむよくわからん

400bが2位の実力あり、みんながテストしやすい109bが大したことないってことなんかな
0355名無しさん@ピンキー2025/04/07(月) 18:30:52.51ID:p8QpvM2P
AiderのベンチマークだとマーベリックがQwQ-32B以下だからやばい
https://i.imgur.com/acuJyui.jpeg
0357名無しさん@ピンキー2025/04/07(月) 19:08:18.91ID:???
DeepSeekがR1のときみたいにR2で32Bの蒸留モデルを出してくれるかもしれない
0360名無しさん@ピンキー2025/04/07(月) 19:19:17.07ID:???
コーディング?
でもchatbot arenaだとコーディング部門1位なんだけど
もうこれ分かんねーな
0361名無しさん@ピンキー2025/04/07(月) 19:54:12.77ID:???
chatbot arenaは1000tokenくらいが限度だから英語やpython自体は達者、短い用途なら達者という可能性はあるような
0362名無しさん@ピンキー2025/04/07(月) 19:56:26.99ID:???
人間が評価すると高速な出力で簡潔に回答するLLM(総じて小さなモデル)が過大評価される問題は以前から指摘されてる
chatbot arenaの利用者の大半は簡単な質明しかしておらずモデルの性能差が出るような質問は出来ていない
0363名無しさん@ピンキー2025/04/07(月) 19:58:02.56ID:???
教師モデルのベヒーモスがまだ未完成らしいじゃん
そこから蒸留するはずの下位モデル先にだしてるのがよくわからんわ
0365名無しさん@ピンキー2025/04/07(月) 21:25:08.77ID:???
アリーナだとプロンプトが違うんじゃないかってのと
そもそもモデルが違うんじゃないかって話が出てるね
0366名無しさん@ピンキー2025/04/07(月) 21:38:04.77ID:???
あり得るのはベヒーモスをマーヴェリックと偽って回してたとか?
0367名無しさん@ピンキー2025/04/07(月) 21:52:44.39ID:???
公開モデルやからこれからは公開版が正式名でちゃんと回るはずやね
それがランクインするの待てばええでな
0371名無しさん@ピンキー2025/04/08(火) 06:07:27.07ID:???
はじめてマルチモーダルモデル(gemma3)使ってるけどこれって新しい画像読み込ませるたびにプロンプトを一から読み込み直すのか…
生成がかなり遅い;;
それに複数の画像がある状態で「次の画像の解説をお願いします」って言うと前に解説した画像の情報もプラスして、ごっちゃに解説してる感がある
単独の画像解説だと問題ないが…
0373名無しさん@ピンキー2025/04/08(火) 13:25:39.13ID:???
上位のモデルだとQ2とかでも12Bより頭いいんだねもっとわけわからない反応返ってくると思ってたわ
0374名無しさん@ピンキー2025/04/08(火) 14:44:30.49ID:???
量子化してファイルサイズ削ったあとのものが具体的にどんな程度のアタマノヨサなのかの判断は人類には無理だからな
実際に使って実際の問題にぶつけてみるしかない
さあ全部ダウンロードして試すんだ
0375名無しさん@ピンキー2025/04/08(火) 14:49:57.31ID:???
Chatbot Arenaで2位を取ったのはLlama4をチャット対応に最適化したバリアントモデル、という話が出てるな
バリアントモデルも一緒に公開してbaseとllamaChatですよと言えばそれで済む話だったのになぜこっそりやったんだろう
0376名無しさん@ピンキー2025/04/08(火) 15:03:08.42ID:???
baseとInteractionモデル両方公開するのは多くのモデルでやられてるしllamaもそれすればよかったのにね
予想より公開早かったしもしかしたら公開の仕方ミスったりしてるのかもわからんね
まぁまだ予想だから分からんけども
0377名無しさん@ピンキー2025/04/08(火) 15:58:15.32ID:???
GPROで推論機能を発現させたChat専用本命モデルを用意してる最中で、 4月末のイベントで発表します、とかならワンチャンあるかもしれない
0378名無しさん@ピンキー2025/04/08(火) 16:04:14.60ID:???
QwQ-32B-ArliAI-RpR-v1試してみたで

Q5_K_Mが22GでギリVramにのれんかった(乗ったのは61/67レイヤー)
コーヒーの種類を聞いたら途中でやめていきなり股間に視線を投げかけてきた
Q4_K_Sはそうでもないけど、会話2つ目でもうハルシネーション起こってもうた

ワイのキャラ設定があかんとは思うんやが
ノーマルのqwq-32b-q4_k_mのほうが好みかな
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況