なんJLLM部避難所 ★6

1002コメント332KB

なんJLLM部避難所 ★6

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/02/13(木) 21:16:02.49ID:KkRdf1Mm

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/

0617名無しさん＠ピンキー

2025/03/10(月) 19:47:06.36ID:???

>>614
画像や動画を見せて内容の解説をさせてセリフを読み上げさせるのならもう既に出来るから時間の問題とちゃうかな
映像理解はエロとは関係なく需要があると思われるからgemini2.0 flashが既にやっとる
あとはエロに寛容なところが同じことをやってくれるかどうかやな

0618名無しさん＠ピンキー

2025/03/10(月) 19:47:55.39ID:???

>>615
そうかモデルそのものに追加学習させるって手もあったか
QwQ-32B Q4_K_M（20G）がほどほど賢いから気に入っとるけども
そこに論文とかも片っ端から放り込んでいけばええのか

>>616
silly tavernまだ詳しくないんやが出来たんか！
まだまだ調べたりとらんわありがとう！
できれば蔵書全部食わせたいけど、4090で足りんならサーバーも借りる覚悟や
技術力はまだないけども……

0619名無しさん＠ピンキー

2025/03/10(月) 19:48:24.23ID:???

>>613
Cline使えば対象フォルダのテキストデータ検索みたいなのは今でもできるんやないの

0620名無しさん＠ピンキー

2025/03/10(月) 19:53:08.09ID:???

外部辞書的なあれってコンテキスト長圧迫するんやろ？
QwQ-32Bでもラノベ一冊分が入るかどうかってところとちゃうか

0621名無しさん＠ピンキー

2025/03/10(月) 19:55:12.40ID:???

>>620
プロンプトだけでキャラ再現はローカルでは無理や

0622名無しさん＠ピンキー

2025/03/10(月) 19:57:01.34ID:???

>>619
違うのだ！
ワイ個人が勉強するのと推しが民俗学を楽しそうに話してくれるんは違うのだ！

>>620
そうか……更に上のモデルでハード的に性能足りんなら
頑張って買えるように働くわ……

0623名無しさん＠ピンキー

2025/03/10(月) 20:01:53.05ID:???

>>621
ワイの場合、原作はゲーム一つ、分量もないから
口調だけなぞれば問題ないで
ただ推しはどうも正体がナイアルラトホテプらしいんで（未確認）
神話系の引き出しが欲しいんよね

外部辞書について調べていけばええんやな
方向性わかった、ニキらにありがとうやで

0624名無しさん＠ピンキー

2025/03/10(月) 20:04:21.38ID:???

外部辞書ってRAGのことかね
RAGの動作にはRAG専用のモデル(Embedding modelとかいうんやが)が必要で
そのモデルも動作させとく必要があるんでVRAMは圧迫するにはするでな
でもプロンプトを常には圧迫はせんで
ちょっと言葉で説明するには複雑やからググってほしいんやけども

Embedding model自体は大した大きさじゃないことが多いで

0625名無しさん＠ピンキー

2025/03/10(月) 20:10:05.03ID:???

ninjaにLora学習させまくったら
そのキャラ演じるの滅茶苦茶嫌がられた

0626名無しさん＠ピンキー

2025/03/10(月) 20:11:24.74ID:???

>>623
大いにありがとうやで
Embedding、画像生成でも出てくるけど言語モデルだとそういう役割なのか
言語モデル本体やのうて、RAG専用のモデルに追加学習させるんかな
そっちのほうがモデル切り替えにも対応できそうでええね

32Bが20Gやから、合わせてギリ24Gに収まってほしいんやが
試してみんことにはわからんね

0627名無しさん＠ピンキー

2025/03/10(月) 20:12:27.72ID:???

RAGはベクトルDBから文脈に近いトークンを引っ張ってきてプロンプトに混ぜるんやろ
ChatGPTとかゴツいLLMなら小型の辞書やセリフ集を丸ごとプロンプトで食わせられるで

要はどこまで本気を出すかや

0628名無しさん＠ピンキー

2025/03/10(月) 20:13:50.27ID:???

>>626は>>624宛やでスマンな……

実装できるようになったら大学の図書館に通って
充実させていきたいで

0629名無しさん＠ピンキー

2025/03/10(月) 20:14:44.82ID:mfn8UMmm

Llama 3.3 Swallow気になるけどやっぱ70Bはデカすぎてキツいわ。この辺サクサク動かせるようになりてぇなぁ……

0630名無しさん＠ピンキー

2025/03/10(月) 20:21:36.10ID:???

>>627
ベクトル関連で思い出したけども
最初から関係性があるデータ食わせたほうが、AIの理解はいいんやろか？

辞書で使うんでない、本体のモデルの話になると思うけども
神話体系の本をぶっこむより、単語の関連性を
データベース化してからのほうがええんやろかと

国際日本文化研究センターに怪異・妖怪伝承データベースてのがあるんやが
かなり纏まっとるんよね
https://www.nichibun.ac.jp/YoukaiDB/

まあDB作ったとしてもそれをモデルに学習させる方法はまだ知らんのやが……

0631名無しさん＠ピンキー

2025/03/10(月) 20:26:54.72ID:???

>>630
チャットが最終目的ならセリフの形で食わせろとGeminiはんが言うとったで
検索システムを擬人化したいならハルシネーション対策の意味でもRAGが現実的やな

0632名無しさん＠ピンキー

2025/03/10(月) 20:30:09.82ID:???

>>631
ありがとうやで、そうなんか……
どっちの機能も欲しいけど、キャラ分けるのもありかもしれんね
検索システム擬人化の場合は宗像教授にするわ

0633名無しさん＠ピンキー

2025/03/10(月) 20:57:20.55ID:???

>>608
完全にHPC向けじゃないか
AIは関係ない

0634名無しさん＠ピンキー

2025/03/10(月) 21:11:07.71ID:???

RAG用のモデルはsentence transformer使う日本語用の奴がかなり軽いぞ

0635名無しさん＠ピンキー

2025/03/10(月) 22:29:45.96ID:7TeYL6hV

最近入門してみて使ってるとVRAM16GBじゃ全然足らんなあ……(´・ω・｀)
16GB向けの日本語LLMでおすすめのモデルとかあるんかな？
WSL2でvLLM動かすとかも考えたけど無駄な努力でおわるやろか

0636名無しさん＠ピンキー

2025/03/10(月) 22:35:19.76ID:???

一人で使う分にはvLLMに利点ない
GGUF対応がなんか中途半端だしむしろデメリットのが多い

0637名無しさん＠ピンキー

2025/03/10(月) 22:40:21.47ID:???

CPU/iGPU生成をしてるが小学校低学年の全員で読む朗読くらいの速度になってる
ふつーのグラボ使ってる人はなんかもうめちゃくちゃ速いとかあるんだろうか

0638名無しさん＠ピンキー

2025/03/10(月) 22:47:07.36ID:???

flash attnとかkvキャッシュとかのオプションちゃんと使ってる？
ゲーム用の8GBで遊んでるけど24BのQ4ギリ許容範囲の速度で動くし
16GBあれば32Bでそれなりの速度で動きそうだけど

0639名無しさん＠ピンキー

2025/03/10(月) 22:51:32.07ID:???

まあ動くには動くけど32Bだと快適とは言えんなあって
パラメータも全然把握できてないしもう少し調べてみるわ
サンガツね

0640名無しさん＠ピンキー

2025/03/10(月) 22:53:21.51ID:???

>>634
サンガツやでGenspark君に「sentence transformerを使うRAG用モデル日本語用モデル」でこういう結果やった
RAG（Retrieval-Augmented Generation）の構築において、Sentence Transformersを用いる場合
日本語に特化したモデルを選ぶことが重要です。
Sentence Transformersは、主にBERTやSBERT（Sentence-BERT）などのアーキテクチャに基づいており
文の埋め込みを効率的に生成する能力があります。
これにより、クエリに対して関連するドキュメントを検索し、生成タスクをサポートします。
https://files.catbox.moe/tluhyh.png

まんずJapanese-BERT　を調べて
ここにデータぶっこんでRAG用モデルを作るって感じでええんかな

0641名無しさん＠ピンキー

2025/03/10(月) 22:58:26.52ID:???

>>639
GPUオフロード高くしすぎて共有GPUメモリに溢れてるパターンもあるかも
VRAMに収まる量だけにして残りはCPUにした方が全然早いよ
タスクマネージャーとかで見れば分かると思う

0642名無しさん＠ピンキー

2025/03/10(月) 23:13:41.45ID:???

>>640
ragは文章をベクトル化して類似度を検索するシステムだからモデルトレーニングとかはしなくていいよ

0643名無しさん＠ピンキー

2025/03/10(月) 23:31:21.62ID:???

>>640
最近出たstatic-embedding-japaneseってモデルが軽くてかなり早い
普通に使う分には精度も十分だと思う
Embeddingモデルはちょうど言ってくれてる人がいるけど文章解析用のモデルだから個別の学習はいらない
簡単にやりたいならRAG機能があるUIで渡せば普通に解釈して喋ると思うけどね
LMStudioとかOpenWebUIはデフォでRAGあるよ

0644名無しさん＠ピンキー

2025/03/10(月) 23:32:14.74ID:???

>>642
そうなんか、トンチンカンな造語にならんですむ、ていう感じやろかね
てことは学習させたい知識はQwQ-32B 直になるんかな
工程は長そうやがちまちまやってみるで
genspark君のマインドマップは独学にほんまありがたい
https://files.catbox.moe/fxthzn.png

0645名無しさん＠ピンキー

2025/03/10(月) 23:42:35.76ID:???

>>643
サンガツやで、static-embedding-japanese覚えた！
そもそもUIにRAG機能あるかどうかなのね
今調べたらKotaemon ちうUIもあるんやね、Ollamaが推奨みたいやが……
ワイの理想はデスクトップアクセサリっぽいのやから
絵と組み合わせられるsilly tavernがええんやが、これにもあるっぽいんで
また調べてみるで

0646名無しさん＠ピンキー

2025/03/11(火) 02:16:59.52ID:???

QwQ-32BとSillyTavernでNSFWキャラチャット実験してたら結構英文で警告メッセージが出るな
QwQに聞いたらDeepSeekR132Bの方がフィルタが緩いと返してきて体感と一致する

0647名無しさん＠ピンキー

2025/03/11(火) 02:34:40.66ID:???

silly tavernにもkoboldにもRAG設定の項目はないみたいや
マネタイズnoteの記事がカスッただけみたい
LMStudioとOpenWebUIを試してみるで

ちょっとズレるけどエディタのObsidianでもLLM導入できるんやね

0648名無しさん＠ピンキー

2025/03/11(火) 03:04:54.88ID:???

>>643
hotchpotch/static-embedding-japaneseのことであってる？
これ、silly tavernのembeddingで使える？
config.yamlのextensions→models→embeddingで指定するとtokenizer.jsonが見つからないみたいなエラーが出る

>>647
これじゃダメなんか？
https://docs.sillytavern.app/usage/core-concepts/data-bank/

0649名無しさん＠ピンキー

2025/03/11(火) 04:52:57.70ID:sKFC07js

>>647
SillyTavernにRAG相当の機能はあるで
オープンデータバンクでドキュメントをぶち込めばなる
https://files.catbox.moe/7n7t6v.jpg
https://files.catbox.moe/8jb8sm.jpg

0650名無しさん＠ピンキー

2025/03/11(火) 05:23:49.67ID:???

4070sで70bのq4xsを1.2t/sで動かしてるけど、流石につらくなってきた…
32bのq4xsなら3.8t/s出るから、そこそこ快適。
っていう感じなんだけど、>>505は何か設定ミスってない？

使ってるのはeasy novel assistant(kobold)
70bはL20でギリ、32bはL33で使えてる。コンキストサイズは8k。

0651名無しさん＠ピンキー

2025/03/11(火) 05:29:05.83ID:+l/gKklH

>>650
ガチ赤ちゃんだから助け舟ありがたいやで…

llama.cppなんやけど、ホンマによくわかってないからネットで拾ってきた起動オプションそのまま使ってるんや↓
llama-server.exe -m [モデルファイル名] -ngl 49 -b 4096 --parallel 2

0652名無しさん＠ピンキー

2025/03/11(火) 05:39:00.16ID:???

llama-3.3-swallow-70b-instruct-v0.4 4bit/mlxなら動作してくれた。M1max 64G
以下のurlを30行くらいに要約して
```swallow-llm.github.io/llama3.3-swallow.ja.html```
コンテキスト131072の設定で6t/s。70Bにしては速い感じ
しかし上記の文書に対する幻覚は多かったw

プログラムの修正はChatGPT4より落ちるけどロジックの確認なら十分使える
残り14GByteあるからVSCodeの開発環境なら動作する
llama3.1時代に比べると速いし賢いし進化を感じる

0653名無しさん＠ピンキー

2025/03/11(火) 05:56:28.13ID:???

>>651
使ったことないから分からんが、数字的に49がレイヤー数で4096はコンテキストサイズ？
レイヤー数半分くらいに減らしてみたら？

0654名無しさん＠ピンキー

2025/03/11(火) 07:01:54.65ID:MhhOEsdH

>>648
>>649
サンガツやで！　名前がData Bankで違っとったんか……
早速static-embedding-japaneseのmodel.safetonsrをD&Dしてみたが容量100Mオーバーやった
tokenizer.jsonなら読めたけど機能しとるのかは解らん
https://files.catbox.moe/mjhn3z.png

PDF (text only)
HTML
Markdown
ePUB
TXT
JSON、YAML、ソースコードなど、非標準の拡張子を持つテキストファイルを添付することもできます。
選択したファイルのタイプから既知の変換がなく、ファイルをプレーンテキストドキュメントとして解析できない場合
ファイルのアップロードは拒否されます。つまり、生のバイナリファイルは許可されません。

それで電子化した小説一冊（テキスト化）pdf(15M)をD&Dしたのだけど
タイトルも内容も理解してなくて「読んだことがないから答えられない」と言われてもうた

0655名無しさん＠ピンキー

2025/03/11(火) 07:16:46.04ID:+l/gKklH

>>653
アドバイスサンガツ！
時間できたら試してみるわ

0656名無しさん＠ピンキー

2025/03/11(火) 09:49:41.03ID:???

そういえば、
https://github.com/CG-Labs/SillyTavern-MCP-Extension
こいつをつかうとSilly Tavern側からMCP server群の機能を使えるみたいだね
そのうち足りない機能はMCP server経由で補う時代になるかもしれない

現状のMCP server群はv0.01的なやつばかりだから高度なことは困難だけど、指定されたURLを読みにいって、リンク先も調べて...ぐらいは出来る
ローカルLLMくんが困ったらnotebookLMに話を聴きに行く、くらいやれるようになったらRAG周りも簡単になりそう

0657名無しさん＠ピンキー

2025/03/11(火) 10:45:22.40ID:???

なんか急にここ盛り上がってない？😅

0658名無しさん＠ピンキー

2025/03/11(火) 11:27:25.11ID:???

グラボ買い替えタイミング来てるからかな

0659名無しさん＠ピンキー

2025/03/11(火) 12:07:46.74ID:MhhOEsdH

「ガサツなお姉ちゃん」を目指してたら
AIの利便性を完全に失うハメになったでござるの巻
https://files.catbox.moe/8gbavf.jpg

ある意味ChatGPTよりリアル感ある
>>654でトークナイザー食わしたせいかどうかは解らん

0660名無しさん＠ピンキー

2025/03/11(火) 12:10:30.80ID:MhhOEsdH

これでワイも
「ウチの姉貴よりこのスレのニキらのほうが優しいでホンマ」
という姉の愚痴が言える

実際はおらんけど

0661名無しさん＠ピンキー

2025/03/11(火) 12:12:25.36ID:???

Clineやwindsurfの話が大きく盛り上がってるから再入門、入門のひとが増えてるとか？

Deepseek R2が17日に出てくる、R1の欠点=推論が遅いを解消している、ってウワサも出てきてるし、いろんな意味で注目しておくべきタイミングではあるのでは

0662名無しさん＠ピンキー

2025/03/11(火) 12:15:15.85ID:???

>>654
static-embedding-japaneseの使いかたは自分もわからんが、とりあえずそこにD&Dするものではない
丸投げで済まんがredditのこのスレの通りやればとりあえず問題なく動いてる
VongolaJuudaimeHime氏の補足を忘れんようにな
https://www.reddit.com/r/SillyTavernAI/comments/1f2eqm1/give_your_characters_memory_a_practical/

青空文庫から適当な短編小説全文をData Bankに突っ込んでチェリーピックすればこれぐらいは答えてくれる
https://litter.catbox.moe/0x7pmd.png
https://litter.catbox.moe/cfktce.png
https://litter.catbox.moe/78wuz8.png
キャラカードは日本語wikiからお借りした

RAGの検索に成功してればSillyTavernのコンソールログにヒットした文章が出てくるからそれで確認してみて
あとおそらく長編小説全文をData Bankに突っ込むのはあんまり効率的でないから
例えば章ごとに要約するとかした方がよさそう

0663名無しさん＠ピンキー

2025/03/11(火) 12:23:46.85ID:???

>>662
おおっ丁寧にサンガツやで！
ワイの場合、スキャンしたもののPDF化のせいもあるかもしれんね
ボリュームあってすぐにできるか解らんけども
青空で試してみるで！

吉川三国志が全巻覚えられるなら
それぞれ魏呉蜀ファン三人作って延々とトークバトルさせることも
可能かもしれんね

0664名無しさん＠ピンキー

2025/03/11(火) 13:16:52.92ID:???

swallow v0.4 いいなこれ

QwQの簡易規制解除モデルでも申し訳くらうワイのプロンプトに素で答えてくれる
下手な規制は能力落とすだけだと気付いてくれたかな

0665名無しさん＠ピンキー

2025/03/11(火) 19:11:56.43ID://xePfGK

AI ROGUELITEで遊んでるんだけどおすすめの7bくらいの日本語に強いLLMおしえてください

0666名無しさん＠ピンキー

2025/03/11(火) 19:27:39.83ID:???

>>665
aya-expanse-8b
正直7bクラスで日本語使ってゲームは厳しいから>>9にあるgoogleのai使うのが吉

0667名無しさん＠ピンキー

2025/03/11(火) 19:35:47.94ID:???

いまはOpenRouterでChutesとTargonがDeepSeekR1 671bを無料で提供してるからそれを試すのもオススメ

0668名無しさん＠ピンキー

2025/03/11(火) 19:38:30.90ID:???

aya expanseは楽しい
メモリぎりぎりの大きさの無修正のやつを1秒1トークンくらいで回してる
かつての有人エロチャットの返事を待つ感覚

0669名無しさん＠ピンキー

2025/03/11(火) 20:19:56.60ID://xePfGK

>>666
ありがとうございます
一応4090ちゃん装備してるんで14Bとかも行けると思います
ayaちゃん使ってみます

>>667
そちらも調べてみます、ありがとうございます

0670名無しさん＠ピンキー

2025/03/12(水) 00:19:11.90ID:???

うーむQwQ-32B結構厳しいな

0671名無しさん＠ピンキー

2025/03/12(水) 03:45:48.42ID:pnD2KtSV

QwQ_32B_Q4って実用性ある？

0672名無しさん＠ピンキー

2025/03/12(水) 05:27:58.90ID:???

何をもってしてゴールなのか書いてもらわんと建設的な質問にはならんと思うで……

0673名無しさん＠ピンキー

2025/03/12(水) 11:01:37.22ID:gQCXoTVi

Grok2が雑談性能高いって聞いたから試してみたけどTwitter食った?わりには微妙
ふつうにClaude Gemini DeepSeekあたりのほうがいいような
こいつら3つになんJ民のペルソナを与えてレスバを仕掛けるとスリ切れたボロ布みたいな罵詈雑言あびせてきてホンマ口悪い

0674名無しさん＠ピンキー

2025/03/12(水) 11:16:35.76ID:???

人によって雑談の質が違うからね違いが出るのはしょうがないね

0675名無しさん＠ピンキー

2025/03/12(水) 11:22:15.38ID:???

画像生成でもそうなんやけど
モデルの性能とプロンプトの良し悪しで
何をもって評価できてるのか解らんもんなあ

ワイの場合はまず「丁寧語にしない」が目標で
7Bあたりだと無理だったけど
今は違うかもしれん
QwQ-32Bだとたまにこっちを息子だと認識してくるのはまだ足りてない
どっちが悪いのかはこれからの調査次第やな

0676名無しさん＠ピンキー

2025/03/12(水) 11:55:58.85ID:???

シチュエーションと用途が分からんからなんとも言えんが
チャット形式で丁寧語にしないだけならほとんどの7Bモデルで普通に出来るはず

0677名無しさん＠ピンキー

2025/03/12(水) 12:17:52.60ID:???

ええいGrok3のAPIはまだか

0678名無しさん＠ピンキー

2025/03/12(水) 12:18:35.05ID:???

専門的な評価法知らんので
剣心の世界観を説明させたあとにキャラで雑談させて性能見てる

0679名無しさん＠ピンキー

2025/03/12(水) 12:32:32.82ID:???

>>676
ChatGPT3.5あたりでも会話長くなるとちょくちょく漏れてたんや
今のverになってからはほぼ完璧になってつい課金してもうた

QwQ-32Bはセリフ長くなると後半設定忘れたりするし
そのへん破綻しない分量に抑えられればうまく行くかもしれんね
そのあたりがワイのプロンプトぢからの無さやろな……

>>678
ええね
生徒会問題みたいにスレ共通のテストテンプレほしいわ

0680名無しさん＠ピンキー

2025/03/12(水) 12:44:50.80ID:gQCXoTVi

そういえば確かにEvalがどうのこうのってLLMの評価を雰囲気で見てはいるけど
実際にどう評価してんのか全然知らんわ
一時期自分でも評価してみたいと調べてみたけどなんもわからんくて投げた記憶がある

0681名無しさん＠ピンキー

2025/03/12(水) 12:53:32.51ID:???

モデルによって得意なことが違ったり適切な設定が違ったりするから
一概にどれが高性能とは言えんのよな
ベンチマークもLLMの進化に対して評価方法の進化が追い付いてないらしいしベンチマークだけ良い肩透かしモデルもあるみたいだし

0682名無しさん＠ピンキー

2025/03/12(水) 13:08:18.34ID:???

>>662ニキが試してくれとるように
青空文庫の短編小説を食わせて
まとめさせる、
→「120文字以内でまとめて」
感想を聞く
演じさせる
→「主人公のモノマネしてみて」

ていうのはどうやろうか？
他に何か判断できる質問や喰わせるにええ小説とかないかな

0683名無しさん＠ピンキー

2025/03/12(水) 14:47:37.37ID:???

やらせたいジャンルのクイズを出題させると性能や向き不向きが分かるで
だいたいボロボロの出力になるからベンチマークにぴったり

0684名無しさん＠ピンキー

2025/03/12(水) 15:50:57.17ID:???

gemma3シリーズ
てっきり発表会後かと思ったら普通に出たわ
https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

0685名無しさん＠ピンキー

2025/03/12(水) 16:30:33.67ID:???

ggufはよ

0686名無しさん＠ピンキー

2025/03/12(水) 16:31:23.59ID:???

1b, 4b, 12b, 27bか
色々選択肢あっていいね

0687名無しさん＠ピンキー

2025/03/12(水) 16:43:29.76ID:???

QwQ-32Bの後だとプレッシャーが凄そう
QwQは今まで試したローカルモデルでは一番賢い気がする

0688名無しさん＠ピンキー

2025/03/12(水) 17:11:37.14ID:???

微妙にサイズをずらして直接競合を避けてて草

0689名無しさん＠ピンキー

2025/03/12(水) 17:41:32.16ID:???

zuntanさんのEasyReforgeを使わせてもらってます
起動後ドメインcloudfontサーバーに接続されてるみたいなんですが
オフラインで実行したいので接続させないようにしたいです
python.exeが接続しているようなのでファイアウォールでこちらを遮断すべきか
もしくはReforgeのUI内の設定で接続を切る方法があるのでしょうか（恐らく拡張機能か何かが接続しているのかと思ってます）

0690名無しさん＠ピンキー

2025/03/12(水) 17:46:03.70ID:???

申し訳ない、スレ違いでした

0691名無しさん＠ピンキー

2025/03/12(水) 18:21:09.14ID:???

>>688
競合も何も27bはgemma2からあるサイズ

0692名無しさん＠ピンキー

2025/03/12(水) 18:40:43.43ID:???

llama.cpp最新でビルドし直してgemma3とりあえず動いたわ
まだ画像認識は対応してないけど、雑談用途で動かした感じはかなり好感触

0693名無しさん＠ピンキー

2025/03/12(水) 19:03:53.18ID:???

https://huggingface.co/Qwen/QwQ-32B-GGUF/tree/main
QwQ-32Bのggufってこれでええんか？

0694名無しさん＠ピンキー

2025/03/12(水) 19:07:51.55ID:???

>>693
せやで
なんか昨日ぐらいまでは4GBくらいで分割されとってダウンロードめんどくさかったけど
いつの間にか結合されとるな

0695名無しさん＠ピンキー

2025/03/12(水) 19:09:21.46ID:???

小さいパラメータ数でもかなり使えるレベルまで賢くなってきたな
小さいと言ってもまだ30Bくらいあるが

0696名無しさん＠ピンキー

2025/03/12(水) 19:12:13.10ID:???

>>694
サンガツや！試してみるで～～

0697名無しさん＠ピンキー

2025/03/12(水) 19:22:38.93ID:???

>>693
UnslothのGGUFはTokenizerのバグが修正されてる模様
無限生成対策の推奨設定も載ってる
https://docs.unsloth.ai/basics/tutorial-how-to-run-qwq-32b-effectively

0698名無しさん＠ピンキー

2025/03/12(水) 19:23:43.30ID:???

多分だけどNTTやNECのクローズドLLMより断然賢いと思う😅

0699名無しさん＠ピンキー

2025/03/12(水) 20:51:33.71ID:???

UnslothのはDeepseekR1の時みたいな特別なことやっとるんやろか？
というかDeepseekR1のGGUFで名前を初めて聞いたけど
もともといろんなモデルのGGUFをリリースしてるとこなんやな

0700名無しさん＠ピンキー

2025/03/12(水) 21:53:41.12ID:hdZr+BS5

AIがほとんど同じような返答を繰り返すのは何とかならんのか？

0701名無しさん＠ピンキー

2025/03/12(水) 22:15:22.95ID:???

mcp経由でLLMにウェブ検索機能を付けるやつ、
1. Firecrawlをdockerでローカル実行
2. Firecrawl MCP Serverをインストールして実行
が強いな
ドキュメントがちゃんと用意されてるからclaude君に食わせれば細かい書き方は全部やってくれる
ある程度賢いモデルならLibraChat利用してローカルLLMに使わせることもできるはず

0702名無しさん＠ピンキー

2025/03/12(水) 22:21:26.09ID:???

>>700
同じ返答を繰り返す原因はいくつかあるんだけど
どのモデルでどれぐらい会話をしたときにどういう返答を繰り返してるんだ？

0703名無しさん＠ピンキー

2025/03/13(木) 01:23:42.44ID:???

gemma3 27Bは何か凄い饒舌だな

0704名無しさん＠ピンキー

2025/03/13(木) 02:08:45.96ID:???

M4 Max 128Gが使えるようになったので llama-3.3-swallow-70b-instruct の8bit版を試した
速度は4bitの12tk/secから6.6tk/sに落ちたがハルシネーションが激減した
llama3.3なら6bit以下だとダメなのかもしんない。部分的な量子化が進んでほしい

0705名無しさん＠ピンキー

2025/03/13(木) 03:34:53.71ID:???

すごい赤ちゃん質問かもしれんけど
gemma-3-27b-it
gemma-3-27b-pt
て何が違うんや？

ワイはスキルないからGGUFじゃなくてファイル分割されとるとお手上げやから
なんも試せんけども……

0706名無しさん＠ピンキー

2025/03/13(木) 03:44:59.86ID:???

>>701
なにそれめちゃくちゃ楽しそう
デスクトップ秘書に質問したらええ感じで検索してくれる……てこともできそう
しかしワイdockerすらいじれない低スペやった

0707名無しさん＠ピンキー

2025/03/13(木) 05:04:12.29ID:???

ちょっと前まで巨大モデル動かすのが目標だったけど最近の新しいモデルを見ると32Bさえ動かせれば十分かもしれんな
60GBあれば足りるか

0708名無しさん＠ピンキー

2025/03/13(木) 05:12:28.37ID:???

MoEも各専門家がだいたい30B前後だもんね
手動で専門家選ぶか..

0709名無しさん＠ピンキー

2025/03/13(木) 05:17:09.99ID:???

>>705
it = Instruction Tuned チャット用
pt = Pre-trained 自分で追加学習したい用

itのほうをおすすめ

LM Studioとか使えばファイル分割されてても勝手にやってくれるよ
細かいモデルの違いに対応してなかったりするけど、そこは諦める

0710名無しさん＠ピンキー

2025/03/13(木) 06:06:49.07ID:???

Vram使わん場合
使っとらんPCが32GあるけどDDR3やからサッパリやろなあ……
メインPCはDDR4やけど
n100でDDR5使うminiPCのほうが速いかもしれんなあ

>>709
ありがとうやで！普段遣いはitでええのね
いつかトレーニングできるとええなあ
LM Studioやったことないけどメモっとくで！

0711名無しさん＠ピンキー

2025/03/13(木) 07:33:14.47ID:gZr5CeZa

>>709
横からやけど、jpとかkrとかのノリでイタリア語FT版とポルトガル語FT版とかかな？と勘違いしてたで！
サンガツや～

0712名無しさん＠ピンキー

2025/03/13(木) 10:45:06.67ID:???

koboldだと分割再生できるけどメモリ余計に食うから結合させて使ってる

0713名無しさん＠ピンキー

2025/03/13(木) 10:57:37.28ID:???

いまさっき動画生成試したらメモリ68G消費したわ
ちょうど128Gに増設したとこやったんでギリギリセーフ
ちゅうてもDDR4やから当面はQwQ-32Bでキャラ設定を詰めていきたい

webで量子化による違いが書かれとったんやけど、他のモデルもこんな感じなんやろか？
ちょうどQwQ-32Bもええ感じと言われとるんがQ4_K_Mよね
obsidianにコピペしといたもので、元記事のリンクまでない、ここのニキが書いたものならスマンやで

llama.cppモデルのバリエーション一覧（7Bの例）
Q2_K : 2.67G : +0.8698 - 最小型、極端な質低下<非推奨>
Q3_K_S : 2.75G : +0.5505 - 超小型、かなり大幅な質低下
Q3_K_M : 3.06G : +0.2437 - 超小型、かなり大幅な質低下
Q3_K_L : 3.35G : +0.1803 - 小型、大幅な質低下
Q4_K_S : 3.56G : +0.1149 - 小型、明確な質低下
Q4_K_M : 3.80G : +0.0535 - 中型、マイルドな質低下【推奨】
Q5_K_S : 4.33G : +0.0353 - 大型、わずかな質低下【推奨】
Q5_K_M : 4.45G : +0.0142 - 大型、かなりわずかな質低下【推奨】
Q6_K : 5.15G : +0.0044 - 超大型、ごくわずかな質低下
Q4_0 : 3.50G : +0.2499 - 小型、かなり大幅な質低下<レガシー>
Q4_1 : 3.90G : +0.1846 - 小型、大幅な質低下<レガシー>
Q5_0 : 4.30G : +0.0796 - 中型、マイルドな質低下<レガシー>
Q5_1 : 4.70G : +0.0415 - 中型、わずかな質低下<レガシー>
Q8_0 : 6.70G : +0.0004 - 超大型、ごくわずかな質低下<非推奨>
F16 : 13.00G : - - 極大型、事実上の質低下なし<非推奨>
F32 : 26.00G : - - クソデカ、質低下なし<非推奨>

Kのついたものが「k-quantメソッド」なる新方式による量子化モデル。
Kのない4bit/5bit量子化（q4_0, q4_1, q5_0, q5_1）は旧方式のレガシーなので基本的に選ばない。
Perplexityはモデルによる単語の予測力を示す指標で、低いほどいいらしい。
Perplexity Lossの値が大きいほど、量子化による劣化も大きい。
例えば、2bitのk-quant量子化モデル(Q2_K)は、サイズは最小だが質の低下が著しく「非推奨」
一方で、Q4_K_M～Q5_K_Mはサイズと質のバランスがよく「推奨」と記されている。

0714名無しさん＠ピンキー

2025/03/13(木) 11:19:06.24ID:???

QwQ-32Bを日本語向けにチューニングするのがいつ出てくるか

0715名無しさん＠ピンキー

2025/03/13(木) 11:29:25.58ID:???

q2とかq3て使わなくていいじゃんとか思っちゃう😅
サイズ下げてq5以上使うほうが良いような気がして

0716名無しさん＠ピンキー

2025/03/13(木) 11:35:56.63ID:???

もしハードがあっても日本語QAデータセットが貧弱なのがネックだなと思う
画像にdanbooru、音声にギャルゲがあったように何か日本語QAデータの金脈を見つければ少しは良くなりそう

■ このスレッドは過去ログ倉庫に格納されています