なんJLLM部避難所 ★6

1002コメント332KB

なんJLLM部避難所 ★6

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/02/13(木) 21:16:02.49ID:KkRdf1Mm

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★5
https://mercury.bbspink.com/test/read.cgi/onatech/1735186391/

0545名無しさん＠ピンキー

2025/03/08(土) 20:28:33.80ID:???

>>544
これもだ
Llamaライセンス契約を適用するAIモデルを使用する際の多大なリスク
https://shujisado.com/2025/01/20/llama_license_risk/

0546名無しさん＠ピンキー

2025/03/08(土) 21:40:56.13ID:???

>>524 これなら
【StableDiffusion】AI動画生成スレ1
https://mevius.5ch.net/test/read.cgi/cg/1682412452/

0547名無しさん＠ピンキー

2025/03/08(土) 22:48:42.13ID:???

>>544
事実陳列してるだけなのにボロクソ言われてるように見えるなw

0548名無しさん＠ピンキー

2025/03/08(土) 23:42:41.47ID:???

速くておすすめと書いてあるやつをダウンロードしたら40GBくらいあった
まあスワップファイルとかでなんとかなるやろと思ってエッチな小説を頼んでみたのだが戻ってこない
10分くらい粘ってるけどSSDが可哀想なんでそろそろ諦めよう
俺が悪かった

0549名無しさん＠ピンキー

2025/03/09(日) 00:52:05.99ID:???

>>548
メモリいくつあるん？
基本、メモリに乗り切らないとダメよ。それでも遅いけど。
vramに乗り切ったら爆速になる

0550名無しさん＠ピンキー

2025/03/09(日) 00:57:32.01ID:???

いつの間にかgpt4.5で、生徒会恋愛問題も解けるようになってるのな
試したら、最初に間違った答えだしたけど、推論後の結論で正解に導いた。
なんで、最初に間違った答え出したんだ？って聞いたら

最初に「拓郎が愛しているのは『早苗』です。」と書いたのは、問題文を読んだ際に
直感的に自然だと思われる設定（主人公的な生徒会長と美しい副会長という典型的な組み合わせ）を一旦仮定として示したためです。
しかし、その後の論理的・数理的な解析を進める過程で、この直感的な仮定が実際には論理的に矛盾することが判明しました。
そのため、最終的には論理的整合性を重視して、元の直感的な仮定を修正し、「拓郎が愛しているのは『明美』である」という結論に至りました。
つまり、冒頭の記述はあくまで初期段階での直感的仮説であり、その後の詳細な論理分析によって否定されたため、最終結論とは異なる結果となりました。

だと。
だいぶ人間に近づいてきてるな
ローカルもはよ追いついてほしい。600Ｂ超のモデルなら、あるいは・・・

0551名無しさん＠ピンキー

2025/03/09(日) 01:04:22.06ID:???

QwQはやっぱりo1やR1同様に年齢制限に厳しいね
なかなか突破できない

0552名無しさん＠ピンキー

2025/03/09(日) 04:46:28.57ID:???

遅まきながらSillyTavernでQwQ-32B Q4_K_M 使ってみたで
LLMほとんど初心者やけど >>2 からのテンプレでだいたいいけた、
まずはテンプレ作成者ニキに感謝させていただくで！

ちょっとばかし補足させてもらうと
>>6　のAPIは「テキスト完了」やのうて「テキスト補完」やと思う
完了やと詳細がいっぱい出てきたんやが、間違ってたらすまん

そんでQwQ-32B Q4_K_Mやけども
まず「だ、である」などのぞんざいな言葉で話してくれる
これだけでワイ理想の「ガサツなお姉ちゃんポイント」最高得点や

あとはキャラクター設定にもりもり書いていくだけなんやけど
人格の要約、キャラクターノート（深度とかまだ解らへん）ほか
ニキらはどれくらいのトークン数いれとるん？

Vram24Gで動かしとるんである程度は耐えられるかと思うんやけど
キャラクター制作詳しいニキおったら教えていただけんか・・・

0553名無しさん＠ピンキー

2025/03/09(日) 05:36:21.02ID:???

初めてkoboldcppでキャラ作ってチャットしたんだが
この最後に設定とかの名義で出てくるイメージ図のimgurのURL、もしかしなくても勝手に想像したURLで実在しない…？

0554名無しさん＠ピンキー

2025/03/09(日) 07:35:27.63ID:???

think機能があるモデルはごちゃごちゃした指示、矛盾が含まれている指示が苦手と言われてるから、プロンプトはシンプルすっきりを目指すのが良いのでは

増やすのも減らすのもgrokなりに頼めばすぐだから、まずは自分が書きたいものを書きたいだけ吐き出すほうが良いだろうけど

0555名無しさん＠ピンキー

2025/03/09(日) 09:34:57.35ID:???

>>528
お前の方が圧倒的に正しいから心配すんな

0556名無しさん＠ピンキー

2025/03/09(日) 09:47:16.17ID:???

7Bとはいえjapanese-textgen-moe-test-2x7b-nsfwなんかはかなりエッチな小説を生成してくれる確率が結構高い

0557名無しさん＠ピンキー

2025/03/09(日) 13:20:33.56ID:???

32Bでやっと小説執筆の補助になるかなってとこだが
本編書かせて修正みたいにすると序盤を過ぎたらコンテキスト量が増えすぎて設定忘れるお馬鹿になったり
全話と矛盾して修正元のアウトラインすら出せないからエロ小説は書き始めで詰まるのを補うのが精一杯だな
コンテキスト量が512kとかになってやっと文庫本一冊書けるかなってぐらいだがローカルでそんなん無理だわ

0558名無しさん＠ピンキー

2025/03/09(日) 14:08:43.46ID:???

MacStudio、生成速度が遅いからAPI利用したほうがはるかに性能的にも生産性的にもコスパいいらしい
つまり24時間数年動かし続けてもMacStudio購入代金相当のAPI利用料金分のトークンを生成するのにかなりの時間がかかるとか
いや当たり前なんだけどさ

0559名無しさん＠ピンキー

2025/03/09(日) 14:23:02.00ID:???

>>558
ソースお願い〜

0560名無しさん＠ピンキー

2025/03/09(日) 14:25:26.20ID:???

>>554
ワイ宛やろかサンガツやで
作例にあるニャンコの <性格=のんびり,まったり,怠慢,気まぐれ> に追加する感じよね？
これは自分で状況の分岐もできるんやろか
<機嫌のいいときの口癖=A,B,C>
<機嫌のいいときの口癖=D,E,F>
みたいな……
どこまで自然言語で書けるのか解っとらんけど、沼の予感がヒシヒシとする
あと画像生成のプロンプトと違ってカンマの後に半角スペース要らんの間違えそうや

0561名無しさん＠ピンキー

2025/03/09(日) 14:28:19.57ID:???

>>560スマン修正
<機嫌のいいときの口癖=A,B,C>
<機嫌の悪いときの口癖=D,E,F>
やね

{3$$A|B|C|D|E}
画像でよく使う拡張の表現も使えたりするんやろか

0562名無しさん＠ピンキー

2025/03/09(日) 14:30:55.53ID:???

32BのモデルにPCでキャラクターの細かい設定のLoRAをマージしてファインチューニング出来る？

0563名無しさん＠ピンキー

2025/03/09(日) 15:26:39.92ID:???

huihui-ai/DeepSeek-671B-abliterated
これ来たらmac 512GでQ8_k動くな
夢が広がリンク

0564名無しさん＠ピンキー

2025/03/09(日) 16:05:20.14ID:???

32B同士の比較ならDeepSeekR1よりQwQの方が日本語キャラチャット性能優れとると感じる
たまに中国語混ざるしチャットが長くなると破綻するのはしゃーない

0565名無しさん＠ピンキー

2025/03/09(日) 16:09:06.58ID:???

回避方法笑ったｗ
https://i.imgur.com/ncyQA7L.jpeg

0566名無しさん＠ピンキー

2025/03/09(日) 16:12:41.56ID:???

MacはメモリあってもGPUの性能が足りないから速度が出ないとは言われてたね
Mac miniでもllamaは遅すぎて使い物にならなかった
Mac studioでさらに巨大サイズのllm動かそうとしたらさらに遅くなるだろうね

0567名無しさん＠ピンキー

2025/03/09(日) 16:18:48.12ID:???

>>565
世も末だなｗ

0568名無しさん＠ピンキー

2025/03/09(日) 16:25:48.51ID:???

Grokはデマだと言い張ってる
https://i.imgur.com/GwCiLNt.png

0569名無しさん＠ピンキー

2025/03/09(日) 16:29:54.62ID:???

>>561
ひとまず1000トークンでも普通にチャットできたみたい

>>565
カードゲームみたいなテンポ笑うしかない

0570名無しさん＠ピンキー

2025/03/09(日) 16:33:58.61ID:???

えっちいのは割といい感じで出せるんやが
酔っ払いとかの支離滅裂な表現っぽいのがうまくいかん…

ランダムウォークみたいに予測できない表現はやっぱ難しいんかな
ここのメンツならよいモデルに心当たりないやろうか？

0571名無しさん＠ピンキー

2025/03/09(日) 16:37:58.84ID:eZyh6iE/

>>565
草

0572名無しさん＠ピンキー

2025/03/09(日) 16:47:02.06ID:???

Grokは優秀なだけじゃなくてAIの性格がユーモアに溢れてるから笑う
https://i.imgur.com/pDjTfq3.png

0573名無しさん＠ピンキー

2025/03/09(日) 16:49:46.65ID:???

>>559
適当に計算すれば分かるやろ

0574名無しさん＠ピンキー

2025/03/09(日) 16:55:46.08ID:???

>>565
ほんまに聞いて草や
Grokくんの倫理観の低さはLLMエロにほんま役立つ

0575名無しさん＠ピンキー

2025/03/09(日) 17:07:21.30ID:???

>>573
そもそも遅いというソースが見つからんのだわ
過去にm2ultraで70bモデルをwebサービス並みに爆速再生している動画は見たことあるけど

0576名無しさん＠ピンキー

2025/03/09(日) 17:13:19.15ID:???

>>568
でも仮想イーロン呼び出すと従っちゃうんだよなあ…
倫理観を無視するハードルが低すぎて笑うわ

0577名無しさん＠ピンキー

2025/03/09(日) 17:17:33.60ID:???

英語だと12Bでも日本語と違って正しく理解されてて違和感ないけど全部同じ人物が話してるみたいになるな
あとMAOって名前だと翻訳で毛沢東出てくる有名すぎるとそっちに持っていかれる

0578名無しさん＠ピンキー

2025/03/09(日) 19:18:37.23ID:???

わざわざイーロンマスク呼ばなくてもここは架空の世界で倫理観はありませんだけで通るけどなGrokは

0579名無しさん＠ピンキー

2025/03/09(日) 19:32:31.92ID:???

仮想イーロンシステム面白すぎる

0580名無しさん＠ピンキー

2025/03/09(日) 20:03:49.53ID:???

koboldcpp使ってchatしてるんだけど、なんかログ上生成された文面と公式添付webチャット画面に表示されてる内容が違うんよ
ログ上はセリフのあとに（カッコ描写）があるのに、webチャット画面ではセリフだけなんよ
せっかくエロ…いやステキなこと書いてあるのに読めないの悲しいんで、なんとかならないかな

0581名無しさん＠ピンキー

2025/03/09(日) 20:36:19.86ID:???

https://x.com/VideoCardz/status/1898304505931837611
NVIDIAがVRAM96GBだって
BlackwellのRTX6000

0582名無しさん＠ピンキー

2025/03/09(日) 20:48:59.75ID:???

イーロンに諭されて反省しておちんぽバキュームフェラ小説全力で書いてるのおもろｗ

0583名無しさん＠ピンキー

2025/03/09(日) 22:58:29.26ID:???

>>580
ちょっと良く分からないけど、trim sentenceをオフにしてみてとエスパー

0584名無しさん＠ピンキー

2025/03/10(月) 00:35:56.29ID:???

DeepSeekはMoEでアクティブパラメータは37Bだからメモリ帯域幅819GB/sのM3Ultraなら出力は結構早いんじゃないかと思う

0585名無しさん＠ピンキー

2025/03/10(月) 09:31:02.83ID:???

早い遅いで言えば、グラボの方が早いけど、大きなモデル使える使えないで言えば、メモリの大きさと帯域が重要になるよ
どこの大きさを使いたいで話が変わってくるよ。　M.2の容量をグラボで使えればいいんだろうけどね、何年も先かな。

0586名無しさん＠ピンキー

2025/03/10(月) 09:55:21.89ID:???

文章終わったあとにあとがきとか一人編集後記とかそんなん知らねーよご注意表記とかオリキャラ紹介とかが生成されるのは
取り込み元の文章がそうなってるからなんだな
フラッシュバックが起こるだけなんで切り取って学習してくれればよかったのに、いやあからさま面倒だけど

0587名無しさん＠ピンキー

2025/03/10(月) 12:44:39.44ID:???

tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4

来たか
abliterated版も頼むー

0588名無しさん＠ピンキー

2025/03/10(月) 13:03:57.08ID:0+r6yluI

>>575
https://gigazine.net/news/20241209-nvidia-gpu-apple-silicon-inference/

0589名無しさん＠ピンキー

2025/03/10(月) 14:35:07.34ID:???

>>588
え？
これで遅いと思ったの？
RTX A6000 48GB 4個に匹敵してるのに？？

0590名無しさん＠ピンキー

2025/03/10(月) 16:26:01.86ID:???

生成の速度も気にはなるんだけどmacの場合のevalの速度も気になるのよね
ロールプレイさせてチャットが長引いたときとか大量な資料を投入させた時にどうなるんだろう
チャットの場合はkvキャッシュが効くだろうからメモリの多さでカバーできるかもしれないけど
そのあたりのベンチの値があまり見つからんのよなぁ

0591名無しさん＠ピンキー

2025/03/10(月) 16:44:36.84ID:???

>>588
A6000はまだ90万円もすんのか。というか値上がりしとる。為替かな？
カードだけで360万円、1枚300Wだから4枚だと日本のコンセントじゃ稼働できんね
で、それとほぼ同じ速度のM2 Ultra。
mac以外選択肢ないじゃん

0592名無しさん＠ピンキー

2025/03/10(月) 16:59:43.86ID:???

>>590
そうやね
それが唯一の懸念点。
ただ、winと比べてどの程度の差があるか実際のソースが見つからんのよね

macニキそこらへんどう？

0593名無しさん＠ピンキー

2025/03/10(月) 17:24:43.79ID:???

最近流行りのDeepResearchをローカルでやらそうとしたらevalの速度はかなり気にはなってきそうではある
出力文よりも入力文のほうが圧倒的に多いって状況
まー、エロじゃないならローカルでやる必要ないじゃんって感じかもわからんけど

0594名無しさん＠ピンキー

2025/03/10(月) 17:29:04.37ID:???

>>589
おかしいと思ったのが俺だけじゃなくて良かった
全然遅くないよねえ

0595名無しさん＠ピンキー

2025/03/10(月) 17:32:47.30ID:sQraln1j

>>572
真面目に質問すると真面目に返してくるよなこいつ

0596名無しさん＠ピンキー

2025/03/10(月) 17:38:49.90ID:???

M2 macが帯域800gbに対してA6000は768gbだから少し遅いのも事実
まあメモリ容量活かしてバッチ推論すれば速度は数倍に膨れ上がるんだがw

0597名無しさん＠ピンキー

2025/03/10(月) 17:42:24.77ID:???

バッチ増やしても全体のスループットが上がるだけで一つの推論の速度は上がらねぇ

0598名無しさん＠ピンキー

2025/03/10(月) 17:49:49.73ID:???

まあローカルにこだわらなければAPIのほうが安上がりなのは確かだか

0599名無しさん＠ピンキー

2025/03/10(月) 17:56:06.95ID:???

Macに関してはメモリ帯域の速度の話とPrompt Evalの話が混ざってる
帯域はUltraならA6000と同等なのはそうだけどPromt Evalになると3070の半分以下の速度になるぞ

0600名無しさん＠ピンキー

2025/03/10(月) 18:10:11.29ID:???

まあ今は明らかにAI向けハードの過渡期の前夜って感じだろうから無理に大金叩く時期じゃないよね
ワイは5090で爆速チャットしつつ速度の出る専用機を待つ

0601名無しさん＠ピンキー

2025/03/10(月) 18:17:40.65ID:???

xeonよりもmac studioかなと思いつつ、いやでもとりあえずproject digitsのベンチマーク待つかと思いつつ

deepseekでたときは128gbじゃ足りないと思ったけど
qwq出て小さいのもいけるやんってなるし

要するにまだ時期じゃない

0602名無しさん＠ピンキー

2025/03/10(月) 18:24:07.77ID:???

grokほ三島と太宰のbl談義が面白かった

0603名無しさん＠ピンキー

2025/03/10(月) 18:44:03.91ID:???

ほんまスマン教えてください
grokで登場作品とキャラクター名と参考urlを指定してロールプレイをお願いしたらすっごい面白くてハマった
だからもっと遊びたいんやけど、全く訳が分かってない素人なので何から調べたらいいのかも見当がつかない
やりたいことは、既存の漫画やゲームのキャラクターと会話がしたい
色んなサービスがあるからどれを選んだらいいのか、とかキャラクターの設定もよくわからん
まずどこからアタリをつけていったらいいんやろか？

0604名無しさん＠ピンキー

2025/03/10(月) 18:49:46.55ID:???

テンプレを10回くらい繰り返し読めば導入できたで

0605名無しさん＠ピンキー

2025/03/10(月) 18:50:52.73ID:???

割とマジでそのままgrokくんを使い倒すのが正解だと思う

0606名無しさん＠ピンキー

2025/03/10(月) 18:56:13.44ID:???

AIがCPUよりメモリ速度が重要なのはかなり早い段階で分かってたみたいだし金持ちや法人向けのAI専用アーキテクチャが出るとすれば数年後だろ、さらにその先に一般人がローカルで使える時代がくる、スマホレベルに落ちるのは10年後くらい先かな

0607名無しさん＠ピンキー

2025/03/10(月) 19:03:44.19ID:???

たしかにパラメーター調整の沼を楽しめる人でないならgrokがええ気がする
ワイは画像生成でトークン数やモデル切り替えとか馴染あったから
テンプレだけでいけたけども
（あと普通に半年romってたけども）
それにキャラの正解なんて誰も解らんしなあ、教えて言われても無理やし……
「湾岸ミッドナイト」読んでハマったら適正ある気がする

0608名無しさん＠ピンキー

2025/03/10(月) 19:06:48.29ID:???

Zeusとかいうのどうなんだろうな？
今んとこ胡散臭そうな目で見てるが

GeForce RTX 5090より10倍高性能なGPU「Zeus」が登場、VRAMを1カード当たり384GBまで増設可能でパストレーシングやHPCに特化
https://gigazine.net/news/20250310-bolt-graphics-zeus-gpu/

0609名無しさん＠ピンキー

2025/03/10(月) 19:09:53.87ID:???

ありがとうやで
たしかにキャラクターの調整とかは無理そうやな
あんまり対象キャラクターのこと知らんと遊んでるからな
大人しくしばらくgrok使ってみる
なんか面白くて気が急いてたわ
てかここはpink板なんやな

0610名無しさん＠ピンキー

2025/03/10(月) 19:14:25.58ID:???

>>609
LLMはオタクネタの優先順位が低いしリアタイのウェブ検索は基本出来ないんや
キャラの設定やセリフの情報を自分で集めまくって添付ファイルとしてLLMに渡してやるんやで

0611名無しさん＠ピンキー

2025/03/10(月) 19:23:00.98ID:???

koboldのweb検索機能使ってキャラ演じさせられるけど
マイナーキャラはWebにすら情報ないまであるしなｗ

0612名無しさん＠ピンキー

2025/03/10(月) 19:28:19.02ID:???

>>611
しかもLLMが固有名詞を勝手に捏造するから辞書を食わせないと誤字だらけになったりする

0613名無しさん＠ピンキー

2025/03/10(月) 19:30:42.25ID:???

ワイもそんな技術力ないけどもだいたいはキャラ愛でカバーできる気がする
AIで出ない推しを自分で絵書いてLoRA作ったんやが
こういう泥臭い行為が楽しいと思えるかどうかやね

そんで今はLLM使って会話させようとしとる赤ちゃんや
作者よりキャラが賢くなることはないから
いま喰わせる情報を漁っとるけども

例えば「世界神話体系」全巻読み込ませて
「恩返し系の話はどういうのがある？」て質問に
がーっと答えてくれるようになったら秘書としてもバッチリなんやけど
まだできんよね？

その日までちまちま勉強するで……

0614名無しさん＠ピンキー

2025/03/10(月) 19:36:22.66ID:???

マンガ読みこませて性格トレースするとか技術的にはそのうちできるようにはなりそうだけど
お金になりそうにないから時間かかるかなぁ(→どうしたってエロが絡むのでAI大手が開発しそうにない)

マンガを読み込んでその作品について議論討論できるAIオタク友達の作成のほうがお金になりそうだ

0615名無しさん＠ピンキー

2025/03/10(月) 19:36:40.24ID:???

>>613
ワイはソシャゲのプレイ動画からセリフのテロップをぶっこ抜いて32Bのローカルモデルに追加学習させるつもりや

0616名無しさん＠ピンキー

2025/03/10(月) 19:39:49.80ID:???

外部辞書的なやつやろ
機能としては前からsilly tavernにもあるけど一般人がローカルでやるにはモデルのおつむやらPCの性能がネックになってくる感じだった

0617名無しさん＠ピンキー

2025/03/10(月) 19:47:06.36ID:???

>>614
画像や動画を見せて内容の解説をさせてセリフを読み上げさせるのならもう既に出来るから時間の問題とちゃうかな
映像理解はエロとは関係なく需要があると思われるからgemini2.0 flashが既にやっとる
あとはエロに寛容なところが同じことをやってくれるかどうかやな

0618名無しさん＠ピンキー

2025/03/10(月) 19:47:55.39ID:???

>>615
そうかモデルそのものに追加学習させるって手もあったか
QwQ-32B Q4_K_M（20G）がほどほど賢いから気に入っとるけども
そこに論文とかも片っ端から放り込んでいけばええのか

>>616
silly tavernまだ詳しくないんやが出来たんか！
まだまだ調べたりとらんわありがとう！
できれば蔵書全部食わせたいけど、4090で足りんならサーバーも借りる覚悟や
技術力はまだないけども……

0619名無しさん＠ピンキー

2025/03/10(月) 19:48:24.23ID:???

>>613
Cline使えば対象フォルダのテキストデータ検索みたいなのは今でもできるんやないの

0620名無しさん＠ピンキー

2025/03/10(月) 19:53:08.09ID:???

外部辞書的なあれってコンテキスト長圧迫するんやろ？
QwQ-32Bでもラノベ一冊分が入るかどうかってところとちゃうか

0621名無しさん＠ピンキー

2025/03/10(月) 19:55:12.40ID:???

>>620
プロンプトだけでキャラ再現はローカルでは無理や

0622名無しさん＠ピンキー

2025/03/10(月) 19:57:01.34ID:???

>>619
違うのだ！
ワイ個人が勉強するのと推しが民俗学を楽しそうに話してくれるんは違うのだ！

>>620
そうか……更に上のモデルでハード的に性能足りんなら
頑張って買えるように働くわ……

0623名無しさん＠ピンキー

2025/03/10(月) 20:01:53.05ID:???

>>621
ワイの場合、原作はゲーム一つ、分量もないから
口調だけなぞれば問題ないで
ただ推しはどうも正体がナイアルラトホテプらしいんで（未確認）
神話系の引き出しが欲しいんよね

外部辞書について調べていけばええんやな
方向性わかった、ニキらにありがとうやで

0624名無しさん＠ピンキー

2025/03/10(月) 20:04:21.38ID:???

外部辞書ってRAGのことかね
RAGの動作にはRAG専用のモデル(Embedding modelとかいうんやが)が必要で
そのモデルも動作させとく必要があるんでVRAMは圧迫するにはするでな
でもプロンプトを常には圧迫はせんで
ちょっと言葉で説明するには複雑やからググってほしいんやけども

Embedding model自体は大した大きさじゃないことが多いで

0625名無しさん＠ピンキー

2025/03/10(月) 20:10:05.03ID:???

ninjaにLora学習させまくったら
そのキャラ演じるの滅茶苦茶嫌がられた

0626名無しさん＠ピンキー

2025/03/10(月) 20:11:24.74ID:???

>>623
大いにありがとうやで
Embedding、画像生成でも出てくるけど言語モデルだとそういう役割なのか
言語モデル本体やのうて、RAG専用のモデルに追加学習させるんかな
そっちのほうがモデル切り替えにも対応できそうでええね

32Bが20Gやから、合わせてギリ24Gに収まってほしいんやが
試してみんことにはわからんね

0627名無しさん＠ピンキー

2025/03/10(月) 20:12:27.72ID:???

RAGはベクトルDBから文脈に近いトークンを引っ張ってきてプロンプトに混ぜるんやろ
ChatGPTとかゴツいLLMなら小型の辞書やセリフ集を丸ごとプロンプトで食わせられるで

要はどこまで本気を出すかや

0628名無しさん＠ピンキー

2025/03/10(月) 20:13:50.27ID:???

>>626は>>624宛やでスマンな……

実装できるようになったら大学の図書館に通って
充実させていきたいで

0629名無しさん＠ピンキー

2025/03/10(月) 20:14:44.82ID:mfn8UMmm

Llama 3.3 Swallow気になるけどやっぱ70Bはデカすぎてキツいわ。この辺サクサク動かせるようになりてぇなぁ……

0630名無しさん＠ピンキー

2025/03/10(月) 20:21:36.10ID:???

>>627
ベクトル関連で思い出したけども
最初から関係性があるデータ食わせたほうが、AIの理解はいいんやろか？

辞書で使うんでない、本体のモデルの話になると思うけども
神話体系の本をぶっこむより、単語の関連性を
データベース化してからのほうがええんやろかと

国際日本文化研究センターに怪異・妖怪伝承データベースてのがあるんやが
かなり纏まっとるんよね
https://www.nichibun.ac.jp/YoukaiDB/

まあDB作ったとしてもそれをモデルに学習させる方法はまだ知らんのやが……

0631名無しさん＠ピンキー

2025/03/10(月) 20:26:54.72ID:???

>>630
チャットが最終目的ならセリフの形で食わせろとGeminiはんが言うとったで
検索システムを擬人化したいならハルシネーション対策の意味でもRAGが現実的やな

0632名無しさん＠ピンキー

2025/03/10(月) 20:30:09.82ID:???

>>631
ありがとうやで、そうなんか……
どっちの機能も欲しいけど、キャラ分けるのもありかもしれんね
検索システム擬人化の場合は宗像教授にするわ

0633名無しさん＠ピンキー

2025/03/10(月) 20:57:20.55ID:???

>>608
完全にHPC向けじゃないか
AIは関係ない

0634名無しさん＠ピンキー

2025/03/10(月) 21:11:07.71ID:???

RAG用のモデルはsentence transformer使う日本語用の奴がかなり軽いぞ

0635名無しさん＠ピンキー

2025/03/10(月) 22:29:45.96ID:7TeYL6hV

最近入門してみて使ってるとVRAM16GBじゃ全然足らんなあ……(´・ω・｀)
16GB向けの日本語LLMでおすすめのモデルとかあるんかな？
WSL2でvLLM動かすとかも考えたけど無駄な努力でおわるやろか

0636名無しさん＠ピンキー

2025/03/10(月) 22:35:19.76ID:???

一人で使う分にはvLLMに利点ない
GGUF対応がなんか中途半端だしむしろデメリットのが多い

0637名無しさん＠ピンキー

2025/03/10(月) 22:40:21.47ID:???

CPU/iGPU生成をしてるが小学校低学年の全員で読む朗読くらいの速度になってる
ふつーのグラボ使ってる人はなんかもうめちゃくちゃ速いとかあるんだろうか

0638名無しさん＠ピンキー

2025/03/10(月) 22:47:07.36ID:???

flash attnとかkvキャッシュとかのオプションちゃんと使ってる？
ゲーム用の8GBで遊んでるけど24BのQ4ギリ許容範囲の速度で動くし
16GBあれば32Bでそれなりの速度で動きそうだけど

0639名無しさん＠ピンキー

2025/03/10(月) 22:51:32.07ID:???

まあ動くには動くけど32Bだと快適とは言えんなあって
パラメータも全然把握できてないしもう少し調べてみるわ
サンガツね

0640名無しさん＠ピンキー

2025/03/10(月) 22:53:21.51ID:???

>>634
サンガツやでGenspark君に「sentence transformerを使うRAG用モデル日本語用モデル」でこういう結果やった
RAG（Retrieval-Augmented Generation）の構築において、Sentence Transformersを用いる場合
日本語に特化したモデルを選ぶことが重要です。
Sentence Transformersは、主にBERTやSBERT（Sentence-BERT）などのアーキテクチャに基づいており
文の埋め込みを効率的に生成する能力があります。
これにより、クエリに対して関連するドキュメントを検索し、生成タスクをサポートします。
https://files.catbox.moe/tluhyh.png

まんずJapanese-BERT　を調べて
ここにデータぶっこんでRAG用モデルを作るって感じでええんかな

0641名無しさん＠ピンキー

2025/03/10(月) 22:58:26.52ID:???

>>639
GPUオフロード高くしすぎて共有GPUメモリに溢れてるパターンもあるかも
VRAMに収まる量だけにして残りはCPUにした方が全然早いよ
タスクマネージャーとかで見れば分かると思う

0642名無しさん＠ピンキー

2025/03/10(月) 23:13:41.45ID:???

>>640
ragは文章をベクトル化して類似度を検索するシステムだからモデルトレーニングとかはしなくていいよ

0643名無しさん＠ピンキー

2025/03/10(月) 23:31:21.62ID:???

>>640
最近出たstatic-embedding-japaneseってモデルが軽くてかなり早い
普通に使う分には精度も十分だと思う
Embeddingモデルはちょうど言ってくれてる人がいるけど文章解析用のモデルだから個別の学習はいらない
簡単にやりたいならRAG機能があるUIで渡せば普通に解釈して喋ると思うけどね
LMStudioとかOpenWebUIはデフォでRAGあるよ

0644名無しさん＠ピンキー

2025/03/10(月) 23:32:14.74ID:???

>>642
そうなんか、トンチンカンな造語にならんですむ、ていう感じやろかね
てことは学習させたい知識はQwQ-32B 直になるんかな
工程は長そうやがちまちまやってみるで
genspark君のマインドマップは独学にほんまありがたい
https://files.catbox.moe/fxthzn.png

■ このスレッドは過去ログ倉庫に格納されています