なんJLLM部 避難所 ★2
レス数が950を超えています。1000を超えると書き込みができなくなります。
0001名無しさん@ピンキー 転載ダメ (ワッチョイ 63c0-joKd)2024/05/02(木) 18:27:25.10ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(スクリプト攻撃継続中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所
https://mercury.bbspink.com/test/read.cgi/onatech/1702817339/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0885名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 18:19:27.85ID:???0
>>882
VRAM足りてないのか……
設定弄ったら秒間10文字ぐらいになったんだけど、乗り切ってないとどういう問題が発生するの?
グラボへの負荷が大きすぎるとか?
0886名無しさん@ピンキー (ワッチョイ c75a-Y7pC)2024/06/04(火) 18:32:20.79ID:???0
VRAMからあふれるとメインメモリに載る
(macの高いやつみたいな例外はあるけど)VRAMに比べてメインメモリは桁一つレベルで遅すぎる
そこでつっかえて遅くなる
0888名無しさん@ピンキー (ワッチョイ b68e-TEJs)2024/06/04(火) 18:35:57.34ID:???0
>>885
乗り切ってないとRAMに溢れるのでめちゃくちゃ推論が遅くなる
ただ設定変更したの見る限りではロード時に4bit量子化してるみたいだからそれならVRAM容量は問題ないと思う
GGUFって形式の量子化済みのモデルもあるからそっち使ってる人の方が多分多いんじゃないかな
0889名無しさん@ピンキー (ワッチョイ d28a-DG+E)2024/06/04(火) 18:39:19.09ID:???0
mradermacher/Berghof-NSFW-7B-GGUF のQ8を1日使ってみたけど良さそうだった。自分が好きな展開になっただけかもしれんけど

i1ってなんだ mradermacher/Berghof-NSFW-7B-i1-GGUF
量子化前 Elizezen/Berghof-NSFW-7B
0890名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/04(火) 18:54:02.42ID:???0
macまだ持ってないからよく分からんのだが、VRAMの上限上げなくても、
同じユニファイドメモリなんだがら、なにも考えずにメインメモリにロードすれば速度出るんじゃないの?
無理にVRAMに当てて、そこにロードする意味ってあるの?
0891名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/04(火) 18:59:59.20ID:???0
>>888
GGUFだとChunkllamaが使えないみたいだからなんとかしようとしてたんだけど
もしかして4bit量子化してたら使えないってことなのかな?

なんか尻タブでトークンがどうとかエラーが出てたけど
ちゃんと適用できてるかはどこで見ればいいんだろう
0892名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/04(火) 19:35:05.34ID:???0
AIは決して文章を理解してる訳じゃないから類似した内容が見つからないユニーク過ぎる設定で小説書かせようとすると
CommandR+も指示書のオウム返しみたいな内容のない文章しか生成できないのな
AIのなんか偉い人が言った”生成型検索エンジン”とは確かに良く言ったものだと思う
いつかは本物の創造力を持つ日が来るんだろうか?
0893名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/04(火) 19:42:38.21ID:???0
>>892
その設定、よければrentryにあげてもらえないだろうか?
自分もいろいろな奇抜な設定与えてモデルの評価してるんだけど、なかなかいいのが思いつかんのです
0900名無しさん@ピンキー (ワッチョイ 67c0-kPtO)2024/06/04(火) 22:30:04.61ID:???0
kobold.cppで動かしてるけど、100文字ほど出力した後、削除されて5文字くらいか出力されないのは何が悪いんでしょうか
あんまりあってなかったらlhamaへいこうかな…
0908名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 08:58:16.62ID:o9Fmpo040
>>904
学習データセットのデータにある程度近くないとまともな文章が生成されないと言う話なら、過学習と言ってもいいんじゃないか?
ちょっと単語がユニークになると、潜在空間での距離が(学習データの埋め込みが作るクラスターと比較して)思いの外離れてしまうって事だと思うんだけど
0914名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 09:12:28.92ID:o9Fmpo040
>>910
データセットの多様性が足りないのか、学習方法自体に問題があって過学習起こしてるのかは、側から見て判断つくのか?
学習曲線公開されてればある程度予想はできるのかもしれないけど
0919名無しさん@ピンキー (ワッチョイ f29f-hUe9)2024/06/05(水) 14:33:50.03ID:EeNKsAFQ0
Q&Aタイプのプロンプトで学習させると2回目以降の応答が繰り返しやすくなるって聞いた
0920名無しさん@ピンキー (ワントンキン MMa2-6ljc)2024/06/05(水) 15:39:32.85ID:???M
>>911
ちなみに同じプロンプトで繰り返さないやつって例えばどんなので試した?
俺もcohereメインでプロンプト工夫してエロ小説家として調教してるとこだけど、
まぁちょいちょい似たようなフレーズの繰り返しが起きるよね
厳密に言うと主語が同じでニュアンスが同じ文章を延々吐く
かいつまむとこんな感じ
「花子は初めての快感に震えた
花子は抵抗したが無駄だった
花子は快感を受け入れた
花子は性奴隷になった」
流石にここまで酷くないが、突き詰めるとこんな印象になる

対策として一回の指示で内容を段階分けて細かめに与えるとか、
回答の文章量を指示内容に見合う程度に少なくさせるとかしてるが、
システムプロンプトで回避できるなら面倒がなくていいのでそうしたい
0922名無しさん@ピンキー (ワッチョイ 7732-hJA7)2024/06/05(水) 15:44:45.88ID:9pGmxMss0
頻出単語があると繰り返ししやすくなるよね
繰り返しペナルティを上げればいいのかもしれないけど
0923名無しさん@ピンキー (ワントンキン MMa2-6ljc)2024/06/05(水) 15:46:43.14ID:???M
あと、これはいいとこでもあると思うけどcohereはやたらがんばって長い回答をしがちな印象がある
指示者が「花子が犯されて快楽堕ちする」みたいな雑な指示しても必死に文章量稼ごうとして上記みたいな事が起きるのかも
ただ、やったことないんだけどopusでこういう指示だすとオリジナリティのある内容とか吐くんだろうか?
0926名無しさん@ピンキー (ワッチョイ fb75-V1VE)2024/06/05(水) 16:30:33.53ID:???0
>>923
ものによる
書きやすい内容・膨らませやすい内容なら読み応えのある話を書いてくれる
でも常識的に考えて書くことが限られてると、繰り返しにはならないにしても、話が勝手に進んでしまう
例えばアイドルの快楽墜ちなんて膨らませやすいテーマなら陳腐なりにそれなりに読めるものが出てくる
ヒントを与えればなおさら
一方で挿入シーンだけで4000文字みたいな無茶な指示すると、勝手にピストンして勝手に射精されてしまう
0927名無しさん@ピンキー (ワッチョイ 43c0-ygI9)2024/06/05(水) 17:28:52.66ID:???0
>>867
動いたわサンガツ!
できればauto_split (改行で分けて生成) とsplit_interval (分けた場合に挟む無音の長さ(秒))も実装してくれると長文時のレスポンスが改善されそうでたすかる
sdp_ratio, noise周り, length, Style周りがあれは言う事なしや……
0931名無しさん@ピンキー (ワッチョイ 3f7a-DKSk)2024/06/05(水) 21:52:23.37ID:???0
つまりopusと比較してるんだろ?
なんかライトユーザーがopusと比較してローカルモデルは〜だよねって言ってるように見えるんだが
サイズ何倍違うと思ってんねん
ここはローカルモデルについて研究する場だったと思うが、オナテク板に移動してなんか変なのが大量流入してきてないか
0932名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/05(水) 22:42:19.89ID:o9Fmpo040
ローカルでサイズが小さいから性能も頭打ちだって話を終わらせたら、進化もへったくれも無いだろ
本当にopus並みになるとは思わんが、領域を絞ればある程度近づけそう、くらいの夢がないと面白みがないわ
幸いまだ性能が天井に達してるわけでもなさそうだし
プロンプトなりソフトウェア側の工夫で改善できそうな場所も残ってるなら、そこを議論するのは無駄でもなんでもないと思うが
0936名無しさん@ピンキー (スッップ Sd92-fd0q)2024/06/06(木) 06:42:46.91ID:???d
余談だけどLLM=ローカルと勘違いしてる人が他スレには結構いて、それはここがLLM部という名前でローカルを扱ってることも一役買ってるような気がしてるw
ほんとに余談だすまん
0937名無しさん@ピンキー (ワッチョイ 22a3-fd0q)2024/06/06(木) 07:14:41.69ID:???0
ローカル導入の間口が広がるにつれてライト層が増えるのは避けられない流れだと思うんよね
このスレに限らず新しい技術を扱うスレは皆そういう流れになる
まあ硬軟織り交ぜてやっていけばいいんじゃないの
0938名無しさん@ピンキー (ワッチョイ ef8b-V1VE)2024/06/06(木) 07:24:54.78ID:???0
ここの人はなんというかプライド高い人が多いよね
ローカルユーザーが偉くてオンラインモデルユーザーはライトユーザー!みたいな
でも「実用」に関してはオンラインモデルユーザーのほうが圧倒的に詳しいし、そういう人が流入してきたってことはローカルモデルも実用が見えてきたってことなので、そう邪険に扱うものではないと思うわ
0939名無しさん@ピンキー (スッップ Sd92-fd0q)2024/06/06(木) 07:48:21.50ID:???d
非ローカルを見下してるわけじゃなくて以前みたいなローカル研究の話題主体でありたいということじゃない?
とはいえ間口が広がれば人が増えるし人が増えればそういう雰囲気が薄まるのは避けられないことだと自分は思ってる
0943名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/06(木) 09:40:15.78ID:nINNjRbX0
>>940
その論法エンドレスだよね
多分自分でモデルのアーキテクチャ作ってるような人から見たらここにいる全員ライトユーザーだと思われてると思うよ
0948名無しさん@ピンキー (ササクッテロラ Spd7-VkBD)2024/06/06(木) 16:11:43.77ID:???p
ライトとかじゃなく、こっちはモデルを如何に効率よく回すかとか、ローカルではどのモデルが有用とか、量子化やマージ手法の話題とかがメインで
オナニースレはプロンプトを駆使して如何にモデルのポテンシャルを引き出すかを追求するスレで、どっちも技術的なスレでいい感じに棲み分けできてると思うなぁ
0949名無しさん@ピンキー (ワッチョイ 67c0-R3YG)2024/06/06(木) 19:15:28.60ID:RaA0K5uW0
Lora学習チャレンジしたけどあんまり上手くいかんわ
0950名無しさん@ピンキー (ワッチョイ 367a-7Hxz)2024/06/06(木) 19:59:38.78ID:???0
まぁ向こうはスレタイでおよそ察しが付くけど
こっちはLLM全般ぽいスレタイなんで、ローカルメインを押し出して棲み分けるならスレタイにローカル付けてもいいかもね
これからも人は入ってくるだろうし
0951名無しさん@ピンキー (ワッチョイ f366-ooJY)2024/06/06(木) 20:06:26.92ID:JrXMV8Jj0
オナテク板?であることもキツイけどな
0952名無しさん@ピンキー (テテンテンテン MM7e-jN4h)2024/06/06(木) 22:25:28.43ID:???M
俺もプロンプティングしかしてないライト寄りだけど
クラだけローカルで、そこからAPIサービスに繋ぐだけみたいな場合の話題は向こうだよねって思うわけ
ローカル明記は賛成だが移転前のような研究と専門用語ばかりの硬いスレにしなくてもいいと思うけど
0953名無しさん@ピンキー (ワッチョイ 4fbe-hJA7)2024/06/06(木) 22:45:50.03ID:???0
ある種の検索エンジンだから望みの出力に近い内容が掲載されているであろう学習元の小説なり参考書なりに
引っ掛かる単語や文章をいかに選び出すかがカギになってるぽい
参考書によく出てくるお約束のフレーズを入れるだけでも精度が上がるとか
まあそうするとやっぱ現行の生成AIは著作系回避ツールだよなって感じはしてくるけど
0954名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/06(木) 22:48:40.08ID:nINNjRbX0
RAGする時に何かしらreranker使ってるやつおる?
実際どれくらい質が改善するのか聞きたい
0957名無しさん@ピンキー (ワッチョイ 2209-hJA7)2024/06/07(金) 00:40:02.54ID:L+384jCL0
>>927
auto_splitはデフォで有効になってて,これはレスポンス改善への効果はないよ.
API側にstreamingのサポートがあれば短くなるが...
一応,全オプション対応しておいたので,
https://github.com/Risenafis/SillyTavern/tree/sbvits2/public/scripts/extensions/tts
からsbvits2.jsを入手してください.
0961名無しさん@ピンキー (ベーイモ MM0e-R3YG)2024/06/07(金) 12:19:47.06ID:NRs3P/M3M
Xwinには世話になったんで期待半分
0963名無しさん@ピンキー (ワッチョイ 2f32-TEJs)2024/06/07(金) 13:20:36.96ID:???0
Qwen2試した
>>527のタオルの問題は日本語で正解したが、生徒会問題は日本語でも英語でもダメだったわ
日本語性能は1.5と大差なかった
だが、小説書かせたら、ちょっとだけエロ要素に反応してたのは評価するw
0966名無しさん@ピンキー (ワッチョイ 9311-KIU9)2024/06/07(金) 17:39:58.88ID:JQdWVaPn0
Copilot+ PCのCopilotはオンラインじゃないと使えないらしい
必ずしもモデル自体がローカルで動いていない、とは限らないけど
https://x.com/shi3z/status/1798724388625506493
0969名無しさん@ピンキー (オッペケ Srd7-uOOi)2024/06/07(金) 19:29:10.98ID:???r
>>966
最悪だな
要するに推論コストをユーザーに押し付けるためだけにローカルで動かすってことだろ
クラウドなら情報抜かれるのは致し方ないが、ローカルLLMでオンライン要求は最低
0971名無しさん@ピンキー (ワッチョイ fe9b-Y3Vv)2024/06/07(金) 20:56:16.09ID:6d8a34250
二次創作ならその作品の知識が入ってるモデルが良いんだろうけど
そのモデルがどのくらい知識入ってるのかさっぱり分からん。
ググっても自分には紹介になってない紹介でわからんわ。
0974名無しさん@ピンキー (ワッチョイ 4311-b3Fy)2024/06/08(土) 00:55:43.59ID:KtP0FeP50
EasyNovelとkobold.cppのやりとりは、ソースコード見る限りrequestsでPOST投げてるだけだから、kobold.cpp側のAPIの形式さえ変わらなければ基本問題ないんじゃね
0980名無しさん@ピンキー (ワッチョイ 33be-bKLA)2024/06/08(土) 15:09:38.61ID:???0
>>962
そりゃ偏った情報しか見せられてない日本人より中国人のほうが詳しく知ってるし
天安門の映像はTiktokでは西側の検閲がかかってない当時の生映像が大量に上がってる
0981名無しさん@ピンキー (ワッチョイ 93c0-6+CE)2024/06/08(土) 15:16:39.94ID:???0
EasyNovelって一旦生成はじめたら終わりまで作る機能ってある?
リトライしないと不都合な物もあるだろうけど、1話分くらいを一晩でつなげて読んでみたい…
0982名無しさん@ピンキー (ワッチョイ 4311-b3Fy)2024/06/08(土) 21:23:02.43ID:KtP0FeP50
このモデル結構いいな
純粋に無修正化したLlama-3-70Bって感じ(日本語力も同じくらいだからエロ語彙は少ないが)
Llama-3-70はfinetuning難しいって話で実際大体ゴミモデルになってたんだけど、こいつは体感本家と変わらない感じがする
Pythonコーディング・Function Calling・RAG性能あたりも遜色ない

https://huggingface.co/failspy/Smaug-Llama-3-70B-Instruct-abliterated-v3
レス数が950を超えています。1000を超えると書き込みができなくなります。

ニューススポーツなんでも実況