なんJLLM部 避難所 ★3
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★2
https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 405Bのggufあったとして1bitでも動かせない・・・ 繰り返しを無くす方法
■temperature高くする。
temperatureが低すぎると、モデルが非常に確率の高い次の単語を選択し続けるため、繰り返しが生じやすくなります。
■top_p(トップPサンプリング)高くする。
確率の合計がP以上になるまで単語を選択
Pの値が低いと、選択肢が制限されるため、繰り返しが発生しやすくなります。逆にPの値が高すぎると、ランダム性が増し、
文脈にそぐわない単語が選ばれやすくなるため、適切なバランスを見つけることが大切です。
一般的にはP値を0.9前後から調整を始め、状況に応じて微調整します。
■top_k(トップKサンプリング)高くする。
K個の最も確率の高い単語から選択
トップKの値を上げることで、選択肢が増えるため、より多様な単語やフレーズが選ばれる可能性が高くなります。これにより、
同じフレーズの繰り返しが減少する可能性があります。
トップKの値が小さいと、モデルは最も確率の高い単語に集中しがちですが、Kを大きくすると、より多様な単語が選ばれる可能性が増えます。
これにより、生成されるテキストの多様性が向上し、繰り返しが減少することがあります。 sillyはデフォだと繰り返しペナルティの値死んでるから、その辺り弄るとかなりマシになった。
EZO 70B量子化ありがたい、あとで試そう >>0734
もしよければUIに何を使っているのか教えていただけないですか?
text-generation-webuiじゃないですよね。 この値にしておけばオッケーみたいな値はなくて変動すんのかな その人の自作UIでgithubにあげてくれててこのスレの73にリンクがあるよ >>764
モデルとかプロンプトとか個人の好みとかによって最適な数値は変わる 英語のモデル、リーダーボードに載ってる奴とかこのスレに上がってる奴いろいろ試したけど、結局Wizard-lm-2が複雑なプロンプトに対する理解では頭一つ抜けてる気がする。
自分の使い方だといかに複雑なプロンプトを理解できるかが一番重要だから、ずっとこれ一択になっちゃう >>769
作者です
jupyterに慣れてないとインストールがむずいと何回か言われたので、その場合はgithubのdiscussionにでも書いていただければ >>770
了解です。
とりあえず調べながらやってみます。 kobold最新版でsseの問題解消されたっぽいな
まだ試してないが 頭の良さと創造力が反比例してるのが画像生成AIと同じ傾向だな
あっちも新しいモデルになる程クオリティ上がる代わりに出せる絵の幅がどんどん減っていく
人間は頭良いほど創造力が高くなるからAIはやっぱ原理的に別物なんだな AI初心者なんですがトラブってるので教えてください
OllamaでモデルNinja-v1-NSFW-GGUFを実行した場合は正常にやり取りできるんですが
OllamaでモデルNinja-v1-NSFW-128k-GGUFを実行した場合は、やり取りの途中から勝手に意味不明な文字列を垂れ流すようになってしまいます
一旦こうなるとセッションを保存せずに終了して新しいセッションを開始しても意味不明な文字列を垂れ流すようになり、モデルを一旦削除するしか修正方法がなくなります
これって、モデルを作成する際のModelFileなど設定が悪いのしょうか?
それとも128kモデルの方はチャットボットのような使用目的では向いていないのでしょうか?
ダウンロード数は圧倒的に128kの方が多いのでモデルが原因の問題だとは思えないんですけども
AI初心者すぎて、なにをどうすれば問題を修正できるのか検討もつかない状態です >>770
初歩的な質問で申し訳ないのですが、インストール後の起動方法がよくわからないのですがどうすればいいですか? >>775
コマンドラインで”jupyter lab”を実行するとJupyterっていうWebアプリが開くと思います
そしたら、chat_gui.ipynbを左側のペインから開いて下さい
そしたら、”上部メニュー -> Run -> run all cells”とクリックすると、起動するはず
途中デフォルトのモデルダウンロードのメッセージとかあると思うけど、GGUFをすでに持ってるなら、飛ばして下さい
今ちょっと調べたら出てきたJupyterの使い方
https://qiita.com/y-matsunaga/items/2c7efdae8777f15059e0 llama-3-elyza-jp-8bをLM Studioで使ったらちょっとでもエロ要素があると
"I cannot create explicit content."しか言わへんガチガチ倫理観で
どんだけ説得してもビクともせんのやが
koboldcppで使うと何故かユルユル倫理観なんや
最初はkoboldcppのChat PrePrompt機能がjailbreakになっとるんか?と思ったら
そうやなくてInstruct Tag Presetを(適切であろう)llama3 chatにしたらガチガチ倫理観になったんや
今度は逆にLM Studioの方でPresetをMistral Instractにしてみたらユルユル倫理観になった
これどういう仕組みなんや?? いやLM StudioはDefault LM Studio Presetでもユルユルやったわ
わざわざllama3 V2プリセットを選んどったからガチガチになってたんか
何にしても適切な書式の指定が検閲のオン・オフを左右してることには変わらへんけど >>772
1.72に更新したけど全然直ってないや mmnga/Llama-3.1-70B-Japanese-Instruct-2407-ggufはまったく申し訳しないよ
逆に素直過ぎて、あれこれゲスいこと指示してやらないとエロくしてくれないまであるけど EZO規制強すぎて笑う
rinnaのほうがそういう方面では使いやすいかも >>774
一応、自己解決したので同じ症状が発生した人用に書き残しておきます
Hugging FaceでLocal-Novel-LLM-projectが公開しているNinja-v1-NSFW-128k-GGUFを使用すると>>774の症状が発生していました
これを、Hugging Faceでmmngaが公開しているNinja-v1-NSFW-128k-ggufに変更したところ症状が発生しなくなりました
モデルが原因の問題のように思えましたが、もしかしたら使用したモデルと実行ツールの組み合わせなどが原因の可能性もあるかもしれません
とりあえず以上 RTX4090-24G、今33万円くらいで今日下がり具合だと30万円切るくらい安くなるやろな
120円まで行ったら25万円くらいになるか というか今グラボの在庫持ってる店、早く在庫を手放さないと死ぬぞ 頭が悪いモデルほどけれんみのある文章出せる、
頭良くなるほど指示には従ってくれるけど文章から面白みも創造力も失われていく
両立は難しいんだな… >>789
別にそんなことないで
claude3 opusは頭もええしエロ描写もぶっ飛んでる
最新のGeminiに小説書かせたら表現のレベルが違う
性能が悪いモデルの方が創造力があるなんて感じるのは
子供が描いたラクガキを見て大人が天才やと思うようなバイアスと一緒や 8月中旬でGENIACのLLM開発が一旦区切りつくっぽいからそこで色々なモデル出てきそうだね 頭が悪いモデルと呼んでてるものはいわゆる過学習を起こしてて
学習元の作品のフレーズをコピペしたりしてるから一見ケレン味が出てるように見えるんだ
悪い事は言わないから個人で楽しむ範囲に抑えとくのが吉だ L3.1ベースのモデルとかMistral Large 2とか色々試したけど、やっぱCommand R+の方がしっくりくるなぁ 俺はまだkarakuri超えたと思えるモデルに出会えない 本体の性能とは別にAI開発者が出力時にどういう制限かけるか,何で学習するかで出力結果だいぶ変わると思われる
エロ完全に潰すためにエロと関係ない用語まで不適切連発するGeminiやらおそらく温度低く設定してるからつまらん内容しか話せなくなってるGPTとかいるし エロ会話だけなら膨大な埋め込み空間の極々狭いところしか使わないからそりゃ小さいモデルでもいいでしょ
新規性のある会話も不要だし同じようなところをウロウロサンプリングしてくれればいいから それじゃもう予め返答が決まってるロボットを相手にしてるのと同じじゃん
まあ究極的にはAIも生身の人もそうだけど、それを感じさせないのがAIエロチャの魅力だろうに silly tavernのグループ会話でなんか打ち込んだら各キャラがずらずら返事してくるけど、これを1人だけにする設定ってあるんかな?
5人が返事してきても最初の1人が変な事言ってると後の4人まで変な話始めちゃうから1人ずつチェックしていきたいんだよね >>795
学習コストがたった750万らしいな
それ聞くと割とLLMの未来明るいんちゃうかって思うわ >>801
右側のキャラリストでその場にいないキャラは会話オフにしてる >>768が立ててくれた本スレ、多分>>20行かなかったからだと思うけど落ちてるね あまり話題になってないけどEx-karakuri-8x12B-chat-v1はどうよ
俺はなんかイマイチ出力安定しないから最適な設定を探してる これからはllama-70b日本語ベースのgguf悪魔合体モデルを中心に話を進めてくれ 会話するくらいであればwikipediaの情報を満遍なく記憶しておかなくていいし
もっと小さいモデルでも人工無能以上の反応を引き出せるはず 射精の効果音を生成させるとモデルの良し悪しがわかる もしかしてwikipediaにエロい情報を沢山登録しておくと、沢山のモデルがエロくなったりするのかな オホ声について詳しく書いておくと多くのモデルでオホ声を出すようになるかもしれないのか…… エロを後付けするのではなく、ウィキペディアに種をまいておく作戦 でも、英語版のWikipediaでやるのはハードル高くね?
日本語の擬音表現を英語版でやるのは許されるのか? 最近sillyを使い始めて、キャラカード探してきて遊んでいるんだが、基本英語だから翻訳機能を噛ませると違和感のある内容が多い。
日本語対応モデルに直接日本語で回答してもらうとだいぶマシなんだけど、良いやり方なんかあるかな?
今はキャラカードの最初の挨拶を自力で翻訳するのが良い気がしているけど、やはりちょい面倒なんよな >>816
ワイは英語のキャラ参考に自分好みの言葉遣い等を入れ込んで日本語版キャラ作ってる >>817
ありがとう。やっぱある程度の翻訳作業は避けては通れないか
以降のやり取りは日本語で〜みたいに書いてもあんま効かんしな deeplで翻訳した文章をそのままコピペするだけでもあんまり問題なかったりする
ただ対話例だけはちゃんと修正した方がいいかも Mistral Large 2407が急にchatbot arenaの上位に食い込んできたな
日本語でローカルではぶっちぎりの性能
123bだから量子化してもだいぶキッツいけど選択肢が増えるのはいいことだ 翻訳自体が敬語になりやすかったりするのと、喘ぎ声なんかは適正無いに等しい。対策は難しいのではないか。api叩いて置き換えで言葉遣い整えて出力するプログラム自作するぐらいしか思い付かない。 喘ぎ声専用の言語モデルがあればいいのではないだろうか?
用途を特化させればモデルの規模を小さくすることができる 調べたらみさくら語に変換されるやつが3年前くらいにもうあって草 喘ぎ声出させるだけなら7bモデルでいけそうなので、モデル2つ動かしておいて、メインモデルで主文を出力、喘ぎモデルに文章を渡して文章に合った喘ぎ声を出力すれば理論上できるとは思う。一応2回生成するので相応の時間は掛かるだろうけど エロい表現を徹底的にWikipediaに叩き込む
喘ぎ方の全てや、仕草など command-r-plusをIQ2_Sで動かしてみたけど普通に良い感じやな・・・ 喘ぎ声とかエロ用語をちゃんと使ってもらうならまず日本語対応してるAIであること
加えてオープンソースならファインチューニングで喘ぎ声とか大量に覚えさせることで対応できると思う
感じ始めてる時、強く感じてる時,イッてる時とか喘ぎ声ごとのタグ付けも必要かもしれんな >>820
普通のやり取りはともかくロールプレイとかさせるとぶちゃけ微妙じゃない? ブルームバーグが1ドル100円まで円高行くって言ってる
早くなってくれRTX4090ほしい
ついでにiPhoneも買い替える >>830
情報が古いよ、日銀が株価維持のために利上げしませんって記者会見しちゃってるじゃん 利上げしないとは言ってないぞ
金融市場が不安定なら利上げを遅らせると言った
つまり金融市場が安定したら利上げされる
あと、日銀が利上げしなくてもFRBは利下げするから金利差は確実に縮小していく LLMならコア性能の影響をあまり受けないから3090で十分
画像生成するなら4090だが VRAMにおさまりさえすればLLMもコアの性能に左右されるんやけどな
RTX A6000と4090で1.5倍くらいはちゃうような感覚やな
でも4090のVRAMに収まるLLMなんて正直ワイは使わんのやけどな
あとTensorRT使い始めたら恐らくH100とかのサーバー向けのやつのが伸びしろがすごいと思う 出力受け渡して逐次的に分割処理できるなら
前から順々に読み込んで処理するような方式作ればVRAM要らずじゃね?
高速ストレージだけあれば実用的に使える奴そろそろ頼むわ。 ちょっとスレチかもしれんがsilly tavernのdisco鯖の認証ってどう書いたら正解なんだ?
incinerator no cyrillic profile noって書いても不正解になってしまう Mistral 7B系列のMoE試してるんだけどどんなモデルでやってもコンテキスト8kくらいで出力おかしくなってしまう
RoPEやYaRN回りの設定が関係してるのかなと推測してるけど拡張方法についてどなたかご存知でしょうか? VRAMを少しずつ使って処理をわけるのはvLLMっていうライブラリがあったような kagemusya作者様へ
v1.5はv1よりかなり使いやすくなっておりました
ありがとうございます
v2やv1.6の予定はありますでしょうか
またデータセットの構造はどのように
変化したのでしょうか vllmは秒間何十アクセスあるような業務向けのライブラリやで
1個の推論流すだけなら特に早いというわけではないけど、
複数の推論を同時に流すというときにこのスレで使われているようなライブラリとは
段違いの速度が出るはずや Rocket.Chatとllama.cppを繋げることできますか?
>>845複数のアクセスがある場合そういうの必要になりますか? Llama.cppの作者さんが、セットアップ無しですぐ使える量子化ツールを公開してた
HuggingFaceにログインすれば誰でもすぐにGGUF変換ができるみたい!すご!
https://huggingface.co/spaces/ggml-org/gguf-my-repo >>840
自レスだけど"sliding_window"に"max_position_embeddings"と同じ32768を設定して"rope_theta"を100000.0にしたところ拡張できた気がする
gguf化したの上げてみた
https://huggingface.co/Tuitou/Ninja-v3-Vecteus-v1-MoE-2x7B
プロンプト指定無しのgate_mode: randomでやって悪くなさげだから微調整したらもっと良くなりそう >>846
「複数アクセス」の頻度によると思うで
例えば社員10人程度の会社で社内検索に利用しますとかだと同時に複数の推論が走ることはそんなになさそうやし
あったとしてもたまに遅いくらいなら待てるしって感じやけど、100人とか1000人という規模になるとどうなんやろうとか、
チャットとして利用するなら1回のGPU使用時間は少なくなりそうやけど文章翻訳とかで利用しようとしたら
1回のGPU使用時間長くなりそうやから同時に複数の推論が走る可能性も高くなりそうやとか
ケースバイケースやからこれと言えるものはないと思うんやけど、
常時同時に2推論以上回ることが想定される環境ではvLLMを検討しても良いんとちゃうかな
あとvLLM以外にもTensorRTも検討しても良いと思うやで 4GBGDDRの卸価格は1枚2千円で製造コストは数百円なんだと
それを3枚程度余分に組む込むだけでほんまエゲツナイ値段にしてくるよな
本来64GB程度のVRAMなんて余裕で搭載できる筈なのに 卸価格が2000円なら俺らの手元に届く間に10倍以上になってるんじゃねえの このスレや相方のスレの住民にとっては実際麻薬みたいなもんやなw 後載せできないもので価格差付けるのはよくある手法だからね
スマホのストレージとか ■ このスレッドは過去ログ倉庫に格納されています