なんJLLM部 避難所 ★3
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512 !extend::vvvvv:1000:512 AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★2 https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/ - VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured RTX4090-24G、今33万円くらいで今日下がり具合だと30万円切るくらい安くなるやろな 120円まで行ったら25万円くらいになるか というか今グラボの在庫持ってる店、早く在庫を手放さないと死ぬぞ 頭が悪いモデルほどけれんみのある文章出せる、 頭良くなるほど指示には従ってくれるけど文章から面白みも創造力も失われていく 両立は難しいんだな… >>789 別にそんなことないで claude3 opusは頭もええしエロ描写もぶっ飛んでる 最新のGeminiに小説書かせたら表現のレベルが違う 性能が悪いモデルの方が創造力があるなんて感じるのは 子供が描いたラクガキを見て大人が天才やと思うようなバイアスと一緒や 8月中旬でGENIACのLLM開発が一旦区切りつくっぽいからそこで色々なモデル出てきそうだね 頭が悪いモデルと呼んでてるものはいわゆる過学習を起こしてて 学習元の作品のフレーズをコピペしたりしてるから一見ケレン味が出てるように見えるんだ 悪い事は言わないから個人で楽しむ範囲に抑えとくのが吉だ L3.1ベースのモデルとかMistral Large 2とか色々試したけど、やっぱCommand R+の方がしっくりくるなぁ 俺はまだkarakuri超えたと思えるモデルに出会えない 本体の性能とは別にAI開発者が出力時にどういう制限かけるか,何で学習するかで出力結果だいぶ変わると思われる エロ完全に潰すためにエロと関係ない用語まで不適切連発するGeminiやらおそらく温度低く設定してるからつまらん内容しか話せなくなってるGPTとかいるし エロ会話だけなら膨大な埋め込み空間の極々狭いところしか使わないからそりゃ小さいモデルでもいいでしょ 新規性のある会話も不要だし同じようなところをウロウロサンプリングしてくれればいいから それじゃもう予め返答が決まってるロボットを相手にしてるのと同じじゃん まあ究極的にはAIも生身の人もそうだけど、それを感じさせないのがAIエロチャの魅力だろうに silly tavernのグループ会話でなんか打ち込んだら各キャラがずらずら返事してくるけど、これを1人だけにする設定ってあるんかな? 5人が返事してきても最初の1人が変な事言ってると後の4人まで変な話始めちゃうから1人ずつチェックしていきたいんだよね >>795 学習コストがたった750万らしいな それ聞くと割とLLMの未来明るいんちゃうかって思うわ >>801 右側のキャラリストでその場にいないキャラは会話オフにしてる >>768 が立ててくれた本スレ、多分>>20 行かなかったからだと思うけど落ちてるね あまり話題になってないけどEx-karakuri-8x12B-chat-v1はどうよ 俺はなんかイマイチ出力安定しないから最適な設定を探してる これからはllama-70b日本語ベースのgguf悪魔合体モデルを中心に話を進めてくれ 会話するくらいであればwikipediaの情報を満遍なく記憶しておかなくていいし もっと小さいモデルでも人工無能以上の反応を引き出せるはず 射精の効果音を生成させるとモデルの良し悪しがわかる もしかしてwikipediaにエロい情報を沢山登録しておくと、沢山のモデルがエロくなったりするのかな オホ声について詳しく書いておくと多くのモデルでオホ声を出すようになるかもしれないのか…… エロを後付けするのではなく、ウィキペディアに種をまいておく作戦 でも、英語版のWikipediaでやるのはハードル高くね? 日本語の擬音表現を英語版でやるのは許されるのか? 最近sillyを使い始めて、キャラカード探してきて遊んでいるんだが、基本英語だから翻訳機能を噛ませると違和感のある内容が多い。 日本語対応モデルに直接日本語で回答してもらうとだいぶマシなんだけど、良いやり方なんかあるかな? 今はキャラカードの最初の挨拶を自力で翻訳するのが良い気がしているけど、やはりちょい面倒なんよな >>816 ワイは英語のキャラ参考に自分好みの言葉遣い等を入れ込んで日本語版キャラ作ってる >>817 ありがとう。やっぱある程度の翻訳作業は避けては通れないか 以降のやり取りは日本語で〜みたいに書いてもあんま効かんしな deeplで翻訳した文章をそのままコピペするだけでもあんまり問題なかったりする ただ対話例だけはちゃんと修正した方がいいかも Mistral Large 2407が急にchatbot arenaの上位に食い込んできたな 日本語でローカルではぶっちぎりの性能 123bだから量子化してもだいぶキッツいけど選択肢が増えるのはいいことだ 翻訳自体が敬語になりやすかったりするのと、喘ぎ声なんかは適正無いに等しい。対策は難しいのではないか。api叩いて置き換えで言葉遣い整えて出力するプログラム自作するぐらいしか思い付かない。 喘ぎ声専用の言語モデルがあればいいのではないだろうか? 用途を特化させればモデルの規模を小さくすることができる 調べたらみさくら語に変換されるやつが3年前くらいにもうあって草 喘ぎ声出させるだけなら7bモデルでいけそうなので、モデル2つ動かしておいて、メインモデルで主文を出力、喘ぎモデルに文章を渡して文章に合った喘ぎ声を出力すれば理論上できるとは思う。一応2回生成するので相応の時間は掛かるだろうけど エロい表現を徹底的にWikipediaに叩き込む 喘ぎ方の全てや、仕草など command-r-plusをIQ2_Sで動かしてみたけど普通に良い感じやな・・・ 喘ぎ声とかエロ用語をちゃんと使ってもらうならまず日本語対応してるAIであること 加えてオープンソースならファインチューニングで喘ぎ声とか大量に覚えさせることで対応できると思う 感じ始めてる時、強く感じてる時,イッてる時とか喘ぎ声ごとのタグ付けも必要かもしれんな >>820 普通のやり取りはともかくロールプレイとかさせるとぶちゃけ微妙じゃない? ブルームバーグが1ドル100円まで円高行くって言ってる 早くなってくれRTX4090ほしい ついでにiPhoneも買い替える >>830 情報が古いよ、日銀が株価維持のために利上げしませんって記者会見しちゃってるじゃん 利上げしないとは言ってないぞ 金融市場が不安定なら利上げを遅らせると言った つまり金融市場が安定したら利上げされる あと、日銀が利上げしなくてもFRBは利下げするから金利差は確実に縮小していく LLMならコア性能の影響をあまり受けないから3090で十分 画像生成するなら4090だが VRAMにおさまりさえすればLLMもコアの性能に左右されるんやけどな RTX A6000と4090で1.5倍くらいはちゃうような感覚やな でも4090のVRAMに収まるLLMなんて正直ワイは使わんのやけどな あとTensorRT使い始めたら恐らくH100とかのサーバー向けのやつのが伸びしろがすごいと思う 出力受け渡して逐次的に分割処理できるなら 前から順々に読み込んで処理するような方式作ればVRAM要らずじゃね? 高速ストレージだけあれば実用的に使える奴そろそろ頼むわ。 ちょっとスレチかもしれんがsilly tavernのdisco鯖の認証ってどう書いたら正解なんだ? incinerator no cyrillic profile noって書いても不正解になってしまう Mistral 7B系列のMoE試してるんだけどどんなモデルでやってもコンテキスト8kくらいで出力おかしくなってしまう RoPEやYaRN回りの設定が関係してるのかなと推測してるけど拡張方法についてどなたかご存知でしょうか? VRAMを少しずつ使って処理をわけるのはvLLMっていうライブラリがあったような kagemusya作者様へ v1.5はv1よりかなり使いやすくなっておりました ありがとうございます v2やv1.6の予定はありますでしょうか またデータセットの構造はどのように 変化したのでしょうか vllmは秒間何十アクセスあるような業務向けのライブラリやで 1個の推論流すだけなら特に早いというわけではないけど、 複数の推論を同時に流すというときにこのスレで使われているようなライブラリとは 段違いの速度が出るはずや Rocket.Chatとllama.cppを繋げることできますか? >>845 複数のアクセスがある場合そういうの必要になりますか? Llama.cppの作者さんが、セットアップ無しですぐ使える量子化ツールを公開してた HuggingFaceにログインすれば誰でもすぐにGGUF変換ができるみたい!すご! https://huggingface.co/spaces/ggml-org/gguf-my-repo >>840 自レスだけど"sliding_window"に"max_position_embeddings"と同じ32768を設定して"rope_theta"を100000.0にしたところ拡張できた気がする gguf化したの上げてみた https://huggingface.co/Tuitou/Ninja-v3-Vecteus-v1-MoE-2x7B プロンプト指定無しのgate_mode: randomでやって悪くなさげだから微調整したらもっと良くなりそう >>846 「複数アクセス」の頻度によると思うで 例えば社員10人程度の会社で社内検索に利用しますとかだと同時に複数の推論が走ることはそんなになさそうやし あったとしてもたまに遅いくらいなら待てるしって感じやけど、100人とか1000人という規模になるとどうなんやろうとか、 チャットとして利用するなら1回のGPU使用時間は少なくなりそうやけど文章翻訳とかで利用しようとしたら 1回のGPU使用時間長くなりそうやから同時に複数の推論が走る可能性も高くなりそうやとか ケースバイケースやからこれと言えるものはないと思うんやけど、 常時同時に2推論以上回ることが想定される環境ではvLLMを検討しても良いんとちゃうかな あとvLLM以外にもTensorRTも検討しても良いと思うやで 4GBGDDRの卸価格は1枚2千円で製造コストは数百円なんだと それを3枚程度余分に組む込むだけでほんまエゲツナイ値段にしてくるよな 本来64GB程度のVRAMなんて余裕で搭載できる筈なのに 卸価格が2000円なら俺らの手元に届く間に10倍以上になってるんじゃねえの このスレや相方のスレの住民にとっては実際麻薬みたいなもんやなw 後載せできないもので価格差付けるのはよくある手法だからね スマホのストレージとか そのコストの話が本当なら新参のintelがVRAM盛らないの謎だよな 4080ぐらいの性能と48GBあれば$2000以上で売れるだろうに噂レベルですらそんな話出てこない 技術的な障壁があるんかな AMDやNvidiaはドル箱のHPC向けと競合するからコンシュマー向けのVRAMをケチるのは分かる intelがそこまで冒険せんのは分かるけどAMDはせめてVRAMではnVidiaを圧倒すべきや ただの談合だったりして 1社がVRAMを盛りまくると儲からなくなっちゃうからね まあAMDはとにかくRocmをCUDAに対抗できるレベルに育てるのが最重要やけどな… VRAMはめっちゃ高いのに、DRAMはゴミのようだ 具体的な生産量を調べたわけじゃないけどGDDRはニッチだもんな 普通のPCはDDRだしグラフィックで超高帯域が欲しければHBM2使うし インテルはCPUの処理をGPUに持っていかれるのを極端に嫌ってる気がする バス幅考えるとGPUにはまるで追いつかないんだからどっさり積んで欲しいよね 申し訳を防ぐには申し訳されるような文章に対して真面目に回答するような文章を作ってFTすればいいのかな? もしすでにあるのなら教えてほしい。無いなら作って実験する。 vectous-v1ってエロいことはいくらでもしてくれるのに 住所はプライバシー保護がどうたらってことで教えてくれないんだな まあ住所をあらかじめ設定しておけば普通に教えてくれるようになるんだけど 大葉をrocmで動かす場合に大葉の独自リポジトリにあるllama.cppのrocm用のバイナリが古すぎて自動イントールに任せると最新のrocm>=6.0だと動かない問題踏んだ ワークアラウンドとしてはllama-cpp-pythonの公式パッケージをpipで入れてrequirement_amd.txtのllama関係全部コメントアウトしてpip install -r requirement_amd.txt んでmodules/llama_cpp_python_hijack.pyの29行目をコメントアウトでいけた Radeonで動かそうとするやつなんか滅多にいないからissue上がってるけど放置されてる模様 SBVits対応させるためにSillytavernをアップデートしてからAIの会話の先頭に半角スペースが入ってどんどん増えていくようになってしまったのだけど、同じような症状の人いる? ちなみにSBVitsに読ませることはできた。上にも書いている人がいたようにSBvitsはApp.batとserver_fastapi.pyの両方を立ち上げないといけないようだね。 >>867 俺はSBV2のserver.batを立ち上げるだけで連携されるしスペースが増えるような不具合は1度も出てないぞ >>868 前に作ってあったbotでは起こらないけど、チャットデータを削除して新しく始めると再現された。 あとSBvitsにserver.batってある?server.pyかな? >>870 あるね! Vitsのほうは4/5にクローンしたきりだったから、帰ったら更新してみる ガードが堅くても頭がいいモデルだと色々言葉巧みに騙せる余地が結構あるな 変に頭がいい人のほうが詐欺に引っ掛かるって話となんかつながるものを感じる 頭悪いモデルはとにかく不同意は駄目、未成年は駄目で説得を受け付けない GPT3.5と4の移行期にも同じ議論があったな 3.5は駄目なもんは駄目だけど4は脱獄(説得)の余地があるって てかKoboldccpも新しいのが出たみたいなので全部新しくしたよ。cuda12の方を使っているけど爆速になった気がする? Layer数を適切推定してくれるようになったみたいです。 anthracite-org/magnum-v2-123b-gguf これ動いた人いる? koboldだと落ちるんだが >>875 iq3_sだけどUbuntu上のllama.cppでは動いた 日本語も表現力かなり高い印象はあるけど、まだいろいろ試せてはいない VRAMは54GBくらい使ってるな >>874 coboldCpp v1.72だと問題なかったモデルでvram不足が頻発するようになってしまった >>844 ありがとうございます。 いつかはわかりませんが、バージョンアップの予定はあります。気長に待っていてください。 v1.5は一本の小説を学習コンテキスト長ごとに分割し、学習させています。 これによって、コンテキスト長ごとのカットオフにより、序盤の文章ばかり学習するのを防いでいます。 他にもやっていることはあるのですが、それはバージョンアップ時に公開します。 3.5sonnetの能力かなり高いな、写真に写ってる小さな文字や 淫紋が体のどこに入っているかどんな模様かまで詳細に認識しててちょっと怖くなるわ AI監視カメラが広がってるしPCにも組み込まれるからもうプライバシーなんて欠片も無い時代になるんだな 監視カメラで録画し続けて全て起きたことへの解釈を残すってのは 現時点だとちょっとマシンパワー(クラウド料金)の問題でしんどいと思うが、 理論上は現時点でもできるだろうな あまり人通りがないとこで、何かが通りかかったときだけ解釈開始とかなら より現実的になるかも MSがやろうとしてたCopilotPCがそんな感じだったよね 全自動で定期的にデスクトップのスクーンショットを撮ってそれをLLMにテキスト化させて後から検索できるようにするっていう セキュリティもクソもあったもんじゃなさすぎてお蔵入りになったんだっけ? >>881 オクライリじゃなくて「まだInsiderどまり」じゃね? >>875 mistral large 2に対応してるバックエンドなら動くと思う 結構エロいしそこそこいいよ >>877 今の所自分の環境ではエラーは出ないな GPUレイヤー数は3060 12GBで、35とか、画像生成中に起動するとロードしないとか自動的に設定しているみたい >>620 Koboldをバージョンアップしたのでアップロードした画像の説明もさせてみたよ Model Filesにvecteusならmistral系だと思うのでmistral-7b-mmprojのQ4量子化を指定している 肖像画や風景画で試したけど、メガネとか、砂漠と草原の違いとか認識できたよ リポジトリの説明とか読んでると、セッションの1番初めに指定した画像くらいしか判別できず、何枚もアップロードすると混乱すると書いていたように内容が混ざる気がするのと、すぐにtoo many LLaVA tokensとエラーになり無視される ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 08.1h [pink] - 2023/09/20 Walang Kapalit ★ | uplift ★ 5ちゃんねる