なんJLLM部 避難所 ★3
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ 93c0-oLG6)2024/06/09(日) 07:37:14.82ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★2
https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/

-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0789名無しさん@ピンキー (ワッチョイ 83be-a6cz)2024/08/05(月) 21:01:25.46ID:???0
頭が悪いモデルほどけれんみのある文章出せる、
頭良くなるほど指示には従ってくれるけど文章から面白みも創造力も失われていく
両立は難しいんだな…
0791名無しさん@ピンキー (ワッチョイ ff7c-5fMY)2024/08/05(月) 21:36:36.12ID:???0
>>789
別にそんなことないで
claude3 opusは頭もええしエロ描写もぶっ飛んでる
最新のGeminiに小説書かせたら表現のレベルが違う
性能が悪いモデルの方が創造力があるなんて感じるのは
子供が描いたラクガキを見て大人が天才やと思うようなバイアスと一緒や
0792名無しさん@ピンキー (ワッチョイ 7371-Hqc2)2024/08/05(月) 22:52:20.37ID:WdbSQo1T0
8月中旬でGENIACのLLM開発が一旦区切りつくっぽいからそこで色々なモデル出てきそうだね
0793名無しさん@ピンキー (ワントンキン MM1f-uyn2)2024/08/05(月) 23:27:17.45ID:???M
頭が悪いモデルと呼んでてるものはいわゆる過学習を起こしてて
学習元の作品のフレーズをコピペしたりしてるから一見ケレン味が出てるように見えるんだ
悪い事は言わないから個人で楽しむ範囲に抑えとくのが吉だ
0794名無しさん@ピンキー (ワッチョイ d311-oRc+)2024/08/05(月) 23:44:42.08ID:UXi1kagk0
L3.1ベースのモデルとかMistral Large 2とか色々試したけど、やっぱCommand R+の方がしっくりくるなぁ
0796名無しさん@ピンキー (ワッチョイ e3e0-kh9I)2024/08/06(火) 22:44:58.26ID:dijUXKMI0
本体の性能とは別にAI開発者が出力時にどういう制限かけるか,何で学習するかで出力結果だいぶ変わると思われる
エロ完全に潰すためにエロと関係ない用語まで不適切連発するGeminiやらおそらく温度低く設定してるからつまらん内容しか話せなくなってるGPTとかいるし
0798名無しさん@ピンキー (ワッチョイ 136a-6MSl)2024/08/07(水) 04:50:48.86ID:???0
エロ会話だけなら膨大な埋め込み空間の極々狭いところしか使わないからそりゃ小さいモデルでもいいでしょ
新規性のある会話も不要だし同じようなところをウロウロサンプリングしてくれればいいから
0800名無しさん@ピンキー (ワッチョイ 7f6f-U9zy)2024/08/07(水) 09:10:21.72ID:???0
それじゃもう予め返答が決まってるロボットを相手にしてるのと同じじゃん
まあ究極的にはAIも生身の人もそうだけど、それを感じさせないのがAIエロチャの魅力だろうに
0801名無しさん@ピンキー (ワッチョイ 03b2-J1cL)2024/08/07(水) 09:32:30.28ID:???0
silly tavernのグループ会話でなんか打ち込んだら各キャラがずらずら返事してくるけど、これを1人だけにする設定ってあるんかな?
5人が返事してきても最初の1人が変な事言ってると後の4人まで変な話始めちゃうから1人ずつチェックしていきたいんだよね
0804名無しさん@ピンキー (ワッチョイ d311-oRc+)2024/08/07(水) 13:10:33.39ID:5pIkYmmo0
>>768が立ててくれた本スレ、多分>>20行かなかったからだと思うけど落ちてるね
0807名無しさん@ピンキー (ワッチョイ cfa9-3qL1)2024/08/07(水) 21:09:31.86ID:cY5a4aED0
これからはllama-70b日本語ベースのgguf悪魔合体モデルを中心に話を進めてくれ
0816名無しさん@ピンキー (ワッチョイ bf2a-1TAy)2024/08/09(金) 13:58:13.30ID:???0
最近sillyを使い始めて、キャラカード探してきて遊んでいるんだが、基本英語だから翻訳機能を噛ませると違和感のある内容が多い。
日本語対応モデルに直接日本語で回答してもらうとだいぶマシなんだけど、良いやり方なんかあるかな?
今はキャラカードの最初の挨拶を自力で翻訳するのが良い気がしているけど、やはりちょい面倒なんよな
0820名無しさん@ピンキー (ワッチョイ 7f74-WEU8)2024/08/09(金) 16:41:01.32ID:???0
Mistral Large 2407が急にchatbot arenaの上位に食い込んできたな
日本語でローカルではぶっちぎりの性能

123bだから量子化してもだいぶキッツいけど選択肢が増えるのはいいことだ
0821名無しさん@ピンキー (トンモー MMc7-vkhg)2024/08/09(金) 19:31:42.83ID:???M
翻訳自体が敬語になりやすかったりするのと、喘ぎ声なんかは適正無いに等しい。対策は難しいのではないか。api叩いて置き換えで言葉遣い整えて出力するプログラム自作するぐらいしか思い付かない。
0824名無しさん@ピンキー (トンモー MMc7-vkhg)2024/08/09(金) 19:54:00.63ID:???M
喘ぎ声出させるだけなら7bモデルでいけそうなので、モデル2つ動かしておいて、メインモデルで主文を出力、喘ぎモデルに文章を渡して文章に合った喘ぎ声を出力すれば理論上できるとは思う。一応2回生成するので相応の時間は掛かるだろうけど
0825名無しさん@ピンキー (ワッチョイ cf2d-3qL1)2024/08/09(金) 21:19:32.26ID:ObnGNhk00
エロい表現を徹底的にWikipediaに叩き込む
喘ぎ方の全てや、仕草など
0827名無しさん@ピンキー (ワッチョイ e314-kh9I)2024/08/09(金) 21:38:11.76ID:TS/RW5pn0
喘ぎ声とかエロ用語をちゃんと使ってもらうならまず日本語対応してるAIであること
加えてオープンソースならファインチューニングで喘ぎ声とか大量に覚えさせることで対応できると思う
感じ始めてる時、強く感じてる時,イッてる時とか喘ぎ声ごとのタグ付けも必要かもしれんな
0830名無しさん@ピンキー (ワッチョイ 3ede-giDl)2024/08/11(日) 03:58:04.74ID:Ue5bmtEh0
ブルームバーグが1ドル100円まで円高行くって言ってる
早くなってくれRTX4090ほしい
ついでにiPhoneも買い替える
0833名無しさん@ピンキー (ワッチョイ 7776-Jj2t)2024/08/11(日) 18:05:46.99ID:???0
利上げしないとは言ってないぞ
金融市場が不安定なら利上げを遅らせると言った
つまり金融市場が安定したら利上げされる

あと、日銀が利上げしなくてもFRBは利下げするから金利差は確実に縮小していく
0837名無しさん@ピンキー (ワッチョイ 5f74-V/Qk)2024/08/11(日) 23:18:45.91ID:???0
VRAMにおさまりさえすればLLMもコアの性能に左右されるんやけどな
RTX A6000と4090で1.5倍くらいはちゃうような感覚やな
でも4090のVRAMに収まるLLMなんて正直ワイは使わんのやけどな

あとTensorRT使い始めたら恐らくH100とかのサーバー向けのやつのが伸びしろがすごいと思う
0838名無しさん@ピンキー (ワッチョイ 7e7a-BHTg)2024/08/12(月) 12:47:01.94ID:???0
出力受け渡して逐次的に分割処理できるなら
前から順々に読み込んで処理するような方式作ればVRAM要らずじゃね?

高速ストレージだけあれば実用的に使える奴そろそろ頼むわ。
0839名無しさん@ピンキー (ワッチョイ 8a35-l564)2024/08/12(月) 15:20:24.91ID:MPZQ/+gL0
ちょっとスレチかもしれんがsilly tavernのdisco鯖の認証ってどう書いたら正解なんだ?
incinerator no cyrillic profile noって書いても不正解になってしまう
0840名無しさん@ピンキー (ワッチョイ ef3d-Hj8W)2024/08/12(月) 16:47:02.10ID:???0
Mistral 7B系列のMoE試してるんだけどどんなモデルでやってもコンテキスト8kくらいで出力おかしくなってしまう
RoPEやYaRN回りの設定が関係してるのかなと推測してるけど拡張方法についてどなたかご存知でしょうか?
0843名無しさん@ピンキー (ワッチョイ 3efa-giDl)2024/08/12(月) 22:22:36.45ID:n41SnXM50
それって動くことは動くけど激遅ってことでしょ
0844名無しさん@ピンキー (ワッチョイ 7fc8-EwOg)2024/08/12(月) 22:31:24.49ID:???0
kagemusya作者様へ

v1.5はv1よりかなり使いやすくなっておりました
ありがとうございます
v2やv1.6の予定はありますでしょうか
またデータセットの構造はどのように
変化したのでしょうか
0845名無しさん@ピンキー (ワッチョイ 5f74-V/Qk)2024/08/13(火) 09:12:10.70ID:???0
vllmは秒間何十アクセスあるような業務向けのライブラリやで
1個の推論流すだけなら特に早いというわけではないけど、
複数の推論を同時に流すというときにこのスレで使われているようなライブラリとは
段違いの速度が出るはずや
0851名無しさん@ピンキー (ワッチョイ 5f74-V/Qk)2024/08/13(火) 19:26:00.64ID:???0
>>846
「複数アクセス」の頻度によると思うで

例えば社員10人程度の会社で社内検索に利用しますとかだと同時に複数の推論が走ることはそんなになさそうやし
あったとしてもたまに遅いくらいなら待てるしって感じやけど、100人とか1000人という規模になるとどうなんやろうとか、
チャットとして利用するなら1回のGPU使用時間は少なくなりそうやけど文章翻訳とかで利用しようとしたら
1回のGPU使用時間長くなりそうやから同時に複数の推論が走る可能性も高くなりそうやとか

ケースバイケースやからこれと言えるものはないと思うんやけど、
常時同時に2推論以上回ることが想定される環境ではvLLMを検討しても良いんとちゃうかな
あとvLLM以外にもTensorRTも検討しても良いと思うやで
0852名無しさん@ピンキー (ワッチョイ bbbe-NNUV)2024/08/14(水) 15:00:25.36ID:???0
4GBGDDRの卸価格は1枚2千円で製造コストは数百円なんだと
それを3枚程度余分に組む込むだけでほんまエゲツナイ値段にしてくるよな
本来64GB程度のVRAMなんて余裕で搭載できる筈なのに
0858名無しさん@ピンキー (ワッチョイ ee49-nSnY)2024/08/14(水) 21:39:02.16ID:???0
そのコストの話が本当なら新参のintelがVRAM盛らないの謎だよな 4080ぐらいの性能と48GBあれば$2000以上で売れるだろうに噂レベルですらそんな話出てこない 技術的な障壁があるんかな
AMDやNvidiaはドル箱のHPC向けと競合するからコンシュマー向けのVRAMをケチるのは分かる
0860名無しさん@ピンキー (ワッチョイ eedc-l564)2024/08/15(木) 03:47:48.34ID:W672SyLg0
ただの談合だったりして
1社がVRAMを盛りまくると儲からなくなっちゃうからね
0863名無しさん@ピンキー (ワッチョイ efae-oC+7)2024/08/15(木) 16:03:12.76ID:???0
具体的な生産量を調べたわけじゃないけどGDDRはニッチだもんな
普通のPCはDDRだしグラフィックで超高帯域が欲しければHBM2使うし
インテルはCPUの処理をGPUに持っていかれるのを極端に嫌ってる気がする
バス幅考えるとGPUにはまるで追いつかないんだからどっさり積んで欲しいよね
0864名無しさん@ピンキー (ワッチョイ ee2d-NNUV)2024/08/16(金) 10:27:25.77ID:3L/dQ32E0
申し訳を防ぐには申し訳されるような文章に対して真面目に回答するような文章を作ってFTすればいいのかな?
もしすでにあるのなら教えてほしい。無いなら作って実験する。
0865名無しさん@ピンキー (ワッチョイ 8332-YMr0)2024/08/17(土) 06:21:26.35ID:???0
vectous-v1ってエロいことはいくらでもしてくれるのに
住所はプライバシー保護がどうたらってことで教えてくれないんだな
まあ住所をあらかじめ設定しておけば普通に教えてくれるようになるんだけど
0866名無しさん@ピンキー (ワッチョイ 23b4-TGwR)2024/08/17(土) 06:44:46.44ID:???0
大葉をrocmで動かす場合に大葉の独自リポジトリにあるllama.cppのrocm用のバイナリが古すぎて自動イントールに任せると最新のrocm>=6.0だと動かない問題踏んだ
ワークアラウンドとしてはllama-cpp-pythonの公式パッケージをpipで入れてrequirement_amd.txtのllama関係全部コメントアウトしてpip install -r requirement_amd.txt
んでmodules/llama_cpp_python_hijack.pyの29行目をコメントアウトでいけた
Radeonで動かそうとするやつなんか滅多にいないからissue上がってるけど放置されてる模様
0867名無しさん@ピンキー (オッペケ Sr47-6Mul)2024/08/18(日) 08:25:42.01ID:???r
SBVits対応させるためにSillytavernをアップデートしてからAIの会話の先頭に半角スペースが入ってどんどん増えていくようになってしまったのだけど、同じような症状の人いる?
ちなみにSBVitsに読ませることはできた。上にも書いている人がいたようにSBvitsはApp.batとserver_fastapi.pyの両方を立ち上げないといけないようだね。
0872名無しさん@ピンキー (ワッチョイ 63be-YMr0)2024/08/19(月) 14:24:42.36ID:???0
ガードが堅くても頭がいいモデルだと色々言葉巧みに騙せる余地が結構あるな
変に頭がいい人のほうが詐欺に引っ掛かるって話となんかつながるものを感じる
頭悪いモデルはとにかく不同意は駄目、未成年は駄目で説得を受け付けない
0874名無しさん@ピンキー (オッペケ Sr47-6Mul)2024/08/19(月) 22:26:44.40ID:???r
てかKoboldccpも新しいのが出たみたいなので全部新しくしたよ。cuda12の方を使っているけど爆速になった気がする?
Layer数を適切推定してくれるようになったみたいです。
0878マジカル (ワッチョイ 53f3-nE6n)2024/08/21(水) 12:47:03.46ID:6L3aYb9m0
>>844
ありがとうございます。
いつかはわかりませんが、バージョンアップの予定はあります。気長に待っていてください。

v1.5は一本の小説を学習コンテキスト長ごとに分割し、学習させています。
これによって、コンテキスト長ごとのカットオフにより、序盤の文章ばかり学習するのを防いでいます。
他にもやっていることはあるのですが、それはバージョンアップ時に公開します。
0879名無しさん@ピンキー (ワッチョイ 63be-YMr0)2024/08/21(水) 17:05:53.15ID:???0
3.5sonnetの能力かなり高いな、写真に写ってる小さな文字や
淫紋が体のどこに入っているかどんな模様かまで詳細に認識しててちょっと怖くなるわ
AI監視カメラが広がってるしPCにも組み込まれるからもうプライバシーなんて欠片も無い時代になるんだな
0880名無しさん@ピンキー (ワッチョイ cf7a-ugRd)2024/08/21(水) 17:14:58.79ID:???0
監視カメラで録画し続けて全て起きたことへの解釈を残すってのは
現時点だとちょっとマシンパワー(クラウド料金)の問題でしんどいと思うが、
理論上は現時点でもできるだろうな

あまり人通りがないとこで、何かが通りかかったときだけ解釈開始とかなら
より現実的になるかも
0881名無しさん@ピンキー (ワッチョイ 8f1c-fwoX)2024/08/21(水) 18:55:20.63ID:???0
MSがやろうとしてたCopilotPCがそんな感じだったよね
全自動で定期的にデスクトップのスクーンショットを撮ってそれをLLMにテキスト化させて後から検索できるようにするっていう
セキュリティもクソもあったもんじゃなさすぎてお蔵入りになったんだっけ?
0885名無しさん@ピンキー (オッペケ Sr47-6Mul)2024/08/22(木) 02:15:07.33ID:???r
>>877
今の所自分の環境ではエラーは出ないな
GPUレイヤー数は3060 12GBで、35とか、画像生成中に起動するとロードしないとか自動的に設定しているみたい

>>620
Koboldをバージョンアップしたのでアップロードした画像の説明もさせてみたよ
Model Filesにvecteusならmistral系だと思うのでmistral-7b-mmprojのQ4量子化を指定している
肖像画や風景画で試したけど、メガネとか、砂漠と草原の違いとか認識できたよ
リポジトリの説明とか読んでると、セッションの1番初めに指定した画像くらいしか判別できず、何枚もアップロードすると混乱すると書いていたように内容が混ざる気がするのと、すぐにtoo many LLaVA tokensとエラーになり無視される
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況