なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ と思ったらGPUじゃなくて小型スパコンとかいう意味わからんデバイスのことか
こりゃ革ジャンががんばってくれたら数年もしないうちに個人用AIサーバーみたいなのを
家電買うぐらいのハードルで建てられるようになりそうだわ Project DIGITSってLPDDR5Xらしいしそんなに帯域大きくないんじゃないのか Project DIGITSほしいよおおおお
でもビグテックが買い占めて庶民には回ってこないんだろな… mediatekと組んで作ってるということはスマホベースなのかな
macと同じようなものを作りますということ? >>206
これは学生含む小規模開発者向けだからビッグテックが買い漁るジャンルのものじゃないよ
学校で一括導入したりはあるだろうけど >>207
単純にARMのCPUの設計をしてもらうために組んだのでは もういっさいゲームとかしなくてLLMか画像と動画生成をローカルで遊ぶくらいしか用途が無いんだけど買うならRTXよりdigitsの方が良いかな
OSもlinuxベースなら画像生成も学習も問題なく出来るよな? ARM系だからセットアップが面倒(一部ライブラリを自前でコンパイルする必要があるとか)だけど
普及すればその問題も消えるだろうしVRAMが必要な推論用途なら大本命のデバイスやね >>212
ARM系とかlinuxも全く分からんけどGPTあたりに聞けばなんとかなりそうだな挑戦してみよう RTX50はFP4対応したけどRTX40以下とのGPU混載だとFP4の高速化の恩恵受けないのかな FP4対応ってTensorCoreやろ?
ワイは一度試しに動かしたことある程度なんやが個人で利用してる人おるんやろか
正直geforceではtensorcore削って安くしてほしいんやが Chat with RTXみたいにTenser Coreに最適化済みのモデルを動かすと速いよ、50xxだとfp4も使えてさらに速いよって話なのかな
fp4使えなくても最適化済みモデルの数が増えるとか最適化手法が一般化することで恩恵あるかもね 最適化と言うかtensorrtはそのモデルを使う環境でモデル変換をする必要があるからめんどくさくてどうしても普及しない
nvidiaのはどうやってるか知らないけど、多分力技で全パターンの変換済みモデルを自前で用意してるんじゃないかと
多分一つのモデルに対して数十パターンは用意しないといけない
下手したら100以上かも 5000シリーズも出そろったし、チャット系だと実は mac mini M4 24G 位の方がリーズナブルだったりするんだろうか。 digitsの出力速度はどうなんだろう
メモリがDDR5なのが気になるところ vidiはvram増やさないで済む戦略で進めるようだし
メモリほしいならmac一択やな ワイはまだRyzen AI MAXへの希望を捨てへんで…… >>220
500gb/sじゃねえか、ってredditに出てた これで同価格帯でmac ultra 512Gが出てきたら萌える macはどう考えてもお高いだろ
m2ultraの値段から考えるとm4は128GBで200万ぐらいするんじゃないの digitsはCUDAのサポートが保証されてるのが一番でかい
ハード的にはラズパイくらいの難易度だが機種選定に手間をかけたくない研究機関は脳死でまとめ買いするだろうな
革ジャンにとっては慈善事業の類だろうがTCOで見たらコスパ高いよ そういえば、デスクトップマスコットx localLLMって無いもんなのかな
LLMの記憶力問題をマスコットプログラムで管理して、ゲームブック的なシナリオ. txtにプレイヤーとして挑んでほしい
で、仕事して家に帰ったら今日の冒険がテキストにまとまっててほしい >>228
Steamでdigitalmateっての見つけて買った
合成音声もつかえる Digital mate x LocalLLM、やばいですね
大手が一律でNSFWを禁止している理由がハッキリ分かる >>231
どんな感じなの?
俺のチンポが興味津々なんだけど できることそのものは選択したキャラクターとLocalLLMでチャット出来るというだけだよ
パッケージとして完成していて、手軽に使える、手軽にカスタム出来る、調べ物なしでいきなり果実に手が届くというタイプの危険さ
沼に転げ落ちる予感というか...$3000か... できることそのものは選択したキャラクターとLocalLLMでチャット出来るというだけだよ
パッケージとして完成していて、手軽に使える、手軽にカスタム出来る、調べ物なしでいきなり果実に手が届くというタイプの危険さ
沼に転げ落ちる予感というか...$3000か... MMDモデル使えるんだっけ?
音声はさすがにSBV2は無理かな?
あとはVR化出来たらもうピースが揃っちゃうんだけどな 伺かが人工知能だったらって妄想が現実になったみたいな感じか
すげーなかがくのちから ollamaいれてcreateしたらいけるのかな
chat用をいれなかったからかすごいユーザー発言自己主張しまくって読み上げてきて笑った ソフト側でollama apiを選択して、lightchatassistant経由で起動してたkoboldcppのポート番号をいれるだけでとりあえず動いたよ
ボイスの自然さ、表現力、声質カスタムが揃えばそれだけで無限に客が呼べるのでは
短時間の音声サンプルから声質をコピーしたものを作れてしまいますよ、というのは証明されていますし
ASMRも担当できますよ、とかね >>235
voxtaならVaM基板だからVR行けるしNSFWも多分行けるんじゃね voxtaってVaM動かさないといけないんでしょ?
確か会話でTimelineとかを操作してセックスモーションとかを起動できたはずだけど
あれCPUの性能要求がえげつないんだよな 本当だ
ollamaいれんでもkoboldcpp起動してポートうごかしたらいけたわ 16GBグラボ環境で日本語ローカルLLMをNSFW小説目的で遊んでたのだが
ふとRocinante-12bを英語で使ってみたら大分性能に差があることに気が付いてしまった
他に英語向けのNSFW可能なモデルでおすすめのあったら教えてほしいわ >>242
有名なのはLumimaidじゃないか
Mistral系はなんでもいけると思うけどな digitalmateはollama apiを使う感じなのかな?バンドルで売ってるchatwifeは不要? いろんなサービス試してみたけどオープンLLM動かすならfeatherless.ai使うのがコスパ良さそうだ Digital Mate、色々触ってみたけどLLMチャットにキャラクター概念を挿入するためのソフトって感じだな
高度なことを追求するよりは理想のキャラデータを量産できる体勢を作ったほうが面白くなりそう
良い絵を一枚持ってきてL2Dで少し動かして口調サンプルからセリフを4oに作ってもらうとか
>244
chatwifeは別の会社が作ってる同系統のソフトというだけっぽい DigitalMateそのものは、俺はこれは別にいいやってなったけど、
今後何かちょっとした開発をこちら側でしたいってなった時に大事になってくるのはこの方向性だなとも思った
LLMの文章を画像出力させる!みたいなことしたい時も、
文章読ませて画像プロンプトそのものを出力させるより、「タグ」のプリセットを予め用意して適したのを選ばせた方が精度が高い
指向性を定める箱をちゃんと用意するのが大事なんやろなって感じ digitsのせいでm4ultraとstrixhaloへのモチベがダダ下がりしている
macの制限受けるUltra
おそらくAI以外のパフォは大した事ないdigits
いまいちAIへのやる気感じられないAMDのstrixhaloでそれぞれ欠点はあるんだけども digitsも感覚麻痺してるから3000ドルで安い!ってなるけどA401年ノンストップで借りる額と同じなんよな
使わないときは止めれば4、5年は使えるしそのぐらいたてばもっと安くて性能いいものが出てると考えると何とも サブスクは値上げの可能性が付きまとうから単純比較はまた悩ましい koboldのアドベンチャーモードってtokenを大量消費する仕様があったりするの?
設定したコンテキストサイズの半分ぐらいで文章がおかしくなるんだけど
>>234
ほえー
ちょっと面白そうだね
MMDとかよく分からんけど digitsは高価だろうけど、ドッキングできるのもあって中古の需要は高いだろうし、売却すればそれなりの金額になるんじゃないかな(希望的観測)
……ってそうなってくるとdigitsのレンタルもできるようになってくるのかな?そういやsaladだったか、個人でGPUリソースの貸し借りするサービスあったような…… digitsは開発者向けと言ってるから一般販売用の第二世代がすでに準備されてる可能性あるような
70bが動かせて10万円ですとか 何にせよ販売経路も一般とは異なりそうだし5月に使用感のレビュー見るしかないな
帯域がどうだろうなあ もしかしてこのスレってクラウドサービスでオンデマンドスケベLLMしてるエンジニアの鑑がいるのか? >>251
多分ユーザー側で入れる情報と別にアドベンチャーモード用のプリセットプロンプトも読んでるからそこでトークン消費してる >>256
チャット派のワイはこれで200Bが動かせるとしてもやっぱ応答速度が気になるんや
3000ドルやっす!とは思うけど冷静に考えると5090に9800x3D合わせても2500ドル以下で買えるしなあ…
小説派は全速力で飛び付け!とは思うで >>258
ははあ、そういうことかいな
アドベンチャーモードは面白いけど半分も占有されるのは辛いもんやな 推論速度は気になるところなんよな
公開されてるのはfp4が1pflopってことだけやねんけど、
そこからいろいろワイ独自に推測に推測を重ねて
最速で4070くらい、再遅で4070の半分くらい(3060くらい?)かなって気がしとる
4070の半分くらいやったとしても70bをおそらく5token/sくらいで動かせるので
結局ほしいんやが redditで画像に写ったメモリチップの比率から32bitチップでstrixhaloと大差ないって考察してる人はいたね
イメージ画像だろうし500は出るだろ派やappleみたいに128bitチップ専用に作ってもらって1T出るんじゃないか派もいたけど >>260
ワイはGeminiが無料でコンテキスト大量だからそっちでアドベンチャーモードと同じ遊び方してる
NSFWも露骨なのは止まるけど、システムプロンプトにコンプライアンス最低でとか過激な表現は避けて婉曲的に描写することとか書くとエロいこと自体はしてくれるし >>257
クラウドにインスタンス建ててLLM置いてオレオレLLMサービスにAPI接続ってことか?
A40(48GB)でも$0.39/hrとかすっから24時間借りっぱなしとかになると月額数万とかになるだろ
どこにもホストしてないドマイナーモデル/俺だけのファインチューニングAIを使いたいんだあってケース以外割にあわん クラウドでGPU使うならnovita.aiが安いかな
RTX4090が安く使える paperspaceって手もあるぞ
A100は期待できないがA6000ならまぁ混雑時間以外は大体使える
ただ、gradioない奴(SillyTavernとか)使おうとすると自力でgradioでラップするかバレたら垢停止の方法使うしかないけど・・・ チャットは何token/sあれば実用的なんだろうな 人間相手のチャットで長文派だと平気で10分とか20分とか待たされることもあったな 尻タブでも設定したcontext長が16384なのに6000ぐらいで
文章にアルファベットや記号が混ざっておかしくなる
もしかしてこれは繰り返しペナルティとか温度とかの設定の問題か?
まあ設定を弄っても全然改善しないんだが
はあーん、マジで分からん
context長を長くしても全く生かせてない >>270
ファインチューニングモデル使っててベースモデルなら問題ない場合はファインチューニングでロングコンテキスト性能が劣化しちゃってるからどうしようもない >>271
前スレのwabisabi-v1なんだけどそういうことなのかな?
バージョンアップで8kから128kにコンテキスト長が伸びたことを謳っていたから大丈夫そうなんだけど
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/754 >>272
ファインチューニングで使ったデータ以上の長さの文を送られるとAIが困惑して意味不明なこと言い始めちゃうんよ
モデル的に128kまで行けるから前の文章も覚えてはいるんだけどね 10token/sか
追い付かなくなってくる速度だな
リアルタイムで音声チャット出来るようになるにはこれでも足らないんだろうな >>272
そういえばwabisabi俺も16Kで意味不明な文章に破綻してたわ 日本語のerpデータセットってhfに上がってないんかな
官能小説データは自力で集めて今手元に数GBくらいあるんやけど >>276
日本語のerpはaratako氏のデータセットしかないと思う >>273>>275
16kまで行ける人がいるならモデルが原因ではないのか?
俺は8k以下でおかしくなるし
RTXのAI性能が上がるpytorchのパッチが来るらしい
https://x.com/_kaiinui/status/1877548551707689165
pytorchってどこで使ってるんだっけ? digitalmateこれツンツンした時のreactionとかにもLLM使ってくれたらいいのにな
あと一定時間話しかけないと向こうから話してくれたり
結局自分からアクション起こさないと駄目だから億劫になっちゃう
伺かみたいだったら常駐する意味もあるんだけどな >>278
すまん、64→32→16と上から試して破綻してたからもうええかってなったんで8Kは試してない >>280
どれぐらいのコンテキスト長で破綻してたの?
俺は最大16k設定にしたのに6kぐらいで破綻した >>264
runpodってやつか
しかし60円/時で済むのか
ちゃんとスケジュールでterminateしていれば意外と趣味の範囲か…? ポッキーゲームやツイスターゲームが学習されていないモデルって結構あるのな
説明してもなかなかルールを理解してくれない >279
開発自体は活発だしコミュニティも付いてるからパッと思いつく機能は時間経過で全部付くんじゃないかな
複数キャラを起動して勝手に会話させるとか
テキストを渡すと内容について評価感想を出してくれるとか
伺かにChatGPT3. 5のAPIを導入しているプロジェクトもあるみたいだから、Koboldcppをopenai 互換で起動しておいてHostsか何かでopenaiへのアクセスをリダイレクトすればLocalLLM伺かを爆誕させることも出来るかも >>279
その機能って超単純な仕組みで追加出来るだろうからリクエスト出せば受け入れられそうやな
一定時間入力されない場合に入力されるプロンプトや特定箇所をクリックした時に入力されるプロンプトを数種類用意しとくだけで済むし Android アプリのコトモ、ChatGPTのボイスモードよりそれっぽい合成音声とガードの脅威的緩さがすごいな
ダメじゃない!?ってなる
これぐらいの合成音声がどこででも使えるようになると色々捗るんだけど Style-Bert-Vits2ですか
VITS-APIアクセス経由でDigital Mateと接続できたりするやつ...? sbv2にもapiはあるけど書き方違うはずだから使えないと思う sbv2入れてみたけど抑揚がおかしくて使ってないわ
あれいいのか?
それとも俺の設定がおかしいのか sbv2はモデルで発音に滅茶苦茶差があるからそれだと思われ
10月あたりにkotomoと比べたけど自分はそこまで差があるようには感じなかったわ そうなのか
もう1回チャレンジしてみよう
LLMで作った小説の朗読に使えそうなの探してるとこなんよな Japanese‐TextGen‐Kage‐v0.1.2‐2x78‐NSFW‐gguf
Mistral_Nemo_NSFW_E3V1_Q8_0‐GGUF
Ninja‐v1‐NSFW‐128k‐i1‐GGUF
最近入れて悪くないなってなったLLM >>293
おーありがとう参考になる
こんな感じでテンプレの>>15も最近の情報にどんどん入れ替えて欲しいな
最初のテンプレ書いたの自分だけどさすがに古いわ… 120BクラスのQ8をそれなりの速度で動かせる環境が手に入って、Lumimaid-v0.2-123Bとmagnum-v4-123bを試して見たところ、普段使っているcalm3-22b-RP-v2と比べてそんなに優れているように感じませんでした
もし120Bクラスを常用している方がいたら感想やお薦めのモデルを教えていただけないでしょうか?
使途は日本語ERPです 合成音声、パッと調べた感じだとStyle-Bert-VITS2からいろいろクリーンにしたAivisSpeechに移行中って感じなのかな おっと送っておる
いろいろ作っている最中です感あるから後から触るので良さそう >>297
普段はLumimaid-v0.2-12Bを使っててたまにLumimaid-v0.2-123Bを触るけど123Bの方が少ないプロンプトで理解してくれる(察してくれる)のは感じるかな
他のモデルは自分は触ってないけどLumimaidやmagnumの123Bをマージしたlumikabra-123B_v0.4とか良いかも
あとはMistral系のモデルはtemperatureを0.3程度にするのが推奨されていることが多いからそのへん弄ってみるとか >>297
プロンプトや用途によるのかな?
俺が使ってる小説強化プロンプトで試してみたけど、magnum-v4-123bはプロンプト通り小説が強化されてるのに対して、calm3-22b-RP-v2は強化されてないように感じる。
calm3-22b-RP-v2はよく似た文章の繰り返しが多いのガ気になったかな。
magnum-v4-123bだとガチャ要素が少なくて、ほぼ一発て通るからこれオンリーで使ってるよ。
あと察してくれるのはまさにその通り。
小説強化プロンプト
https://rentry.org/nz5nodmx
システムプロンプトなどに張り付けて、指示文を書くだけ >>302
横だがいいねこれ
koboldとかで使うにはwsにシナリオ入れとく感じ? ■ このスレッドは過去ログ倉庫に格納されています