なんJLLM部 避難所 ★8 	
■ このスレッドは過去ログ倉庫に格納されています
 !extend:checked:vvvvv:1000:512 
 !extend:checked:vvvvv:1000:512 
  
 AIに色々なことをしゃべってもらうんやで 
 そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 
 自薦・他薦のモデルやツールは>>2以降 
  
 本スレ(避難中) 
 なんJLLM部 ★7 
 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 
 前スレ(実質本スレ) 
 なんJLLM部 避難所 ★7   
 https://mercury.bbspink.com/test/read.cgi/onatech/1742709485/ 
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured  練習ならエロゲから抽出で良いじゃね 
 ガチでやるなら声優雇うしかないけど  ボイス以外のノイズを消してくれる有料ツールかwebサービスとかを利用する  喘ぎ声素材集とかDLsiteで売ってるけどそれじゃあかんのか? 
 ゲーム用だからちゃんとモノラル音源やで  素材を集めることができても次に待ち受けるのは地獄の文字起こし作業なんだよね 
 喘ぎ声やエロ時特有の呂律が回ってない感じの言い方は自動認識してくれないから全部手動で文字にしなきゃならん 
 喘ぎ声を何度も聞き返して文字にしていくのは気が狂うで  データセットだけは人力だよなやっぱ 
 将来楽になるものなのだろうか  エロゲなら書き起こしも一緒にあるしそれでよくね 
 てか商業エロゲで音源悪いなんてことあるか?  そうそう、だから素材にはエロゲが最適 
 しかも頭と尻尾の無音部分カットまでしてくれてるし完璧な状態  皆さんありがとうございます 
 エロゲーがベストっぽいですね(?) 
  
 >>502 
 書き起こしってデータとしてセリフテキストが格納されてるってことでしょうか?  >>504 
 ツール使ってエロゲのデータからテキストと音声をぶっこ抜く感じだね 
 大抵は発話者の名前もセットになってるからそれでキャラも絞り込める 
 ちな🤗に9000時間分のキャラ分け済みなエロゲ音声とそのテキストがセットになった便利な奴もある。これは自己責任で  >>505 
 探してみましたが全然見つからなかったんですがヒントもらえますか?  SillyTavernでgemini 2.5 proをAPIで使うとこんな表示しか出ないんですが原因分かりますか?AIに聞いてもよく分からない解決法ばかり提案されて… 
  
 https://i.imgur.com/BKFK0Zs.jpeg  >>509 
 デフォだと出力長が短く(4096だっけ?)設定されてるからreasoningに全部持ってかれてるとか?  >>510 
 コンテキスト長を30000まで伸ばしてみたんですが変わらなかったです…  >>511 
 コンテキスト長じゃなくて応答長(Response Length)の方ね  >>512 
 ありがとうございます 色々弄って最終的に左メニューのRequest model reasoningをオフ、Resoning Effort Minimumにしたらいけました  >>513 
 reasoning減らすんじゃなくて普通に応答長くした方がよくない?Geminiって料金激安なんだし  東北イタコとお喋りしたいんだけどキャラ再現って難しいな 
 ひとまずGPTやGrokに検索させてお手軽に再現させようとしたけど全然だわ  copilotで画像生成するとき、キャラ作って、そのキャラのポーズ変えたり指示しながら描画させていくけど 
 LLMと連携して同じやり方でローカルでできないかな? 
 SDだけでやると、キャラやポーズが変わって微調整しにくい  暑いですね、皆さん、パソコンの熱排気はどうしていますか? 
 自作の排気ダクトを作った方がいいかと思っています。 
 すでにやられてる方いたら、どんな感じにしたのか教えてほしいです。 
  
 PC用のファンでいいのか、本格的に換気扇を利用した方がいいのか、ACとDCで違いはあるかなど  ウチはoculink接続でグラボむき出し 
 室温30℃くらいで負荷かけた時のグラボは70℃くらい  気温が高すぎるから、冷房で室内温度を低く保つ、以外は有効な選択肢とは言い難いような  空冷にしろ水冷にしろヒートシンク・ラジエータ周辺の気温次第なので 
 そこに冷やすか熱が溜まらないようにするしかないのよ 
  
 冷やすのが目的ならエアコン直結の吸気ダクトでも作ればいい  みなさん外出中でもPCのためにエアコン入れてますか?  一般人はケースの普通のエアフローのままかサイドパネル開けて扇風機当てるで十分だと思うがね 
 人間よりは高温には強いので、人が生きられる室温ならエアコンもまあ最悪無しでも…  工夫をするとしたら...DCサーキュレーターの上位クラスを導入する、とかかな 
  
 サーキュレータって40〜50畳クラスでも1万〜1.5万で、DCでファンブレードが大きいちゃんとしたものを選んで低出力運転すれば静音・大風量が確保できる 
  
 40畳クラスは通常出力でも部屋干しをあっという間に乾かせるだけの能力があるし、冷房暖房と併用するのも効果的なので使い回しが効くのでオススメ  PCファンのようなDCサーキュレーターを探してみます。  Baidu ERNIE4.5の21B・28BのGGUFが出ない  >>516 
 日本語プロンプト対応のローカル画像編集AIはまだないと思う 
 VLMを使ったローカル画像編集AIはStep1X-Edit、BAGEL、FLUX.1 Kontext、OmniGen2とか 
 色々出てるけど、どれも要求スペックが高い  HiDreamは日本語のプロンプト使えるけど理解度低め 
 要求スペックは高い  ERNIE4.5、28Bの次が300Bなのかーい 
 424Bなら47BのMoEなのかな。それでも専門家数人くらいしかメモリーにのらないかw  >>527 
 サンキュー順番に調べてみる 
 日本語入力でなくて英語入力でいいから、copilotみたいに構図やキャラを変えずに 
 要求通り描いてくれたらいいので  Comfy UIだとプロンプトの直後に翻訳モジュール入れてたり出来なくはないけど 
 翻訳の精度は今ひとつかも知れん  あの翻訳ノードはGoogle翻訳呼び出してるっぽいね 
 多分オフラインでは使えない  VRAMが16GBしかないけど123Bのモデルとかで遊びたい場合はGPUで推論させてメモリに溢れさせるより 
 CPUだけで推論した方が良いんかな 
 VRAMに載るモデルだと叡智小説の振り幅に限界感じてきた  FLUX.1 Kontextがvram12Gでもいい感じに使えたわ 
 ただ、規制強すぎてエロ方面は無理w 
 通常のFLUX.1 は無臭バージョンあるから、kontextも無臭化できれば最強やね 
  
 >>533 
 メモリ64Gじゃ低量子化しか使えんからせめてQ5K_M使える96G積んでmagnum123bシバきまわしたいわw  >>533 
 そんなデカイので検証はしてないけど、乗るぶんだけでもvramに載せたほうが速いとは思う 
 でも大半が溢れるならほぼ誤差の速度かな  なるほどありがとう 
 RTX6000はさすがに買えないしAI maxが速くなったら買ってみようかな  AIは「賢いフリ」をしていた──ハーバード大などが暴いたLLMの決定的弱点「ポチョムキン理解」とは? | XenoSpectrum https://share.google/663aiIAHjtMPz8Hnu 
  
 これ日頃実感してるやつや 
 概念は理解してるのに実践出来ないの、エロのジャンルでたくさんあるよね  バックでエチエチしてるって自分で言ってるのに正面からおっぱい揉み始めるアレか?  そんなこと一度使えばわかる話のような 
 この論文の主旨は計測ベンチマークを設計したよって話じゃないの 
  
 ベンチマークでスコアが算出できればあっという間に出来るようになるわけだから、遠くない未来に解決されますと言ってるようなもんでは  このベンチマークに合格できるAIを開発できるか?という問いにはYesだが、それをもって「ポチョムキン理解」問題は解決かというとNoじゃね  例えばペニバン装着しておっさんを掘らせると速攻で女にちんちんが生えておっさんにおまんまんが生成されちゃうのは 
 コンテキスト長の問題で男女の設定が消え去るからなのか、 
 ペニバンについての知識が学習されてないからなのか、 
 そもそも男女の概念すら実は実践出来ないのか、どれだよって話になるからなあ 
 ポチョムキン理解が原因とすると改善は難航するんじゃないの 
 今までと全く異なるアプローチが必要になりそうどし  まぁAIよりよっぽど頭が悪いようなタイプの人間ですら間違えないようなことを頭がよく見えるAIが 
 何の疑問も抱かずにさらっと間違ってるとことか見せられるとそれはちょっと思うよな 
 各AIのコスパとか分析させてる時に自信満々に「私、ChatGPTのPro版は月々1780円からです!」とか言うんじゃねえ 
 怖いわ  そういえば昨日Gensparkを何人か課金した人を見たけど、Opus使えてる? 
 公式説明でも紹介記事でもいまいち各社AIは書いててもバージョンをボカしてるというか曖昧にしてる気配がするんで 
 いろいろなAIでDeepSearchさせてたんだが、海外の一部界隈では、Opus使えますってのはもしかしたら「営業的デマ」で、実際には3.7sonnetが使われてるかもって話が出てるそうな 
 言いたかないがGensparkは大本が中華系開発者なんでユーザーのプライバシー情報含めその手の問題は噂されてるぽい 
  
 以下GENSPARK Plusで利用可能なAIモデルの調査結果まとめ(勿論この情報自体の精査も必要だが) 
  
 確認済み:GPT-4.1、OpenAI o3(またはo3-pro)、Claude 3.7 Sonnet、Gemini 2.5 Flash、DeepSeek R1。 
  
 不明確:Claude 4 Opus(存在しない可能性高く、Claude 3.7 Sonnetの誤記か)、o4-mini-high(詳細不明)、その他モデル(Qwen VL Plusなど)は公式情報不足。 
  
  
 情報の曖昧さ:GENSPARKの公式サイトやアプリストアではモデルバージョンの詳細が不足し、X投稿に誇張や誤情報(例:Claude 4 Opus)が含まれる。信頼性確保のため、genspark.aiで最新情報を確認することを推奨。  >>544 
 パット見た感じ、二手目以降の方向性を決められるわけじゃないからどの程度実用性があるのかはわからないけど面白そうね 
 必要なコンテキスト長も短そうだし試しに学習してみようかな 
  
 それはそれとしてマルチターンで会話しながら小説生成って実際どうなん? 後半に行くたびにゴミが積み重なっていくわけで完成させるの大変そうだけど  少なくともgrokやchatGPTはどこもopus使えると言っているし 
 情報の更新がない間に使えないとかsonnetしか無いと解釈しただけじゃないの 
 当然だが最新情報はすぐに反映されない 
  
 最近The Lustful Turk(1828年)みたけど 
 結構文体からキャラクター造形や倫理観から 
 AIの想定するポルノ小説にかなり近いと感じたなー 
 これ自体が土台じゃなく「源流」として多くの作品が痴を継承したって 
 ことだろうけど、写真ありきの説明文の淡白さを 
 ベースで構成されてるってのはわりと厄介ね  ローカルをやってる人間としては如何にLLMがデタラメな回答を返すかって事を学んでるからな 
 企業の高性能モデルであってもその延長でしか無いから絶対とは言い切れん 
  
 deepsearchの情報ソースであるWeb検索の質が著しく落ちているなんて普段からググってたら気付くやろ 
 ネットで検索してきました!ソースはYahoo知恵袋ですみたいな回答を真に受けるんか  ネットだけじゃなくて書籍も学習してるんじゃなかったっけ  Grokのdeepsearchの検索過程を見ていると検索ワードが酷すぎるんだよな  複数名が登場するエチチ小説にチャレンジしてるんですが、複数名の会話の辻褄を合わせるのってどうやればいいでしょうか?  Googleアシスタントに 
 今の天気は? 
 今日なんにち? 
 今何時? 
 とかで使ってたんだが 
 geminiに取って変わられてから 
 ウソ教えてくるようになってそのクソさを思い知らされたよ  >>555 
 データセット見た感じコンテキスト長を4096~8192で済みそうだから4bit QLoRA + 最適化(liger karnel or FA2 +unsloth gradient checkpointingとか)を使えば24B~27BくらいまでならVRAM24GBに収まると思う  >>557 
 数ヶ月前のGeminiはそんなんだったけど今は改善されてないか?  >>533 
 演算GPUのみでVRAMからあふれてメインメモリも使ってるって状況と、 
 初めからGPU + CPUでVRAMとメインメモリも初めからアプリによって振り分けられてる場合とで 
 速度差は天と地ほどあるから気を付けてね 
  
 メインメモリに"あふれてしまってる"って状況はPCIバスが足を引っ張るので 
 CPU + メインメモリだけで演算するよりも遅い  >>548 
 2ターン目のユーザー指示もLLMで合成すればもっと良いデータになるんだろうけどコストの問題で省いてるのかな  wannabeやAIのべりすとみたいに小説本文とユーザ入力の関連情報を組み合わせてプロンプトを随時自動生成させる方法なら常に1ターンになるしそっちの方が合理的かもね 
 専用UIとか用意しないといけないし汎用性はないけど  >>499 
 今更だがその辺はlitaginニキが作ったanime-whisperが解決してくれるで  どっちにしろRTX50XXにしたらSBV2の学習出来なくなって詰んでるや  Silly Tavernで会話しながらエチチ小説を書いてるんですが、こっちの会話に反応して徐々にエチチチ化していくのヤバイですね… 
 これ書き上げるまでにタンク、カラカラになりそうです…  ふぅ。。。 
 冷静になって気づいたんですが、ST+KoboldでMS3.2-24B-Magnum-Diamond-Q5_K_S.gguf使ったんですが、 
  
 おっぱいもっと触って気持ちいいよ!! 
 おっぱい気持ちいい、イっちゃう!! 
  
 おまんこもっと触って気持ちいいよ!! 
 おまんこ気持ちいい、イっちゃう!! 
  
 のように部位を変えても同じテンプレフレーズに当てはめただけ、みたいに単調になりがちです 
 もうちょっと表現力を増したいんですが、24Bモデルだとこの辺が限界でしょうか?  程度によるけど、大企業さまの1000Bとか2000B相当と言われるようなのでも定型文は出ちゃうからどうでしょう  >>552 
 最近だとこんなネタがあったね 
  
 ゲームにも存在しないジンオウガ希少種、どこにいるのかと思ったら広島と岡山にいるらしい 
 https://togetter.com/li/2571750#h21_0  SillyTavernでチャットしてそれにSBV2で声当てて音声認識なんかも使ってると楽しいんだけどやっぱ音声はまだぎこちないな  >>567 
 いつも繰り返しペナルティと繰り返しペナルティ範囲いじって、何とか頑張ってるけど、日本語変になったりするんだよね 
 それに、長くなるとどうしても限界があるっぽい 
 誰かもっといい対策知らない?  Mistral系はrepeat penaltyよりも温度上げると多少マシになる 
 もちろん日本語は壊れやすくなる  Qwen3 の 14b 使ってみたんだけど同サイズのLLMと比べて頭1つ抜けて頭よくてびびる 
 tool と think 対応っていうのがめちゃくちゃデカい 
 Open WebUI が Native Tool Calling に対応したから自動でツール使用の判断してくれるし 
 think のおかげでできないことはできないってちゃんと判断して伝えてくれる 
 唯一ダメなところは文字数指定の出力だけど、これは他のモデルでも同じだからしょうがない 
 あとは vision 機能だけあればかなりいい感じなんだけど 
 Gemma3 は vision 対応してるけど think 未対応だから Qwen3 と知性の面で大きな差を付けられちゃってる感じ 
 Gemma が tool + think + vision 対応になってくれればまた状況が変わるかもしれないけど 
  
 それと Open WebUI が以前よりかなり進化してて驚いた 
 RAG とか画像生成とか Web 検索とか簡単に連携できてほぼ ChatGPT やん 
 ここのスレ的にはあんまり人気ないみたいだけど  >>574 
 基本的には機密性の高い文書とかデータ使ってローカルでやらせるときに使う ローカルでやる必要ないなら ChatGPT とか Gemini にやらせるから 
 コードプレビューとかコード生成、社内用に使ってるマニュアルのPDF読み込ませてRAGで誰でも簡単に利用できるようにしたりそれ使って文書作成したり 
 コードインタプリタも対応してるからちょっとテストでコード実行したいときとか 
 時間節約のために調べたいことを要約させたいときに Web 検索を使うこともある でそれをそのまま文書化して顧客に渡す 
 画像生成はおまけ程度かな でも使うことはある  >>573 
 n8nで使うのもおすすめや 
 OpenWebUIをあたかもOpenAIのAPIっぽく使うようにして現在流行りのAIエージェントとやらを量産できる 
 個人で使う分にはDockerでn8nをホスティングするだけで充分やしな 
 ワイはそれでRedditの英語ニキたちの投稿をなんJスレ風に翻訳させて情報収集させるワークフローとか作っとる  >>576 
 はぇー n8n って有料やと思い込んどったけど非商用なら無料で利用できたんやね 
 AI の API 料金が高いからさらに金かかるのはちょっと…て思って避けてたけど、まさか Open WebUI と連携できるとは試してみる価値ありやね 
 有用な情報サンガツ  ローカルでOpenWebUIとn8nをDockerで動かそうとしたらn8n分のポートが開けないうんたらかんたらって言われた…やっぱレンタルサーバー借りないと出来ないか…  ChatGPTなりに相談すれば解決してくれるのでは  dockerのポートは詰まりがち 
 ホストとdockerで分けて起動してたりするとややこしい  どっちかのポート番号ずらせばいいだけだから簡単よ 
 composeファイルのホスト側のポート番号適当なものに変えればいいよ  mradermacher/karakuri-vl-32b-instruct-2507-GGUF 
  
 VL最近使ってなかったんでkarakuriだしちょっと試してみたけど、すごい進化してるな 
 ドラえもんの1シーンの説明させたら、作品名、キャラ名正確に把握してた  LM Studioは職場でも使えるようになったんだね 
 https://lmstudio.ai/blog/free-for-work 
  
 商用利用とはまた別なのかもしれないけど、とりあえずは他の人にもおすすめしやすくはなったかも 
 普通のソフトっぽく使えるし  なんかLM Studio入れたらstable diffusion webui a111が動かなくなっちゃった 
 webuiは仮想環境で動かしてたはずなんだけど、numpyがありません的な 
 venv消してもダメだしまいったな  Pythonのパッケージ管理の仕組みはホンマにアカンなぁ  >>567 
 STの設定で動的温度にすれば定型文化はだいぶ防げるはず  GPT先生にパラメータの意味とおすすめ設定を教えて貰った 
 それでやると確かに応答の再生成しまくってもバリエーションが増えてる感じがする ■ このスレッドは過去ログ倉庫に格納されています