なんJLLM部 避難所 ★4 	
■ このスレッドは過去ログ倉庫に格納されています
 AIに色々なことをしゃべってもらうんやで 
 そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 
 自薦・他薦のモデルやツールは>>2以降 
  
 本スレ(避難中) 
 なんJLLM部 ★7 
 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 
 前スレ(実質本スレ) 
 なんJLLM部 避難所 ★3 
 https://mercury.bbspink.com/test/read.cgi/onatech/1717886234  ええと思うけど 
 あっちはあっちで即死回避とか必要なんやっけ  どんぐりの意味がわからなくて、向こうで書けないんだよな 
 ローカルAIに聞いてもブナ科の実です、しか答えてくれないし  数ヶ月前なら調子良かったけどな 
 今の5chは規制やりすぎて普通の会話もしんどいからな 
 保守できるなら本家としてあっちに立てて誘導貼っとくならええのかなってくらい  なんU復帰ええと思うけど戻ったところで人が集まるかといえばどうなんやろな 
 ずっと人気なNVAと比べてLLMの場末感よ  ローカルLLMの要求スペック高すぎなのがあかんのや… 
 手を出しやすい7Bはもう新しく語ることもほぼないだろうし  ここで言うことでもないが、チャットサービスで脱獄するリスクとコスト、ローカルで動かすコストを比較したうえで結果物のクオリティを比べるとな…… 
 ローカル生かしてLoraとか作ってもっと好みに調教できたら良いのかもしれんがそれこそ一般家庭離れしたスペックが必要やろうし  申し訳回避なんぞリスクもコストも何もないからな 
 サービス側ももはや諦めてて大手すら放置状態やし  でもまあ避難してた理由がなくなったんやからなんJに帰るんは賛成やな 
 どんぐりのレベルが10を超えないとURLが貼れないって問題はあるけど、LLMの話題やとあんまり問題にならんやろうし、やっぱ人と話題が少ないんは寂しいわ  LLMさわるならローカル以外邪道でGPUはRTX4090刺さなきゃ……エッチなチャットしなきゃ……っていうのは錯覚じゃん? 
 ここ最近ひたすらDify触ってるんだけどノーコード版のLangchainみたいなやつでエージェント(というかAituber)作る楽しみを見出したりしてる  クラウドの話もべつにいいんじゃね 
 Anthropicの無料で使えるのHaikuになりがちになってきたからOpenrouter使い始めたけどなんかClaude3.5sonetにもシステムプロンプト設定できたんだけど 
 ノリで「一人称:あーし 絵文字多用」的なの設定したら流暢に正規表現やReactコンポーネント書くギャルが爆誕して気に入ったわ  ボイス付きでキャラになりきりながら雑談もタスクも付き合ってくれるようなエージェント、みたいなのはもっと流行らないかな 
 節約とセキュリティのためにDifyでローカルとクラウドのLLMを使い分けつつ色々やろうとしてるけどフローの効率化が難しい  『出力する行ごとの内容は全く同一にしないこと。』っていう指示を追加したらあんまり繰り返しループに陥らなくなった気がする 
 カッコ文の内容もある程度バラけるようになってより小説っぽくなる、ような気がする(当社比)  来年頭には次世代GPUが出まくるからローカルでの話題も増えるだろうし、それまでのんびり話題繋げりゃいいんじゃないの。 
 結構参考になる内容も書き込みあるし。  まあcceは学習時に使うものだから我々に直接的な関係はないんだけどな  entropixってやつで小さいモデルでもよくなるんだろ?  >>698 
 ワイはaituber-kit触ってるけど作者がOpen Interpreter使ってコード実行環境もたせてタスク実行機能持たせたりしてたな 
 あんま実用性ないらしいけど 
 ロマンは感じる  このスレ知的レベル高すぎん? 
 何いってるのかさっぱりわからんぞ  >>703 
 知識面ではパラ数が物を言うから根本的な解決にはならないんだよな 
 あと最適な学習量じゃないと逆効果だし(qwenなんかは過学習だからスコア落ちる) 
 >>705 
 半年ローカル触ってればわかるようになるよ 
 さあこっちに来るんだ  用語も多いからちんぷんかんぷんになるのもしゃーないで 
 「温度が高いと問題が出る」なんて一般用語っぽい話も、Temperatureって専門用語を知らなければ室温とかGPU温度くらいにしか思い至らんやろうし……  今でも更新されてる初心者向けwiki知ってる方いたら教えていただきたい 
 探したけど大抵去年か今年半ばで止まってるので  LLMに関してはないんだよなぁたぶん 
 としあきとかも触ってないんかな  https://local-llm.memo.wiki 
 ローカル用だけど、こことかたまに見に行くけどもちょくちょく更新されてる。 
 初心者向けかどうかとか、求めてるものかどうかとかは分からん 
  
 個人的にはローカルで、キャラとのエチャとかをどうやったらいいのかとか 
 その辺具体的に書いてあるサイトとか探してるんだけどどっかにないっすかねぇ…?  割とマジでここの過去スレ漁るのが1番有益やと思うで  正直ヤッて覚えるのが一番早い気がする 
 あと、ChatGPTにコンソールログとかUIの設定画面とか見せながら聞くとそれぞれどういう意味なのか教えてくれるよ  AIにAIのこと聞くんですね笑 
 がんばって英語読みながらやってみます  koboldの新機能のマルチプレイヤーモードって何ができるようになるんだ?  リリースに書いてある通り、俺とお前で同じAIチャットに参加できるってことじゃないのか 
 みんなでTRPGとかが出来るんだろう 
 https://github.com/LostRuins/koboldcpp/releases  みんなで寄ってたかってAIにセクハラできる機能なのか。  > Bugfix for Grammar not being reset, Bugfix for Qwen2.5 missing some UTF-8 characters when streaming. 
 こっちの方が嬉しいかも。 
 試した限り、「Token Streaming」が「SSE」のままでも 
 例えば「しずかちゃん」が「しかちゃん」になる問題が直ってた。  easynovelassistantについての質問です。 
 用意されてる以外のモデルを使いたい場合、ユーザー側で気軽に追加できる方法などはあるのでしょうか。 
  
 同梱されていたkobboldの方でモデルを読み込むとeasy〜の方でもどうやら使えているようなので、今はこのやり方でやっているのですが、このやり方だとモデルの真価が出せているのか不安です。  >>720 
 読み込むモデルが違うだけだから性能が出ないとかはないよ 
 レイヤー数いじらないと遅くなるとかはあるけど  7Bにしてはそこそこマシみたいな日本語対応モデルはチラホラ出て来てるけど 
 14-32Bくらいの一段上のモデルが停滞してると感じるな  半年ぐらい新しいモデルを見かけない気がする 
 探してるところが狭すぎるのかもしれないけど  >>720 
 EasyNovelAssistant\setup\resにあるdefault_llm.jsonを書き換えろ定期 
 でもこれ弄るとアップデートする時にエラーになるらしいから今困ってないならそのままのやり方でもいいんじゃね  Hermes-3-Llama-3.1-70BのUncensoredでそこそこの日本語エロは楽しめたけど、一回の生成に時間かかりすぎてテンポ悪すぎるんよなぁ  VRAM足りなくて7Bまでしかまともに使えないんだけど最近何か新しいの出てる? 
 ここ半年ぐらい同じモデルを使い回してるわ  >>725 
 バッチファイルと同じフォルダにあるllm.jsonをdefault_llm.jsonと同じフォーマットで書き換えれば 
 メニューに反映されるしアップデートもうまくいくみたいだよ  >>724 
 最近だとmagnumシリーズが日本語性能良かったぞ  ありがとうございます、知識が増えました。 
 実力は足りないので無難なやり方でやっていこうと思います  >>729 
 やっぱ70Bクラスじゃないとそこそこの性能は無理なのか… 
 いい加減まともなVRAM積んだグラボどっかが出してくれよ  intelあたりの負け組がやってくれれば良かったのにARC Bこのまま消え去りそう  VRAM96GBらしいStrixHaloことRyzen AI Maxが希望だけど、どのくらいの値段でどういう商品として出てくるのか素人にはさっぱりわからん 
 普及する価格帯なら嬉しいんだけどな  10年前のXeonよりも今のi5のほうが高性能なんだよな  そもそもVRAMじゃないし何もかも間違ってるぞ 
 強いAPUに128GBメモリ版が出てその内96GBをVRAMとして振り分けられるってだけ 
 速度は所詮DDR5だから遅い 
 値段は最上位ノート扱いだろうから30万〜じゃね?  >>737 
 Strix Halo APUは256ビットのLPDDR5Xメモリコントローラーを備え、273 GB/sの帯域がある 
 通常のDDR5の5倍、M4 Maxの0.5倍くらいの帯域じゃない?  Haloが成功すればMaxだのUltraだのが出る流れかもしれない  Intel ARC B580 VRAM12GBメモリ帯域456GB/sで249ドル 
 まあまあ安いな  M4 Max 並みの帯域幅か。 
  
 53万するM4 MaxのMacbookPro だと 
 ユニファイドメモリ36GBから28GBほどGPU割当てできる。 
  
 ARCx2個分24GBだとするとGPUだけで500ドル?高くない?  あ、桁が違った。日本円で高くても販売価格10万くらいか。 
 安いな。  NemoMix-Unleashed-12B 
 エロ小説ならこれがお気に入り  次スレ立てる時はその辺のおすすめモデルを入れて>>7を更新したほうがいいな  >>744 
 12歳になり切って百合エロチャしようと思ったらかたくなに拒んでくるんだが 
 初期設定しくったんやろか  >>746 
 そのモデルは使ったことないが 
 最初に性格設定指定しとけば色々できる  あんまり詳しくなくて興味本位で聞くんだけど 
 RTX4090買うよりRadeon7900xtx2,3枚買った方が速度は遅いけど色々できたりする? 
 てかこれやるくらいならmacでメモリ盛った方が捗る?  >>746 
 普通に12歳百合エロチャ出来るぞ 
 キャラの設定をミスってるかキャラの性格に合わない攻め方をしてるんだろう 
 性格次第では突然のエロ行為は拒絶するけど、徐々に盛り上げていけばエッチなことをしてくれる場合があるぞ 
 もちろん性格エロエロにしておけば突然のド変態プレイでも簡単に応じてくれる  >>748 
 それができればみんなVRAM価格問題に切り込めるんだけど 
 CUDAコアってのを紐解けばRadeonはねーわになっちゃうのよ  >>747,749 
 サンガツ 
 もうちょい初期設定攻めてみるわ 
 GPTの設定プロンプトだけだとちょっと厳しかった  7Bや12Bでもいいモデルが出て来たぞって言われるたびに比較してNinjaの優秀さを再確認されせられる日々 
 あそこって新しいモデル公開しないのかな?  https://huggingface.co/Local-Novel-LLM-project/WabiSabi-V1 
 新たなモデル、WabiSabi-V1を公開いたしました。 
 128k コンテキスト長に対応しています。 
 ぜひお試し下さい。  >>751 
 マジでその辺の経営判断ミスったよな 
 CPU屋さんだから自社のGPUがそれを代替するなんてけしからんってやってる間にNVIDIAに独占を許した  >>753 
 >>754 
 言ってたら新モデル公開されるっていう嘘みたいなタイミングだなw 
 7Bモデルをたくさん出してくれてるけどこれは何向けというかどういう狙いで作られたモデルなんだろう?  音声文字入力で会話したくてマイク買ったけど 
 方言交じりの口語は音声認識しにくいしAIにも通じにくいしで全然ダメダメだったわ 
 独り言を言いながらキーボード打ってる方がより会話してる感じがする始末  パープレsonnet隠語お断りされ始めたわ 
 再脱獄もなかなか通らない  ローカルLLM面白いすね、エロはもう何でもってのはわかりました。 
 他に本家じゃ規制されてるけど聞いたら面白い答えしてくれる質問ないですか?  検閲モデルで規制されてるのなんてエロ関連を除くと犯罪行為に繋がるしょうもない事柄ぐらいやろ  お前ら本当にエッチなことできるのか? 
 俺は告白すら振られ続けてるというのにお前らは  お馬鹿なモデルが規制かかってる場合はお馬鹿故に聞く耳持たずでダメなもんはダメの一点張りだからそのモデルは諦めたほうがいいよ 
 賢いモデルは融通が利くのでどうとでもなる  未だに尻タブの使い方がよく分からないんだけどさ 
 >>754のwabisabiを使うとしたらどんなコンテキストテンプレートにすればいいんだ? 
 koboldだとテンプレにvicunaが用意されていたり、チャットモードでもしっかり機能するんだけど 
 尻タブだと<|asistant|>みたいな表示が出てくるんだよな  wabisabi使ったことないからわからないけど、普通にtext-generation-web-uiとかバックエンド側で読み込んだ時にコンソールログに出るでしょ 
 それ見て合わせれば良いんじゃない?(magnumとかlumimeidはllamaだったかmistralで、Lumimaid-Magnumがなんでかtekkenだっけ・・・?) 
 わからなければコンソールログをChatGPTに見せて聞けば最適じゃないにしろ教えてくれるはず  例えば、俺が今読み込んだ「anthracite-core_magnum-v4-123b-Q3_K_L」のログには、「tokenizer.chat_template」ってところで以下URLのテンプレートが指定されてる 
 (SillyTavernでSystemとかuserで分割されているやつ全載せだからめっちゃ長いぞ。長すぎて直に書き込めんかった) 
 これに合ったテンプレがあればそれを選べばいいし、なければ自分で作ってしまえば良い 
 (ってか、確か「Available chat formats from metadata: chat_template.<指定テンプレート名>」って感じの情報が出ていて、それを読めば良いはずだったんだが、今読んだやつにそれがなかった・・・) 
  
 https://rentry.org/tokenizer_magnum4  >>219-220 
 gptにログと尻タブの参考URLとか見せたけどいまいち判然としないや 
 回答内のコンテキストテンプレートも明らかにおかしい形式だし 
  
 バックエンド側のログでそれっぽのはこれかな? 
  
 The reported GGUF Arch is: llama 
 Arch Category: 0 
  
  
 これはllamaで良いってこと?  NVのハイエンドGPUとかと、MacのLLMの処理トークン数載ってるけど、Macで十分だなこりゃ。 
 GPU複数枚でのLLM処理がMacM2 Ultraと大して変わらない。 
 https://gigazine.net/news/20241209-nvidia-gpu-apple-silicon-inference/ 
  
 FLUXとか画像処理に使うならGPUの方がいいけど、LLMだったらMac一択か。 
 金持ってる人はM3 Ultra待ちかね。 
 1枚で150万するA100複数枚と、処理トークン数並びそうw  M3 UltraはTSMCが N3Bでどえらい苦労してUltraがほとんどとれないようだ 
 あまりにとれなくてTSMCが取れた分だけお金くれればいいよ、とAppleに通達したくらい 
 M4はN3Eで作られててN3Bよりちょっと幅広なんだけど 
 CPUの設計のほうで盛り返して(Arm8 > Arm9)歩留は劇的に改善したらしいのでM4 Ultraはありうる(希望 
 N2がすでに歩留60%とかホームランがでたようで、AppleM5がすごそうだ(再来年か、その先)  mac持ってる人ほど遅すぎて使い物にならんからLLM目的で買うなって言ってなかったっけ  遅くない? 
 そりゃVRAM溢れてメインメモリ使ってる状態よりは余程良いけど  遅いけど4090を8枚とかよりは圧倒的に安いからね  LLM目的で買うな、というのはメインメモリが32GByte程度ならメモリ不足で動かないだけ 
 ミスリードというほどではないけど、悪意あるよなw 
 128GByteのモリモリマシンなら、そこそこ動く 
  >>772 の表の通りの速度ね 
  
 あと長いプロンプトを食わせるとmacは遅くなる、とかいう嘘つきもいる 
 現状公開されているLLMの仕組み上、一度全部の単語の重み計算しないとダメだからそう見える 
 4090だって長いプロンプトは遅くなるけど、そもそもメモリー不足で動かないモデルが多いから 
 7Bとかちいさいのばっかり使ってるから速く見えるだけ 
 macのmlx版なんか目で追えないほど(3.2B 200-300 token/s )速いぞ 
 ttps://lmstudio.ai/blog/lmstudio-v0.3.4 
  
 長いプロンプトでも全部解析しないですむ方法がわかってきたから、その辺は改善するかも 
 これはmacに限らずAIの電力削減で劇的な効果があるから研究者が頑張ってる  どの程度のトークン毎秒を実用と考えるかだなあ 
 英語だと5トークンでもギリギリ使えん事ないけど効率悪い日本語だとウンチだし  NvidiaGPUに比べてMacのPrompt Evalは実際だいぶ遅いので 
 コスパとかを無視して十分なVRAMがある環境で比較するならMacを買うなという話にはなるけどね… 
 この辺は技術的な部分で解決するかもしれんしM4Ultraで劇的に伸びるかもしれん  持ってない人間はやたらmac褒めるよねほんと 
 なぜ企業がH100の争奪戦してたりnVidiaの株価が天井知らずでなのかを考えれば 
 そんなうまい話は無いって分かるだろうに  言うてH100でLLM動かすなんて個人には無理やし  LLMと画像生成の混同 
 処理能ではなく帯域で詰まってる現状をあまり理解されてない 
 ちゃんと上位製品選ばないとGPUと張り合えるほどの帯域はない 
 マカーが◯◯ならMac!(俺は使ったことないけど)とか吠えがち 
 この辺が混ざって悲劇が起きる  >>783 
  
 >>772でちゃんとLLMと画像処理について別で書いてるけど。 
 MacがLLMだったらA100複数枚に追いつくレベルになりそうだからコスパ最高だろ。 
 どっかおかしいか?  企業がH100使うんは新モデル作るのに学習いるからで推論はそのうちNPUに置き換わるやろ ■ このスレッドは過去ログ倉庫に格納されています