なんJLLM部 避難所 ★4
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★3
https://mercury.bbspink.com/test/read.cgi/onatech/1717886234 自己解決した
api接続通ったわ
public api許可しないとpost拒否されるんだな・・・
ちょっとこの設定怖いわ Lumimaidの70BのQ4を初めて使ってみたんだけれど日本語怪しいな
というか時々言語の体を成していないんだけれど、俺環?それともこれが普通なのか?
Lumimaid-Magnumの12Bしか使ってこなかったんだけれど、差にちょっと驚いてる イメージ通りのセリフを日本語で喋らすのは難しいので、英語用のモデル使って英語で出力させてブラウザの機能で翻訳した方がいい気がしてきた
英語特有の淫語にはイマイチ慣れないけど
ペ〇〇スリーブとかやたら頻出するけど、あっちの人には響くワードなのか? 英単語教えて貰いながら致すシチュエーションだと結構そっち系の単語とか教えてもらうけれど、ペ〇〇スリーブとか一度も見たこと無いな
もしかして、お前は俺のペ〇〇以下略だ!みたいな使い方なのか・・・? 「ペ○○スリーブ」って表示されるの?
それとも意味もなく伏字にしてるの? >>512
スリーブはハンドホール型オナホの隠語
厚みの無いペラペラな安物オナホをほうふつとさせる語感なので、文脈によっては良いワードチョイスやと思うんやが Lumimaidの70BはLlama-3.1-70Bをベースとしているからあんまり良くないよ
Lumimaidの12Bと123BやLumimaid-Magnumの12BはMistralベースだから結構違う Mistralベースのモデルも12Bより7Bの方が完成度高い気がする >>511
70Bクラス試すなら、
mradermacher/magnum-v4-72b-i1-GGUF
これ試してみなされ あぁ、ベースが違ったのか・・・
教えてくれてありがとう
>>518
試してみるぜ! いや、Llama-3.1-70B-Japanese-Instructはなかなかいいぞ
悪く感じるのはプロンプトの出し方が悪いからだって気づけ
基本的に申し訳しないし今のところ最強 まずエロプロンプトを作る時は、chatGPTにこんなエロプロンプト作りたいんだけど、プロンプトどうすればいいって相談だ
それをLlama-3.1-70B-Japanese-Instructに食わせてみろ Text-generation-webUI使ってるならParametersからInstruction templateもベースモデルに合わせて変更した方が良いね
ずっとNoneでやってたけど、それだけで回答の精度がぐっと上がったわ…… ChatGPTにエロを書けって言っても、申し訳されるだけなんだけど、
こういうシーンを書きたいんだけど、どんなプロンプトにしたらいいかって質問には答えてくれる。
ただChatGPTよりLlama-3.1-70Bは頭が悪いので、得られたプロンプトを半分くらいの内容にしてやった方がうまくいく 普通にchatGPTに書かせたほうが質も遥かに高いと思うけど
今のGPTの申し訳回避なんてめちゃくちゃ簡単だぞ 脱獄するの面倒だもの、Llama-3.1-70Bはそこら辺はまったく気にしなくていいし いやchatGPTに書き方聞いたりするほうが遥かに面倒だと思うぞ
脱獄なんて脳死でコピペして終わりだし ローカルよりもクラウド環境の方が生成される文章の質はそりゃ良いがAPIのコストとかBANのリスクを避けたいとか考え方は色々あるだろう クラウドなんかに、俺のあんなヤヴァイ性癖たれ流せたりできるわけないw 風俗行っても嬢に遠慮してノーマルプレイしかできないタイプだろ
サービス側は別にペドリョナスカとかでもいちいち読んだりしないし、サービスとして問題があると判定されたならbanして終わりだ 迂闊なことを書き込んでると“奴ら”に監視対象のリストに入れられるぞ…… どんな基準でBANされるか分からないからローカルのが安心なの まぁ、そういう問題じゃないんだけどね……
それはそうとこのモデルがなかなか良い感じ、日本語ファインチューニングを明記してるのは安定してるね
RichardErkhov/nk2t_-_Llama-3-8B-Instruct-japanese-nk2t-v0.3-gguf llama3.2 visionベースの日本語の欲しー ゆるゆるなgroqで日本語対応モデルをホストしてくれればいいんだけど
素のllama-3.1-70bが使えても日本語応答は残念なレベルなんだよね Llama-3.1-70B-Japanese-Instructはそれなりに賢いよ、chatGPTに比べたら劣るってだけ
申し訳はまったくしない >>540
それをホスティングしてるサービスってどこ? 明日発売されるMacminiよくね?
メモリ64GBにしたら、CommandR+のiQ4_XSが動く。
安い方のM4Proでも毎秒4トークン程度出ると思うんだが、どや? >>542
AI用途専用ならおすすめできん
commandR使いたいなら無料APIで代用できるし毎秒4トークンに30万出せるなら他の選択肢もあるやろ おれMBP M1max 64G
Llama-3.1-70B-Japanese-Instruct-2407 だけど
ターミナルから56GByteまでVRAM利用許可を出したら動いた
```
次のurlを日本語で要約して
https://en.wikipedia.org/wiki/Apple_M1
```
mlx版(NeuralEngine対応版。NPUだね)は 4bitで 5token/s
gguf版はQ4が全滅だったので Q3KSで 3.2token/s
1bit多いのにmlxのほうが速かった
LM Studioも0.3.4だとmlxのメモリー効率悪くてmlxで動作させられなかったけど
0.3.5にしたらQ4で動いた。ありがてぇありがてぇ
M4 max(Ultraも?)NEがM1の何倍も早いらしいし楽しみだな >>542 予算が1番だと思うけど、M4 Proはメモリーの速度が273GB/s、maxだと546GB/s
プロンプトが長くなってくると効いてくるけど、どこまで効くかはわからぬ
でも273GB/sでもx86系より4倍くらい速いんだけどね 今度のはGPU部分普通に強めだからプロンプト解釈のネック緩和するんかな >>544
LM Studio 0.3.4でMLX試したら遅くてggufに戻したけど
いま0.3.5にアプデしたら爆速すぎて笑ったわ
めっちゃ助かった llama.cpp のベンチ出たな。
M4Pro上位モデル≒M1Max下位モデルってところか。 koboldの新しいモードのintaractive storywriter いいかんじだな。
通常のinstractより誘導しやすい >>550
そのstorywriter使いやすいし適度なところで区切ってくれるね
またkobold使うことになりそうだわ…… SillyTavernについての質問なんだけれど、チャットでペルソナじゃなくてキャラクターとして話す方法ってなかったかな
例えばグループチャットだと画像の橙で囲んだあたりにそれ用のアイコンなかったっけ・・・?
https://i.imgur.com/7NP3VrG.jpeg 自動モードを使ってキャラクター同士で会話させるのじゃダメなの? これでLlama 405Bいけるのか、すごいな、いくらくらい掛かるんだ?
x.com/alexocheema/status/1855238474917441972 >>554
これってどのようにGPUを分散してるわけ?
レイヤを分散しているの?
ネットワークの帯域で詰まらない? 今日ローカルLLM初挑戦で、Llama-3.1-70Bをollamaからインスコしたんですが
かなり申し訳されます。
Llama-3.1-70B-Japanese-Instructだったら通るんですか? 明確なロールを与えるといいよ。
どのLLMも何も指定していないときの標準のロールが品行方正に調整されてるだけ。 llama系はchatGPTとかよりも規制ガチガチだよ 規制なしのローカルモデルであっても「あなたはエロ大好きAIです」くらいの役割指定はしてあげた方がいい >>555 ThunderboltはPCIeの信号長い版みたいなモードがあるよ
x86だってPCIeのグラボ複数枚で動かしてるよね
それと同じ事をしてる
まぁソースコードそのままじゃないとは思うけど
ちょっと前のスパコンに使ってたインフィニバンドより速いもんなTB5 >>556
7b〜13bのモデルだとBerghof NSFWが最強だと思った
当たり前の事だけど思考文と口語をカギカッコでちゃんとバランスを取りながら書き分けてくれるし
指示文をちゃんと最初から最後まで読んで細かい部分も結構ちゃんと読み込んで実行してくれるし
人間の当たり前が当たり前にできて本当に凄い、文章力というかシチュエーション理解力が凄い
馬鹿みたいなシチュでも真面目に考えてくれるしホント凄い もう面倒だから英語でChatするようになったけど、7B程度でもMagnumとかLumimaidの理解度の高さに笑うよ……
もし日本語モデルで迷ってるなら英語の勉強も兼ねて英語モデルに手を出すと良い
学校で習わないような単語がバンバン出るからそこら辺はプロンプトであらかじめ言い換えるように指示しておくとか工夫は必要だけどね >>563
英語のモデルだと語尾の書き分けが出来ないから多分全部状況説明になるんじゃないの?
いや、それで満足してるなら別にいいんだけどさ magnum v4 72bの日本語エロは素晴らしいが
123bの日本語エロ表現はさらにぶっ飛んでる
こいつをq8で回せるmacニキが羨ましい Mistral-Large2 123Bが事実上のローカル最強モデル
magnum v2みたいなこの派生モデルをゴリゴリ動かせる環境が理想なわけだが
VRAM64GBでもQ3が限界でQ4動かそうと思うと80GBくらい要るからなあ >>552
あったね、””みたいなのsendasだっけな
グループチャットのuserではない誰かに憑依して参加するとかはしたい
同棲してる3人と無言のユーザー+監査官みたいなときに監査官として参加したい 英語エロと日本語エロの味わい方は結構違うと思ってる
日本語エロは言葉の使い方とか口調とか擬音とかで興奮する一種の言葉芸のようなところがあるけど
英語エロは文章から情景を思い浮かべて興奮する感じ(かつての日本の官能小説もこれに近いのかも)
あくまで自分にとっての話ね
かつて英語エロ小説を読み漁った自分の経験だとそんな感じだった
人によって違うのかもしれないけど >>568
R+web版と比べてるが、V4 123B(IQ3_XXS)の方がエロでは勝ってると思う。
q8なら、おそらくもっと・・・ エロさが分かるレベルで英語を読めるのがうらやましいわ
いや、逆に英文エロ小説で学べばいいのか。ネイティブと話したときに(何やこいつの偏った語彙…)って思われるだろうけど 英語エロを楽しむために重要なのは日本語に訳さないことだと思ってる
英語の文章が頭の中で映像化されて、そこに日本語は介在していないんだよね 素人が和訳なんてしてたらニュアンスが消し飛んで意味不明な糞翻訳になるから
英文から直接イメージに繋げないと楽しむのは難しいわな え、お前らLLMに翻訳させないん?
以前から多様なジャンルを誇っている英語や、
最近PIXIVで増えてきた中国語の翻訳の和訳が捗るぞ。
30B前後のクラスのモデルくらいになると
まあまあ抜けるクォリティで訳してくれるで。 >>569
おぉ、これだこれ
ついでに俺があると思っていたのはGroup SendAsっていう拡張機能だったみたい
教えてくれてありがとう
>>553
今ちょいとSillyTavernの拡張機能を作っているんだけれど、キャラの発言に反応する動きを想定してたから、あるとテストとデバッグが楽になるんだ・・・ >>578
デフォでインスコされているクイックリプライっていう機能を拡張機能からオンにして
lalib拡張機能をGitHubからインスコして
STscriptの /send {{char}}コマンドで擬似的に実現するのはどう? >>579
>>579のイメージとはちょっと違うかもだけど、Quick Reply便利だね、サンクス
「/sendas name={{char}} 」を設定しておくとグループチャット以外でも簡単に憑依できて、欲しかった動きが実現できた
LALibも便利そうだ
まだあまり読めてないけど、WorldInfoで数値計算ロジック作っておくとかすると面白いもの作れそう
要らない話だとは思うけど、世話になったから何作っているか一応説明する
今作っているのは、特定の文字列をキャラクターが出力すると、対応するキャラクターの特定の画像を表示するっていう機能
拡張機能「Character Expressions」のSpriteみたいなやつで、違いは感情じゃなくてシーン別に表示できる・・・できたらいいなって思ってる
一応WorldInfoで「この状況だとこのシチュエーション名!」みたいな指示を用意して、読み込ませた上で判定・文字列出力をしてもらう想定
特定の文字列と発言者を検知して画像の表示ってところまではできていて、そのあたりの確認がおかげで楽になった
https://i.imgur.com/Z0ib1Dx.jpeg >>580
ほあー
例えばキャラがキスしてって発言したらキス待ち顔の画像が表示されるとか?
すんごーい >>581
そうそう、目指すところはそんな感じ
絶対AIの解釈で困ることになるとは思うけど・・・
というかこの板、面倒だから英語でチャット始めただとか70Bローカルとか、もしかして高学歴のお金持ちいっぱいなのか エロ関連のスレは必要であればお金を注ぎ込んでいるやつが多いんじゃよ >>580
お役に立てて何より
全体的に固有名詞うろ覚えなの全部読み取ってくれて何だか申し訳恥ずか死
拡張機能面白そう
ノベルゲームみたいな感じに出来そうやね >>554と同じことしてる人おらんの?やり方が知りたい 前はこういう技術とか文書はちんぷんかんぷんだったけど
今はRAGとかでAIにぶち込めば大体はわかる。後はやる気だけ >>586
理解の順序なら、こうなると思うけど
- linux (ubuntu, ...) -> docker -> kubernetes
kubernetesは、(dockerとかの)コンテナ単位でノードをクラスタ化するものだからーー
(ちなみにmac のdockerはmacOS とは別の仮想環境で動くから、linux のdockerに比べて制限が大きいよ) >>586
ただkubernetesでやるにしても、管理のためのライブラリ群の選定から始めないといけないし
推論だけでもLLM の分割をどうするか、とかーーいろいろ大変じゃない?(むしろ学習の方が分散環境が整ってる)
その点、>>554 のexo は便利そうだけど >>590
ああ、554ですでにやり方っていうかヒントがあったんだね
exolabsっていうの使えばシンプルにいけるのかな exo: Run your own AI cluster at home with everyday devices. Maintained by exo labs.
https://github.com/exo-explore/exo
これですね >>592
node同士をどうつなげるのかがいまいちわからない
win 1. + linux 1でやってみた >>591
デバイス群を抽象化してメモリを確保してるんだろうけど
ただM4 mac間なら、(CPU を介した転送になるからinfinibandとかのRDMAほどの効果はないとしても)unified memory〜高速内部バス〜thunderbolt 5 による恩恵は大きいはず
それ以外のデバイスは、たんにオフロード用の(しかもethernetやwifiを介した)メモリになるだけじゃないかな……どうだろ? >>
やっぱりサンボル5とかの接続でもないときついかなあ
wi-hiで自動で繋がるかなと思ってやってみたけどw なんか新しい量子化手法の情報が流れてる。
https://www.reddit.com/r/LocalLLaMA/comments/1ggwrx6/new_quantization_method_qtip_quantization_with/
q4でq16と同等の品質って書いてあるし、405Bのq1もテストでは結構いけてるらしい。
精度が4倍とすると現状の70Bのq4レベルが16GB位になるから、VRAM24GBあればそこそこ行けるし
Macminiの128GBモデルで400Bのq1モデルが乗っかる。
マジならこの先楽しみ。 qwen2.5 coder 32BがClaude3.5HaikuとGPT4oの間ぐらいのベンチ結果らしくてLocaLlamaで話題になっとったな 新情報は集まるけど英語では高性能モデルばっかりで実用性のある日本語モデルは半年以上前から更新ないねんな 12月に出るであるうgemma3とllama4の日本語対応待ちかな
無規制モデルの選択肢がmistralしかないの悲しいからもっと増えてくれ Metaくん一生アジア圏の言語ハブってるからLlama4だろうが5だろうが英語能力がムキムキになっていくだけになりそう Mistralも13Bの出来があんまり良くなさそうでberghofの人も魔改造に苦労してそうな印象だわ
かといってMistral7Bは開拓し尽くした感があるし エロじゃない雑談を延々と続けるなら何を使えばいいんだ
賢者タイムになると普通の雑談がしたくなる >>604
感度3000倍なberghofだけど実はエロ以外の理解力もかなり賢くて雑談につかってるで
7Bとは思えないほどハッとさせられるような意見言われたりもする
なおボディタッチは厳禁とする 英語限定なら3Bですら普通に官能小説書いてくれるし、7Bだとマニアックなところまでカバーしてくるし、12Bまで来たらキャラ理解も高いしさらなる性癖を開拓されるくらいなのに… ヤヴァイ
magnum v4 123bの速度に慣れてきた
この理解力、日本語表現力、エロ力、最高や
M4 ultra 256G でたら買ってまいそう
いや、いっそ将来見越して512Gかw Sitrix Haloこと、Ryzen AI MAXさんが来るまで待つんだ ■ このスレッドは過去ログ倉庫に格納されています