なんJLLM部 避難所 ★3
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★2
https://mercury.bbspink.com/test/read.cgi/onatech/1714642045/
-
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured ほへー構成メインか……どのレベルなんやろ
自分は起承転結やら個々のエピソードまでは構成するけど
・険悪だった二人が◯◯というきっかけで仲良くなるシーンを1000文字で
みたいなフォーマットで書いてくれるなら
かなり創作の手助けになるんやが
エロでいうと
・フェラだけで1000文字で
といっても三行で終わらせて本番始めるモデルばかりで辛い 一人芝居ストップかけても尻の表面に出ないだけで裏ではやり取りがっつりあるのヘコむわ どもる文章がおかしくなることがよくあるな
「い、今やろうとしたところだ!」が正しい形なのに
「こ、今やろうとしたところだ!」となって漢字の読みを考慮しないことがある
Q5とか使ってるからなのか
>>862
裏でのやり取りごと消去って出来ないのかな? >>660
ファイル名書き換えたら読み込んでくれるで。
例えば、kagemusya-7b-v1.5-q8_0の部分をkagemusya-7b-v1Q8_0に書き換える。
わいは使わんやつの名前に書き換えて、色々試してるで。 Mistral-Nemo-Instruct-2407.Q5_K_M.ggufでエッチなことさせて遊んでるけど
単なるロールプレイ会話よりもハメ撮り動画の実況解説みたいなことをさせた方が本領発揮するな >>663
opusとかでもそうなるよ
AIは文章を音として読んでるわけじゃないから、読みなんて再現できなくて当たり前
用例を全て丸暗記するしかない >>666
アルファベットなら頭文字の連続だけでどもりを表現できるけど
読みがたくさんある漢字だと色んなパターンを丸暗記するしかないのか
間違えることなくどもらせるのはかなり難しそうだな >>663
lmstadioに尻と同じプロンプト入れたらひとまず出なくなった >>664
リネームでやってみます
助言ありがとうございます
用途に依るんだと思いますが
色々試したもので良かったモデルはありましたか 規制かければかけるほど阿呆になるみたいだし
あんまり規制かけないでほしいな >>650
Mistral Large結構いい感じだよね
トークナイザが日本語に最適化されてなくて厳しいけど 応答の長さ(トークン数)を増やし過ぎても繰り返しが多くなるのか
何を弄ったらどう変わるのかいまいち把握しきれないな cyberagent/Llama-3.1-70B-Japanese-Instruct-2407
ちょっと期待 設定といえばkoboldcppのGPUレイヤーだっけ?皆いくつにしてんの?
俺初期値の200のままなんだけど減らしたらええのか? 全レイヤー乗りさえすればいくつでもいいんじゃないの >>670
新参なもんでまだ全然分かってない。すまぬ。
このスレに出てきてないものだと、Antler-7B-evolve、
EZO(common/humanitiesの2つ)があるから試してみて。
Antler-7B-evolveはKagemsyaみたいな用途で使えると思う。 3.5sonnetがマジでかしこいな
ちゃんと設定すればそこそこ複雑な設定のゲームも進行させられる
この技術がPCゲームに応用されたら凄いことになるんだろうけどなぁ Mistral Large 2
脱獄なしで設定書くだけでもNSFW出力してくれて大変良い
ロリNGとかも特になさそう
若干繰り返し癖はある
https://i.imgur.com/09DNkK1.png >>681
量子化のレベルはIQ3_M(モデルサイズ55GB)で、64GBのunified memoryにロードしてる
意外と量子化による影響はあまり感じない(ちゃんと計測したらなんらかの劣化はあるだろうが) >>680
いいねー
こういうオープンソースが増えるのは明るい未来に繋がる サイバーエージェント期待してる。量子化してください >>682
ほー、123Bが55GBで済むのか
この休日に試してみようかな >>683
オープンソースじゃないんだよなぁ
たぶんフラッグシップモデルの開示はする予定じゃなかったんだろうけど
オープンソースと言えるのはApache2.0ライセンスやMITライセンスのやつ
LlamaもGemmaも制限があるし、Mistral Large2は研究用だから研究にしか使えない
Gemmaライセンスは違法なことや公序良俗に反することに使うなってだけで制限が緩いけどね 上にあるサイバーエージェントのやつも試してみた
Finetuningでバカになってる感じもあまりないし、いいかもしれない
https://i.imgur.com/DASmyky.png >>686
流石だぜモモンガニキ、そこにシビれる!あこがれるゥ! >>682
IQ3_M試してみたけど違和感ないね
ただ、Command R+より遅いなあ
いずれにしても選択肢が増えたのはいいことだわ >>690
別に難しかったことなんて一度もないんじゃないの Mistral-Large-Instruct-2407-Q6_K がM3Max 128GBで動いた
ちょっと試した感じだとCommand R+より賢そうだけどめちゃくちゃ遅い
Command R+で行けたNSFWプロンプトは申し訳されてしまったので
ある程度の規制はされてるっぽい Mistral Large 2が遅いのはパラメータ数がでかいからというより、日本語が1トークン/文字になってることの方が影響大きい気がする
R+はtpsは決して早くはないけど、トークナイザが最強だからモデルサイズに比して体感かなりストレス少ない >>693
お大尽やの、うらやましい……
M2 24GBなワイは快適に使うには9B位(LLMやなくてSLMやな)が限界でGemma2とかNinja3で妥協しとる >>695
システムが占有するunified memory 10GBくらいを差し引いても、量子化したモデルならもうちょい大きめのでも動きそうじゃね?
Mistral NeMoとかいけると思うんだけど >>694
なるほど勉強になる
R+は日本語対応頑張ってくれてるんだなぁ >>689
mmnga/rinna-llama-3-youko-70b-instruct-gguf
こっちもやってくれたぞ
rinna系では一番の出来じゃないかと思う
しかもエロいw mini-magnum-12b 文章が短いのが嫌な人はおすすめ設定はMistralと同じだから調べれば出てくるエロもいける 大葉で
mmnga/rinna-llama-3-youko-70b-instruct-ggufはllamacppでロードできるけど
mmnga/Llama-3.1-70B-Japanese-Instruct-2407-ggufはエラーになっちゃうなんでだろう >>700
どのファイル使ったかわからんけど、catコマンドで結合した? >>702
いや、そうじゃなくて
モデルサイズが大きいとmmnga氏の場合、*.gguf.aと*.gguf.bっていう二つに分割されてることがある
その時は、シェルコマンドのcatを使って結合しないとllama.cppで読めないと思う 3.5sonnetだと独り芝居の問題は全く起きなくて快適にロールプレイ出来る
ローカルでこのレベルまで来てくれたら世界が変わるんだけどな Llama-3.1-70B-Japanese-Instruct-2407-IQ1_M.ggufって一つのファイルでもllamacppでエラーになってしまいます。なんでだろう >>705
調べてみたら、llama-3.1とllama.cppのバージョンに関するissueがoobaboogaに上がってた
https://github.com/oobabooga/text-generation-webui/issues/6270
ただ、うちの環境だと今のバージョンのllama-cpp-pythonでもllama-3.1読めてるからちょっと謎 3060 12gbだとninja v1が良さげかなあ
速度も速いしそこそこちゃんと対話してる
それともq4とq3で結構かわってくるかな >>678
何度も質問してすいません
Antler-7B-evolveなどのモデルにおいて
以下のように分かれている場合は
どのようにすればEasyNAで使用できるんでしょうか
(model-00001-of-00002.safetensorsと
model-00002-of-00002.safetensorsの2つ)
例えば結合したりバッチファイルの書き替え方などがあるんでしょうか 間違ってるかもしれんけど、それ量子化されてない気がするからどのみちやめた方がいいと思う
duyntnet/Antler-7B-evolve-imatrix-GGUF あたりにしたら?
huggingfaceの検索欄にAntler-7B-evolveって打ち込んだら出るはず WEBのAPIはマジで規制厳し過ぎなんだよな
エロはまだしも少しでも政治的要素が入ると駄目だから核戦争後の世界を扱うお約束のサバイバル小説ですら検閲されまくる
NATOやアメリカ、中国、ロシアの単語を直接出すのは勿論、欧州の某国みたいにぼかしてもNG
Jアラートとかの単語も少しでも与党側へネガティブとみなされると全削除なんて核戦争の詳細は全部ぼかさないと駄目だった
とにかく政治に対する検閲が異常 >>709
助言ありがとうございます
SDと勘違いして.safetensors自体で
そのまま使用できると考えておりました
.ggufとの違いを理解していませんでした
申し訳ありませんでした HODACHI/Llama-3.1-70B-EZO-1.1-it
leafspark/Mistral-Large-218B-Instruct
どんどんでてくるな llama.cppでロードできました。n-gpu-layersとn_ctxの値が重要なようです。
mmnga/Llama-3.1-70B-Japanese-Instruct-2407-gguf mmnga/Llama-3.1-70B-Japanese-Instruct-2407-ggufいいね、うちの環境で何がベストか実験中 mmnga/Llama-3.1-70B-Japanese-Instruct-2407-gguf
かなり繰り返し癖ない?俺が悪いのかな Llama-3.1-70B-EZO-1.1-itめちゃくちゃ良い感触だ
自宅チャットボットで試してる限りでは返答内容にGPT-4並みの知性を感じる 70Bを動かせるほどのスペックじゃないからみんながうらやましいよ Mistral Large 2をNSFWチューンしたやつ今試してるけど、これ結構凄いかも
遅さに目を瞑れば最適解な気がしている いがいだったけどllama-3-elyza-jp-8bで申し訳されなかったかな。
最近、エロOKな流れになってるのかな。日本語が自然で好きなんですよね 検閲に起因する性能低下が割と洒落になってない感じの事がわかってきたし
このまま無検閲のベースモデル+検閲用の別のモデル、みたいな形で分離して発展して欲しいねぇ Elyzaは初期の頃からやりたい放題できてた記憶がある ELYZAは東大で作ってるやつでしょお堅いんじゃないの elyzaって優等生って感じだからあんまり好みではない人もいるかも
優等生といちゃいちゃなチャットの後、そういう流れに・・・っていうのが好きなもので >>730
追加学習は英語だと思うけど、日本語のERPもかなり流暢だよ
そもそも元のMistral Large 2がマルチリンガルなので、そこはちゃんと失わずに保ってる 12Bは駄目だったや
ルー大柴化に加えてエロ関係なく意味不明な文がかなり多い感じ
これなら7BのVecteusやBerghofの方がよほど賢いと感じた チャットアリーナのリーダーボード更新きたんだけど、英語に絞ると
llama3.1 405bと70bがclaude3.5sonnetの上にきてるな
405bはわかるんだけど70bもここまで来るか
日本語に絞るとまだデータ数が少ないのか項目自体出てこない Llama 3.1 EZO、ベンチスコア高すぎて怪しいなこれ
gpt-4の出力学習に使うかベンチマークリークさせてるだろ >>736
実際使った感じは?
上の方では良感触だったとの書き込みあるけど Llama-3-ELYZA-JP-8B-q4_k_mは脱字が酷いな
「ハンバーグとステーキどっちが好き?」って聞いたら
「は美味しい食べ物が大好きなのですが、その中でも特にハンバーとステーは大好物ですね。
どちらかというと私はハンバー派です。理由としては、肉汁が溢れ出るジューーな部分がたまらないからです。」
みたいな脱字だらけの文章が返ってくる。Q8でも脱字だらけだ ELYZAは俺俺ベンチの本家本元だからしゃーないし期待してない >>738
さすがにそこまで出力おかしいのは何かが間違っとるやろ
LM Studioで落としたけど普通に会話できとるで >>740
設定間違ってるのかな?
色々試してみた感じ一定の法則で文字が欠けることが多いんだよね
長音の後が欠けやすいから
「ケーキ」「ラーメン」「アーメン」「ザーメン」「ステーション」が
「ケー」「ラーン」「アーン」「ザーン」「ステーョン」になるわ
あとは文頭の文字が欠けやすいのと「楽しみ」「慈しみ」も「楽し」「慈し」になる
koboldでデフォ設定にしたり色々設定変えたりしてるけどあんまり変わらん >>741
しずかちゃん って言わせられるか?
llama3系は何故か
しかちゃん になる傾向がある >>742
しかちゃんになる
「しずかに」→「しかに」
「わずかに」→「わすかに」
「おおきいかに」→「おおきいに」
脱字が多いけど「わすかに」みたいに濁点が消える場合もあるみたいだ AIの出力終了後、
ブラウザ側だと「# 記」だけど
kobold(v1.69.1)のコンソール側だと「# 追記」になってた。
koboldのexeとブラウザ間のhttp通信ペイロードの取込上の問題があるかも? >>744
本当だ
ブラウザ側だと「しかちゃん」になってるけど
コンソール側には「しずかちゃん」って書かれてるわ
これってユーザー側で何か対策方法あるの? 暫定対策としては
設定で「Token Streaming」を「SSE」から「Poll」にすると大丈夫そう とにかくLlama-3.1で次の段階に入ったんだろうな 3.5sonnetより上とはにわかに信じがたいな
ベンチマーク最適化してるとしか思えん ベンチマークありき学習するのは結局奇形産まれるだけや ベンチマーク特化になってるかはベンチマークの領域外のテストすれば分かりやすい
それこそエロとかもその1つ
断られるのは別として、ベンチマーク性能は良いのにエロの表現とかが微妙なのは根本的にベンチ特化になっている エロ性能で言えばllama3.1はゴミでしかないな
まあそもそも学習してないんだと思うが Llama 3.1 EZO 70BをQ5K_Mで試した
マジいいぞこれ。
いままでのllama3.1日本語では一番じゃないか?
ただ、規制は残ってるな 続
規制の件だけど、自分から今のは少し不適切だったので、以下のように書き直しますね
って、言って書き直してきたのはワロタ
まあ、オリジナルよりは緩いわ 405Bのggufあったとして1bitでも動かせない・・・ 繰り返しを無くす方法
■temperature高くする。
temperatureが低すぎると、モデルが非常に確率の高い次の単語を選択し続けるため、繰り返しが生じやすくなります。
■top_p(トップPサンプリング)高くする。
確率の合計がP以上になるまで単語を選択
Pの値が低いと、選択肢が制限されるため、繰り返しが発生しやすくなります。逆にPの値が高すぎると、ランダム性が増し、
文脈にそぐわない単語が選ばれやすくなるため、適切なバランスを見つけることが大切です。
一般的にはP値を0.9前後から調整を始め、状況に応じて微調整します。
■top_k(トップKサンプリング)高くする。
K個の最も確率の高い単語から選択
トップKの値を上げることで、選択肢が増えるため、より多様な単語やフレーズが選ばれる可能性が高くなります。これにより、
同じフレーズの繰り返しが減少する可能性があります。
トップKの値が小さいと、モデルは最も確率の高い単語に集中しがちですが、Kを大きくすると、より多様な単語が選ばれる可能性が増えます。
これにより、生成されるテキストの多様性が向上し、繰り返しが減少することがあります。 sillyはデフォだと繰り返しペナルティの値死んでるから、その辺り弄るとかなりマシになった。
EZO 70B量子化ありがたい、あとで試そう ■ このスレッドは過去ログ倉庫に格納されています