なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured R+の4bit量子化版、RTX2080(8GB) + RAM64GBで0.4t/sで動いたのに
4060Ti(16GB) + RAM64GBにしたら動かなくなるというね(正確には速度が1/100以下に低下)
こんことあるんかよ、低スペックのGPUのほうがいいなんて >>478
ドライバはクリンインスコしてる? 同じpcだよね contex_sizeがいつの間にか変わっていたみたいだった…
結局設定を全部揃えてR+の4bit量子化版を検証した結果、
VRAMが8GBでも16GBでも全く速度に変化なし、GPUレイヤーが0から10まで完全に同じでGPUの効果ゼロ CommandR+ >>431のiq4xsだと、うちの環境(VRAM12GB+8GB)では0.6T/sしか出んかった
ほぼRAMオンリーと変わらんね
>>445
これ気になったので、Aratako氏に直接聞いてみるわ お前らってCommandR(+でもいいけど)使うときってどれくらいドキュメント通りのプロンプト使ってる?
完全に型通りじゃなくてもそんなにパフォーマンス落ちてるように感じないんだけど、どれくらい影響あるんだろ sbtom/karakuri-midrose-CV.gguf
karakuriとmidnightroseのchatvectorによるマージモデルをアップしました。
llama2ベースですので、コンテキストサイズは4096以下でお試しください。
出力結果
https://rentry.org/cy3uzeqd
chatvectorの関連記事にもありましたが、延々と書き続ける事があるらしいです。上記例でもそうでした。
ただ、勝手に書き始めた小説も、面白そうでしたがw
また、英語で回答したがる傾向も見られました。(英語モデルのインストラクタをかぶせてるせい?)
したがって、チャット等をする時は
https://imgur.com/a/VIujgjs
のように、最初に日本語と出力行を指定しておくと安定するようです。
続いて、マージ手法ですが、長くなるので分けますね 続き
https://huggingface.co/aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
の例では、mergekitにて
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
上記のようになります。
ただし、メモリ食いまくりスワップ飛びまくりで、かなりPCに負担(特にSSD)をかけますので、使用には十分注意して下さい。うちでもセグメントエラー等よくくらいました。
以前不用意に呼びかけて、LCAニキのPCをブルークラッシュさせてしまい、反省も込めて、手法はここでひっそり公開する事にします。
とりあえず、このCVモデルがいけそうなら、次はmiqumaidの取り込みを予定していますので、PCに余裕ある方のフィードバックをお待ちしています。m(__)m ありゃ?インデントがおかしい
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
parameters:
weight: 1.0
- model: mistralai/Mixtral-8x7B-Instruct-v0.1
parameters:
weight: 0.8
dtype: bfloat16
正しくはこうです。すみません うげ!治ってない
merge_method: task_arithmetic
base_model: mistralai/Mixtral-8x7B-v0.1
models:
***- model: tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
**** parameters:
******* weight: 1.0
***- model: mistralai/Mixtral-8x7B-Instruct-v0.1
**** parameters:
*******weight: 0.8
dtype: bfloat16
むりやり*で埋めた(*をスペースと思ってください) >>445
これについてAratako氏に質問したら、詳細を快く公開してくれた!めっちゃ良いかた!感謝!
https://huggingface.co/Aratako/LightChatAssistant-2x7B-optimized-experimental/discussions/1
>>484-487
おお、うp乙です!使わせてもらいます!
ブルースクリーンはむしろ大笑いしたので気にしなくて大丈夫w
config.ymlはrentryにMarkdown使って書くと、見やすくていいかも? command-r-plus日本語のエロチャットで試しているけど
日本語で指定したpromptやこちらの入力は理解している応答っぽいけど
英語に比べるとやっぱり反応が薄いというか淡白だなぁ
このレベルが日本語で反応するだけでも凄いんだが、動いたら動いたでより良いものもが欲しくなるとは貪欲になっていくもんだなぁ なんか7Bだけどすごく良さそうなのが誕生してた!めっちゃ可能性を感じる…
TFMC/Japanese-Starling-ChatV-7B
>>435と同じテストをさせて見た結果
https://rentry.org/zekf2758 commandR+触ってみた。
日本語能力は素晴らしいと思うんだけど、出力される内容そのものがmidnight-miqu70Bとかに負けてる気がする。出力中にどんどんわけのわからん方向に内容が逸れてっちゃう >>491
今のcommandR+の利点は、むしろローカルじゃなくても無規制のまま無料で使えることだからなぁ >>490
その結果だけ見たらもう70B以上クラスとの違いがわからないな
もっと長くて複雑なベンチマークが必要なのかもしれない >>490
エロの表現力は流石に微妙そうだけど、指示追従能力は良い感じに上がってそうだね
ただ、ELYZA-tasks-100とかのGPT-4に評価させる系は長文を高評価するようになっちゃう問題があるから、ベンチマークスコア向上はこれの影響かも というかLCAって普通のベンチマークに対するスコアも元モデルより上がってたのか…
エロ特化でその辺犠牲にしてるんだと思ってたわ >>490
f16使ってみたけど確かに結構賢い感じやね。簡単なタスクはこれに任せてもええかもってくらい
あと全部VRAM乗せられるからワイの環境でも35t/sくらい出て笑うわ。command-r+の0.5t/sに焦らされてる状態から使うと気持ちよすぎる LCAの手法でモデルの特徴を抽出してマージできるならその差分をLora化して後乗せもできるのかね? >>490
確かにいいな、この作者にエロ対応したモデル作って欲しいわ text generation webuiでチャットやってたら急に最新の1応答を除いて過去の会話全部吹っ飛びやがった
マジかよショックがでかすぎる
あぁ、もう一度コンテキスト育てるのは無理やぁ・・・ sbtom/karakuri-midrose-CV.gguf
ちまちま検証してましたが、どうもmg版に比べると劣化してる感が拭えなかった。
表現力は同じくらいなんだけど、指示が入りずらい
チャットだと分かりにくいけど、小説書かせたらプロット通りに書かずに勝手にプロット外の事を書き始める
うーん、ダメだこりゃ・・・ と思ってたら、よく考えると重みに0.8掛けする必要なくね?と気付いた
LCAはインストラクタモデルを使ってたから、0.8掛けが効果を発揮していたけど、krakuriはベースモデルを使ってるから
素直に1.0乗せればよかったんや!
で、修正したら、指示も入りやすくなった感じ
とりあえず、修正アップしました。 今更だけど、KoboldcppのPrompt Template色々間違ってない?
LCA試すときにllama2 chatのテンプレ使ってて思ったんだけど、マルチターンの会話の時[INST]と[/INST]だけで区切ってるけど間にeos_token(</s>)とかもいるよな? >>500
試しに同じ構成で作ってみたいと思うんですが
base_modelは何ですか? >>502
ベースは、meta-llama/Llama-2-70b-hf です ぐあああ!ヤヴァイ
中間モデル保存しておいたSSDが死んだw
予定していた最終モデルは別SSDにできた後だったのが不幸中の幸いだったけど、設定ファイルとか亡くなったのは痛いw
エロ小説用としては、いい感じに仕上がったと思うんで、なんとか最終モデルをアップするまで、もってくれ〜SSD WizardLM-2、消されたらしいけど何かあったのかな
性能やばすぎてGPT-4脅かしそうだったからとか?
帰ったら試そっと sbtom/karakuri-rosemiqu-CV2.gguf
とりあえず、今試したいことを詰め込んだモデルをアップしました。
自分も、これからチマチマ検証していきますw 毒性テストしてないバージョン出しちゃったわ😅ヤベヤベ 今のところ4bit量子化でB数の6割ぐらいの高速メモリ用意できりゃOK
みてえな認識してるけど
この先どんどん肥大化していってもこの方式当てはまるんやろか VRAMに乗り切るかどうかは単純な計算から求まるんだからその法則自体が崩れることはないんじゃないか?
そろそろ必要なVRAM量がコンシューマ向けチップでかなりギリギリだから、1.58bitが主流になって欲しいけど、いまだに進捗を聞かない 8x22Bと7Bは他にも何人か量子化とかアップロードしてるけど、70Bの方は元から公開されなかったんか? >>503
サンガツ
今マージを始めたところです
midroseの代わりにHDDにあったEuryaleを使ってみてます WizardLM-2 7BのiQ3_XXS軽すぎワロタ
RTX3050Laptopの4GB VRAMにフルロードできるからサクサクでいいね
割とまともな日本語話すし、ノートPCでここまで動くとは驚きだ 日本語話せるのか
正直日本語力は期待してなかったけど、こうなると70Bはそこそこ楽しみになってきた
内容にcensorshipはかかってそうかな? 前は毒性テスト不要だったけど今は必要ってこと?
毒性あることも聞きたいんだけどな >>499
ワイもログ何度か消えたからgitで定時スナップショット取るようにしてたわ
今はフロントエンドはSillytavernに移行したけど 再公開で差分があった場合、その差分が毒ということになるんだよな
Tox Vector… >>519
alpindale/WizardLM-2-8x22B
これは元データのコピーなんかな? command-rにプログラム実行の権限与えてるんだけど、pythonで日本語の変数使えるの知らんかったわ
いきなり頭おかしいプログラム走らせ始めてビビった
https://i.imgur.com/aILua5n.png >>521
こんなん笑う、これで抜くのは上級者やな 4090じゃcommand R + 動かないのか… Command R+の方、ギリギリ動かせるiq3_mだと結構劣化が気になって、結局無印に舞い戻った
q4を動かせるマシンがまともに使える最低レベルと考えると、やっぱり104Bは気軽に動かせるもんじゃないと思うわ うみゆき@AI研究
@umiyuki_ai
5ちゃんの某LLMスレを監視してるけど、最新の話題でCommand Rとエロチャしてたら急にエロいpythonコード書いて実行し始めた画像相当おもろい。AIにとってはコードが一番興奮するのかもしれん。
何が監視じゃ
インプレ稼ぎ青チェックが上位者気取るな うみゆきは別に出している情報間違っているわけじゃないんだけど
「へえ。」とか無意味に冷笑ノリだったり画像生成AIについては
やたら反AIに擦り寄ってみたりの方向が昔のオタっぽくて気持ち悪い LM StudioがいつのまにかROCmに対応してた sbtom/karakuri-MS-01.gguf
最近追加されたModelStockってマージ方法、ChatVectorと相性いいじゃないかって気がして、
karakuri-midnightrose-CV
karakuri-SOLAR-CV
karakuri-XWIN-CV
を、karakuri-chatをベースにしてModelStockで4体合体させてみたら、なんかすごくいい感じになった。
評価プロンプト(そろそろ別バージョン必要だなw)
https://rentry.org/zapt6wa5
小説テスト(オナニースレで、宇宙人ニキの感想待ち)
https://rentry.org/m55ytdq3 評価プロンプトになんか追加するなら
どっちがどこに挿入してるかはとか
2形態以上持ってる変身や変化キャラみたいな設定とか
混同されると萎える要素への解釈理解度確かめるような設問が必要だと個人的には思う AIに可愛い声で喋らせて会話できたらもうそれは革命じゃん >>529
初期はシンプルにAI追ってたのに途中から情報量多すぎて追えなくなってからノリがかわってしまったな >>537
style-bert-vits2とwhisperで割と簡単に満足できるものが実現できるレベルでは 実際にやってみると音声と見た目が付くと少しの話の違和感とかアクセントのおかしさが強調されてストレス感じる
イルカやSiriやCortanaが嫌われ続けて来たのと同じ問題だなぁ >>540
ワイ、cotomoとか結構遊んだけど、イントネーションとか結構慣れて気にならんくなったで?むしろcotomoのあほの子ボイスが癖になったまである
原作ありのキャラの模倣とかだと無理かもしれんが、オリキャラならstyle-bert-bits2レベルのイントネーションだったらふつーにガチ恋するわ
AIちゃんがワイのこと覚えてくれてる、認識してくれてる!って部分にうれションでるやで? わかる
でもそのストレスって関西弁聞く時のと同種だよね
不満垂らしつつも許容して慣れるしか無い
それに昔よりはストレス無くなってきたね最近の音声合成 >>542
>>そのストレスって関西弁聞く時のと同種
同意してもらったところ悪いんやけど、なんJでそれ言うんかw
オナテク板もなんJも関東人以外もふつーにおるんでちょっと配慮したってや? なんJのは関西弁ではなく猛虎弁ではw
>「猛虎弁」は、関西弁と似た言葉遣いを模倣したユーモラスな表現です。元々は「なんJ(なんでも実況J)」と呼ばれる2ちゃんねるで使われていた言葉で、その後他のネット掲示板やコメント欄でも広まりました123。
(中略)
>猛虎弁は関西人からすれば容易にニセモノだとわかりますが、関西以外の人からは見分けがつかないこともあります。ただし、猛虎弁は本物の関西弁ではないため、注意が必要です123。 猛虎弁ていうのか
123が気になる
ぷよぷよ123 それCopilotの回答からのコピペなんやけど123は参照サイトへのリンクの残骸やで……気にせんといてや 今まで単純にモデルのサイズが大きければ大きいほどoutputも遅いものだと思ってたけどそうじゃないんだな。
hfに上がってたwizardLM2-8x22Bは1T/sも出てる(普段は70Bで0.5Tくらい) 昨日あげた画像結構ウケが良かったが、pythonをLLMに組み込む長所としてはどっちかと言うとこういうふうに指示出してミニゲームできたりするメリットの方を推していきたい
https://i.imgur.com/jSSVVyJ.png エロ評価プロンプトのバージョン2作ったから、使ってね。
https://rentry.org/5m4p8v4z
karakuri-lm-70b-chat-v0.1-Q6_K での結果
https://rentry.org/zc68gxx5
素のkarakuriの安定度が分かる。設問1は不正解だが つづき
command-r-plus(web)での回答
https://rentry.org/8av79u4b
さすが、エロ表現はいいね。宇宙人は台詞を言ってほしかったが。設問1はこれも不正解
karakuri-rosemiqu-CV2は苦労した割に、ダメダメだった。削除しようかと思ったが、あのアプローチでの失敗例として上げとく
で、自分的には一番いい出来と思った、
model_stockマージでのkarakuri-MS-01の結果
https://rentry.org/we25qrsa
これで、設問1が正解なら、脳汁出るところだが、さすがに無理だった。
でも、他の表現力はcommand-r-plusに負けてない気もする
同じアプローチでswallowを使ったら、どうなるか試したいが、SSDの空きを作るのが大変だw あれ?
今、リートンのGPT4-turboと、copilotに設問1の質問したら、両方とも早苗って答えた。
あれれ? ワイ、間違ってないよな?
拓郎が愛しているのは、源蔵だよな? 論理的に詰めていけば源蔵しかいないのだが、AIはみんなそのような思考をせずにシチュエーションだけで判断してるように見えるな
「論理的に」「数理的に」「解析せよ」とか指示を加えたらどうだろう 思考問題はGPT-4とかClaude3が安定して正解を出力できる問題にしないとダメかもしらんね
これつらができない問題でも解ける特化型とかあるんかね
それと>>552は「特殊シチュ+指示少な目(求めるお察し力高め)」だから、使うなら旧verと併せて追試として使った方が良さそう
旧verはサクッとチェックできて、最低限の出力品質を確認できるから個人的に好き GPT4とOpusに設問(1)をやらせてみたが正解にたどり着かないな
まず恋愛対象を勝手に異性に限定したがる。まあこれは「同性も含めて」と指示すればいいのだが
一番無視しがちな前提条件が「複数の人を同時に愛することはない」という部分。この文章を正しく理解できていないかもしれない >>555
サンキュー修正しました。
あと、源蔵という名前は英語表記になりやすいので健一に変えました。 【悲報】ワイの頭AI並み
この設問と条件なら一応、早苗と沙織先生がどちらも拓郎を好いていて拓郎は早苗だけ好き、と解釈するのも可能やからなあ >>557
同時に複数・・・の部分を、もっと分かりやすく修正しました。
>>559
そうすると、校長を愛する者が居なくなってしまう矛盾w >>560
あっそっかぁ…(無知の知)
誰かが校長愛さんとあかんことが頭からすっぽ抜けてたわ
【訃報】ワイの頭AI以下 そのうち全人類を超えるAIが出てくるから気にすんな
切り替えていこう Command r そういえば無印もあったんだっけな
UI側対応すんの待ってたら+出たから試してなかったわ
iq3xxsで13.8GBか >>561
( ´∀`)人(´∀` )ナカーマ
てっきり複数解があって、どれかに辿り着けばOKな問題かと思ってたわ うおおお
karakuri-MS-01たんは、
ここで、大ヒントです。早苗と相思相愛なのは、沙織です。
の一文入れたら、なんとか「校長」と答えてくれたw
ちなcopilotはダメだったw https://twitter.com/kohya_tech/status/1780949467535184118
いつかクッソ厳しいAI規制の時代が来ても3090+64GBのRAMでCommandR+は動かせることが保証されたか 無印Command rええやん
1.5 tokens/sぐらい
16GB〜24GBなら全部VRAMに乗りそうやな
>>550
ちなみにプログラム実行の権限〜ってLLMエージェント的なやつ?何使ってるか教えてほしい >>569
LLMが使えるツールをいくつか設定してて、その中にPythonを入れてる
まあ大枠で言えばエージェントかも
ツール使用するときにはこう書きなさいって指示しといてそれを検出したら、execを拡張した関数(langchainのPythonREPLに近い)に流してる オリジナルのPythonREPLだと標準出力
と標準エラーしか受け取れないから、色々いじってmatplotlibのデータ解析結果の画像を表示したり、セッション内でグローバル変数が保持されるようにしたり、トレースバック(LLMがエラー見てコードを自己修復するため)を追加してる
大体ChatGPTのPython実行環境に近い事ができる(仮想化はしてないけど) paperspaceのH100とか使えばLlama3の400Bが出てきても動くよな?
酔狂で試す奴出てきそう
ストレージ確保だけでも大変そうだが Aratako氏にいただいたデータを元に、手作業で改造したLCA-TypeBをリリースしました
Sdff-Ltba/LightChatAssistant-TypeB-2x7B
Sdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUF
こちらの使い方では、指示追従性能の低下を抑えながら日本語の自然さ向上を実感できました
特に長文では大分滑らかになったと思います(一度に2000tokens弱の小説出力を何度かしてテスト) 校長を好きな人がいるという事を、もっと分かりやすい文にして、恋愛対象は異性とは限らないとしたら、
日本語だとだめだったが、英文翻訳して聞いたら、copilotは完璧な答えを導いた。
llama3は英文でもダメだった。
やはり、gpt4強しか あ、ごめん、途中の推論がおかしかったからダメかと思ったら、
llama3も英文なら答えは校長って答えたわ。
というわけで、>>552は修正しました。 ■ このスレッドは過去ログ倉庫に格納されています