なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured 校長を好きな人がいるという事を、もっと分かりやすい文にして、恋愛対象は異性とは限らないとしたら、
日本語だとだめだったが、英文翻訳して聞いたら、copilotは完璧な答えを導いた。
llama3は英文でもダメだった。
やはり、gpt4強しか あ、ごめん、途中の推論がおかしかったからダメかと思ったら、
llama3も英文なら答えは校長って答えたわ。
というわけで、>>552は修正しました。 >>570
つまり自前のシステムってこと?まったくわからん
スクリプトの実行権限与えてチャットしながらファイル操作とかコード編集とかドキュメント読ませたりできたらと思ってな
langchainとか存在は知ってるけどまったく触ったことないわ >>578
説明が抽象的で申し訳ない 詰まるとこ、全部自前だが、実装はそんなに難しくないぞ
ちょっと正規表現かければLLMの出力にツール使用命令があるか判別するのは簡単
画像が俺が使ってるプロンプトで、Command Rが必要に応じて
```python
#コード
```
みたく出力するから、これを正規表現”```(python).*?```”でパースして、引っ掛かったらexec関数に中身を流すだけ
https://i.imgur.com/BJM5Fkr.png langchainは無理に触る必要は無いが、ツール含めエージェント構築に使えるパーツが大量に用意されてるから、車輪の再発明を避けたいなら一回手を出してみるのはありだと思う
検索エージェントとかは最初全部自作してたけど、途中でバカらしくなってlangchainに乗り換えたよ STのExpression機能がバージョンアップして
classifyで感情分析にかける直前に翻訳通せるようになったようだ
classifyの日本語モデルはなかったからいいアイデアだと思った llama3の70Bの評価はあちこちでだいぶ違うな
ベンチマークで高いのが出るようにはなってるっぽいけど >>573
乙!確かにいい感じに自然な応答が返ってくるよ
現状のLlama3-70Bより日本語に関しては上だわ イーロンの株価対策超絶最強AIgrokとかもう誰も話題にせんな Llama.cppのmainとllama-cpp-pythonでllama3動かしてるんだけど、勝手にassistantとかいうトークン挿入して会話が止まらない現象に当たった
調べたら結構報告があるっぽく、ランタイムがeotトークンに対応しきれてないらしい
https://twitter.com/artem_zin/status/1781145656905625772 ちゃんと使えるようになるにはもうちょい時間かかりそう
https://imgur.com/69dWeZD >>573のやつ
Text generation web UIでロードできなかった
koboldと同等の設定にする方法ある? アプデしたkoboldをwindowsが消しちゃう Kobold1.63、ウィルスが検出されて削除されてまうな… 英語ちょっと読めるけど書くの苦手なワイ
プロンプトに「あなたはあらゆる言語を読めますが英語で返信してください」
みたいなのを書いておくと、こっちは日本語で書いて英語で返ってくる状態になる。
異世界転生でチート能力で言語が通じるような感じになって楽しい >>585
乙サンクス!Llama3英語特化らしいから日本語チューンモデル待ち遠しい 質問なんですけど、7Bクラスの言語モデルをCPU(Ryzen5 5600H)でiQ4_XSに量子化するのってもしかして無謀だったりしますか?
モデルデータを公開した方がiMatrix量子化をやってなくて、iQ4_XSが欲しいので自分で作れないかと思い、quantkitという便利なツールを見つけたので試しているところです
既に処理が始まっているのですがこんな表示が出てきて戦慄しているところです
↓これは75時間くらいかかるという意味ですか?
> compute_imatrix: 50.40 seconds per pass - ETA 75 hours 34.63 minutes >>600
16GBです
今、↓のメッセージに気づいて自己解決してしまいました
> compute_imatrix: computing over 5398 chunks with batch_size 512
要するに5398チャンクあって、1チャンク当たりの処理時間が50.4秒なので概算で75時間34分かかるというメッセージだったようです
これは諦めようと思います… >>601
まあ、もっと速くする方法もあるけど、無理にimatrix化しなくても、Q6_kでも十分実用速度になると思うよ? >>597
多分そのCPUで十分できるはず
quantkitってツールについてはよくわからないけど、それはiMatrixファイル作成でChunksを無指定にした時の状態だと思う
おっしゃる通り75時間34分かかる状態です
Llama.cppに含まれているimatrix.exeならこんな感じに指定すれば時間を短くできるんだけど…そのツールだとどうなんだろう
imatrix.exe -m .\model_f16.gguf -f .\wiki.train.raw -o .\model_f16.imatrix --chunks 32 おっと更新してなかった
確かにメモリ16GBだとモデルサイズが小さい方が嬉しいよね
Chunksを指定する方法がわかればいいんだけど
それかLlama.cppを使ってみるとか >>602
実際にQ6_kでまともな速度で動いてるので特に問題はないんですけど、
速度早くできるならそれに越したことはないので
必要ではないので無理にやろうとまでは考えてないです
>>603
このツールです
https://github.com/xhedit/quantkit
よく読まずに簡単そうなコマンド打っただけなのでチャンク数の指定は全く考えていませんでした コレの動かし方誰か教えて!
PFN(プリファード・ネットワークス)が金融ドメイン特化LLMを作ったらしい。
Hugging Faceに.safeteonsorsで公開されてるみたい。
https://tech.preferred.jp/ja/blog/qfin-llm-continual-pretraining/ >>573
おつかれさまです
おま環かもしれないのですが生成速度が下がってる気がします
ver1やx4で14Tで書くところver2だと10Tくらい(全てQ6)
10Tだと、読むの間に合っちゃう… >>607
あれ、そんな現象が起きているとは…ちょっと調べてみますね llama3 日本語はダメだったが、英語の表現力かなりいいなこれ
llama2に比べて、プロットに隠してる意図した思惑をちゃんと表現してくれる。
規制が半端ないから、脱獄オンにする必要あるけどw >>607
無印
プロンプト処理: 337.69T/s, 生成: 13.34T/s, Total: 12.97T/s
TypeB
プロンプト処理: 351.56T/s, 生成: 13.37T/s, Total: 12.84T/s
(いずれもVRAMに33レイヤーをオフロード)
うーん、うちの環境では特に差は無いようです
お使いの環境はどのような構成・設定でしょうか? 4060ti 16GBの1スロット品が中国で発売だって
https://gazlog.jp/entry/single-slot-rtx4060ti-benchmark/
普通のATXのマザボにこれ4枚刺して64GB
夢が広がる
つーかgeforceのブロワー型クーラー品ってnvidiaが許可しないはずだけど
中国限定販売だから許可が出たのか、それとも勝手にやってるのか・・・
なんにせよ日本から買えないのが残念 アクセントに違和感あると思ってたけど最近の音声合成AIちょっと調べたら日本語性能かなり進化してんのな
ちゃんと学習させたら実用レベルに来てるわ
音声読み上げさせたらやばい GALAXはグラボメーカとしては老舗だから言うほど怪しくはない >>603
ありがとう
Llama.cppを使ったらあっさりと量子化に成功しました すまない。知っている人がいたら教えて欲しい。
text-generation-webuiで>>431のggufをロード成功後にnotebookで生成すると
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 0: invalid start byte
が発生するんだが、何が起きているんだろう。対応方法はある? https://imgur.com/a/6mzjpm6
モデルは5/1に公開する予定です。
tempture:3 >>619
7bでこの表現力はすごいねー
官ジェネとかのプロンプトは仕込んでるのかな? calm-2あたりも7bで結構エロいの書くよな
Antlerは表現力で言うと一番だけど暴走しがち >>619
これ素の出力なの?
7bって結構途中で変な文章入ったような印象あったけど >>620
官ジェネが何かは存じ上げませんが、「(以下本文)」までの文章以外は入力していません。
別で誘導するための文章を挿入しているなどもありません。
>>622
出力が途中で止まった際に続きを出力させるなどはしましたが、それ以外は一切手を加えていません。 参考となるかは不明ですが、簡易的な指標としてpplを計測しました。
https://imgur.com/a/di903Nu
日本語wiki本文と少数の小説で計測しました。 期待の新モデル来たか!?
>>435とか>>552のテストしてみるとどうなるか気になる エロ評価プロンプトのバージョン2作ったから、使ってね。
https://rentry.org/5m4p8v4z
karakuri-lm-70b-chat-v0.1-Q6_K での結果
https://rentry.org/zc68gxx5
素のkarakuriの安定度が分かる。設問1は不正解だが ああごめんなさい
ローカルにコピペするつもりが書き込んでしまった…… 今みんな実行環境何使ってるの?Text generation webui? エロ評価プロンプト2,設問1がAIにはミスリードが多く、難しすぎたので差し替えました。
https://rentry.org/5m4p8v4z
また、設問1のみをレベル別に分け、日本語、英語での質問ができるテキストをアップしましたので、活用してください。
sbtom/reasoning_ability_test
エロ評価2には、レベル1を使用しました。それでも正解率かなり低いですが、推論の過程を見ると、能力がなんとなく測れます。 今日からローカル始めたレベルの無知なんだけど英語で指示した展開にそれなりに寄り添ってエロ小説書いてくれるモデルを教えてほしい。
環境としては4090とRAM64GBだから13Bとかだときついのかな。
今はLoneStriker/Blue-Orchid-2x7b-Q4_K_Mっていう大分古いモデルで遊んでる https://rentry.org/8ntw35hu
>>630
のテストを我々のモデルで実行しました。モデルが出力した回答をそのまま掲載します。 >>632
英語ならよりドみどりだと思うけど、
遅くていいなら、
NeverSleep/MiquMaid-v2-70B-DPO-GGUF
を一度試してほしい。
ちな、その環境なら13Bでも爆速よ >>632
これは期待!どこかのサークルさんか海外の企業さんかな?ChatNTQの強化版だったりして
なんにせよ5/1が楽しみ! ありがとう、ゆっくりコーヒーでも飲みながら試してみる
そしてHugging FaceにNSFWタグあるんだね、おかげで気づけたよ 官能小説というよりは抜きゲーのっぽい表現に特化した
NSFWモデルでなんかええのないやろか? EasyLightChatAssistantに永続生成用の簡単なUIを被せたEasyNovelAssistantを作ってみたで
https://github.com/Zuntan03/EasyNovelAssistant
https://files.catbox.moe/ai9gop.png
デフォルトモデルはLightChatAssistant-TypeB-2x7B-GGUFのIQ4_XSでサンプルもこれで動作確認してあるで
ええモデルをリリースしてくれてサンガツや!
RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5T/s
Geforce RTX 3060 12GB なら 13.5T/s
https://files.catbox.moe/rbk5qh.png prem aiのブログ更新、RAGについて
https://blog.premai.io/rag-strategies/
そんなことより料金はよw
今日発表すると言ってからもう4日くらい経ってるぞ Groqって会社がGPUじゃなくてLPUっての作っているのか
こりゃどっかのタイミングで劇的に動作コストが下がることありそうだね 今の過熱ぶり見るとAI向けアクセラレータボードはバブル終わるまでは企業が買い占めて
評価ボード以外が終わって個人に流れてくる頃には会社がないまである PCだとCPUにNPUが標準的に統合されてくる
というか、Microsoftがそれを要求してくる >>641
乙です!またまた良い感じに使いやすくなるツールをありがとうです
TypeBは長文も良くなったはずだし、永続生成はローカルの強みをフルに発揮できて嬉しい!
githubのページもスクショ付きで理解しやすい!超GJ! Antlerの作者さんの新作が出てた。独自のエロベンチマークで他モデルと比較した結果も出てる
Elizezen/SniffyOtter-7B Llama3ちゃんにエッチな小説作ってもらおうとしたら拒絶されてショック
説得セリフ入れたけどダメだった
このモデルでエッチなこといける人いるの? >>649
脱獄オンにする
それでも3手目あたりで申し訳してくる Command Rの自由度に慣れきってるからLlama3かなりキツく感じる
Cohereははよ中型モデル出してくれー >>579
解説たすかるがワイはLLMさわってるだけのノンプログラマーだからぎりぎりよくわからんくてつれぇわ
langchain色々調べてのでやってることの概要はなんとなくわかった >>654
誰でも最初はそんなもんや
簡単な文法は勉強する必要があるかもしれんが、コード自体はLLMに書かせちゃってもいいし、楽する道は結構多いと思うから気張らずにやるのがいいよ
なんとなくlangchainのページ見てるだけでも、LLMで出来ることの多さに驚いてモチベーションも上がると思う Aratako氏の最適化スクリプトをRAM64GBのローカルで動くように改造してみている
評価者はCommand-R+が一番だろうけどRAM64GBだとカツカツだから、他の候補としてはkarakuriとかSwallowMXとかかなあ
>>535さんの子を評価者に迎えようかしら >>657
jupyter(google colabで使われてるやつ)ってツール使って自作した >>655
実際GPT4TurboにPythonスクリプトとか書いてもらうと普通に動くコード書いてもらえるし、細かく仕様変更頼んでもちゃんと反映してくれるからLLMでプログラミングする/してもらう方向性はまじで期待してるわ >>659
pythonあかちゃんな俺でもCusorでAIに雑に指示してたらガンガンコード書いてアプリやサービス開発できる位だからこのスレ民みんなスーパープログラマーになれると思う 日に日に知識の差なんてどうでもよくなってGPUとSSDの勝負になっていくよな。。。
今年15万円ほど投資してメモリ64GBにしてVRAM16GBにしてSSD2TB用意したけど早くもカツカツで限界感じしてるわ >>641
すまん、これCPUばっかり使ってグラボの力使わんから遅い。ちなrtx4060の8Gや。グラボ使わすのどうやってやるの? >>663
GPUレイヤー数を10あたりにしたら、5-10T/sぐらいになる想定や
> RAM 16GB, Geforce GTX 1660 Ti (VRAM 3.3GB / 6.0GB), Ryzen 5 3600X で 3.5 tokens/sec (T/s) です。
より遅かったらKoboldCppがなんかしてるんでさらにGPUレイヤー数削ってみてな
タスクマネージャーで推論時にずっとディスクアクセス発生してるなら他のアプリを落としておくとええかもしらん VRAMが少ないとGPU処理を使い切れないんは仕様や
CPUやRAMが足引っ張ってる状態やね >>664
https://ul.h3z.jp/0qpAuAVk.jpg
1秒で5〜6文字やな。L10とか押してみたけど効いてるのか判別つかんw >>666
CPUとRAMがどれだけGPUの足引っ張るかなんでモデルが全部載るあたりに近づくと加速度的に速くなるんや
でかいモデルやとさらに10倍遅くなって2秒で一文字なんでそういうものと思ってもろたら
GPUレイヤーを0や1にして画像生成と併用とかもあるんやが8GBやとそれもカツカツやね
StyleBertVITSに生成文章を読み上げさせるぐらいならいけそう >>667
https://ul.h3z.jp/ztBRpUhs.jpg
レイヤーとやらを変更するってやってもこんなん出るで。
1秒で5文字出るだけマシなんかな?CPUだけやったらもっと遅いんかな。 とりあえず落ち着いて>>641のページをしっかり読んだ方がいい
>>668のメッセージの意味もわかるはず >>669
サンクス。ウインドウ閉じらなあかんかったか。L12で9〜10文字/秒出るようになった。サンガツ >>670
解決したようで良かった
おそらく>>641やeasylightchatassistantのページが、koboldの使い方では最も丁寧な日本語解説ページなんで、目を通しておくと良いと思う club.aiのキャラカードをkoboldに取り込むと、必ずchatmodeになるけど、
instractモードにするににはsettingでいちいち切り替えるしかないんかな?
あと、pngファイル内のjsonデータを編集する方法ってある?
ローカル版の官ジェネキャラとか作ってみたいんだが ■ このスレッドは過去ログ倉庫に格納されています