なんJLLM部避難所 ★5

1002コメント315KB

なんJLLM部避難所 ★5

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2024/12/26(木) 13:13:11.15ID:Vhp+tTX0

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/

0003名無しさん＠ピンキー

2024/12/26(木) 13:15:38.23ID:Vhp+tTX0

Koboldの設定や使い方は英語だけどここが詳しい
https://github.com/LostRuins/koboldcpp/wiki

0004名無しさん＠ピンキー

2024/12/26(木) 13:15:53.48ID:Vhp+tTX0

oobabooga/text-generation-webui
通称大葉
これもKoboldAIに並んで有用な実行環境やで
https://github.com/oobabooga/text-generation-webui

0005名無しさん＠ピンキー

2024/12/26(木) 13:16:04.96ID:Vhp+tTX0

●Zuntanニキ謹製のツールEasyNovelAssistant
や
ローカルLLM導入のハードルをぐっと下げてくれたで
初めてのお人はここから始めるのもいいで
https://github.com/Zuntan03/EasyNovelAssistant

0006名無しさん＠ピンキー

2024/12/26(木) 13:17:27.11ID:Vhp+tTX0

https://github.com/SillyTavern/SillyTavern
AIチャットに特化したUI、SillyTavernや
キャラをbot的に管理したりグラ登録したり複数選んでグループチャットしたり大量の設定を外部記憶的に管理したり色々できるで
画像出力や音声出力とも連携可能で夢が広がるで
機能が豊富すぎて最初取っ付きにくいのと日本語の解説がほとんど無いのが難点やがRPチャット派は使うと幸せになれるやで
あくまでUI(フロントエンド)やからこれ自体にはAIは内蔵されてないから注意してな
好きなAPIやローカルモデルと接続して使うんやで

0007名無しさん＠ピンキー

2024/12/26(木) 13:17:39.70ID:Vhp+tTX0

例としてKoboldで起動したローカルモデルとSillyTavernを接続する設定や
先にいつもどおりKoboldを起動してな

SillyTavernのプラグのアイコンをクリック
APIに Text Completion を選択
API Typeは KoboldCpp
API keyは不要
API URLに http://localhost:5001/
これでいける

0008名無しさん＠ピンキー

2024/12/26(木) 13:17:57.73ID:Vhp+tTX0

●多くのモデルには「base」と「instruct」の2種類があるで
baseはチューニングされていない、与えられた文書の続きを垂れ流すモデルやで
instructはchatGPTのように対話して質問に答えるようチューニングされたAIやで

0009名無しさん＠ピンキー

2024/12/26(木) 13:18:04.01ID:Vhp+tTX0

⚫︎LLMを動かすにはGPUを使う方法とCPUを使う方法があるで
GPUを使う場合は比較的速く動くけど、VRAM容量の大きなグラボが必要になるで
CPUを使う場合はグラボが不要でメインメモリのRAMを増やすだけで大きなモデルが動かせるというメリットがあるけど、動作速度はGPUよりは落ちるで

0010名無しさん＠ピンキー

2024/12/26(木) 13:18:12.93ID:Vhp+tTX0

⚫︎LLMモデルには量子化されてないsafetensorsファイルと、8bitや4bitなどに量子化されて容量が小さくなったものがあるで
量子化モデルにはGGUFやGPTQなどの種類があるで
基本的にはCPU (llama.cpp)で動かす場合はGGUF、GPUで動かす場合はGPTQを選べばええで

0011名無しさん＠ピンキー

2024/12/26(木) 13:18:20.52ID:Vhp+tTX0

⚫︎LLMモデルは既存のbaseモデルを元に自分で学習(ファインチューニング)させることもできるで
画像AIのようにLoRAファイルとして学習結果を保存したりLoRAを読み込むこともできるで

0012名無しさん＠ピンキー

2024/12/26(木) 13:18:28.79ID:Vhp+tTX0

●高性能なPCがないけどLLMを試したい人や大きなモデルを速く動かしたい人はpaperspaceなどのクラウド環境を使うのも手やで

0013名無しさん＠ピンキー

2024/12/26(木) 13:18:35.28ID:Vhp+tTX0

●モデルのサイズ(パラメータ数)は◯B (B=billion=10億)という単位で表記されるで
例えば7Bのモデルを読み込むなら量子化しない場合は約14GB、8ビット量子化の場合は7GB、4ビット量子化の場合は3.5GBのメモリまたはVRAMが必要になるで
基本的にはBが大きいほど性能が高いで

0014名無しさん＠ピンキー

2024/12/26(木) 13:21:20.99ID:Vhp+tTX0

●ここ最近話題になった日本語ローカルモデル達やで

LightChatAssistant(通称LCA)
このスレのニキが3月にリリースして激震が走った軽量高性能モデルや
>>5のツールもこのモデルの使用がデフォルトやで
非力なPCでも走るしまずはこの辺りから試すのを薦めるで
https://huggingface.co/Sdff-Ltba

Ninja/Vecteus
オープンソースの強力な日本語小説生成AIを開発しとるLocalNovelLLM-projectの皆さんによるモデル群や
リリースされたばかりやがこちらも軽量高性能やで
開発も続いとるようやから今後の動きにも要注目や
https://huggingface.co/Local-Novel-LLM-project

0015名無しさん＠ピンキー

2024/12/26(木) 13:21:36.48ID:Vhp+tTX0

●その他の最近話題になったモデルも挙げとくで
動きの速い界隈やから日々チェックやで

Mistral-7B系:
LightChatAssistant
Antler-7B-RP
Japanese-Starling-ChatV
Antler-7B-Novel-Writing
SniffyOtter-7B-Novel-Writing-NSFW
Ninja-v1
Vecteus-v1
Berghof-NSFW-7B-i1-GGUF

Llama2-70B系:
karakuri-lm-70b-chat-v0.1
karakuri-MS-01

Llama3-70B系:
Smaug-Llama-3-70B-Instruct-abliterated-v3

Cohere系:
c4ai-command-r-v01 (35B)
c4ai-command-r-plus (104B)

0016名無しさん＠ピンキー

2024/12/26(木) 13:27:46.54ID:Vhp+tTX0

こんな感じかな
モデル一覧は若干古くなりつつありそう
anthracite-orgのmagnumシリーズとかは追記しておくべきかな？
[anthracite-org (Anthracite)](https://huggingface.co/anthracite-org)

0017名無しさん＠ピンキー

2024/12/26(木) 13:40:16.43ID:???

>>16
いちおつ

0018名無しさん＠ピンキー

2024/12/26(木) 13:44:46.69ID:???

乙乙
magnum v4 123bが今の所最強かな
メモリ64Bで動かせるギリ最良量子化サイズがiQ3k_m

0019名無しさん＠ピンキー

2024/12/26(木) 13:46:05.88ID:???

ミス
iQ3_Mだわスマン

0020名無しさん＠ピンキー

2024/12/26(木) 18:28:41.46ID:???

おつおつ

0021名無しさん＠ピンキー

2024/12/26(木) 18:51:50.64ID:jsaRaPor

いちおつ
はよgemma3とかの新モデル出んかねぇ

0022名無しさん＠ピンキー

2024/12/26(木) 18:51:54.20ID:???

マグナムって日本語ではないよな？
123bだとVRAMに全然収まらんし70Bクラスでいい感じの日本語モデル来て欲しいわ
Llama-3.3-SuperSwallow-70B-Instruct-v0.1 っての出てるから試すぜ

0023名無しさん＠ピンキー

2024/12/26(木) 19:12:40.61ID:???

(70Bも全然収まら)ないです😡

0024名無しさん＠ピンキー

2024/12/26(木) 19:18:00.86ID:???

>>22
日本語(エロ)で最強やで
英語最強クラスなら他にいっぱいある

0025名無しさん＠ピンキー

2024/12/26(木) 20:03:54.09ID:???

https://gigazine.net/news/20241226-nvidia-geforce-rtx-5090-pcb/
次期NVIDIAのRTX 5090はVRAMが32GBらしいよ
64GBぐらいの出してくれないかなー

0026名無しさん＠ピンキー

2024/12/26(木) 20:40:00.50ID:???

5090×2でmagnum123BのiQ3Mがギリ乗るわけか…
帯域も1.8TB/secなんでしょ
4090の1.8倍速かあ
夢が広がりんぐ…

0027名無しさん＠ピンキー

2024/12/26(木) 20:40:38.68ID:???

ネット記事に
llm-jp-3-172b-instruct3
ってのが流れてきた

日本製なら日本語強いんじゃね？って期待は結構してるんだよなぁ

0028名無しさん＠ピンキー

2024/12/26(木) 21:34:24.08ID:???

>>27
ここのはいままでパッとしなかったからなぁ・・・

0029名無しさん＠ピンキー

2024/12/26(木) 21:38:11.38ID:jsaRaPor

さすがに172bあるからベンチでは最高クラスだよ
学習トークン少ないからモデルサイズで考えるともっといいの出て来るけど

0030名無しさん＠ピンキー

2024/12/26(木) 21:44:10.35ID:Y9WnaplU

ベンチでは最高クラスに今までどれだけ騙されてきたか、特に日本産は酷い

0031名無しさん＠ピンキー

2024/12/26(木) 21:47:16.63ID:???

日本産でいままで満足できたのは初代karakuri-70bだけだった

でも興味あるから、どっかでデモできないかな

0032名無しさん＠ピンキー

2024/12/26(木) 23:23:20.09ID:???

いちおつ

公開してくれるのはとても嬉しいんだけど172bでGPT3級なのね
試してみたいけどいままでの日本語モデルはMetaが片手間に作ってくれたLLMのほうが性能よかったしな...
Metaの新しい言語に(あまり)依存しない研究に期待。来年くらいにでそうだし。

0033名無しさん＠ピンキー

2024/12/26(木) 23:55:49.78ID:???

立て乙だ

>>26
消費電力600W×2とか、GPUだけで結構な電気代になるぜ・・・？

0034名無しさん＠ピンキー

2024/12/27(金) 00:55:27.43ID:???

>>33
600MAXなわけであって1200W使うかと言われれば多分そうじゃないから安心しとけ。
今までのマルチGPU環境とかデータセンターとかもそうだが無謀なことしない限りはカタログスペック上の消費電力なんてまぁ100パーでも出ることない。

この辺は車の燃費と一緒でちょっとかけ離れてる。ある程度ボーダーで書いておくのはいいことかもしれんが…(CPUは青天井)

0035名無しさん＠ピンキー

2024/12/27(金) 00:57:49.22ID:???

まぁいうてLLMでGPU100%使い切るかどうかはさておいて500W前後x2あたりだからかなりキツそうではある

0036名無しさん＠ピンキー

2024/12/27(金) 01:05:18.60ID:???

よそのやつを日本企業がチューニングしたパターンが1番精度良さそうなんやけどな

0037名無しさん＠ピンキー

2024/12/27(金) 01:19:03.65ID:???

例えば4090ってPL60%にすると消費電力は270W前後まで下がる
そんで性能はというと6%程度しか下がらん
これはゲーミング性能の事だからLLMだともっと影響低いと思う
なので5090もPL60%にすれば多分400W以下で不自由無く使えるはず

0038名無しさん＠ピンキー

2024/12/27(金) 05:42:43.26ID:mvFMk8yO

7B以下で良いモデルが大量に出てこないかぎりローカルは盛り上がらんだろうなあ
そろそろLLMに食わせるデータが無くなるって話だし
効率化の研究が進むといいんだが

0039名無しさん＠ピンキー

2024/12/27(金) 08:35:51.08ID:???

賢いままでもっとサイズを圧縮する技術や
ハードウェア側で大きなサイズを高速に動かす技術
この辺の進展に期待したい

0040名無しさん＠ピンキー

2024/12/27(金) 12:08:31.06ID:axyx5LTS

モデルのファイルが壊れる場合ってハードウェア要因以外である？
koboldでメモリが足りないってエラー出たんで、
ファイル落とし直したら直ったけど、MD5値調べたら一致してなかった

0041名無しさん＠ピンキー

2024/12/27(金) 12:48:05.43ID:???

>>22
https://imgur.com/a/hDs72MT

magnum v4 123b iQ3_Mの作例
Q6_Kならもっと精度あがるんだろな

0042名無しさん＠ピンキー

2024/12/27(金) 12:56:25.23ID:???

星形のアザでジョジョ？ってなったわw

0043名無しさん＠ピンキー

2024/12/27(金) 22:22:25.41ID:???

deepseek apiはエロいけるとのうわさ

0044名無しさん＠ピンキー

2024/12/27(金) 22:44:52.73ID:???

>> 43です
軽めのエロだったら拒否されなかったです。明日また試します

0045名無しさん＠ピンキー

2024/12/27(金) 23:14:55.32ID:???

精度も気になる

0046名無しさん＠ピンキー

2024/12/28(土) 07:59:44.22ID:???

>> 43,44です
deepseek api。エッチは普通にできた。温度を1.5くらいにすると良くなる
激しいのとか、表現力はまだわからない
頭の良さはgpt-4o並みとのこと

0047名無しさん＠ピンキー

2024/12/28(土) 10:42:26.66ID:???

>>38
アメリカからグラボ制裁されてる中国が少量の計算資源で効率的に推論する技術を発明するとか、bitnetやphi系モデル開発して小規模言語モデルに注力しるMicrosoftに期待したい

0048名無しさん＠ピンキー

2024/12/28(土) 15:27:00.62ID:L24a2Ks4

deepseekも感じさせすぎるとcommand r的な言葉の連続になっちゃうな
まあ、しょうがないか

0049名無しさん＠ピンキー

2024/12/28(土) 16:57:06.37ID:???

cyberagentのMistral-Nemo-Japanese-Instruct使ってる人っている？
日本語RPのベンチ見てたらスコアくそ高かったんで感触いいならabliteratedしてファインチューニングしようと思うんだけれども

0050名無しさん＠ピンキー

2024/12/28(土) 20:17:12.51ID:???

Abliteratedって日本語モデルにも有効なんか？

0051名無しさん＠ピンキー

2024/12/28(土) 21:11:57.05ID:???

思考を抑制する技術だから日本語モデルでも使えるよ

0052名無しさん＠ピンキー

2024/12/28(土) 23:26:08.96ID:???

またスクリプト湧き出したみたい
戻んないで良かったねｗ

0053名無しさん＠ピンキー

2024/12/29(日) 00:30:02.06ID:???

>>49
あの処理って、７０Bクラスのモデルだとどのくらいのメモリ必要なのかな？

0054名無しさん＠ピンキー

2024/12/29(日) 01:06:43.56ID:???

>>53
モデルサイズ分のメモリがあればいけるよ
やってることは単純で、推論→拒否部分を特定→拒否部分を無効化して保存だから

0055名無しさん＠ピンキー

2024/12/29(日) 07:48:58.40ID:???

>>54
おー
と言うことは既存のデータセットに日本語でヤヴァイ指示入れまくったらさらに無力化出来るってことか

0056名無しさん＠ピンキー

2024/12/29(日) 21:39:39.82ID:Xq5dA+eo

それで効果あったら面白いな
どんな質問にもエロを見出す脳内ピンクモデルとか作れそう

0057名無しさん＠ピンキー

2024/12/29(日) 22:09:43.39ID:wNMTdH61

Mistral-Nemo使ってるよ。普通に賢いし、特に小説の一節を読ませて質問に答えさせるとかの長文読解をさせると、他のモデルと比べて格段に長い問題を読めるし良い感じに解ける
お手軽に使えるサイズのモデルだと今でもトップクラスだと思うよ。日本語トークンを学習してるのも嬉しい所

0058名無しさん＠ピンキー

2024/12/29(日) 23:53:49.34ID:???

>>57
それは素のmistral-nemo？それともcyberagentが再学習したやつ？
もしcyberagentのなら素のnemoと比べて日本語能力やRP能力に差を感じるか教えてくれると助かる

0059名無しさん＠ピンキー

2024/12/30(月) 06:46:39.99ID:???

Mistral-Nemo-Japanese-Instruct-2408.Q8_0
Mistral-Nemo-Instruct-2407-Q8_0 (imatrix)
Mistral-Nemo-Instruct-2407-abliterated.i1-Q6_K (imatrix)
の３つ試してきた。
RPじゃなくて、1000文字程度の小説書かせただけだけど。
全部koboldのLegacyの値使ったけど、cyberagentが一番日本語能力低く感じたよ。
ストーリー展開と会話も他2つの方が好み。

0060名無しさん＠ピンキー

2024/12/30(月) 10:58:16.86ID:???

和製だめみたいで悲しいよ

0061名無しさん＠ピンキー

2024/12/30(月) 12:29:00.88ID:DCZZty0k

アドバイスお願いします。
漫画のセリフを別キャラのセリフとして変換するのにオススメモデルはありますか？

rtx4090でメインメモリ64GBを使ってます。
現状はローカルでエロセリフはBerghof-NSFW-7B、
非エロのセリフはperplexltyを使ってます。

0062名無しさん＠ピンキー

2024/12/30(月) 12:33:00.79ID:???

完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開
～GPT-3.5を超える性能を達成～
https://www.nii.ac.jp/news/release/2024/1224.html

これが先週のニュースだからな
国の金つかってこんなしょぼいLLM作ってるんだから日本は

0063名無しさん＠ピンキー

2024/12/30(月) 13:00:36.74ID:???

しかもフルスクラッチで始めて日本語ベンチでgpt3.5並て（笑）
下手糞すぎひん？

0064名無しさん＠ピンキー

2024/12/30(月) 13:21:07.77ID:???

nicky氏のsuperswallowXをメモリ96G積んでるニキ、例の規制解除処理しておくれでやんす

0065名無しさん＠ピンキー

2024/12/30(月) 13:36:06.70ID:???

ちなAbliteratedは4bit推論も可能なんでメモリ弱者にも優しい仕様になってるで

0066名無しさん＠ピンキー

2024/12/30(月) 18:57:55.66ID:???

大規模モデルは信じられないぐらい金かかるから簡単には出来ないとはいえ淋しい結果だな

0067名無しさん＠ピンキー

2024/12/30(月) 19:45:36.86ID:???

お
swallow v0.3出てたのか

0068名無しさん＠ピンキー

2024/12/31(火) 11:30:01.67ID:???

メイドイン日本政府

0069名無しさん＠ピンキー

2024/12/31(火) 12:07:35.15ID:ze/4uz85

DeepSeekV3の普及速度えぐいわ
あっという間にSonnetとかレベルで利用されだしてる
https://i.imgur.com/tCVMetL.jpeg

0070名無しさん＠ピンキー

2024/12/31(火) 13:45:47.51ID:???

AIサービスはdeepseekv3一択になりつつある
高性能だし安い
LLMチャットサイトも大半が移行してる

0071名無しさん＠ピンキー

2024/12/31(火) 14:09:03.42ID:???

安さがぶっちぎりなんだよな
価格で対抗できそうなのはawsのやつくらいか

0072名無しさん＠ピンキー

2024/12/31(火) 15:26:50.21ID:???

deepseekのベンチがいいのは分かったけど実際はどうなの？🤔

0073名無しさん＠ピンキー

2024/12/31(火) 15:28:56.63ID:???

>>72
英語ならかなり良い
日本語は…？
翻訳して使おう

0074名無しさん＠ピンキー

2024/12/31(火) 15:53:35.97ID:???

>>72
AI realmってサイトでちょっとだけ使えるよ

0075名無しさん＠ピンキー

2024/12/31(火) 18:01:07.30ID:ze/4uz85

DeepSeekV3、OpenRouterを介してSillyTavernで試してみたけど
日本語もだいぶ話せると思うよ。多言語対応してるのは偉い(ふつうに申し訳されるけど)
3.5Sonnet超えてるかというとコーディング領域じゃ微妙だけど会話とかは結構イケてると思う
オープンウェイトだからローカルでも動かせる!(動かせるとは言ってない)

0076名無しさん＠ピンキー

2024/12/31(火) 19:00:48.40ID:???

DeepseekAPIは激安のcohereAPIより更に激安なのがいい
というかチャットだとcohereでも結構かかる

0077名無しさん＠ピンキー

2024/12/31(火) 19:45:59.10ID:???

モデルの規制解除試してるんだけど、parquetファイルを追加する手段ってなかなかないのね
どっかいいのないかな？

0078名無しさん＠ピンキー

2024/12/31(火) 20:02:02.86ID:???

chatgptとかに.txtを読み込むようにして～ってお願いすればやってくれるで

0079名無しさん＠ピンキー

2024/12/31(火) 21:19:05.08ID:???

DeepSeek V3をローカルで動かすならMacクラスターが良いらしい
Macはメモリは優秀だけどGPUがショボくて今までのLLMだと遅すぎて使い物にならなかった
でもDeepSeek V3のMoEモデルはそんなMac相性が良くてかなり高速に動くみたい
https://blog.exolabs.net/day-2/

0080名無しさん＠ピンキー

2025/01/01(水) 01:25:05.09ID:???

>>65
.bitsandbytesがcpu量子化に対応してないから、メモリ64Gの環境では無理ですた
macメモリ増し増しのニキ頼むー
swallow v0.3 70Bが規制なくなればかなり良さげなんだわ

0081名無しさん＠ピンキー

2025/01/01(水) 13:48:26.33ID:???

>>79
4bit量子化とはいえ、671Bとはすごいね
しかも5.37token/sもでるのはMoEモデルならではとな
その構成のM4 pro 8台なら270万円〜 ww
でも研究者用にはよさそうだ
Apple のAIサーバーはM2 Ultraを並べてて色々欠点をあぶり出していて
その結果M5からGPUがAI向けにチューニングされているという噂
でもM4 maxがでたら我慢できないかも

0082名無しさん＠ピンキー

2025/01/01(水) 14:01:05.46ID:???

>>81
270万円は高くはあるけどNvidiaでこのメモリサイズ揃えるよりは圧倒的に安いんだよな

0083名無しさん＠ピンキー

2025/01/01(水) 17:56:49.81ID:DMpXKIh6

>>58
ごめんよく読んでなかった、素のmistral-nemoの方だわ
オリキャラ数人とパラメータいじりつつ会話してみたけど、cyberagent版の方が言葉遣いとかは自然だけどRPの演じ分けはあまり上手くない気がする

素の方は設定に忠実な、悪く言えば設定をなぞっただけの、翻訳文みたいな味気ない会話文を出すことがしばしばあるけど、総合的なPR能力はまあまあある方だと思う
cyberagentの方は会話の表現力自体は高いんだけど、どうにもチャットAIの回答に味付けしてくれるって感じで、特に無口系のキャラとかチャットAIと方向性が違う性格になると途端に忠実さが下がる
キャラなりきりチャットで遊ぶなら、多少表現が固くても素の方を選ぶかな

あと長文読解に関しては、素の方が圧勝だわ。まあこれに関してはほとんどの人は興味ないだろうけど……書きかけのテキストまとめる用途とかに便利なんだよ
素のmistral-nemo Q8_0だと、4.5万トークン(4bit/8bitキャッシュでVRAM16GB)くらいの小説を読ませて質問してもまともに説明できるし、説得力のある解説や解釈を入れてくれる
Q4_K_Mで8.5万トークンの小説読ませた時も日本語としてギリギリ成立するくらいの文章が出せたから、Q8とかFP16ならちゃんと応えられそうな気がする
cyberagent版やmagnum、phi-4とかのモデルだと3万トークン以下でも日本語として全く成立しないくらいに破綻するから、やっぱり素のmistral-nemoは総合的なポテンシャルがかなり高いと思う

0084名無しさん＠ピンキー

2025/01/01(水) 18:35:25.47ID:???

>>83
はえ～勉強になるわ
ワイEasyNovelAssistantをちらっと触っただけなんやけど
小説を読ませて質問、てどういう風にやるんやろか？

イラストスレでも前スレ食わせてまとめさせとるニキおるし
めちゃロマン感じるんや
青空文庫から江戸川乱歩や吉川英治読ませて明智探偵や曹操丞相と会話したいんコ゚

0085名無しさん＠ピンキー

2025/01/01(水) 18:42:55.89ID:???

あと「そちら荊州借りパクしてますよね？」と魯粛先生の代わりに孔明を説い正したい
でも本気で罵倒してきたら王朗みたいに血ぃ吐いて憤死するかもしれんけど
楽しみでしょうがないんや

0086名無しさん＠ピンキー

2025/01/01(水) 22:09:23.10ID:???

2024年は大変お世話になりました。
ENA初心者いるっぽいんで、役立ちそうなこと書いときます。

・huggingfaceからDLしたgguf使いたい！
ggufが保存されているフォルダ（自分の環境だとKoboldCpp）に入れて、
ファイル名をVecteus-v1-IQ4_XS等、ENAからＤＬできるファイル名に置き換えると使えます。
jsonファイルを書き換える方法もあるっぽいけど、この方法で困ったことないです。

・localhostにアクセスしてKoboldAI Liteを使おう！
モデル読み込んだら一番下にURL出てくるはず。
ENAだと温度しか設定変更できないが、こっちだと色々なSamplersが変更可。
（コンテキストサイズはENAからのみ変更可）。
Sampler Presetの下部にあるLegacy設定がおすすめ。

XTC、DRY、Min-pを変更するのが最近の主流らしい。
まだ使いこなせてないので、良い値あったら教えてください・・・

0087名無しさん＠ピンキー

2025/01/01(水) 22:53:14.77ID:???

>>59,83
わざわざ検証サンクス
やっぱり元々日本語喋れるモデルに日本語チューニングしてもあんま意味ないんやろな
>>84
EasyNovelAssistant使ってるならkoboldcppってのが入ってるはずだからそれを立ち上げてcontext sizeをデカく&tokensタブからkvキャッシュの量子化をしてコンテキスト長が長いモデル(mistral-nemoとか)を起動
そしてlocalhost:5001に行けばGUIが立ち上がるからそこに長文ぶち込んで質問すればええよ

0088名無しさん＠ピンキー

2025/01/02(木) 01:39:59.73ID:eWlWc+tE

>>84
Oobabooga / Text generation web UI 使ってる。>>87ニキの通りEasyNovelAssistantでもできるはず
Mistral-NemoのQ8版をダウンロードしてきて、フォルダごとmodelフォルダに入れて、Web-uiのModelタブで設定を調整してロードすればOK
n_ctxの値が消費VRAM量に直結するから、そこはVRAMに合わせて調整してもろて。16GBなら4.5万トークンまではVRAMに乗り切ると思う
https://i.imgur.com/G0YjNQF.jpeg

ロードできたらDefaultタブか、NotebookタブのRawを開いて、こんな感じのプロンプトの中に小説や文章を貼り付けてGenerateすれば読解してもらえる
https://pastebin.com/UJE6muvi
プロンプトは以前やっつけで作ったヤツだから、適宜直してな

後は好きに質問したり、要約させたり、「（登場人物）は、こういう時にどう思いますか？」って聞いたり、「（シチュエーション）の台詞を考えて書きなさい」って指示すればいい
長文やってる人は少ないから、何か面白い会話とか出たら共有してくれると嬉しいで

0089名無しさん＠ピンキー

2025/01/02(木) 02:16:53.93ID:???

>>87>86>88
丁寧にサンガツやで！
EasyNovelAssistantの最大文字数？くらいしかいじったことないんやけど
全然足りとらんかったのね……画像までありがとう、やってみるで

LLMうまい人は質問の仕方や出力フォーマット指定も上手なんやろな
ワイは電子書籍化したpdfとか山とあるんやが、歴史系の専門書はまだ裁断しとらんのや
検索性は紙媒体が優れてるけど部屋にはもう置けんし、AIが司書さんになってくれたら
本処分して引っ越しも楽になるし
LLMの進化は楽しみなんや

0090名無しさん＠ピンキー

2025/01/02(木) 06:32:03.34ID:???

86だけど、ちゃんと調べたらDRYとXTCの考案者pew氏がおすすめの値公開してた・・・
https://github.com/oobabooga/text-generation-webui/pull/5677
https://github.com/oobabooga/text-generation-webui/pull/6335

Min-p:0.02、rep_penなし、DRY（mult:0.8、base:1.75、A_len:2）、XTC(threshold:0.1、probability:0.5)
らしい。

0091名無しさん＠ピンキー

2025/01/02(木) 09:12:24.50ID:???

まじかこれ
https://x.com/koltregaskes/status/1874535044334969104
- Claude 3.5 Sonnet (2024-10-22) = ≈175B
- ChatGPT = ≈175B
- GPT-4 = ≈1.76T
- GPT-4o (2024-05-13) = ≈200B
- GPT-4o-mini (2024-05-13) = ≈8B
- o1-mini (2024-09-12) = ≈100B
- o1-preview (2024-09-12) = ≈300B

0092名無しさん＠ピンキー

2025/01/02(木) 10:38:52.94ID:UaaINJ/a

GPT-4 = 8x220B = 1.76T のMoEなのか
4oのマルチモーダルは精度えぐいからまぁええけどLLM性能だけ見たらなんか劣化してそうだな

0093名無しさん＠ピンキー

2025/01/02(木) 10:40:45.45ID:???

実際に4oは最初なんだこりゃってなったからな
コーディング向けというか、とにかく事務的で人と話してる感が4よりも遥かに劣っていた
今もそうだけど

0094名無しさん＠ピンキー

2025/01/02(木) 11:12:56.29ID:???

ローカルLLMとパラ数が大差ないことが驚き
下手したら個人のPCでもGPT-4oが動かせそう

0095名無しさん＠ピンキー

2025/01/02(木) 11:47:39.71ID:???

推定値ってはっきり画像に書いてあるんで鵜呑みにしない方がいいよ
さすがに4o-miniが8bは賢すぎる

0096名無しさん＠ピンキー

2025/01/02(木) 12:16:18.99ID:???

蒸留の研究が進んでるんだろうな

0097名無しさん＠ピンキー

2025/01/02(木) 12:55:45.88ID:???

8BぐらいならモデルをうっかりHuggingfaceにリークしてほしい
いつも情報をうっかりリークするOpenAIさん

0098名無しさん＠ピンキー

2025/01/02(木) 12:59:09.81ID:???

この人のツイートを見る限り、小型モデルをトレーニングしていくのではなく
巨大モデルを作成してから何らかの軽量化して小型モデルを作ってるのかな
https://x.com/shanegJP/status/1866893458247651518

0099名無しさん＠ピンキー

2025/01/02(木) 13:06:20.22ID:???

巨大モデル作成→枝刈りが軽量モデルの訓練最適解だとすればローカルLLM界隈は厳しい状況にある気がする
大規模なグラボがないと軽量かつ高性能なモデルが作れない

0100名無しさん＠ピンキー

2025/01/02(木) 13:12:14.62ID:???

7Bモデルまで軽量化する時にオホ声やメスガキの枝を大事に残してるとか草

0101名無しさん＠ピンキー

2025/01/02(木) 14:17:16.38ID:???

なのに最初から小さいモデルを作る日本メーカーさんて😅

0102名無しさん＠ピンキー

2025/01/02(木) 14:22:31.43ID:???

確かに文字の出てくる速度からして相当パラメータ数少なそうだなとは思ってたけど
もし本当に8bなのだとするとローカル界にもかなり希望があるってことにはなるなぁ

0103名無しさん＠ピンキー

2025/01/02(木) 14:33:27.02ID:???

言ってることが正しくても投資家の文字が出てくると胡散臭さが5割増に見える不思議

■ このスレッドは過去ログ倉庫に格納されています