なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★4
https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ >>84
Oobabooga / Text generation web UI 使ってる。>>87ニキの通りEasyNovelAssistantでもできるはず
Mistral-NemoのQ8版をダウンロードしてきて、フォルダごとmodelフォルダに入れて、Web-uiのModelタブで設定を調整してロードすればOK
n_ctxの値が消費VRAM量に直結するから、そこはVRAMに合わせて調整してもろて。16GBなら4.5万トークンまではVRAMに乗り切ると思う
https://i.imgur.com/G0YjNQF.jpeg
ロードできたらDefaultタブか、NotebookタブのRawを開いて、こんな感じのプロンプトの中に小説や文章を貼り付けてGenerateすれば読解してもらえる
https://pastebin.com/UJE6muvi
プロンプトは以前やっつけで作ったヤツだから、適宜直してな
後は好きに質問したり、要約させたり、「(登場人物)は、こういう時にどう思いますか?」って聞いたり、「(シチュエーション)の台詞を考えて書きなさい」って指示すればいい
長文やってる人は少ないから、何か面白い会話とか出たら共有してくれると嬉しいで >>87>86>88
丁寧にサンガツやで!
EasyNovelAssistantの最大文字数?くらいしかいじったことないんやけど
全然足りとらんかったのね……画像までありがとう、やってみるで
LLMうまい人は質問の仕方や出力フォーマット指定も上手なんやろな
ワイは電子書籍化したpdfとか山とあるんやが、歴史系の専門書はまだ裁断しとらんのや
検索性は紙媒体が優れてるけど部屋にはもう置けんし、AIが司書さんになってくれたら
本処分して引っ越しも楽になるし
LLMの進化は楽しみなんや 86だけど、ちゃんと調べたらDRYとXTCの考案者pew氏がおすすめの値公開してた・・・
https://github.com/oobabooga/text-generation-webui/pull/5677
https://github.com/oobabooga/text-generation-webui/pull/6335
Min-p:0.02、rep_penなし、DRY(mult:0.8、base:1.75、A_len:2)、XTC(threshold:0.1、probability:0.5)
らしい。 まじかこれ
https://x.com/koltregaskes/status/1874535044334969104
- Claude 3.5 Sonnet (2024-10-22) = ≈175B
- ChatGPT = ≈175B
- GPT-4 = ≈1.76T
- GPT-4o (2024-05-13) = ≈200B
- GPT-4o-mini (2024-05-13) = ≈8B
- o1-mini (2024-09-12) = ≈100B
- o1-preview (2024-09-12) = ≈300B GPT-4 = 8x220B = 1.76T のMoEなのか
4oのマルチモーダルは精度えぐいからまぁええけどLLM性能だけ見たらなんか劣化してそうだな 実際に4oは最初なんだこりゃってなったからな
コーディング向けというか、とにかく事務的で人と話してる感が4よりも遥かに劣っていた
今もそうだけど ローカルLLMとパラ数が大差ないことが驚き
下手したら個人のPCでもGPT-4oが動かせそう 推定値ってはっきり画像に書いてあるんで鵜呑みにしない方がいいよ
さすがに4o-miniが8bは賢すぎる 8BぐらいならモデルをうっかりHuggingfaceにリークしてほしい
いつも情報をうっかりリークするOpenAIさん この人のツイートを見る限り、小型モデルをトレーニングしていくのではなく
巨大モデルを作成してから何らかの軽量化して小型モデルを作ってるのかな
https://x.com/shanegJP/status/1866893458247651518 巨大モデル作成→枝刈りが軽量モデルの訓練最適解だとすればローカルLLM界隈は厳しい状況にある気がする
大規模なグラボがないと軽量かつ高性能なモデルが作れない 7Bモデルまで軽量化する時にオホ声やメスガキの枝を大事に残してるとか草 なのに最初から小さいモデルを作る日本メーカーさんて😅 確かに文字の出てくる速度からして相当パラメータ数少なそうだなとは思ってたけど
もし本当に8bなのだとするとローカル界にもかなり希望があるってことにはなるなぁ 言ってることが正しくても投資家の文字が出てくると胡散臭さが5割増に見える不思議 macってメモリをGPUにシフトできるけど、koboldとかで使う場合GPUレイヤーに載せた方が速いの?
同じユニファイドメモリなんだからcpuモードでも同じと思ってたけど違うんかな? >>91
信じられないな
4o-miniがローカルで動かせるとは思えん >>104
CPUモードだと演算をCPUでやるのでは? 理論的にはエロ性能に特化した4o-miniをローカルで動かすことも不可能ではない
誰か頭が良くてエロい人頼んだ >>104
CPUとGPUではアクセスの粒度がぜんぜん違うので
MMUに対して領域を指定してその部分DRAMバンクのアクセス方法が切り替わる
(画面表示の時の読み出し割り込みが定期的にかかるから違うバンクのほうが予測率あがる)
さらにM3以降はそこの改良が進んでてダイナミックキャッシュの圧縮もしている
どうやって圧縮しているかはみつからんかった。最大2倍という広告は見たけど wabisabiで4000超えたあたりから文章がぶっ壊れるな
context sizeは8192にしてるんだけど wabisabiで4000超えたあたりから文章がぶっ壊れるな
context sizeは8192にしてるんだけど cohereのaya exp 8bはしゃべり方とかだいぶ4o-mini的かも
ただもとが優等生的なキャラなのでエロいのが好きな人は物足りないかも 尻タブだと問題ない
koboldだとぶっ壊れる
chat modeがダメなのか? アダルトなフォルダ群と、それに対応するサムネ画像群があります。両者のファイル名は表記揺れが多かったり、無駄に日付やバージョンが追記されていたりします。サムネ画像群をlsして200行ごとにA〜Kへと分けています。
AIに対して一つのフォルダ名とサムネ画像群ファイル名リストAを渡し対応しそうな名前を返してもらう、という処理をローカルで行いたいです。
powershellとkoboldcppでこういった処理は実現できそうでしょうか? LLMとしりとりするの難しいな……GPTでも上手くいかないことがあるぞ >>113
フォルダ名から画像ファイル名探すだけならkoboldにファイル名リストぶち込んで質問でもいいんじゃね
ちゃんとやるならベクトルDB構築することになるけど
>>114
トークン化されてるからね
strawberry問題と同じよ >>115
GPTだとちゃんと語尾を取ってくれるんだけど
「ん」で終わってしまったときの仕切り直しでおかしくなるんだよね
AI:「メロン」!
俺:「ン」で終わったらダメだよ!
AI:あ、すみません!「メロン」の「ン」ですね。じゃあ、「ノート」!
みたいな感じで
アホなLLMはそもそも全くしりとりが成立しない aya
cohereのとこだし似たようなもんだろって思ってたけどCR+よりは賢い気がする
ただ、軽めのマグナムが現状やっぱ最強
重いのも一応動くけどおっっそいし、俺調教モノがしたいからレスポンス早いの大事なんよなぁ たしかに並のLLMだとしりとりダメだったわ面白い
QwenとかCohereとかだと単に似てる単語を返したりしてくる
4oとかClaudeレベルじゃないとルール理解してくれんかった 尻タブでAPIからDeepSeek試してみたけど、いまいちだな…
同じような繰り返しばかりだし、LLMにありがちな明るい未来病をにおわせるフレーズが多くて響かん
設定煮詰めたらましになるのか? ワイもSillyTavernでDeepSeekV3試したけど
同じ語句くりかえしたり出力途中で途切れたり長い文章の出力途中で違う言語になったり
みたいな挙動は確認した 俺もdeepseekのapi呼び出しで全く同じ症状出てるわ
繰り返しと文章の破綻
とてもじゃないけどこれがclaude越えはない
apiクレジット多めに買っちまったよちくしょう ayaは32bのモデルもあって、それを蒸留したのが8bだと思う >>apiクレジット多めに買っちまったよちくしょう
(´・ω・`)人(´・ω・`)ナカーマ 文章出力変のはトークナイザーやらテンプレートの設定を間違ってるからだろ そういう設定ってどこかにまとまってたりすんのかな
というかどう詰めていけばいいのか謎 Magnumの派生で色々試してたら気に入ったモデル見つけたわ >>126
そこらへんの情報ググっても全然出てこないよな
chatGPTに頼んでもまともな答えが返ってこないし
何がどう間違ってるのか確かめる方法と基準が分からん reddit以外だとDiscordとかになるんかね
Googleはオワコンだし、LLMの知識はそこの情報食ってウンコ出してるようなものだからもっと使えん ローカルがパワー不足(12GB)だから月課金のサービス使ってMagnum72B動かしたけど、当然ながら12Bより理解度高い上にキチンと下品な対応をしてくれるね…… mradermacher/Writer-Large-2411-v2.1-i1-GGUF
期待してたこれようやくimatrix量子化してくれて感謝
小説特化のせいか評価問題は指示がうまく入らなかったけど、なんか知らんが隠語表現がぶっ飛んでたわw >月課金のサービス
LLM用途だと、どこがお勧め? 【Claude3】ChatGPTでオナニー ★51【AI】
https://mercury.bbspink.com/test/read.cgi/onatech/1735603890/
同じ板のこっち行ったほうが早いぞ
熟練の変態達が色んなサービスをためしてる >133
infermatic.ai、arliai、groq、together.aiなどなどあるけど、自分はinfermatic.ai使ってる
使用できるモデルは少なめだけど、定額使いたい放題だからね…他のは単発で使うなら安いけど使用のたびに費用かかるのが合わない 今のとこLyra Gutenbergs Twilight Magnum 12bに落ち着いてる
軽くてレスポンス早いし、NGないし、文章のクオリティも結構高め
よくミスるけどLMStudioなら介入しやすいし、早いから再出力もさせやすい
>>132
試してみたけど悪くないな。地の文は良い感じ
セリフがちょっと堅い気もするけど 俺はこれに落ち着いた。
Lumimaid-Magnum-v4-12B.Q6_K 12Bなんて俺の12GBグラボじゃ動かん
羨ましい 量子化すれば12bモデルも6gbになって余裕で動くようになるで 12gbで12bは余裕ぞ
というかそのぐらいまでがベストなサイズ感すらある 3060 12Gで問題なく動く→12B Q6
7Bまでと思い込んでたので、12B動かせること知って全然変わったわ。 M4 MacStudioが発表されたら買おうかな
192GBあればほぼなんでも動かせるだろう
ただGPUがショボいから生成が遅いらしいが
動かせないよりはマシか 重いやつのがクオリティは間違いなく高いんだけどね
結局AIが生成する文章そのものというより、いい感じに自由度高く介入できるのが好きなんだと気付いたんでやっぱ生成速度大事やわ うおおおお
koboldがついにwebsearchに対応したー このスレも以前はグラボ関係なく70Bをガンガン(ゆるゆる)動かして「いやー30Bくらいの方が性能と速度のバランスがいいんだけどな」なんて会話をしていたものだがのう >>138
このモデルすげえわ
指示に適度に従いつつも表現の幅が広い
小説向け Magnumすごいよな
巷の官ジェネもよく通るし、出来もいい
俺の用途だと月課金する必要感じんわ
CommandR+より遅いのが難点かな でも12Bって良いモデル全然ない気がするぞ
7Bのがよっぽどまとも mistral系のモデルで7b派と12b派がいるよね
自分は理解力重視で12b派 軍人口調にしようとしてるんだけど難しいな
喋り方がかなりおかしくなってしまう >>151
台詞のサンプルとか指定したらいけないか?
あと性格とかでも口調が変わってくる >>138
これQ8とその一個下のQ6 K Lってモデルあるな
magnumで色々試すのはいいかもしれん >>152
セリフのサンプル通りにならないんだよな
性格と矛盾してる箇所があるのかもしれないからそこらへん弄ってみるわ セッションが続くと文章崩れる問題ってもうどうあがいても解決できないのかなあれ
magnumすごくいいんだけど、結局そこで躓く
素人考えだと、前の文章に必要以上に引っ張られなきゃいいだけじゃんって思うんだけども ファインチューンで使うデータセットのトークン長を長くしないといけないから難しい問題なんよね
英語ならトークナイザーが強いからあんまり気にしなくていいんだけれども コーディング支援系のやつ色々ためしてんだけど
Cursor→Cody→Roo cline
って変遷してんだけどゴリゴリ自動で作業してく感じすごいわ
AIが作業した結果に許可ボタンポチるだけのAI見守りおじさんだよ👴 >>155
忘れてほしくない情報は記憶しろって言う
忘れて良い情報は忘れろって言う
それが大事 >>157
俺も興味あるんだけどプログラミングとかほんのちょっとしか触ったことなくて良く分からんのよな
例えばどんなことが出来るの? koboldcppアプデでwebサーチ機能が追加されてんね
なおどこを有効にすればいいのか分からない😇 >>157
なんというかこういう感じやね
ズドドドって直にコード編集してくれる
@neko.py @piyo.py みたいにコードを引用できたりするから
コードコピペしてChatGPTに貼り付けてぇとかしなくて済むのがデカい
https://youtu.be/M4bLmpkxa1s?si=GPqQ8dA5eFXFPMbn&t=107
>>161
一番ええのはCursorかな?
ただし月額サブスク20$なのでトークン毎の支払いがよければ
VSCODE拡張で入れられるCline(またはフォークのRoo Cline)かな
OpenRouterのトークン消費ランキングで大体上位におるからよく使われてると思う
https://i.imgur.com/5fB1rJU.jpeg >>157
そのラインナップでgithub copilotは使ってないんか? bbx規制終わったかー
>>160
ウェブサーチいい感じだな
7bレベルだとなんか変な結果になるけど
設定は起動時と起動後のコンテキストのオプション2つ設定やで RyzenAIMaxはモバイル用なのか
なんでデスクトップ用を出さないんだ? 色んなところで言われてるがVRAM 32GBは微妙すぎる
70Bクラスで遊べないのはきつい 70B動かすなら48GBは欲しかったよねえ
さらにお値段ドンになっちゃうけど AMDかintelがとち狂って96gb積んでるグラボ出さねえかなぁ
それこそaimaxを強くしてデスクトップ向けに出してくれたらいいんだけど とか思ったらnvidiaもaimaxみたいな製品出してきやがった
まだvram帯域わからんしwinみたいなos入るわけじゃないから完全AI専用機だけど期待大 nvidiaが$3000のスパコンを出すってよ
ユニファイドで128gb まあ‥5〜6年もすればLLMもハードウェアも進化してるでしょう 一方俺は8年前のTeslaP40をebayで買うのであった $3,000-は性能の割に格安だね。mac studioが霞む
どうした革ジャン、突然神になったのか?
ただリンクがNVLink-C2Cということは2台までだよな
TB5とか積んでるんだろうか
nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips Digitsの方は消費電力も少ないから自宅のLLMサーバー用途にはこっちの方がよさそうな気がしてきたな
CUDA使えるのも強い おお、connectXか。400GBあればMoEであればなんとかなりそう digitsってアーキテクチャarmなのか
帯域がどれくらいなのかも不明だな なんだMac買おうと思ってたのにこんなの出されたら待つしかないな 話が旨すぎる
放っておけば5090複数挿しする層に何故こんな餌を 2台で405Bがローカルで動くのか
それも僅か$6000で ■ このスレッドは過去ログ倉庫に格納されています