なんJLLM部 避難所 ★5
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで 自薦・他薦のモデルやツールは>>2 以降 本スレ(避難中) なんJLLM部 ★7 https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/ 前スレ(実質本スレ) なんJLLM部 避難所 ★4 https://mercury.bbspink.com/test/read.cgi/onatech/1725931151/ >>87 >86>88 丁寧にサンガツやで! EasyNovelAssistantの最大文字数?くらいしかいじったことないんやけど 全然足りとらんかったのね……画像までありがとう、やってみるで LLMうまい人は質問の仕方や出力フォーマット指定も上手なんやろな ワイは電子書籍化したpdfとか山とあるんやが、歴史系の専門書はまだ裁断しとらんのや 検索性は紙媒体が優れてるけど部屋にはもう置けんし、AIが司書さんになってくれたら 本処分して引っ越しも楽になるし LLMの進化は楽しみなんや 86だけど、ちゃんと調べたらDRYとXTCの考案者pew氏がおすすめの値公開してた・・・ https://github.com/oobabooga/text-generation-webui/pull/5677 https://github.com/oobabooga/text-generation-webui/pull/6335 Min-p:0.02、rep_penなし、DRY(mult:0.8、base:1.75、A_len:2)、XTC(threshold:0.1、probability:0.5) らしい。 まじかこれ https://x.com/koltregaskes/status/1874535044334969104 - Claude 3.5 Sonnet (2024-10-22) = ≈175B - ChatGPT = ≈175B - GPT-4 = ≈1.76T - GPT-4o (2024-05-13) = ≈200B - GPT-4o-mini (2024-05-13) = ≈8B - o1-mini (2024-09-12) = ≈100B - o1-preview (2024-09-12) = ≈300B GPT-4 = 8x220B = 1.76T のMoEなのか 4oのマルチモーダルは精度えぐいからまぁええけどLLM性能だけ見たらなんか劣化してそうだな 実際に4oは最初なんだこりゃってなったからな コーディング向けというか、とにかく事務的で人と話してる感が4よりも遥かに劣っていた 今もそうだけど ローカルLLMとパラ数が大差ないことが驚き 下手したら個人のPCでもGPT-4oが動かせそう 推定値ってはっきり画像に書いてあるんで鵜呑みにしない方がいいよ さすがに4o-miniが8bは賢すぎる 8BぐらいならモデルをうっかりHuggingfaceにリークしてほしい いつも情報をうっかりリークするOpenAIさん この人のツイートを見る限り、小型モデルをトレーニングしていくのではなく 巨大モデルを作成してから何らかの軽量化して小型モデルを作ってるのかな https://x.com/shanegJP/status/1866893458247651518 巨大モデル作成→枝刈りが軽量モデルの訓練最適解だとすればローカルLLM界隈は厳しい状況にある気がする 大規模なグラボがないと軽量かつ高性能なモデルが作れない 7Bモデルまで軽量化する時にオホ声やメスガキの枝を大事に残してるとか草 なのに最初から小さいモデルを作る日本メーカーさんて😅 確かに文字の出てくる速度からして相当パラメータ数少なそうだなとは思ってたけど もし本当に8bなのだとするとローカル界にもかなり希望があるってことにはなるなぁ 言ってることが正しくても投資家の文字が出てくると胡散臭さが5割増に見える不思議 macってメモリをGPUにシフトできるけど、koboldとかで使う場合GPUレイヤーに載せた方が速いの? 同じユニファイドメモリなんだからcpuモードでも同じと思ってたけど違うんかな? >>91 信じられないな 4o-miniがローカルで動かせるとは思えん >>104 CPUモードだと演算をCPUでやるのでは? 理論的にはエロ性能に特化した4o-miniをローカルで動かすことも不可能ではない 誰か頭が良くてエロい人頼んだ >>104 CPUとGPUではアクセスの粒度がぜんぜん違うので MMUに対して領域を指定してその部分DRAMバンクのアクセス方法が切り替わる (画面表示の時の読み出し割り込みが定期的にかかるから違うバンクのほうが予測率あがる) さらにM3以降はそこの改良が進んでてダイナミックキャッシュの圧縮もしている どうやって圧縮しているかはみつからんかった。最大2倍という広告は見たけど wabisabiで4000超えたあたりから文章がぶっ壊れるな context sizeは8192にしてるんだけど wabisabiで4000超えたあたりから文章がぶっ壊れるな context sizeは8192にしてるんだけど cohereのaya exp 8bはしゃべり方とかだいぶ4o-mini的かも ただもとが優等生的なキャラなのでエロいのが好きな人は物足りないかも 尻タブだと問題ない koboldだとぶっ壊れる chat modeがダメなのか? アダルトなフォルダ群と、それに対応するサムネ画像群があります。両者のファイル名は表記揺れが多かったり、無駄に日付やバージョンが追記されていたりします。サムネ画像群をlsして200行ごとにA〜Kへと分けています。 AIに対して一つのフォルダ名とサムネ画像群ファイル名リストAを渡し対応しそうな名前を返してもらう、という処理をローカルで行いたいです。 powershellとkoboldcppでこういった処理は実現できそうでしょうか? LLMとしりとりするの難しいな……GPTでも上手くいかないことがあるぞ >>113 フォルダ名から画像ファイル名探すだけならkoboldにファイル名リストぶち込んで質問でもいいんじゃね ちゃんとやるならベクトルDB構築することになるけど >>114 トークン化されてるからね strawberry問題と同じよ >>115 GPTだとちゃんと語尾を取ってくれるんだけど 「ん」で終わってしまったときの仕切り直しでおかしくなるんだよね AI:「メロン」! 俺:「ン」で終わったらダメだよ! AI:あ、すみません!「メロン」の「ン」ですね。じゃあ、「ノート」! みたいな感じで アホなLLMはそもそも全くしりとりが成立しない aya cohereのとこだし似たようなもんだろって思ってたけどCR+よりは賢い気がする ただ、軽めのマグナムが現状やっぱ最強 重いのも一応動くけどおっっそいし、俺調教モノがしたいからレスポンス早いの大事なんよなぁ たしかに並のLLMだとしりとりダメだったわ面白い QwenとかCohereとかだと単に似てる単語を返したりしてくる 4oとかClaudeレベルじゃないとルール理解してくれんかった 尻タブでAPIからDeepSeek試してみたけど、いまいちだな… 同じような繰り返しばかりだし、LLMにありがちな明るい未来病をにおわせるフレーズが多くて響かん 設定煮詰めたらましになるのか? ワイもSillyTavernでDeepSeekV3試したけど 同じ語句くりかえしたり出力途中で途切れたり長い文章の出力途中で違う言語になったり みたいな挙動は確認した 俺もdeepseekのapi呼び出しで全く同じ症状出てるわ 繰り返しと文章の破綻 とてもじゃないけどこれがclaude越えはない apiクレジット多めに買っちまったよちくしょう ayaは32bのモデルもあって、それを蒸留したのが8bだと思う >>apiクレジット多めに買っちまったよちくしょう (´・ω・`)人(´・ω・`)ナカーマ 文章出力変のはトークナイザーやらテンプレートの設定を間違ってるからだろ そういう設定ってどこかにまとまってたりすんのかな というかどう詰めていけばいいのか謎 Magnumの派生で色々試してたら気に入ったモデル見つけたわ >>126 そこらへんの情報ググっても全然出てこないよな chatGPTに頼んでもまともな答えが返ってこないし 何がどう間違ってるのか確かめる方法と基準が分からん reddit以外だとDiscordとかになるんかね Googleはオワコンだし、LLMの知識はそこの情報食ってウンコ出してるようなものだからもっと使えん ローカルがパワー不足(12GB)だから月課金のサービス使ってMagnum72B動かしたけど、当然ながら12Bより理解度高い上にキチンと下品な対応をしてくれるね…… mradermacher/Writer-Large-2411-v2.1-i1-GGUF 期待してたこれようやくimatrix量子化してくれて感謝 小説特化のせいか評価問題は指示がうまく入らなかったけど、なんか知らんが隠語表現がぶっ飛んでたわw >月課金のサービス LLM用途だと、どこがお勧め? 【Claude3】ChatGPTでオナニー ★51【AI】 https://mercury.bbspink.com/test/read.cgi/onatech/1735603890/ 同じ板のこっち行ったほうが早いぞ 熟練の変態達が色んなサービスをためしてる >133 infermatic.ai、arliai、groq、together.aiなどなどあるけど、自分はinfermatic.ai使ってる 使用できるモデルは少なめだけど、定額使いたい放題だからね…他のは単発で使うなら安いけど使用のたびに費用かかるのが合わない 今のとこLyra Gutenbergs Twilight Magnum 12bに落ち着いてる 軽くてレスポンス早いし、NGないし、文章のクオリティも結構高め よくミスるけどLMStudioなら介入しやすいし、早いから再出力もさせやすい >>132 試してみたけど悪くないな。地の文は良い感じ セリフがちょっと堅い気もするけど 俺はこれに落ち着いた。 Lumimaid-Magnum-v4-12B.Q6_K 12Bなんて俺の12GBグラボじゃ動かん 羨ましい 量子化すれば12bモデルも6gbになって余裕で動くようになるで 12gbで12bは余裕ぞ というかそのぐらいまでがベストなサイズ感すらある 3060 12Gで問題なく動く→12B Q6 7Bまでと思い込んでたので、12B動かせること知って全然変わったわ。 M4 MacStudioが発表されたら買おうかな 192GBあればほぼなんでも動かせるだろう ただGPUがショボいから生成が遅いらしいが 動かせないよりはマシか 重いやつのがクオリティは間違いなく高いんだけどね 結局AIが生成する文章そのものというより、いい感じに自由度高く介入できるのが好きなんだと気付いたんでやっぱ生成速度大事やわ うおおおお koboldがついにwebsearchに対応したー このスレも以前はグラボ関係なく70Bをガンガン(ゆるゆる)動かして「いやー30Bくらいの方が性能と速度のバランスがいいんだけどな」なんて会話をしていたものだがのう >>138 このモデルすげえわ 指示に適度に従いつつも表現の幅が広い 小説向け Magnumすごいよな 巷の官ジェネもよく通るし、出来もいい 俺の用途だと月課金する必要感じんわ CommandR+より遅いのが難点かな でも12Bって良いモデル全然ない気がするぞ 7Bのがよっぽどまとも mistral系のモデルで7b派と12b派がいるよね 自分は理解力重視で12b派 軍人口調にしようとしてるんだけど難しいな 喋り方がかなりおかしくなってしまう >>151 台詞のサンプルとか指定したらいけないか? あと性格とかでも口調が変わってくる >>138 これQ8とその一個下のQ6 K Lってモデルあるな magnumで色々試すのはいいかもしれん >>152 セリフのサンプル通りにならないんだよな 性格と矛盾してる箇所があるのかもしれないからそこらへん弄ってみるわ セッションが続くと文章崩れる問題ってもうどうあがいても解決できないのかなあれ magnumすごくいいんだけど、結局そこで躓く 素人考えだと、前の文章に必要以上に引っ張られなきゃいいだけじゃんって思うんだけども ファインチューンで使うデータセットのトークン長を長くしないといけないから難しい問題なんよね 英語ならトークナイザーが強いからあんまり気にしなくていいんだけれども コーディング支援系のやつ色々ためしてんだけど Cursor→Cody→Roo cline って変遷してんだけどゴリゴリ自動で作業してく感じすごいわ AIが作業した結果に許可ボタンポチるだけのAI見守りおじさんだよ👴 >>155 忘れてほしくない情報は記憶しろって言う 忘れて良い情報は忘れろって言う それが大事 >>157 俺も興味あるんだけどプログラミングとかほんのちょっとしか触ったことなくて良く分からんのよな 例えばどんなことが出来るの? koboldcppアプデでwebサーチ機能が追加されてんね なおどこを有効にすればいいのか分からない😇 >>157 なんというかこういう感じやね ズドドドって直にコード編集してくれる @neko.py @piyo.py みたいにコードを引用できたりするから コードコピペしてChatGPTに貼り付けてぇとかしなくて済むのがデカい https://youtu.be/M4bLmpkxa1s?si=GPqQ8dA5eFXFPMbn&t=107 >>161 一番ええのはCursorかな? ただし月額サブスク20$なのでトークン毎の支払いがよければ VSCODE拡張で入れられるCline(またはフォークのRoo Cline)かな OpenRouterのトークン消費ランキングで大体上位におるからよく使われてると思う https://i.imgur.com/5fB1rJU.jpeg >>157 そのラインナップでgithub copilotは使ってないんか? bbx規制終わったかー >>160 ウェブサーチいい感じだな 7bレベルだとなんか変な結果になるけど 設定は起動時と起動後のコンテキストのオプション2つ設定やで RyzenAIMaxはモバイル用なのか なんでデスクトップ用を出さないんだ? 色んなところで言われてるがVRAM 32GBは微妙すぎる 70Bクラスで遊べないのはきつい 70B動かすなら48GBは欲しかったよねえ さらにお値段ドンになっちゃうけど AMDかintelがとち狂って96gb積んでるグラボ出さねえかなぁ それこそaimaxを強くしてデスクトップ向けに出してくれたらいいんだけど とか思ったらnvidiaもaimaxみたいな製品出してきやがった まだvram帯域わからんしwinみたいなos入るわけじゃないから完全AI専用機だけど期待大 nvidiaが$3000のスパコンを出すってよ ユニファイドで128gb まあ‥5〜6年もすればLLMもハードウェアも進化してるでしょう 一方俺は8年前のTeslaP40をebayで買うのであった $3,000-は性能の割に格安だね。mac studioが霞む どうした革ジャン、突然神になったのか? ただリンクがNVLink-C2Cということは2台までだよな TB5とか積んでるんだろうか nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips Digitsの方は消費電力も少ないから自宅のLLMサーバー用途にはこっちの方がよさそうな気がしてきたな CUDA使えるのも強い おお、connectXか。400GBあればMoEであればなんとかなりそう digitsってアーキテクチャarmなのか 帯域がどれくらいなのかも不明だな なんだMac買おうと思ってたのにこんなの出されたら待つしかないな 話が旨すぎる 放っておけば5090複数挿しする層に何故こんな餌を 2台で405Bがローカルで動くのか それも僅か$6000で ついに現実的な値段でまともな文章力のがファインチューニングされる時代が来たのか 70Bとかのは正直「頑張ってるね」レベルが否めなかったからなあ 待ちに待ったStrix Haloの発表の日や!デスクトップ向けメモリ128GB対応で一番安価そうなのは……AI Max PRO 385ってやつなんやな!夢が広がるンゴ! とかやってたらNVIDIAのproject digits発表見て横転したわ AI Max PRO 385搭載で128GBのマシンが10万以下とか格安で出るならそれはそれで夢があるけど、project digitsの期待値ちょっとヤバすぎるな ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 09.0h [pink] - 2025/10/27 Walang Kapalit ★ | uplift ★ 5ちゃんねる