なんJLLM部避難所 ★7

1002コメント348KB

なんJLLM部避難所 ★7

■ このスレッドは過去ログ倉庫に格納されています

0001名無しさん＠ピンキー

2025/03/23(日) 14:58:05.71ID:bsaTSAD8

AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC（できれば＋3060 12GB以上）でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/

0588名無しさん＠ピンキー

2025/04/19(土) 14:03:49.71ID:???

問題解決型なので、チャットやロールプレイにはあまり向かない
パンを焼いたら焦げた、と入力すると
バターを塗りすぎているのかも、加熱しいすぎかもれしれないのでユーザーに問う
という途中の推論が始まるタイプ

0589名無しさん＠ピンキー

2025/04/19(土) 14:06:24.54ID:???

aya visonってローカル環境のどれが対応してるんだろ

0590名無しさん＠ピンキー

2025/04/19(土) 14:31:02.96ID:???

一緒に買いに行って欲しいだけなのにな

0591名無しさん＠ピンキー

2025/04/19(土) 14:40:14.81ID:???

↑入れたら、次の挑戦に向けてまた作りましょうよ！次は絶妙な火加減をマスターしましょう！
とか言い出したぞ。共感力ないなw

0592名無しさん＠ピンキー

2025/04/19(土) 14:41:46.66ID:???

CohereForAI Aya Expanse 32B実験してみたけどちょっとだらしなさすぎない？？？
需要があるのは分かるが

0593名無しさん＠ピンキー

2025/04/19(土) 18:10:20.58ID:???

>>592, 温度かな？　うちのaya expはchatgptみたいにかしこまった感じで
だらしない感じは受けないけど。
まさか下の方がだらしなさすぎると？w

0594名無しさん＠ピンキー

2025/04/19(土) 19:52:44.35ID:???

>>593, もし下の方がだらしなさすぎるんだとしたら、禁則プロンプトで
「関係」を禁止してみるプレイがいいかな。逆にめっちゃ燃えそうw
落とすのに時間がかかりそうだけど。賢いllmほど落とせないという、

0595名無しさん＠ピンキー

2025/04/21(月) 07:12:22.23ID:???

普通にllama3.3エロ書けるやん、いいわ
Llama_3.3_70b_DarkHorse.i1-Q4_K_M.gguf

0596名無しさん＠ピンキー

2025/04/21(月) 10:11:41.18ID:???

なんか、Metaがllamaの学習費用が賄えなくてMicrosoftやamazonに援助を求めてるって説が出てるな

MetaやAppleはLLMで大幅に不利、なぜなら、AWS、Azure、GCPのような鯖貸し事業をやっていないから
というのは最初からわかってたけど、このタイミングで援助を求め始めるのは意味不明なような

llama4でこらダメだ周回遅れだという扱いだし、Metaもろとも潰れてくれて問題ないよって判断されるでしょ
llama3の時点で言えば全然違っただろうけど...

0597名無しさん＠ピンキー

2025/04/21(月) 10:41:53.45ID:???

いっときchatarenaで2位だったのはなんだったんだ
2位を取るだけのモデルがあるのは間違いないんだろうけど
2Tモデルを動かしてただけなんか？

0598名無しさん＠ピンキー

2025/04/21(月) 11:19:09.20ID:???

AppleはともかくMetaはかなり大規模なデータセンター持ってるはずだろ

0599名無しさん＠ピンキー

2025/04/21(月) 11:38:57.81ID:???

>598
一時期は拡充していくって述べてた記憶があるな
どこかで拡充が止まってしまって、その結果出てきたのがllama4、ここから巻き返すには外と連携するしかない、とかかな

0600名無しさん＠ピンキー

2025/04/21(月) 11:55:33.13ID:???

>597
ChatBotArena自体が賢さというよりは人間が好むか否かが基準だから、ある程度以上の賢さがあればあとは味付けのほうが大きい、とかかな

個人的には今月末にllamaコンで出てくるMaverickのthink対応版だよ説を押したい...というか、そうであることが唯一の生き延びる道に思える
手のひら返す用意はあるんだが

0601名無しさん＠ピンキー

2025/04/21(月) 12:57:58.37ID:???

>>600
あれは人間好みに回答するようにしたmaverickってlmarenaがネタばらししてたよ

0602名無しさん＠ピンキー

2025/04/22(火) 07:43:20.07ID:???

Llamaは現時点の性能よりも将来的なマネタイズ出来そうに無いところが辛いのでは
GoogleとMSは自社製品で使うから良いけど
METAのLlamaはどうやって会社に利益をもたらすのかって言われるといつ切られてもおかしくない

0603名無しさん＠ピンキー

2025/04/22(火) 08:03:28.47ID:???

VR空間でのbotとか……？
API従量制で払うのワールド主だろうからえらい出費になりそうやが

町一つ使って探偵ものゲームとかやってみたくはある

0604名無しさん＠ピンキー

2025/04/22(火) 08:06:34.96ID:???

Metaは使いどころわからんけどAppleは明確に自社製品に採用してるのにショボい成果しか出てこないよな

0605名無しさん＠ピンキー

2025/04/22(火) 09:01:03.03ID:XOutpLc5

ザッカーバーグとティムがコックすればいいよ

0606名無しさん＠ピンキー

2025/04/22(火) 19:34:28.07ID:???

開発者がllamaで遊び倒しくれたらその成果を導入できるとか
知らんけど

0607名無しさん＠ピンキー

2025/04/22(火) 19:42:53.23ID:???

XとGrok統合の二番煎じでFacebookでLlama動かすとか？

0608名無しさん＠ピンキー

2025/04/23(水) 05:49:52.56ID:???

>>606
その役割はもうDeepSeekやQwenに取られてるんだよね
ライセンスの差もあってllamaより触りやすい

0609名無しさん＠ピンキー

2025/04/23(水) 07:27:34.64ID:???

オープンソースコミュニティで提示された技術をいち早く本家にフィードバックして進化出来る！と言い張っていたのに、thinkもGPRO的 RLも未だに備わってないモデルがあるらしい...

https://www.meta.ai/
みたいなWebUIをいまさら用意してるから、WebUIからは２位になったモデルを使えます、オープンソースで公開？するわけないでしょ？という方向性もありえるね

0610名無しさん＠ピンキー

2025/04/23(水) 09:02:48.69ID:???

Llamaライセンス契約のオープンソースへの適合性について – Shuji Sado
https://shujisado.com/2025/01/15/llama_is_not_opensource/

Llamaライセンス契約を適用するAIモデルを使用する際の多大なリスク – Shuji Sado
https://shujisado.com/2025/01/20/llama_license_risk/

0611名無しさん＠ピンキー

2025/04/23(水) 10:30:15.29ID:???

70bのgguf出してから言ってくれ

0612名無しさん＠ピンキー

2025/04/23(水) 11:32:18.69ID:???

そもそもヘッド？のヤン・ルカンがllmに消極的だしね

0613名無しさん＠ピンキー

2025/04/23(水) 16:52:45.61ID:???

GLM4って日本語性能どうなんでしょう

0614名無しさん＠ピンキー

2025/04/24(木) 02:26:46.36ID:???

ちょっと話ずれるかもしれんけど
スマホのSoC、Dimensity 9300+を調べてたら、評価基準にもうLLMが関わってんのね
=====MediaTek Dimensity 9300+のAI能力=====
AI処理ユニット: MediaTek APU 790
AI性能: GPU+NPUの組み合わせで最大68 TOPS（兆回の演算/秒）
NPU単体の性能: 最大48 TOPS
LLMサポート: 1B、7B、13B、および最大33Bパラメータのモデルをサポート
トークン生成速度: NeuroPilot Speculative Decode Acceleration技術により、7Bパラメータのモデルで22トークン/秒を実現
AI特徴:
オンデバイスLoRA Fusion
NeuroPilot LoRA Fusion 2.0
動的画像生成SDLXターボ
リアルタイムアニメーション生成

AI性能： MediaTek Dimensity 9300+は具体的なAI性能数値（68 TOPS、NPUで48 TOPS）を公表しており
特に大規模LLMのサポートといった点で強みを見せています。トークン生成速度も22トークン/秒と高速です。

Snapdragon 8 Eliteがトークン生成速度: 約20トークン/秒なんでDimensity 9300+のほうが上やった……
スマホでいうとXiaomi-14T pro （7万円）とPocoF7Ultra（11万円）で
14T pro のほうが安いうえにAI性能は上なんやね
……だからといってどう使うかは全く解らんのやけど
これスマにQwQくらい載るってことなんやろか？

ここのニキらならどんな活用できるやろか

0615名無しさん＠ピンキー

2025/04/24(木) 03:37:45.63ID:???

32BもIQ1まで下げれば理論的には動きますってやつだろどうせ

0616名無しさん＠ピンキー

2025/04/24(木) 08:53:34.21ID:???

同じ条件じゃないから話半分だな

0617名無しさん＠ピンキー

2025/04/24(木) 08:58:45.24ID:???

逆に7Bなら現実的に動くのかな？
かと言ってスマホならではの使い方なんて特に思い浮かばないけど

0618名無しさん＠ピンキー

2025/04/24(木) 09:51:26.20ID:???

14Tpro、
メモリ12GB + 256GB(最大8GBのROM拡張）
メモリ12GB+ 512GB(最大16GBのROM拡張）てあるから
最大で28GちかくのLLM格納できるんかね

商品紹介ページには発音したものをAI翻訳とか文字書き起こしとかあって
旅先で翻訳がスムーズにいくなら便利やけどね

0619名無しさん＠ピンキー

2025/04/24(木) 11:11:09.72ID:???

>>617
ポケモン図鑑みたいなやつとか

0620名無しさん＠ピンキー

2025/04/24(木) 12:35:09.23ID:62HiCjla

自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー＆他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子も第三者いると振る舞い変わったりで人間臭くて非常に宜しい

0621名無しさん＠ピンキー

2025/04/24(木) 12:35:26.71ID:62HiCjla

0622名無しさん＠ピンキー

2025/04/24(木) 12:44:56.41ID:62HiCjla

0623名無しさん＠ピンキー

2025/04/24(木) 12:45:10.57ID:???

>>621
それ割と画期的な手法な気がする
silly tavernにも実装して欲しいわ

0624名無しさん＠ピンキー

2025/04/24(木) 13:49:05.73ID:???

>>620
達人やなあ
ワイそんなスキルないから羨ましい
ひとつの会話って何トークンぐらいまでそれらのキャラ維持できるん？

0625名無しさん＠ピンキー

2025/04/24(木) 13:57:54.41ID:62HiCjla

自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー＆他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子でも第三者がいると振る舞い変わったりで人間臭くて非常に宜しい

0626名無しさん＠ピンキー

2025/04/24(木) 14:14:20.20ID:???

なんやこの嵐は

0627名無しさん＠ピンキー

2025/04/24(木) 14:20:46.86ID:???

時間差4回は流石に繰り返しペナルティですよ👮

0628名無しさん＠ピンキー

2025/04/24(木) 14:58:13.35ID:???

有能機能と感心してたのに荒らし？

0629名無しさん＠ピンキー

2025/04/24(木) 15:14:24.35ID:???

小説用のモデル作ったからアドバイスやフィードバックが欲しい
https://huggingface.co/kawaimasa/wanabi_24b_preview_gguf
小説作成用のタスク向けのプロンプトしか学習してないからkobold用のGUIラッパーと合わせて使ってくれ　
https://github.com/kawaii-justice/Project-Wannabe

0630名無しさん＠ピンキー

2025/04/24(木) 15:18:03.39ID:???

>>629
もう既にgithubのページが親切丁寧すぎて感動してるわw
帰ったら試させてもらいますー

0631名無しさん＠ピンキー

2025/04/24(木) 15:18:19.56ID:62HiCjla

自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー＆他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子でも第三者がいると振る舞い変わったりで人間臭くて非常に宜しい

0632名無しさん＠ピンキー

2025/04/24(木) 15:20:57.05ID:62HiCjla

あ、連投になってる、みんなスマン！
なんかCloudflare.comからmercury.bbs.pink.com繋がらないって画面にずっとリダイレクトされて、ポストできんなぁ～って試してたんや
ホンマ申し訳ないで…

0633名無しさん＠ピンキー

2025/04/24(木) 15:40:33.89ID:???

>>629
小説の設定は全部専用タブに格納できてプロンプト調整不要のEasyNovelAssistantみたいな感じを目指した
言語化能力が必要のない小説執筆がコンセプトでタグからの小説生成やアイデア生成も可能

0634名無しさん＠ピンキー

2025/04/24(木) 15:59:16.95ID:???

>>629
おお。帰ったら実験します！

0635名無しさん＠ピンキー

2025/04/24(木) 16:01:03.89ID:???

チャット派のワイにもsilly tavernのシナリオのアイデア出しとかに使えそうでええな
逆にもしsilly tavernのキャラカードの読み込みに対応してくれたらたくさんのキャラ設定をそのまま流用して小説書いてもらえてめちゃ便利そう

0636名無しさん＠ピンキー

2025/04/24(木) 19:15:11.98ID:???

>>629
ありがとうニキ！
起きたらためしてみるで

0637名無しさん＠ピンキー

2025/04/24(木) 19:25:26.93ID:???

小説書かせると、状況描写はどのモデルもそれなりの精度で書いてくれるけど
会話中心の話を書かせると一気に質が落ちるのはなんでだろ？
いろいろ試したが↓のモデルが会話の整合性が保たれていて読めるレベル
量子化が4bitのせいか、それでも完ぺきではないけど

同じプロンプトでまともな会話書いてくれる、おすすめモデル他にあったら教えて

https://imgur.com/a/kYb0Bxq

0638名無しさん＠ピンキー

2025/04/24(木) 20:53:59.50ID:???

>>629
https://i.imgur.com/s8RC5tg.png
Windows11+Koboldcpp+Project Wannabe動いた。
AI小説は初めてなんで使い方がこれであっとるんかどうか分からんが取り急ぎ動作報告。

0639名無しさん＠ピンキー

2025/04/24(木) 22:20:38.72ID:s4INY169

>>629
使ってみたいけどEasyNovelAssistantみたいに１つのファイルを実行したらインストールできるようにしていただけると嬉しいです

0640名無しさん＠ピンキー

2025/04/24(木) 22:51:50.41ID:???

>>638
貴方のGPUメモリ滅茶苦茶多くて羨ましいです
自分は14Gはでかくて動かせなくて

0641名無しさん＠ピンキー

2025/04/24(木) 23:37:34.13ID:???

lmstudioでglm4試したけど日本語つらそう。

>>629
昔あったkagemusyaにアイデア出力機能が追加されたような感じかな。
アイデア出力は人によっては便利かもしれない。導入部分で悩む人には。

0642名無しさん＠ピンキー

2025/04/25(金) 02:43:05.72ID:???

629です
>>638
とりあえず動いて安心した。
キーワードやジャンルは右の追加を押さないと反映されないので…説明不足で申し訳ない　

今の公開してるモデルはデータセット側の問題点を探るためのプロトタイプって位置付けなので不満点や要望があればガンガン言ってほしい

データセットが完成すれば他のモデルも簡単に学習できるから小さいモデルも公開できると思う

0643名無しさん＠ピンキー

2025/04/25(金) 06:06:00.17ID:???

ChatGPTで申し訳されない部分の小説を作って、申し訳され始めたら、それまで作った小説をllama3.3に見せて、
この流れでエロを続けて書けってやったらそれなりに上手く書ける

0644名無しさん＠ピンキー

2025/04/25(金) 14:02:57.67ID:???

1.58bitのBitNetでたか
CPUだけで84tk/sとはすごい(デモはM2 macだ)
https://github.com/microsoft/BitNet

0645名無しさん＠ピンキー

2025/04/25(金) 14:14:17.67ID:???

bitnet自体に変更はなくない？
microsoft純正の1.58bitモデルが出たんか？

0646名無しさん＠ピンキー

2025/04/25(金) 16:04:21.21ID:???

>>629
単発生成が停止できないの不便なのと、top-kの設定はあった方がいいかも。

ジャンルに異世界ファンタジーとだけ入れて、アイデア出させて、それそのまま活用したけど、
web小説感強くて小説っていうよりプロットの書きなぐりみたいな文章になったし、話のテンポが速い。
まぁ、個人的にナラティブスタイルが好きだから、そう感じるだけかもしれないが。

0647名無しさん＠ピンキー

2025/04/25(金) 17:29:00.31ID:???

>>645
学習から1.58bitでやったモデルらしい

0648名無しさん＠ピンキー

2025/04/25(金) 18:55:46.01ID:???

最近は量子化前提の学習するみたいな話を聞くね
仕組みは全然理解できてないけど

0649名無しさん＠ピンキー

2025/04/25(金) 19:03:37.63ID:???

でも結局精度落ちてないよていってるけど微妙に落としてサイズ下げてんでしょ
欺瞞だよ

0650名無しさん＠ピンキー

2025/04/25(金) 19:33:57.22ID:???

落ちてないなんて誰も言ってねーよ
理論上は絶対に落ちるんだから

0651名無しさん＠ピンキー

2025/04/25(金) 19:46:54.27ID:???

top-kってそんな大きく変わるパラメータだったんだ…と思ってどういうものなのか調べたら温度との違いがわからんくなった

0652名無しさん＠ピンキー

2025/04/25(金) 21:44:12.87ID:???

>>629
使わせてもらったで
sillyしか使ったことないんで、素人の感想やけど……

・qasyncを入れてなかったのでエラー、chatGPTに聞いて導入完了。
・書いた序盤は460文字。
・本文に生成文をいいとこどりして追加いくのは楽。
・本文が長くなってくると二行目あたりから繰り返しに入る。話が進まなくなる。
・生成パラメータを512にするとほどほど進む。1/4くらい採れる。
・生成パラメータを0.5→0.7にすると、行為が進むようになる。

という感じで、あらすじに沿った文を計2000文字で完了できたで
実はEasyNovelAssistantにも挑戦したことあるんやが
プログラムとかロクに知らんのでどこに何を書いて調整すればええのかまったく解らんくて
使いこなせなかったんや（ワイが能無しだからで作者ニキは悪うないで）
ワナビーの画面上に5W1Hをもってくる感じはとっつきやすかったので有り難いで
あとは設定とかの書き方とか見本が欲しいとは思った

あとこれは疑問なんやけどsillyでもそうやが
行為そのものは淡白になりがちで、ねっとりと続けてほしい場合
どう指示していいか教えてほしいンゴ……

0653名無しさん＠ピンキー

2025/04/25(金) 21:59:57.67ID:???

低温+高top-kと高温+低top-kだと、露骨に後者の方が出力に多様性が増すと感じる
その分、指示の忠実性は下がるが

0654名無しさん＠ピンキー

2025/04/25(金) 23:29:45.68ID:???

>>646
単発生成での停止　top-kの項目追加しといた
テンポが速いのは多分モデルのデータセットがweb短編小説がメインやからやね
次のモデルだとデータセットを短編以外からも取得して、セリフが占める割合を指定できるようにしたから多少は重厚な小説も書けるはずや
>>652
繰り返しが多い/直前の展開から書き始める問題に対処するために簡易的やがプロンプトの順番をすこし変えたで　本格対応は次のモデルやね
画像等のチュートリアル含むドキュメントは土日中に作りたいとは思ってる
LLMは文体を維持したがるからねっとりさせたい場合は、自力でねっとりとした文章を書くか、好きなR18作品の盛りシーンをこっそり貼り付けるのがはやいと思うで

0655名無しさん＠ピンキー

2025/04/26(土) 02:10:11.43ID:???

>>654
調整サンガツやで
作らせたんが男の娘やからアップできんですまんな……ホモやないけど

あれから自分なりに試行錯誤してみた
あらすじでもう少し細切れに指定したら
ある程度長く書いてくれたわ
まあ足りん分は自分で書けばええんやけどね
大いに楽できそうというか、スランプになっとるときに
打開してくれるかもしれんと楽しみやで

0656名無しさん＠ピンキー

2025/04/26(土) 05:18:21.16ID:???

>>654
さっき再インストールしたらverアップしとった、お疲れ様やで
24日と25日で微妙に動きが違う感じやね
あと外のモデルでも使えるしGUIとしてとっつきやすいからワイ好みや
ホンマにありがとう

管理は日付でやる感じやろか？
とりあえずver違い保存するときに
フォルダ名を合わせようと思っとるんやけど

あとGPT君の力を借りてkobold起動→Wannabe起動の.batを作ってもろて
いちいちvenvに入らんでもよくなって
より使いやすくなったで（日記）

0657名無しさん＠ピンキー

2025/04/26(土) 12:38:59.29ID:???

>>654
shisa-ai/ablation-189-gemma3.webnovels.test.gemma-3-27b

shisa v2良かったから過去のモデル漁ってこれ試したことあるけど、かなり酷い結果になったよ。
web小説をデータセットに使うのって結構リスキーじゃないか？

0658名無しさん＠ピンキー

2025/04/26(土) 13:43:16.46ID:???

bitnet b1.58 2B4T、他のモデルの非量子化と精度変わらないっぽいぞ
大きめのモデルでもいけるなら早くだしてほしいわ

0659名無しさん＠ピンキー

2025/04/26(土) 13:58:25.67ID:???

正直思ったよりも1.58bit普及してないけど
これで普及に弾みついてほしいな

0660名無しさん＠ピンキー

2025/04/26(土) 14:03:32.20ID:NiAbFCBk

今5060ti16GBと5070tiで迷ってるんだけどllm的にはそんなに結構差が出る感じなんだろうか

0661名無しさん＠ピンキー

2025/04/26(土) 14:08:16.77ID:???

>>657
モデルカードが空だから何も言えないけど
自分も最初はhttps://huggingface.co/datasets/botp/RyokoAI_Syosetu711Kのデータを使ってたけどひどい目にあったよ
あらすじと本編の区切りがない、ルビの処理がなく支離滅裂になってる場合がある、一定間隔で不自然に改行が入る、後書きや前書きがそのままなどなど…
結局メタデータだけ貰って本編は再取得するはめになったし　タグやジャンル、あらすじ含めて全部クリーンアップしてるからかなり良くなってるはず
文体は軽くなるけど青空文庫よりはましかなって

>>660
VRAM量が同じならLLMだと帯域幅がそのまま性能差になるよ
5070ti 896GB/s 5060ti 448GB/sでぴったし2倍の速度差になる

0662名無しさん＠ピンキー

2025/04/26(土) 14:27:58.65ID:???

>>656
使ってくれてありがとやで
挙動が変わったのはおそらくconfig.jsonの数値がアップデートで更新されて"temperature": 0.5から"temperature": 1.0にデフォルトが変更になったからやね
それを戻して、設定パラメータの「継続タスクのプロンプト順序」を「詳細情報との整合性を優先」に変更すれば24日の生成状況にもどるはずや
同一ブランチ内の変更は基本的に後方互換性を入れるようにしてるけどvenv使わければリポジトリ容量は軽いからrenameしてbackupしておくのが吉やね

0663名無しさん＠ピンキー

2025/04/26(土) 14:31:11.62ID:???

5070Tiに手が届くなら5060Tiを2枚という選択肢もあるな
VRAM32GB相当で動かせるモデルの幅が広がる
速度は5070Tiだが

0664名無しさん＠ピンキー

2025/04/26(土) 15:16:16.46ID:???

>>661
商業という選別が入ってるから青空文庫のほうが
web小説より遥かにマシと思っとったが違うんか……

むしろ青空文庫から学習したモデルほしいわ
qwq-32b-q4_k_mあたりで

0665名無しさん＠ピンキー

2025/04/26(土) 15:17:19.15ID:???

改めてDGX sparkとかの273GB/sって辛いな
60tiにすら大差で負けてる速度かあ

0666名無しさん＠ピンキー

2025/04/26(土) 16:30:46.59ID:???

273 GB/sってことは4060TIにVRAMが128GB載ってるようなもの

0667名無しさん＠ピンキー

2025/04/26(土) 16:33:21.99ID:???

2027年のRyzenAIなら384GB/sじゃなかった？
ワイはあれ待ち
その時までにスキル挙げておきたい

0668名無しさん＠ピンキー

2025/04/26(土) 16:38:43.30ID:???

5060ti二枚行くなら3090買いたいな
今の軽量モデルのターゲットがVRAM24GB帯になっててvram32GBはコンテキストが増やせるぐらいで恩恵薄いし
メンテパーツもアリエク行けば数千円でファン、外装、ヒートシンクと何でも買えるからコアとメモリが壊れない限り当分は維持できる

0669名無しさん＠ピンキー

2025/04/27(日) 01:01:05.58ID:???

deepseek 13bと14bってかなり違うんかな？

0670名無しさん＠ピンキー

2025/04/27(日) 07:24:19.11ID:???

Deepseek R2の話が出てきてるな
どこで出すかと言えば月末のLlamaConに合わせてくるに決まってるわけで忙しくなりそう

0671名無しさん＠ピンキー

2025/04/27(日) 07:56:12.13ID:???

そんなに早くバージョンアップできるもんなんかな>R2
どちらかと言うとmistral largeのほうをvupして欲しい
あれの書くエロ小説最高や

0672名無しさん＠ピンキー

2025/04/27(日) 08:32:09.41ID:???

>>671
R1はV3をベースに作られている
V3が出たのが12月でR1は1月
そう考えると新しいV3が出てそろそろ1ヶ月経とうとしている今にR2が出てもおかしくはない

0673名無しさん＠ピンキー

2025/04/27(日) 09:08:23.82ID:???

もっとドル安円高になーれ

0674名無しさん＠ピンキー

2025/04/27(日) 19:05:10.42ID:???

https://www.newcomer.co/p/microsofts-big-ai-hire-cant-match

microsoftの社内政治の結果、phiのキーマンが退社して別路線の独自AI MIAを作る方向に向かってしまったらしい
phiはエロはともかく小型で日本語もそこそこ出来る良いモデルだったのに

あとどうでもいいけど、URL貼ってた驚き屋のひとは明後日の方向に話を進めてて意味不明すぎる
グラフだけ見て中身読んでないのかな

0675名無しさん＠ピンキー

2025/04/27(日) 19:06:43.95ID:???

なんか紛らわしいな

phiのキーマンは退社してopenAI入り、MSは独自モデルMAIをわざわざ作る方向に進んでしまったらしい

0676名無しさん＠ピンキー

2025/04/27(日) 20:13:58.58ID:???

>>662
引き続きwannabe使ってみた試行錯誤や
というかまずjsonで同じ条件で設定引き継げるのホンマに便利やね
出力物だけを保存できるのもあとで纏めるのに大いに助かる感じ
本文との整合性をあわせる、のほうにするとけっこうキャラのブレがない感じやろかな
まだエロシーンでしか試しとらんけども
とにかくサンガツやで

今度はBLやのうて少年少女で試してみた結果
qwq-32b-q4_k_m　やと申し訳ばかりで何も進まなかったところ
wanabi_24b_preview_q4km　やとすんなり通った、さすがやで
ついでに
c4ai-command-a-03-2025.i1-Q6_K（89G）も通ったけども
めちゃ時間かかったわ……試行錯誤する以前にこっちの集中力がなくなるンゴ

そんで前スレの終わりで
「お前koboldをちゃんとCUDAで動かせとんのか？」と確認いれてくたニキ
どこをいじればええんか解らんかったんやが
今回タスクマネージャー見たらVram98%くらい使っとった、他の作業がでけんレベル
https://files.catbox.moe/w4ml9y.png
そんで-1（Auto）やのうて12レイヤー載っけてなんとかOK……てことで
指定量でCUDA使えとる、で合っとるやろか

0677名無しさん＠ピンキー

2025/04/27(日) 20:21:45.89ID:???

重ね重ねシロート質問なんやが
>>638ニキのキャラ設定の表記を真似させてもろとるんやけど

アリス
-
-
-
て半角棒線にしとるのはプログラム的にそっちのほうがええの？
アリス
・
・
・
これやと全角やからあかんのかな

0678名無しさん＠ピンキー

2025/04/27(日) 20:59:48.66ID:???

>>676
引き続きwannabeで小説形式、12レイヤー載っけて
c4ai-command-a-03-2025.i1-Q6_Kで最初の生成、約40分
これが早いか遅いか分からないンゴ……これCUDAで動いとるんやろか
4090（PL70%）DDR4128G i5-12600 や
ここ達人ニキ多いからあまりに初心者すぎる感じですまんやで

https://files.catbox.moe/s0pn35.png

Processing Prompt [BLAS] (1788 / 1788 tokens)
Generating (1024 / 1024 tokens)
[20:50:40] CtxLimit:2812/4096, Amt:1024/1024, Init:0.01s, Process:45.32s (39.45T/s),
Generate:2428.63s (0.42T/s), Total:2473.94s

0679名無しさん＠ピンキー

2025/04/27(日) 21:27:41.86ID:???

89GBをVRAM24GBに乗せようとしてて当然溢れてメインメモリに跨ってるから処理が激遅になっているだけやで
メインメモリ128GBあるリッチマンならいっそ全部メインメモリで処理した方が速いのかもしんない

0680名無しさん＠ピンキー

2025/04/27(日) 21:50:39.67ID:???

>>679
ありがとうやで、12/67程度のっけたところで恩恵はない感じなんやね
ちゅうてもDDR5やないからアップアップや
ここには右手に4090左手に3090、DDR5x4で
バッファローマンを上回るニキがゴロゴロおるから恐ろしいで

でも40分が20分になるならマザボごと買い替えたくなるンゴね
そんな余裕はないからMedusa Ridgeはよう来てくれ──っ

0681名無しさん＠ピンキー

2025/04/27(日) 22:02:42.26ID:???

Mistral系みたいなCPUでもある程度速度出る設計のモデル以外はVRAMから少しでもはみ出たらそこがボトルネックになってガクンと遅くなる
ある程度遅くなるのを妥協したとしても少なくともレイヤー2/3以上はGPUに載ってほしい

0682名無しさん＠ピンキー

2025/04/27(日) 23:16:07.07ID:???

>>677
半角ハイフン記号を列挙の印に使うのはMarkdown書式でも使ってる世界的に汎用的な書き方
全角ナカグロは日本語ドキュメントでしか使わないからLLMがそれを列挙の印として認識するかどうか怪しい賢いモデルならいいんだろうけど

0683名無しさん＠ピンキー

2025/04/28(月) 00:09:12.70ID:???

試しに計測してみたで
12/67をVramに
[20:50:40] CtxLimit:2812/4096, Amt:1024/1024, Init:0.01s, Process:45.32s (39.45T/s),Generate:2428.63s (0.42T/s), Total:2473.94s
全てをDDR4に
[23:52:31] CtxLimit:3374/4096, Amt:1024/1024, Init:0.01s, Process:2.88s (0.35T/s), Generate:2883.53s (0.36T/s), Total:2886.41s

ワイ詳しくないからトータル時間のみについて
6、7分の差やけどもワイ環境やと一部Vramに載せたほうが速くなった
生成画面は脇に放置しとるから、完了したらすぐに作業できるわけではない
速く終わっても気づかないなら誤差の範囲
むしろVram圧迫して他の作業の余裕がなくなることを考えたらDDRに載せるほうがええ、ハード的なコスパもええ
てな感じやろか、いつも教えてもろとるから何かの参考になれば幸いやで

>>682
知らんかったで、これから「-」使うわ丁寧にサンガツやで！

>>662
勝手にデカいモデルで使わせてもろとるうえに恐縮やが
wannabeに生成が完了したら何かアラーム鳴るような機能って付けたらどうやろか？
普段はオフでええと思うけども

0684名無しさん＠ピンキー

2025/04/28(月) 00:32:47.80ID:???

どうやろか？という言い方、大上段からで誠にすまんかったやで

欲じいですうううう！
ワイしか必要としとらんかもやけど欲じいですう！

0685名無しさん＠ピンキー

2025/04/28(月) 06:43:04.22ID:???

たびたびスマンやで
Wannabeのファイル＞出力内容を書き出し
ってこれ
下の出力物エリアじゃなくて
上の本文のことなのね

出力物を後で比較しようとして
保存して次、保存して次と
全部ドブに捨てとった……
出力物のみの保存ができると性能比較しやすいんで有り難いで

あとキーワードの働きについて調べとるんやけど
文字長くて10個以上やと見えなくなるから
三行くらいは見えるようにして欲しいで
全消しするにはjsonを開いて直接消したほうが楽やね
全消去ボタンもどこかにあると嬉しいで

ワイばっか書き込んで厄介なファンみたいになってて申し訳ない

0686名無しさん＠ピンキー

2025/04/28(月) 08:08:13.16ID:???

>>685
フィードバックはなんぼあってもええからほんま助かるわ
キーワードとジャンルの視認性の問題は把握してるので近い内に対処する
出力物の書き出しは詳細情報の横のメモ欄で代用できへんか?
jsonにも保存されるんでモデル変えても引き継がれるはずや

0687名無しさん＠ピンキー

2025/04/28(月) 09:53:06.31ID:???

>>686
恐縮やで
キーワード部分の対処楽しみや！

出力物の書き出しやけど
書きたいもののプロットが文字数も含めて決まっとる場合は
本来の使い方、Vramに乗せてどんどんガチャして本文に足していくんやのうて
ある程度の長文を一気に出して、全体を見ながらいいとこ取りをしようと思ったんや
（89Gのモデルを2048トークンで出すと一時間かかったから、気軽にその場ガチャでけん）

VSCodeやObsidianで複数カラム並べて比較するなら
別個ファイルのほうが便利やなって（スライダをいったりきたりせんでええ）
ただ昨日思いついたやり方で、まだ数をこなせてないから
本当に必要な機能かといわれたら怪しい部分もある
現状やと別text作ってコピペでもできるけどね

2000文字1時間かかっとるから、A1111みたいに連続生成（と保存）のbatch8とかできたら
クリックひとるでめちゃ楽になるとも思った
寝てる間に短編8本のバリエーションができるわけやからね

あくまで重いモデルを使うレスポンス悪い条件での使い方なんやが
プロットの工夫で構成がうまいこと制御できそうでめちゃ楽しい
wannabe触ってようやくワイのやりたい事ができそうやと
ついテンション高めで書き殴っとるけども堪忍やで

■ このスレッドは過去ログ倉庫に格納されています