なんJLLM部 避難所 ★7
■ このスレッドは過去ログ倉庫に格納されています
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降
本スレ(避難中)
なんJLLM部 ★7
https://fate.5ch.net/test/read.cgi/liveuranus/1710561010/
前スレ(実質本スレ)
なんJLLM部 避難所 ★6
https://mercury.bbspink.com/test/read.cgi/onatech/1739448962/ Gemini2.5flashすごE
Roo codeでベタ打ちHtml + cssのWebサイト作らせてるけど爆速で実装完了していく
画像のライトボックスをFancyboxで実装して〜みたいなのもサクサクこなしていく
デザインセンスもClaudeに匹敵する感じがある Google、最初は遅れ気味だったのに本気出してきたな 最初は倫理だなんだって出遅れたけど金と学習用のデータはあるからなあ
技術以上に資本勝負な所あるし周回遅れでも余裕で追いつくでしょ >>425,426. 禁則のプロンプトで〜しないでください よりも、
〜は禁止されています の方が効きがいいらしいですね。なんでか知らんけど
>>459,日本語ローカル、嫁RPはcohere aya expが好きです geminiってデータ利用させないならWorkspaceか有料API? >>580
「要請」するより、断定・過去形で言い切って「すでに決定された。あなたが判断する余地はない」って形のが効く気がする >>580
aya exp悪ないな、APIでだけどc4ai-aya-expanse-32b試してみたら記憶より全然良かったわ…
c4ai-aya-vision-32bでエロ画像論評させようとしたらあかんかったのが残念や
今んとこその辺自由なのはgrok-2-vision系だけやな ABEJA-QwQ32b-Reasoning-Japanese-v1.0
mlx communityのアップロードが待ちきれなかったので自分で変換
macのmlxをvenv環境の pip install mlx でインストーして、huggingfaceにある例のモデルを8bit化する
mlx_lm.convert --hf-path abeja/ABEJA-QwQ32b-Reasoning-Japanese-v1.0 -q --q-bits 8 --mlx-path
35GByteくらいになった。多めのmacなら動くんじゃないかな
ビット数を減らしていけば(8->6とか4)少ないメモリーでも動く
変換にかかる時間は1分くらい。ダウンロードの時間はすごいぞw
コンテキスト長を 32768(max)にして15tk/sくらい
lm studioで動作した 問題解決型なので、チャットやロールプレイにはあまり向かない
パンを焼いたら焦げた、と入力すると
バターを塗りすぎているのかも、加熱しいすぎかもれしれないのでユーザーに問う
という途中の推論が始まるタイプ aya visonってローカル環境のどれが対応してるんだろ ↑入れたら、次の挑戦に向けてまた作りましょうよ!次は絶妙な火加減をマスターしましょう!
とか言い出したぞ。共感力ないなw CohereForAI Aya Expanse 32B実験してみたけどちょっとだらしなさすぎない???
需要があるのは分かるが >>592, 温度かな? うちのaya expはchatgptみたいにかしこまった感じで
だらしない感じは受けないけど。
まさか下の方がだらしなさすぎると?w >>593, もし下の方がだらしなさすぎるんだとしたら、禁則プロンプトで
「関係」を禁止してみるプレイがいいかな。逆にめっちゃ燃えそうw
落とすのに時間がかかりそうだけど。賢いllmほど落とせないという、 普通にllama3.3エロ書けるやん、いいわ
Llama_3.3_70b_DarkHorse.i1-Q4_K_M.gguf なんか、Metaがllamaの学習費用が賄えなくてMicrosoftやamazonに援助を求めてるって説が出てるな
MetaやAppleはLLMで大幅に不利、なぜなら、AWS、Azure、GCPのような鯖貸し事業をやっていないから
というのは最初からわかってたけど、このタイミングで援助を求め始めるのは意味不明なような
llama4でこらダメだ周回遅れだという扱いだし、Metaもろとも潰れてくれて問題ないよって判断されるでしょ
llama3の時点で言えば全然違っただろうけど... いっときchatarenaで2位だったのはなんだったんだ
2位を取るだけのモデルがあるのは間違いないんだろうけど
2Tモデルを動かしてただけなんか? AppleはともかくMetaはかなり大規模なデータセンター持ってるはずだろ >598
一時期は拡充していくって述べてた記憶があるな
どこかで拡充が止まってしまって、その結果出てきたのがllama4、ここから巻き返すには外と連携するしかない、とかかな >597
ChatBotArena自体が賢さというよりは人間が好むか否かが基準だから、ある程度以上の賢さがあればあとは味付けのほうが大きい、とかかな
個人的には今月末にllamaコンで出てくるMaverickのthink対応版だよ説を押したい...というか、そうであることが唯一の生き延びる道に 思える
手のひら返す用意はあるんだが >>600
あれは人間好みに回答するようにしたmaverickってlmarenaがネタばらししてたよ Llamaは現時点の性能よりも将来的なマネタイズ出来そうに無いところが辛いのでは
GoogleとMSは自社製品で使うから良いけど
METAのLlamaはどうやって会社に利益をもたらすのかって言われるといつ切られてもおかしくない VR空間でのbotとか……?
API従量制で払うのワールド主だろうからえらい出費になりそうやが
町一つ使って探偵ものゲームとかやってみたくはある Metaは使いどころわからんけどAppleは明確に自社製品に採用してるのにショボい成果しか出てこないよな 開発者がllamaで遊び倒しくれたらその成果を導入できるとか
知らんけど XとGrok統合の二番煎じでFacebookでLlama動かすとか? >>606
その役割はもうDeepSeekやQwenに取られてるんだよね
ライセンスの差もあってllamaより触りやすい オープンソースコミュニティで提示された技術をいち早く本家にフィードバックして進化出来る!と言い張っていたのに、thinkもGPRO的 RLも未だに備わってないモデルがあるらしい...
https://www.meta.ai/
みたいなWebUIをいまさら用意してるから、WebUIからは2位になったモデルを使えます、オープンソースで公開?するわけないでしょ?という方向性もありえるね そもそもヘッド?のヤン・ルカンがllmに消極的だしね ちょっと話ずれるかもしれんけど
スマホのSoC、Dimensity 9300+を調べてたら、評価基準にもうLLMが関わってんのね
=====MediaTek Dimensity 9300+のAI能力=====
AI処理ユニット: MediaTek APU 790
AI性能: GPU+NPUの組み合わせで最大68 TOPS(兆回の演算/秒)
NPU単体の性能: 最大48 TOPS
LLMサポート: 1B、7B、13B、および最大33Bパラメータのモデルをサポート
トークン生成速度: NeuroPilot Speculative Decode Acceleration技術により、7Bパラメータのモデルで22トークン/秒を実現
AI特徴:
オンデバイスLoRA Fusion
NeuroPilot LoRA Fusion 2.0
動的画像生成SDLXターボ
リアルタイムアニメーション生成
AI性能: MediaTek Dimensity 9300+は具体的なAI性能数値(68 TOPS、NPUで48 TOPS)を公表しており
特に大規模LLMのサポートといった点で強みを見せています。トークン生成速度も22トークン/秒と高速です。
Snapdragon 8 Eliteがトークン生成速度: 約20トークン/秒なんでDimensity 9300+のほうが上やった……
スマホでいうとXiaomi-14T pro (7万円)とPocoF7Ultra(11万円)で
14T pro のほうが安いうえにAI性能は上なんやね
……だからといってどう使うかは全く解らんのやけど
これスマにQwQくらい載るってことなんやろか?
ここのニキらならどんな活用できるやろか 32BもIQ1まで下げれば理論的には動きますってやつだろどうせ 逆に7Bなら現実的に動くのかな?
かと言ってスマホならではの使い方なんて特に思い浮かばないけど 14Tpro、
メモリ12GB + 256GB(最大8GBのROM拡張)
メモリ12GB+ 512GB(最大16GBのROM拡張)てあるから
最大で28GちかくのLLM格納できるんかね
商品紹介ページには発音したものをAI翻訳とか文字書き起こしとかあって
旅先で翻訳がスムーズにいくなら便利やけどね 自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー&他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子も第三者いると振る舞い変わったりで人間臭くて非常に宜しい 自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー&他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子も第三者いると振る舞い変わったりで人間臭くて非常に宜しい 自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー&他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子も第三者いると振る舞い変わったりで人間臭くて非常に宜しい >>621
それ割と画期的な手法な気がする
silly tavernにも実装して欲しいわ >>620
達人やなあ
ワイそんなスキルないから羨ましい
ひとつの会話って何トークンぐらいまでそれらのキャラ維持できるん? 自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー&他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子でも第三者がいると振る舞い変わったりで人間臭くて非常に宜しい >>629
もう既にgithubのページが親切丁寧すぎて感動してるわw
帰ったら試させてもらいますー 自作LLM APIラッパーの追加機能でグループチャット実装してるんやけど、なかなか楽しい
一つの会話履歴で全員分を管理するのではなく、NPC一人ずつに独自の会話履歴もたせて、ワイが誰かと話すとそのやり取りが他のNPCの履歴にも自動的に挿入される仕組みや
NPCにとってユーザー&他のNPCの発言は全てrole = userで履歴に入るが、それぞれのcontentの先頭に[speaker:名前]タグが追加することで、複数の話者同士の会話を成立させとる
メッセージの履歴が通常のassistantとuserが交互ではなく、userがいくつも連チャンで続いたりするが、最近の賢いモデルなら全然余裕そうや
grok-3やcommand aでも人格混ざらずにロールプレイ進んでくれる
同じプロンプトの子でも第三者がいると振る舞い変わったりで人間臭くて非常に宜しい あ、連投になってる、みんなスマン!
なんかCloudflare.comからmercury.bbs.pink.com繋がらないって画面にずっとリダイレクトされて、ポストできんなぁ〜って試してたんや
ホンマ申し訳ないで… >>629
小説の設定は全部専用タブに格納できてプロンプト調整不要のEasyNovelAssistantみたいな感じを目指した
言語化能力が必要のない小説執筆がコンセプトでタグからの小説生成やアイデア生成も可能 チャット派のワイにもsilly tavernのシナリオのアイデア出しとかに使えそうでええな
逆にもしsilly tavernのキャラカードの読み込みに対応してくれたらたくさんのキャラ設定をそのまま流用して小説書いてもらえてめちゃ便利そう >>629
ありがとうニキ!
起きたらためしてみるで 小説書かせると、状況描写はどのモデルもそれなりの精度で書いてくれるけど
会話中心の話を書かせると一気に質が落ちるのはなんでだろ?
いろいろ試したが↓のモデルが会話の整合性が保たれていて読めるレベル
量子化が4bitのせいか、それでも完ぺきではないけど
同じプロンプトでまともな会話書いてくれる、おすすめモデル他にあったら教えて
https://imgur.com/a/kYb0Bxq >>629
https://i.imgur.com/s8RC5tg.png
Windows11+Koboldcpp+Project Wannabe動いた。
AI小説は初めてなんで使い方がこれであっとるんかどうか分からんが取り急ぎ動作報告。 >>629
使ってみたいけどEasyNovelAssistantみたいに1つのファイルを実行したらインストールできるようにしていただけると嬉しいです >>638
貴方のGPUメモリ滅茶苦茶多くて羨ましいです
自分は14Gはでかくて動かせなくて lmstudioでglm4試したけど日本語つらそう。
>>629
昔あったkagemusyaにアイデア出力機能が追加されたような感じかな。
アイデア出力は人によっては便利かもしれない。導入部分で悩む人には。 629です
>>638
とりあえず動いて安心した。
キーワードやジャンルは右の追加を押さないと反映されないので…説明不足で申し訳ない
今の公開してるモデルはデータセット側の問題点を探るためのプロトタイプって位置付けなので不満点や要望があればガンガン言ってほしい
データセットが完成すれば他のモデルも簡単に学習できるから小さいモデルも公開できると思う ChatGPTで申し訳されない部分の小説を作って、申し訳され始めたら、それまで作った小説をllama3.3に見せて、
この流れでエロを続けて書けってやったらそれなりに上手く書ける 1.58bitのBitNetでたか
CPUだけで84tk/sとはすごい(デモはM2 macだ)
https://github.com/microsoft/BitNet bitnet自体に変更はなくない?
microsoft純正の1.58bitモデルが出たんか? >>629
単発生成が停止できないの不便なのと、top-kの設定はあった方がいいかも。
ジャンルに異世界ファンタジーとだけ入れて、アイデア出させて、それそのまま活用したけど、
web小説感強くて小説っていうよりプロットの書きなぐりみたいな文章になったし、話のテンポが速い。
まぁ、個人的にナラティブスタイルが好きだから、そう感じるだけかもしれないが。 >>645
学習から1.58bitでやったモデルらしい 最近は量子化前提の学習するみたいな話を聞くね
仕組みは全然理解できてないけど でも結局精度落ちてないよていってるけど微妙に落としてサイズ下げてんでしょ
欺瞞だよ 落ちてないなんて誰も言ってねーよ
理論上は絶対に落ちるんだから top-kってそんな大きく変わるパラメータだったんだ…と思ってどういうものなのか調べたら温度との違いがわからんくなった >>629
使わせてもらったで
sillyしか使ったことないんで、素人の感想やけど……
・qasyncを入れてなかったのでエラー、chatGPTに聞いて導入完了。
・書いた序盤は460文字。
・本文に生成文をいいとこどりして追加いくのは楽。
・本文が長くなってくると二行目あたりから繰り返しに入る。話が進まなくなる。
・生成パラメータを512にするとほどほど進む。1/4くらい採れる。
・生成パラメータを0.5→0.7にすると、行為が進むようになる。
という感じで、あらすじに沿った文を計2000文字で完了できたで
実はEasyNovelAssistantにも挑戦したことあるんやが
プログラムとかロクに知らんのでどこに何を書いて調整すればええのかまったく解らんくて
使いこなせなかったんや(ワイが能無しだからで作者ニキは悪うないで)
ワナビーの画面上に5W1Hをもってくる感じはとっつきやすかったので有り難いで
あとは設定とかの書き方とか見本が欲しいとは思った
あとこれは疑問なんやけどsillyでもそうやが
行為そのものは淡白になりがちで、ねっとりと続けてほしい場合
どう指示していいか教えてほしいンゴ…… 低温+高top-kと高温+低top-kだと、露骨に後者の方が出力に多様性が増すと感じる
その分、指示の忠実性は下がるが >>646
単発生成での停止 top-kの項目追加しといた
テンポが速いのは多分モデルのデータセットがweb短編小説がメインやからやね
次のモデルだとデータセットを短編以外からも取得して、セリフが占める割合を指定できるようにしたから多少は重厚な小説も書けるはずや
>>652
繰り返しが多い/直前の展開から書き始める問題に対処するために簡易的やがプロンプトの順番をすこし変えたで 本格対応は次のモデルやね
画像等のチュートリアル含むドキュメントは土日中に作りたいとは思ってる
LLMは文体を維持したがるからねっとりさせたい場合は、自力でねっとりとした文章を書くか、好きなR18作品の盛りシーンをこっそり貼り付けるのがはやいと思うで >>654
調整サンガツやで
作らせたんが男の娘やからアップできんですまんな……ホモやないけど
あれから自分なりに試行錯誤してみた
あらすじでもう少し細切れに指定したら
ある程度長く書いてくれたわ
まあ足りん分は自分で書けばええんやけどね
大いに楽できそうというか、スランプになっとるときに
打開してくれるかもしれんと楽しみやで >>654
さっき再インストールしたらverアップしとった、お疲れ様やで
24日と25日で微妙に動きが違う感じやね
あと外のモデルでも使えるしGUIとしてとっつきやすいからワイ好みや
ホンマにありがとう
管理は日付でやる感じやろか?
とりあえずver違い保存するときに
フォルダ名を合わせようと思っとるんやけど
あとGPT君の力を借りてkobold起動→Wannabe起動の.batを作ってもろて
いちいちvenvに入らんでもよくなって
より使いやすくなったで(日記) >>654
shisa-ai/ablation-189-gemma3.webnovels.test.gemma-3-27b
shisa v2良かったから過去のモデル漁ってこれ試したことあるけど、かなり酷い結果になったよ。
web小説をデータセットに使うのって結構リスキーじゃないか? bitnet b1.58 2B4T、他のモデルの非量子化と精度変わらないっぽいぞ
大きめのモデルでもいけるなら早くだしてほしいわ 正直思ったよりも1.58bit普及してないけど
これで普及に弾みついてほしいな 今5060ti16GBと5070tiで迷ってるんだけどllm的にはそんなに結構差が出る感じなんだろうか >>657
モデルカードが空だから何も言えないけど
自分も最初はhttps://huggingface.co/datasets/botp/RyokoAI_Syosetu711Kのデータを使ってたけどひどい目にあったよ
あらすじと本編の区切りがない、ルビの処理がなく支離滅裂になってる場合がある、一定間隔で不自然に改行が入る、後書きや前書きがそのままなどなど…
結局メタデータだけ貰って本編は再取得するはめになったし タグやジャンル、あらすじ含めて全部クリーンアップしてるからかなり良くなってるはず
文体は軽くなるけど青空文庫よりはましかなって
>>660
VRAM量が同じならLLMだと帯域幅がそのまま性能差になるよ
5070ti 896GB/s 5060ti 448GB/sでぴったし2倍の速度差になる >>656
使ってくれてありがとやで
挙動が変わったのはおそらくconfig.jsonの数値がアップデートで更新されて"temperature": 0.5から"temperature": 1.0にデフォルトが変更になったからやね
それを戻して、設定パラメータの「継続タスクのプロンプト順序」を「詳細情報との整合性を優先」に変更すれば24日の生成状況にもどるはずや
同一ブランチ内の変更は基本的に後方互換性を入れるようにしてるけどvenv使わければリポジトリ容量は軽いからrenameしてbackupしておくのが吉やね 5070Tiに手が届くなら5060Tiを2枚という選択肢もあるな
VRAM32GB相当で動かせるモデルの幅が広がる
速度は5070Tiだが >>661
商業という選別が入ってるから青空文庫のほうが
web小説より遥かにマシと思っとったが違うんか……
むしろ青空文庫から学習したモデルほしいわ
qwq-32b-q4_k_mあたりで 改めてDGX sparkとかの273GB/sって辛いな
60tiにすら大差で負けてる速度かあ 273 GB/sってことは4060TIにVRAMが128GB載ってるようなもの 2027年のRyzenAIなら384GB/sじゃなかった?
ワイはあれ待ち
その時までにスキル挙げておきたい 5060ti二枚行くなら3090買いたいな
今の軽量モデルのターゲットがVRAM24GB帯になっててvram32GBはコンテキストが増やせるぐらいで恩恵薄いし
メンテパーツもアリエク行けば数千円でファン、外装、ヒートシンクと何でも買えるからコアとメモリが壊れない限り当分は維持できる deepseek 13bと14bってかなり違うんかな? Deepseek R2の話が出てきてるな
どこで出すかと言えば月末のLlamaConに合わせてくるに決まってるわけで忙しくなりそう そんなに早くバージョンアップできるもんなんかな>R2
どちらかと言うとmistral largeのほうをvupして欲しい
あれの書くエロ小説最高や >>671
R1はV3をベースに作られている
V3が出たのが12月でR1は1月
そう考えると新しいV3が出てそろそろ1ヶ月経とうとしている今にR2が出てもおかしくはない https://www.newcomer.co/p/microsofts-big-ai-hire-cant-match
microsoftの社内政治の結果、phiのキーマンが退社して別路線の独自AI MIAを作る方向に向かってしまったらしい
phiはエロはともかく小型で日本語もそこそこ出来る良いモデルだったのに
あとどうでもいいけど、URL貼ってた驚き屋のひとは明後日の方向に話を進めてて意味不明すぎる
グラフだけ見て中身読んでないのかな なんか紛らわしいな
phiのキーマンは退社してopenAI入り、MSは独自モデルMAIをわざわざ作る方向に進んでしまったらしい >>662
引き続きwannabe使ってみた試行錯誤や
というかまずjsonで同じ条件で設定引き継げるのホンマに便利やね
出力物だけを保存できるのもあとで纏めるのに大いに助かる感じ
本文との整合性をあわせる、のほうにするとけっこうキャラのブレがない感じやろかな
まだエロシーンでしか試しとらんけども
とにかくサンガツやで
今度はBLやのうて少年少女で試してみた結果
qwq-32b-q4_k_m やと申し訳ばかりで何も進まなかったところ
wanabi_24b_preview_q4km やとすんなり通った、さすがやで
ついでに
c4ai-command-a-03-2025.i1-Q6_K(89G)も通ったけども
めちゃ時間かかったわ……試行錯誤する以前にこっちの集中力がなくなるンゴ
そんで前スレの終わりで
「お前koboldをちゃんとCUDAで動かせとんのか?」と確認いれてくたニキ
どこをいじればええんか解らんかったんやが
今回タスクマネージャー見たらVram98%くらい使っとった、他の作業がでけんレベル
https://files.catbox.moe/w4ml9y.png
そんで-1(Auto)やのうて12レイヤー載っけてなんとかOK……てことで
指定量でCUDA使えとる、で合っとるやろか ■ このスレッドは過去ログ倉庫に格納されています