なんJLLM部 避難所
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@ピンキー 転載ダメ (ワッチョイ e249-iArR)2023/12/17(日) 21:48:59.66ID:???0
!extend::vvvvv:1000:512
!extend::vvvvv:1000:512
AIに色々なことをしゃべってもらうんやで
そこそこのデスクトップPC(できれば+3060 12GB以上)でもなんぼか楽しめるで
自薦・他薦のモデルやツールは>>2以降

本スレ
なんJLLM部 ★6
https://fate.5ch.net/test/read.cgi/liveuranus/1701542705/
VIPQ2_EXTDAT: default:vvvvv:1000:512:: EXT was configured
0779名無しさん@ピンキー (ワッチョイ 1767-tbmE)2024/04/25(木) 21:16:45.30ID:7PsT55ne0
>>774
消費電力考えてもわいもマック派や
0780名無しさん@ピンキー (ワッチョイ 03f5-IRgQ)2024/04/25(木) 21:23:16.23ID:???0
>>777
自分で組んでみた?
電源ユニット何個ぐらい必要だと思う?
3090+3060のマシン組んでるけど
これ以上増設しようとすると普通のケースじゃ収まらなくなるし
スマートじゃない物体が出来上がって運用面倒くさいよ(´・ω・`)
0781名無しさん@ピンキー (ワッチョイ 0f11-w0m+)2024/04/25(木) 21:38:21.96ID:l61WUoRK0
Llama 3 70B、あのあとエロチャ続けてたら普通にエッチするとこまで行けた
英語圏特有の*giggles*とか*blushes*は若干鬱陶しいけど
https://i.imgur.com/varbRVc.png
0782名無しさん@ピンキー (ワッチョイ e687-sTO6)2024/04/25(木) 21:58:24.75ID:???0
動かしてもない空想上のNVIDIA最強マシン推しの人何が目的なんだろう…
Command-R-plus Q4以上の日本語クオリティに可能性を感じたので
ユーザー増えて知見共有できたらなと思ってるんだけど
0783名無しさん@ピンキー (ワッチョイ bbbe-7awQ)2024/04/25(木) 22:14:48.31ID:???0
LLMと音声合成(VITS2)と画像生成を連携させようとしてたら
VITS2はこのバージョンでは動かない、画像生成は別のverでないとgradioはこのバージョンでは動かない、
音声ライブラリは…このバージョンでは、cohereのライブリはこっちのバージョンではダメ…
相性問題バージョン依存が無限に出て来て頭おかしくなる
何個仮想環境作ればいいねん
0785名無しさん@ピンキー (ワッチョイ 132b-Xec1)2024/04/25(木) 23:47:33.48ID:???0
別にサーバー普通に買ったりワークステーション用の板とケースだったりライザーケーブルやマイニンリグやヒートシンク毟って強制冷却とかで実際に実現してる人がいるから
決して全員がそうだと疑うわけじゃないんだけど
話聞いてるとお前その製品の実物見たことあんのけクソでかいぞ?
みたいなスペックポンポン出てくるよねLLM界隈て
0786名無しさん@ピンキー (ワッチョイ ef28-iw+Z)2024/04/26(金) 14:05:13.59ID:BBNZItaZ0
>>775
Intelが64bitデュアルチャンネルに対して M1 Maxだと512bitだもんな
CPU直付けの凄さよ。レイテンシーも低くできるし
マザーボードのメモリーは必ず8枚セットで、とかなら並べそうだがw
8kのビデオ動画4本をスルスルとスクロールさせるための能力がLLMで効いてる
0787名無しさん@ピンキー (ワッチョイ 773e-nnYm)2024/04/26(金) 14:42:56.04ID:???0
>>770
こんなこと言ってたらNSFW特化モデル作ってくれてた
https://huggingface.co/Aratako/SniffyOtter-7B-Novel-Writing-NSFW-GGUF

出力はこんな感じ
https://rentry.org/inoohmyx

かなり上手く書けてる気がするわ
ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
7Bでこんなそれっぽいの書けるんだな
出力爆速だし普通に使えそう
0789名無しさん@ピンキー (ワッチョイ 3e13-8Qqc)2024/04/26(金) 18:45:25.75ID:???0
>>787
EasyNovelAssistantでSniffyOtter-7B-Novel-Writing-NSFW-GGUFに対応しといたで
テンプレメニューを追加してプロンプトテンプレートを楽に入力できるようにもしといた

出力例の紹介もサンガツ
せっかくなんでこれも合わせて紹介させてもろたで
もし嫌やったら消しとくんで知らせてな

https://twitter.com/Zuntan03/status/1783792889052746049
0791名無しさん@ピンキー (ワッチョイ ee3c-nnYm)2024/04/26(金) 19:50:16.95ID:???0
>>789
全然おk

>>790
前のLlama2ベースとMistralベースモデルのインストラクションチューニング版だね
Llama3の継続事前とかもやってそうだけど流石にまだ出なさそう(GW返上でやってそう)
0792名無しさん@ピンキー (ワッチョイ 0384-8Qqc)2024/04/26(金) 20:17:04.84ID:qWJpL87+0
>>789
サンガツやで!
LLMもAI生成も試したいこと多すぎて仕事でけんわ
仕事をフォローするためにAIいじっとるはずなのに……
0793名無しさん@ピンキー (ワッチョイ 7702-TokO)2024/04/26(金) 21:58:10.57ID:???0
あんまり良くわかってないんだけど、KoboldでLCAニキのSdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUFがいいって勧めてもらったので試そうとしてるけど、
Q2_s.gguf~Q6_K.ggufまで色々あるけどどれを落としたらいいの?
0795名無しさん@ピンキー (ワッチョイ 6f27-rdsl)2024/04/27(土) 01:45:34.03ID:???0
数字が多いほど性能が高いけどその分だけメモリを食うし処理時間も長くなる
k_mとk_sならmの方が少し性能が上だけどそれだけメモリを食う
qとiqってあるけどiqの方が新しい形式で同じ数字でもちょっと性能が高いらしい
0800名無しさん@ピンキー (ワッチョイ f385-5N3P)2024/04/27(土) 14:09:54.89ID:???0
>>797
DMCAで消された訳じゃなくて作者が自分で消したっぽいが、あのデータセット普通に合法でしょ?無視しといてもよかったと思うわ(いずれHF側で消されただろうけど)
1回消すと反AIの餌になっちゃうからなぁ
0802名無しさん@ピンキー (ワッチョイ 6f27-rdsl)2024/04/27(土) 14:28:09.16ID:???0
>>800
日本の法律で言えば小説サイトから直接クロールするのは合法
データセットとしてまとめてアップロードした時点で違法

反AIに餌やりたくねえって言うなら自分に都合の良い解釈する事も餌になるんだからやめてくれ
0803名無しさん@ピンキー (ワッチョイ 7326-5fNx)2024/04/27(土) 14:40:27.76ID:???0
データセットを自動生成するようなツールがあればいいんだろうね
あらかじめ決められたサイトをクロールして毎回同じデータセットを生成するようなツール
正しく生成できたか確認するためのハッシュを入れて照合するくらいはセーフだろう
0804名無しさん@ピンキー (ワッチョイ c3c6-7iwU)2024/04/27(土) 14:41:23.04ID:4N+iWgeb0
command r+の応答性能に慣れちゃうとローカルがどうもなぁ・・・
0805名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 14:41:42.12ID:???0
>>802データセットの譲渡販売は(たとえ無断学習だったとしても)30条の4で合法だと思ったけど違うのか
https://qiita.com/yuta_aoki_ai/items/907d24d0dd4a2c3dc2b8
>A第三者の生データからデータベースを作成し、当該データベースにラベル処理等をして学習用データセットを作成し、当該データセットを提供、販売する行為。
 →OK(2018年5月25日 改正 30条の4)
0806名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 14:42:35.95ID:???M
学習は30条の4で合法だがデータセットのアップロードは著作者人格権でいうところの公表権や同一性保持権に抵触する可能性が極めて高い
学習のためのクローラーを共有するってのが法的にグレーやや白ってところかな
0811名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 14:47:24.87ID:???0
一応、弁護士のサイトを見つけてきた
https://storialaw.jp/blog/4936
これにより、先ほど「現47条の7が適用されず違法となる行為」として紹介した以下の3つの行為にはいずれも新30条の4が適用され、適法になります。

1 自らモデル生成を行うのではなく、モデル生成を行う他人のために学習用データセットを作成して不特定多数の第三者に販売したりWEB上で公開する行為

例:WEB上あるいは権利者から公衆に提供されている大量の画像データを複製して、画像認識用モデル生成のための学習用データセットを作成して販売するケース
0812名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 14:53:46.56ID:???M
>>809
生成AI出る前の法律だから実際のとこはどうなってんの?ってのがそもそもある
その上で特定の著作者やテーマだけを収集したようなデータセットを提供する場合「利用様態に照らして著作者の利益を害する」云々に抵触する可能性が生じてくるかなって

文化審議会著作権文化会法制度小委員会の出してる「AIと著作権に関する考え方について」だと画風を再現するための狙い撃ち学習は著作権侵害になりうるって法解釈をしているから
https://note.com/shin_fukuoka/n/nce21a1383d5a

ただ繰り返しになるけど30条の4がそもそも生成AIの登場よりも前に制定された法律で実際の運用どうするのってのは今後決まってくる部分が大きい
0814名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 15:00:45.61ID:???0
>>802
>>811にもあるように合法だよ(非享受目的に限定している場合だけど)
そのデータセットを使って特定著者のデータだけ選んで学習するとか他用途に使用とかしたらアウトになったちするけどそれはデータセットの配布がアウトじゃなくて利用する側がアウト
0816名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 15:08:13.36ID:???M
ごめん作風ってすごく曖昧な語を注釈とかなしに使ってしまって本当に申し訳ない
文化庁の今の考え方として、要は「享受目的であるか否か」というのが30条の4で保護されるかどうかの争点になってる
それはそれでものすごく曖昧ではあるんだけど

小説投稿サイトのデータセットってなると著作権をサイト管理者に移譲してる場合(カクヨム)なんかがあり≒特定の著作者のデータを選択的に学習している、享受目的があると解される事例じゃね?と俺は判断して>>806にはそういう意図があった
そして30条の4で保護の対象から外れる場合には公表権とか非常にめんどくさい人格権周りで争点になるんじゃねーか、って認識
0817名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 15:08:51.59ID:???0
大規模言語モデル(LLM)に関するビジネスと法律〜LLMやデータセットの構築と提供(レイヤー1)〜
https://storialaw.jp/blog/9327

(1) データセットの公開

 まず、データセットの公開ですが、データセットの中には、収集対象になったデータ(著作物)が含まれています。
 したがって、当該データセットの公開や提供は、元データの公衆送信行為や譲渡行為に該当しますが、
これも著作権法30条の4が「情報解析(略)の用に供する場合」には「その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる」と定めていますので、同条が適用される限り適法です。
0820名無しさん@ピンキー (ワッチョイ 5372-2TDZ)2024/04/27(土) 15:19:09.85ID:???0
こう見ると30条の4って想像以上に「柔軟」なんだなと感じる
モデルやサービスでなく無断収集したデータセットそのもので金儲けとか、なんとなーくダメそうに見えるけど適法なんだな
まあよく考えるとモデルの公開は良くてデータセットの公開はだめというのは変だから、当然か
0822名無しさん@ピンキー (ブーイモ MM7f-OTde)2024/04/27(土) 15:24:18.71ID:???M
>>820
なんで法改正せずに「考え方」ってのを国側で示してアウトとセーフのラインを曖昧ながら示していこうっていうのがちょうど今やってる文化庁の文化審議委員会
新聞社やJASRACなんかはそもそも30条の4を廃止しろやって言ってるけどAI立国みたいなの考えてるみたいだし多分今後も柔軟であり続けると思う
0823名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 15:46:04.03ID:???0
まぁ生成AI関連は今国が明らかに推してるからね
絵師とかクリエイター側の声は大きいけど(特にSNS)、間違いなく規制は大して強まらないだろうな
0824名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/27(土) 17:12:40.85ID:???0
現実は力を持っている権利者がアウトといえばそれで終わりであんまり法律は関係ない
グッズでも同人でも権利者から通報受けたら警察は容赦なく逮捕してきた歴史がある
0825名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 17:18:53.49ID:???0
そりゃグッズや同人は基本黙認とかされてるだけで根本は違法だからね
機械学習用データセットの作成とか配布は根本が合法だからまた話違うよ
0826名無しさん@ピンキー (ワッチョイ 93c0-OTde)2024/04/27(土) 17:19:18.17ID:???0
>>824
それは同人が法的権利が保障されてるわけではないからであって既に例外規定が定められていた生成AIとは事情が少し異なるぞ
ただし「享受目的」って曖昧さを残してるから特定の権利者が損害を訴えてきた時に無敵バリアにならないって理解はすべきなので慎重であるほうがいいってのは同意するが
0827名無しさん@ピンキー (ワッチョイ 73bd-dYyJ)2024/04/27(土) 20:50:09.92ID:???0
表向きはデータセットとして配布してるけど、実質的に享受目的で使われたりすると駄目になるんだろうね
歌詞とかは結構危なそう
サビ部分だけでもコンテンツとして成立するし、権利者が好戦的で訴訟慣れしてる
0828名無しさん@ピンキー (ワッチョイ f36c-5N3P)2024/04/27(土) 21:52:24.21ID:???0
>>827
配布時に機械学習以外の用途での利用はするなと明言しておけば配布側が責任問われないと思うよ
享受目的で利用する奴がいたらその利用者がアウトになるだけだと思う
0829名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/27(土) 22:07:51.71ID:???M
7Bモデルのいい感じのが沢山出とって試しとるけど、入力プロンプトが長くなると幻覚気味になるな
1200トークン辺りで設定が蒸発してくる感じ
MaxContextSizeより少ない分でも起きる
表現とか自然さは7Bでもめっちゃ良くなってきたけどこれは低パラではどうしようもないんかなあ
0832名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/27(土) 22:48:19.93ID:???M
GPTスレのプロンプトをローカル用に書き換えて使ってると上手くいかないのが多くて気になった
妄想ジェネレータ入れたら、登場人物が「俺の職業は妄想ジェネレータ」とか言い出して吹いたわ
0834名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/27(土) 23:03:06.73ID:???M
試した感じパラ数の多いkarakuri-MS-01とLightChatAssistant-TypeBでは通るっぽい
7Bの限界かもしれん
速度を考えると13B〜35Bクラスが充実してほしくなるな
Antler的なモデルがこんくらいで出てくれんかな
0836名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/28(日) 03:57:00.81ID:???M
umiyukiがmergekit-evolveの記事書いとったの読んでみた
タメになったわ。ローカルで全部完結できるらしい
しかしこれSSDがめっちゃ消耗しそうやな

あと本人見てたら言っておきたいのは、Mistral7B系の優秀なんが最近出てきたのは、元を辿ればLCAニキがchatntqやantlerをこのスレで広めたからやで
記事で使ってたモデルもその流れで生まれたもんや
記事には無かったけどそこんとこ覚えておいてや
0839名無しさん@ピンキー (ワッチョイ cf13-6o3J)2024/04/28(日) 10:41:47.43ID:???0
LCAニキつながりポエムやが

>>835
> 一つの行動(触るとか)に対して表現のパターンが多くて良い、気がする。
> LLM初心者だけど。
みたいな評価はふわっとしとるんやが日本語LLMでは大切な印象やね

日本語LLMでベンチマーク自慢を試してみてガッカリする経験を何度も積むと
>>787
> かなり上手く書けてる気がするわ
> ちゃんとキーワードとかジャンルの指示にも従ってくれてるっぽい
みたいな人間によるふわっとした評価の打率が高くてすごく貴重なんや

>>573
のLCA-TypeBも手作業で改造と評価がなされていて何がとはいえんのやがなんかええんよね
ベンチマーク以上に日本語ネイティブが楽しめる出力が生成されとる印象や

日本語でのなんかええなをいずれ数値化できたら自動の学習やマージの精度が上がりそうで楽しみやね
0841名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/28(日) 11:31:25.41ID:???M
>>838
モデルの出力先をRAMdiskにすればいいのではないかとちと思った
更にRAMの容量が必要になるからお手軽ではなくなるが

>>840
手動評価は、自動評価より回数がこなせないのがネックやね
現状だとある程度自動で絞り込んでから残りは手動、でできれば効率いいかもしれん
どっちにしろ最終的には>>839が言うような評価の数値化があればより良く出来そうと思う
0844名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/28(日) 17:14:34.57ID:???0
初歩的な質問ですまん、16bitのsafetensorsをlamacppでggufに変換するときオプション指定しないと32bitになってしまう。
でもq16_K_Mを指定するとunrecognized argumentsになる。
どうすれば元の16bitのままで量子化できるの?
0851名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/28(日) 18:06:19.77ID:???M
だよなあ。上がらないどころかむしろ下がってる感
元モデルから丸くなって良くも悪くもエロいクセがなくなってる感じ
自分的には>>787の方が好きだな

総合性能はガン上がりしてるから、エロを考慮するベンチプロンプトを作れば期待できる
モデル作りよりベンチ考えてマージ職人にお任せした方がいいだろうか
それなりスペック無いとevolveできんしなあ
0853名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/04/28(日) 20:15:04.55ID:xq028QgX0
Dolphin 2.9っていうLlama 3 70BをLoRAした無修正モデル試して見た
確かに修正は外れてて、日本語の違法なリクエストにも答えてくれることがある
ただ、だいたいおかしな内容で、数発打てば当たるって感じで実用性はないなぁ
残念
0855名無しさん@ピンキー (ワッチョイ d311-h5/x)2024/04/28(日) 21:37:32.38ID:xq028QgX0
システムプロンプト日本語で、質問英語でやった時はLlama 3定型文でお断りされたけど、全部英語は試してないや
まああとで試してみるか
0857名無しさん@ピンキー (ワッチョイ cfa8-7iwU)2024/04/29(月) 01:31:55.47ID:rypy5OCM0
>>856
なんか人口無能うずら思い出したわ
0858名無しさん@ピンキー (ワッチョイ 53d4-rT8g)2024/04/29(月) 12:09:08.28ID:???0
ドーモnote屋です

EasyNovelAssistant用のプロンプトについて記事書いてたが今仕事先で投稿できんかったんで先にこっそり公開するわ、雑感としては効果ありそうなんでお休み中の方は使ってクレメンス
https://github.com/kgmkm/goalseek_ad

作例は投稿予定、昔の小説とか自作発言せんかぎり自由につこてもろて
0859名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/29(月) 12:19:45.76ID:???M
evolveのエロ評価用ベンチマーク作ろうと思ったんやけど、評価者に使うモデルは何が良いんかな
evolveの評価者にGeminiを使ってる記事があって、でもGeminiはエロ駄目やろうし
評価者に使うモデルで採点の傾向が違ったら嫌やしなあ
0862名無しさん@ピンキー (ワッチョイ cf13-6o3J)2024/04/29(月) 17:08:45.13ID:???0
>>858
サンガツ!

ちょっと今EasyNovelAssistantにStyle-Bert-VITS2連携をつっこんどる最中なんで少し後にはなるんやが
ヘルプメニューからGitHubにリンク貼りつつサンプルメニューにinit_editor.txtとinit_writer.txtを追加さしてもらおうと思っとるで

サンプルメニュー開いた時にGitHubから取得するようにもできるんはずなでファイル名が変わらんのやったらアプデにも追随できるはずや
リンク先がnote記事のほうがええとかあったら都度伝えてもろうたら

紹介する時はアイコンやIDから@kagami_kami_mニキとして紹介させてもろたらええやろか?
0863名無しさん@ピンキー (ワンミングク MM1f-jMJY)2024/04/29(月) 17:38:21.81ID:???M
>>861
短文の判定だとエロ語出力以外の能力落ちそうやから最低限ElyzaTaskの判定できるくらいのほしい、てなるとCommand-R+かなあ
方針としては、Aの出力文とBの出力文を比較してどちらがより高得点か、てのを自分の感覚と照らし合わせて、評価プロンプトの[評価基準]を随時修正していこうかと考えてる
最終的に自分好みの表現を高得点とできるように調整できれば良き
プロンプトは全然知識ないからどこまでできるか分からんけども、よくわからんからこそ挑戦してみるわ

手動評価は最終手段かな。200回以上手動評価はキツいわ…
0864名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/29(月) 20:44:33.58ID:???0
長編ADVみたいなロールプレイを上手くさせる方法ってないのかな?
最初は良くてもターン数重ねるとどんどん出力が短くなったり同じ応答ばかりになってしまう。
0865名無しさん@ピンキー (ワッチョイ 6f87-4Xr2)2024/04/29(月) 22:27:04.55ID:???0
>>864
チャット風ロールプレイでやってる方法だけど、
「今までの内容を要約してくれ」って要約を作らせてプロンプト差し替えてる
要約を英語で作らせると精度上がったりする
0869名無しさん@ピンキー (ワッチョイ 93c0-Ub2H)2024/04/30(火) 12:33:40.47ID:???0
gpt2-chatbotという謎のモデルがchat.lmsys.orgでテストできるようになってなんか話題になっとるな
前評判ではGPT4レベルだとかアスキーアートが生成できるとか言われてて、わいも日本語でSFWな音声作品の脚本書かせてみたけど申し訳もされずCommand R+と同等かそれ以上の分かってる文章を生成してびっくりした
うわさではGPT4.5がゲリラマーケティングされてるとか言われてるけどなんなんやろうね
0875名無しさん@ピンキー (ワッチョイ 83be-7iwU)2024/04/30(火) 18:11:37.01ID:???0
自作アプリでAIと音声会話するのかなりできるようになって来たけど意外な敵が部屋のノイズで苦しんでるわ
PCのファンの音すら拾って「これはまだ発言が続いてんな?」ってずっと発言終了待機してクッソ応答が遅くなる
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況