なんJLLM部避難所 ★3

発見

検索

板一覧

設定

「ハッキング」から「今晩のおかず」までを手広くカバーする巨大掲示板群『５ちゃんねる』へようこそ！

使い方を見る

探検

トップページ⇒オナテク(仮)＠bbspink掲示板

1002コメント349KB

なんJLLM部避難所 ★3

■ このスレッドは過去ログ倉庫に格納されています

0851名無しさん＠ピンキー (ﾜｯﾁｮｲ 5f74-V/Qk)

2024/08/13(火) 19:26:00.64ID:???0

>>846
「複数アクセス」の頻度によると思うで

例えば社員10人程度の会社で社内検索に利用しますとかだと同時に複数の推論が走ることはそんなになさそうやし
あったとしてもたまに遅いくらいなら待てるしって感じやけど、100人とか1000人という規模になるとどうなんやろうとか、
チャットとして利用するなら1回のGPU使用時間は少なくなりそうやけど文章翻訳とかで利用しようとしたら
1回のGPU使用時間長くなりそうやから同時に複数の推論が走る可能性も高くなりそうやとか

ケースバイケースやからこれと言えるものはないと思うんやけど、
常時同時に2推論以上回ることが想定される環境ではvLLMを検討しても良いんとちゃうかな
あとvLLM以外にもTensorRTも検討しても良いと思うやで

■ このスレッドは過去ログ倉庫に格納されています

ニュース