>>882
https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer
を入れてTokenizerタブのTokensでToken IDを調べてみればわかるけど

baby face => 7268, 1710
babyface => 1794, 1710
baby-face => 1794, 268, 1710

全部別々のtokenの組み合わせへの変換だよ

そもそもCLIPは単語を区切ってToken変換みたいな単純な処理じゃない

カンマ区切りなんかもこんな感じ
1girl school uniform jacket => 272, 1611, 267, 1794, 1710
1girl, school uniform, jacket => 272, 1611, 267, 1228, 11075, 267, 6164