https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer
を入れてTokenizerタブのTokensでToken IDを調べてみればわかるけど
baby face => 7268, 1710
babyface => 1794, 1710
baby-face => 1794, 268, 1710
全部別々のtokenの組み合わせへの変換だよ
そもそもCLIPは単語を区切ってToken変換みたいな単純な処理じゃない
カンマ区切りなんかもこんな感じ
1girl school uniform jacket => 272, 1611, 267, 1794, 1710
1girl, school uniform, jacket => 272, 1611, 267, 1228, 11075, 267, 6164