INDEX
Negative Logits
ITÉ
0.36
STYLE
0.34
гото
0.33
Directly
0.33
Ş
0.33
ཿ
0.33
ただ
0.32
underrated
0.32
directly
0.32
TAM
0.32
POSITIVE LOGITS
fake
0.94
假的
0.90
假
0.87
Fake
0.82
faux
0.81
Fake
0.80
pretend
0.79
pretends
0.79
fake
0.77
pretending
0.77
Activations Density 0.055%