INDEX
Negative Logits
انات
-0.08
.self
-0.07
严重
-0.07
tend
-0.07
θε
-0.07
威
-0.07
utures
-0.07
consument
-0.07
�
-0.07
dimens
-0.07
POSITIVE LOGITS
Abstand
0.09
_IDX
0.09
INTRO
0.08
אָד
0.08
IMITER
0.08
punctuation
0.08
spacing
0.08
그냥
0.08
politik
0.08
índice
0.08
Activations Density 0.002%