INDEX
Negative Logits
考えて
-0.07
inspection
-0.07
arter
-0.07
_LL
-0.06
طف
-0.06
Ле
-0.06
анг
-0.06
_drag
-0.06
wed
-0.06
和睦
-0.06
POSITIVE LOGITS
atican
0.08
위원
0.07
athletes
0.07
Taken
0.07
uç
0.07
ODULE
0.07
אית
0.07
يوليو
0.07
политик
0.07
sổ
0.07
Activations Density 0.027%