INDEX
Negative Logits
ни
0.85
ка
0.60
ی
0.59
та
0.53
iguation
0.53
concealing
0.52
が良い
0.50
ים
0.50
ों
0.49
ει
0.49
POSITIVE LOGITS
0.70
T
0.70
b
0.62
tots
0.61
<
0.58
어
0.58
T
0.55
在
0.53
פ
0.53
Et
0.52
Activations Density 0.343%
ни
ка
ی
та
iguation
concealing
が良い
ים
ों
ει
T
b
tots
<
어
T
在
פ
Et