INDEX
Negative Logits
_SUB
-0.10
SUB
-0.09
Feder
-0.09
TMP
-0.09
мунос
-0.09
јав
-0.09
VR
-0.09
авно
-0.09
ალურ
-0.09
Vacc
-0.09
POSITIVE LOGITS
explanation
0.13
explanations
0.12
Explanation
0.12
설명
0.11
توض
0.10
نک
0.10
perhaps
0.10
объяс
0.10
Explanation
0.10
解释
0.10
Activations Density 0.033%