INDEX
Negative Logits
stimuli
0.42
theat
0.40
टेट
0.39
欝
0.38
habilit
0.38
devise
0.37
cim
0.37
discomfort
0.37
OnOff
0.36
هایی
0.36
POSITIVE LOGITS
strapping
0.45
strapped
0.43
ฝ่าย
0.43
তিরিক্ত
0.41
WHILE
0.41
フリー
0.40
கூடுதலாக
0.39
கிடைத்த
0.39
HAVING
0.38
twenty
0.38
Activations Density 0.001%