INDEX
Negative Logits
ๅ
-0.08
_cost
-0.07
ngược
-0.07
جامع
-0.06
𝘏
-0.06
advocates
-0.06
aldığı
-0.06
ܟ
-0.06
צמח
-0.06
wę
-0.06
POSITIVE LOGITS
FI
0.07
rogue
0.07
ston
0.07
岛上
0.07
)test
0.07
Kang
0.07
职工
0.07
مو
0.07
terrorists
0.07
/team
0.06
Activations Density 0.005%