INDEX
Negative Logits
-water
-0.08
<-
-0.07
Assistance
-0.07
-other
-0.06
labeling
-0.06
values
-0.06
flow
-0.06
lane
-0.06
Bez
-0.06
909
-0.06
POSITIVE LOGITS
usaha
0.06
Giang
0.06
jeme
0.06
دوباره
0.06
εργ
0.06
cread
0.06
süt
0.06
troll
0.06
طاق
0.06
사람
0.06
Activations Density 0.020%