INDEX
Negative Logits
brah
0.42
oscillations
0.39
drills
0.39
secteurs
0.39
جذر
0.39
kirk
0.36
าลัย
0.36
கண்டுபிடிக்க
0.36
ラの
0.36
্লার
0.36
POSITIVE LOGITS
causal
0.98
autore
0.78
causality
0.71
Caus
0.68
LM
0.66
Aut
0.65
Aut
0.63
autore
0.61
conditional
0.60
LM
0.59
Activations Density 0.080%