INDEX
Negative Logits
brando
0.41
Orth
0.39
Talk
0.38
TLabel
0.37
דר
0.37
സ്തു
0.37
eqref
0.36
墨
0.36
Sho
0.35
Domain
0.35
POSITIVE LOGITS
self
0.42
Self
0.37
自
0.37
ưng
0.36
محر
0.35
enzymatic
0.35
NGS
0.35
само
0.34
catalytic
0.34
})-\
0.33
Activations Density 0.000%