INDEX
Negative Logits
Over
0.42
Integr
0.42
Away
0.41
Up
0.41
startled
0.41
Mit
0.41
aire
0.40
Upp
0.40
ála
0.39
တို့
0.39
POSITIVE LOGITS
उन्
0.36
toxicity
0.35
माना
0.35
ുന്നത്
0.34
rinsic
0.33
丁
0.33
typical
0.33
чении
0.33
Likely
0.33
toxic
0.32
Activations Density 0.000%