INDEX
Negative Logits
purportedly
0.42
名为
0.39
ivité
0.39
नामक
0.38
Extreme
0.38
மான
0.38
jährigen
0.38
общей
0.38
深い
0.37
extremes
0.37
POSITIVE LOGITS
weird
0.61
weird
0.52
strongly
0.42
awful
0.42
pretty
0.41
Weird
0.41
strange
0.40
terrible
0.40
silly
0.40
奇怪
0.40
Activations Density 0.009%