INDEX
Negative Logits
NOT
0.32
ALLE
0.27
Simple
0.27
את
0.27
Soyuz
0.26
whatever
0.25
シンプルな
0.25
없는
0.25
ほどの
0.25
quando
0.25
POSITIVE LOGITS
well
0.58
better
0.54
differently
0.50
beter
0.50
poorly
0.48
hyvin
0.47
lepiej
0.47
bolje
0.46
tốt
0.46
лучше
0.46
Activations Density 0.071%