INDEX
Negative Logits
His
-0.08
hic
-0.07
God
-0.07
ouri
-0.07
gis
-0.07
Ak
-0.07
goodness
-0.07
Det
-0.07
Beer
-0.07
ihen
-0.07
POSITIVE LOGITS
아닌
0.12
maupun
0.11
whereas
0.11
tandis
0.11
아니라
0.10
quella
0.08
quello
0.08
なく
0.08
versus
0.08
Whereas
0.08
Activations Density 0.241%