INDEX
Negative Logits
first
0.80
første
0.79
충분
0.77
بالضبط
0.75
첫
0.73
adultery
0.71
only
0.70
majority
0.69
hence
0.69
ندارد
0.68
POSITIVE LOGITS
Miscellaneous
1.64
miscellaneous
1.62
Miscellaneous
1.59
Other
1.55
Others
1.53
その他の
1.49
その他
1.47
อื่นๆ
1.44
Otros
1.44
others
1.44
Activations Density 0.740%