INDEX
Negative Logits
overruled
0.44
Laugh
0.42
кновен
0.41
rein
0.40
眩
0.40
Penny
0.40
lamps
0.40
Piano
0.39
गाँ
0.38
surprise
0.38
POSITIVE LOGITS
após
0.55
після
0.55
Após
0.53
เนื่องจาก
0.52
یک
0.51
после
0.51
internos
0.50
setelah
0.49
إذا
0.49
جدید
0.49
Activations Density 0.003%