INDEX
Negative Logits
authoritarian
0.41
bahagia
0.40
verwend
0.40
tenga
0.39
verdes
0.39
dictum
0.39
zwei
0.39
قصير
0.38
بعض
0.38
好きな
0.37
POSITIVE LOGITS
trong
0.44
ต่างๆ
0.42
throughout
0.39
细节
0.38
ώστε
0.38
μέσα
0.37
during
0.37
数据
0.37
Trong
0.37
以及
0.36
Activations Density 2.814%