INDEX
Negative Logits
汋
0.44
skater
0.42
wides
0.42
anden
0.40
persuade
0.40
spieg
0.39
questioned
0.39
bans
0.38
軹
0.38
persuasive
0.38
POSITIVE LOGITS
正确
0.56
Correct
0.54
Correct
0.54
correct
0.52
correcto
0.51
correct
0.51
прави
0.51
ถูกต้อง
0.50
Прави
0.47
সঠিক
0.46
Activations Density 0.000%