INDEX
Negative Logits
席
0.23
R
0.23
FT
0.21
PR
0.20
ানোর
0.20
ческое
0.20
ध्यान
0.20
יות
0.20
shared
0.19
شاف
0.19
POSITIVE LOGITS
about
0.38
enough
0.31
tentang
0.31
अबाउट
0.31
về
0.30
عن
0.29
riguardo
0.29
aware
0.29
able
0.28
willing
0.28
Activations Density 0.102%