INDEX
Negative Logits
wé
-0.09
рассказ
-0.08
wholesome
-0.08
visional
-0.08
dangers
-0.08
Helpful
-0.07
iski
-0.07
عه
-0.07
взгляд
-0.07
creepy
-0.07
POSITIVE LOGITS
Ihres
0.11
your
0.11
Ihrer
0.11
ailleurs
0.09
vostre
0.09
вашей
0.09
your
0.09
دارید
0.09
您的
0.09
لديك
0.09
Activations Density 0.042%