INDEX
Negative Logits
ardon
-0.07
Cover
-0.07
вы
-0.07
past
-0.07
saving
-0.06
よい
-0.06
lots
-0.06
很是
-0.06
concert
-0.06
üst
-0.06
POSITIVE LOGITS
ANC
0.07
تعليم
0.07
灾难
0.07
electric
0.07
𝙘
0.07
reven
0.06
ręcz
0.06
碳
0.06
среди
0.06
/to
0.06
Activations Density 0.012%