INDEX
Negative Logits
νει
0.57
håll
0.52
нов
0.50
торе
0.50
कुंड
0.49
জিনিসের
0.48
ن
0.48
笥
0.48
نیم
0.48
шпански
0.48
POSITIVE LOGITS
as
0.65
/
0.61
a
0.59
'
0.56
$
0.55
,
0.54
;
0.54
',
0.54
loudly
0.54
-
0.53
Activations Density 0.002%
νει
håll
нов
торе
कुंड
জিনিসের
ن
笥
نیم
шпански
as
/
a
'
$
,
;
',
loudly
-