INDEX
Negative Logits
j
0.88
c
0.81
)
0.80
ing
0.80
on
0.77
K
0.77
o
0.73
।
0.71
ا
0.70
k
0.69
POSITIVE LOGITS
يي
0.71
yerde
0.66
moradores
0.64
говори
0.63
наш
0.62
ેચ્છ
0.62
σον
0.62
вас
0.61
드의
0.61
noches
0.60
Activations Density 0.005%
j
c
)
ing
on
K
o
।
ا
k
يي
yerde
moradores
говори
наш
ેચ્છ
σον
вас
드의
noches