INDEX
Negative Logits
ில்
0.75
s
0.75
q
0.74
ap
0.73
)
0.72
אס
0.69
amélior
0.68
n
0.68
க
0.68
ה
0.68
POSITIVE LOGITS
8
0.92
4
0.90
kiss
0.86
be
0.84
to
0.84
↵
0.83
we
0.81
kisses
0.79
3
0.76
kissing
0.75
Activations Density 0.005%
ில்
s
q
ap
)
אס
amélior
n
க
ה
8
4
kiss
be
to
↵
we
kisses
3
kissing