INDEX
Negative Logits
gleichen
0.63
에
0.63
י
0.63
지
0.63
۰
0.62
the
0.61
ква
0.61
に
0.59
л
0.58
로
0.58
POSITIVE LOGITS
Deer
0.82
deer
0.78
n
0.78
on
0.72
you
0.69
N
0.68
Deer
0.67
}|
0.63
turkeys
0.62
Hill
0.60
Activations Density 0.001%
gleichen
에
י
지
۰
the
ква
に
л
로
Deer
deer
n
on
you
N
Deer
}|
turkeys
Hill