INDEX
Negative Logits
ين
0.58
ции
0.53
ра
0.50
르
0.49
`:`,
0.48
ных
0.48
ва
0.47
ные
0.46
ラ
0.46
consci
0.45
POSITIVE LOGITS
at
0.76
in
0.64
↵
0.64
U
0.63
ur
0.61
7
0.58
Secret
0.55
AK
0.55
Secrets
0.54
UT
0.53
Activations Density 0.365%
ين
ции
ра
르
`:`,
ных
ва
ные
ラ
consci
at
in
↵
U
ur
7
Secret
AK
Secrets
UT