INDEX
Negative Logits
F
0.55
'
0.53
’
0.52
$
0.52
7
0.52
SA
0.50
B
0.49
8
0.48
-
0.47
Us
0.47
POSITIVE LOGITS
плы
0.50
诡
0.49
roidism
0.48
пси
0.48
твор
0.47
த்தை
0.47
லோச
0.47
adoration
0.46
अदा
0.46
лександ
0.45
Activations Density 0.006%
F
'
’
$
7
SA
B
8
-
Us
плы
诡
roidism
пси
твор
த்தை
லோச
adoration
अदा
лександ