INDEX
Negative Logits
ین
0.53
PHY
0.52
align
0.51
alignments
0.51
Weib
0.49
媇
0.48
alignment
0.48
बुनिया
0.48
interpersonal
0.48
ству
0.47
POSITIVE LOGITS
غط
0.50
ader
0.46
chan
0.44
ha
0.44
ugen
0.43
./
0.43
haf
0.42
cc
0.41
og
0.41
adam
0.41
Activations Density 0.002%