INDEX
Negative Logits
Mr
0.44
অ
0.40
0.40
rinnov
0.39
forget
0.38
Mr
0.38
Văn
0.38
ही
0.37
어서
0.37
Sisters
0.37
POSITIVE LOGITS
eniem
0.42
畛
0.40
效
0.40
紂
0.40
zeniem
0.38
ixels
0.36
惪
0.36
ulph
0.36
jis
0.35
ুতে
0.35
Activations Density 0.003%
Mr
অ
rinnov
forget
Mr
Văn
ही
어서
Sisters
eniem
畛
效
紂
zeniem
ixels
惪
ulph
jis
ুতে