INDEX
Negative Logits
c
-0.07
_update
-0.06
HID
-0.06
Compare
-0.06
Loading
-0.06
хот
-0.06
(obs
-0.06
登录
-0.05
расстоя
-0.05
veis
-0.05
POSITIVE LOGITS
discussion
0.09
discussions
0.08
neg
0.07
akadem
0.07
dialogue
0.07
вами
0.07
위
0.06
sik
0.06
ousse
0.06
iskey
0.06
Activations Density 0.042%