INDEX
Negative Logits
head
-0.10
bya
-0.09
head
-0.08
_head
-0.08
Head
-0.08
oid
-0.08
time
-0.08
który
-0.08
time
-0.07
,o
-0.07
POSITIVE LOGITS
works
0.09
Therapy
0.08
رز
0.08
Therapie
0.08
therapy
0.08
Myrtle
0.08
작
0.08
терапии
0.08
igre
0.08
كات
0.08
Activations Density 0.004%