INDEX
Negative Logits
immediate
-0.07
gorge
-0.07
("/-0.06
lazy
-0.06
"If
-0.06
rat
-0.06
Ney
-0.06
illumin
-0.06
いい
-0.06
Ideas
-0.06
POSITIVE LOGITS
곳
0.09
REV
0.08
علت
0.07
ét
0.07
Spoj
0.07
Đảng
0.07
하우
0.06
wyn
0.06
ευ
0.06
اون
0.06
Activations Density 0.003%