INDEX
Negative Logits
ighbour
-0.08
_counter
-0.08
incre
-0.08
Professor
-0.07
protested
-0.07
З
-0.07
지난
-0.07
.Once
-0.07
Vk
-0.07
toen
-0.07
POSITIVE LOGITS
蒴
0.07
mia
0.07
دس
0.07
븐
0.07
빽
0.07
玛丽
0.07
坏事
0.07
쾰
0.07
Ӕ
0.06
cockpit
0.06
Activations Density 0.004%