INDEX
Negative Logits
heur
-0.08
rud
-0.08
intuition
-0.08
rew
-0.08
trait
-0.07
datatype
-0.07
etik
-0.07
偷
-0.07
পক্ষ
-0.07
curated
-0.07
POSITIVE LOGITS
Steam
0.10
turbine
0.10
steam
0.10
Steam
0.10
furnace
0.09
coolant
0.09
舰
0.08
Quit
0.08
船
0.08
turbines
0.08
Activations Density 0.006%