INDEX
Negative Logits
297
-0.07
661
-0.07
GOLD
-0.06
lang
-0.06
tří
-0.06
planners
-0.06
Mut
-0.06
下午
-0.06
DAO
-0.06
์ล
-0.06
POSITIVE LOGITS
Interceptor
0.13
interceptor
0.11
intercept
0.09
interception
0.08
Bryce
0.08
으면
0.07
injecting
0.07
Intercept
0.07
intercepted
0.07
kp
0.07
Activations Density 0.001%