INDEX
Negative Logits
hla
-0.09
IMPLIED
-0.08
hra
-0.08
cue
-0.07
Forced
-0.07
Finding
-0.07
Finding
-0.07
Enc
-0.07
Returning
-0.07
oug
-0.07
POSITIVE LOGITS
categor
0.13
categorize
0.12
별
0.12
categorized
0.12
分類
0.11
categ
0.11
tiers
0.11
划
0.11
classification
0.10
categories
0.10
Activations Density 0.028%