INDEX
Explanations
certain personal identifiers or qualifiers in the text
Russian adjective endings
New Auto-Interp
Negative Logits
iprot
-0.57
aikaa
-0.53
CWE
-0.51
ⓧ
-0.48
ValueStyle
-0.48
iettivo
-0.47
évaluateur
-0.47
不说
-0.46
Tiefe
-0.46
freio
-0.45
POSITIVE LOGITS
ным
0.94
тным
0.73
льным
0.72
жным
0.72
ственным
0.69
тельным
0.69
чным
0.68
nym
0.66
нным
0.66
ческим
0.65
Activations Density 0.002%