INDEX
Explanations
numerical values and associated descriptors or contexts
New Auto-Interp
Negative Logits
пÑĢоÑĦеÑģÑģионалÑĮ
-0.20
coron
-0.16
zk
-0.16
via
-0.15
меÑĤалли
-0.15
Polish
-0.15
via
-0.15
én
-0.15
unas
-0.15
pire
-0.14
POSITIVE LOGITS
Ñ
0.19
Ñĺ
0.18
ÑĻ
0.17
Ðĭ
0.16
Äij
0.16
ufe
0.16
Äij
0.15
alice
0.15
uveden
0.15
ÑĴ
0.15
Activations Density 0.029%