INDEX
Explanations
negative or contradictory statements
New Auto-Interp
Negative Logits
æĪ¸
-0.17
jej
-0.15
]={↵-0.15
ozilla
-0.15
jest
-0.14
_mapped
-0.14
éĢł
-0.14
opher
-0.14
strap
-0.14
quo
-0.14
POSITIVE LOGITS
nor
0.22
not
0.21
не
0.19
không
0.19
नह
0.18
niet
0.18
tidak
0.18
neither
0.17
nicht
0.16
geen
0.16
Activations Density 0.035%