INDEX
Explanations
apply to places or entities
New Auto-Interp
Negative Logits
agens
0.47
iciencies
0.46
ts
0.45
anded
0.44
’
0.43
anz
0.43
itching
0.43
rices
0.42
ages
0.42
time
0.41
POSITIVE LOGITS
เรา
0.55
mówi
0.55
ludzie
0.55
we
0.55
dług
0.54
pizza
0.54
мы
0.52
jego
0.52
pizzas
0.52
park
0.51
Activations Density 0.000%