INDEX
Explanations
code identifiers and results
New Auto-Interp
Negative Logits
siè
0.46
strictly
0.43
by
0.41
fence
0.40
with
0.39
valve
0.39
----------
0.38
యే
0.38
justice
0.38
passage
0.38
POSITIVE LOGITS
название
0.49
этому
0.48
он
0.46
اسم
0.42
її
0.42
оно
0.41
٩
0.41
أيضاً
0.40
namn
0.39
ätt
0.39
Activations Density 0.001%