INDEX
Explanations
references to the word "who."
New Auto-Interp
Negative Logits
uron
-0.64
sety
-0.55
avance
-0.55
ある
-0.54
前の
-0.54
uet
-0.54
あれば
-0.54
ὴν
-0.52
iertos
-0.52
一つの
-0.51
POSITIVE LOGITS
who
4.29
who
3.79
Who
3.50
Who
3.42
whom
3.08
quien
2.87
whom
2.81
WHO
2.74
WHO
2.72
quién
2.52
Activations Density 0.082%