INDEX
Explanations
prime example, source, suspect, candidate, target
New Auto-Interp
Negative Logits
S
0.91
g
0.89
X
0.76
q
0.74
P
0.73
r
0.72
h
0.71
w
0.68
j
0.68
si
0.66
POSITIVE LOGITS
точке
0.77
vantage
0.76
месте
0.74
குறித்து
0.69
четвер
0.66
めに
0.66
благоприят
0.66
👌
0.66
условия
0.65
iary
0.64
Activations Density 0.020%