INDEX
Explanations
introduces examples or comparisons
New Auto-Interp
Negative Logits
I
0.64
phage
0.61
ที่
0.59
fungsi
0.59
refinery
0.59
printer
0.58
แต่
0.58
casein
0.58
W
0.57
mengambil
0.55
POSITIVE LOGITS
s
0.73
r
0.65
t
0.54
رك
0.54
يه
0.53
一道
0.53
ى
0.52
્સ
0.52
يس
0.51
ط
0.50
Activations Density 0.009%