INDEX
Explanations
during training or inference
New Auto-Interp
Negative Logits
h
1.64
m
1.55
l
1.50
c
1.45
il
1.41
не
1.37
al
1.36
en
1.32
8
1.30
ни
1.29
POSITIVE LOGITS
وبعد
1.49
에는
1.26
BeerItem
1.25
ពេល
1.12
이나
1.08
וכ
1.06
이었
1.03
διάρκεια
1.03
larının
1.02
никто
1.02
Activations Density 0.114%