INDEX
Explanations
navigating transitions and complexities
New Auto-Interp
Negative Logits
όταν
0.72
είναι
0.64
Když
0.59
là
0.57
ήταν
0.56
όπου
0.55
when
0.55
خیلی
0.54
quando
0.54
如果
0.51
POSITIVE LOGITS
していきます
0.58
越来越多的
0.58
пытается
0.55
weiterhin
0.54
మరింత
0.52
további
0.52
increasingly
0.52
lentamente
0.52
再度
0.50
どんどん
0.50
Activations Density 0.040%