INDEX
Explanations
analyzing new or prior situations
New Auto-Interp
Negative Logits
также
0.59
also
0.57
également
0.57
also
0.57
también
0.56
içerisinde
0.52
juga
0.51
همچنین
0.49
tambien
0.49
גם
0.48
POSITIVE LOGITS
፦
0.58
nové
0.47
先前
0.47
nieuwe
0.47
Margin
0.46
vorige
0.46
మొదటి
0.45
Analyzing
0.44
précédents
0.44
Predicting
0.44
Activations Density 0.016%