INDEX
Explanations
explaining specific situations
New Auto-Interp
Negative Logits
многих
0.46
tất
0.40
সবসময়
0.39
许多
0.39
所有的
0.39
সবসময়
0.39
כמה
0.39
כל
0.38
всех
0.38
Bereiche
0.38
POSITIVE LOGITS
उक्त
0.99
dieser
0.74
這位
0.71
этот
0.69
wannan
0.69
this
0.69
这位
0.69
този
0.66
この
0.66
هذا
0.65
Activations Density 0.180%