INDEX
Explanations
demonstratives and common articles
New Auto-Interp
Negative Logits
కీలక
0.42
7
0.42
字段
0.41
6
0.40
サイズ
0.39
5
0.38
0
0.37
3
0.37
n
0.36
center
0.35
POSITIVE LOGITS
this
0.75
этом
0.63
этой
0.61
этих
0.60
цього
0.59
этого
0.57
এই
0.53
these
0.53
этот
0.53
dieser
0.52
Activations Density 0.156%