INDEX
Explanations
towards others or statements
New Auto-Interp
Negative Logits
man
1.01
counterpart
0.99
U
0.97
ನ
0.96
ched
0.90
tenant
0.88
hạt
0.87
quartet
0.87
ภาค
0.86
一名
0.86
POSITIVE LOGITS
Their
1.17
egos
1.17
他们的
1.15
അവരുടെ
1.13
他們的
1.12
纷纷
1.10
Productivity
1.09
რომლებიც
1.09
তারা
1.08
jų
1.07
Activations Density 0.547%