INDEX
Explanations
adjectives describing categories
New Auto-Interp
Negative Logits
seorang
1.27
its
1.22
একটি
1.17
了一個
1.13
a
1.12
sebuah
1.12
Its
1.11
Seorang
1.10
的一個
1.07
was
1.05
POSITIVE LOGITS
những
1.96
それぞれ
1.76
เหล่านี้
1.74
Những
1.69
들이
1.62
Những
1.53
eds
1.51
mga
1.50
纷纷
1.49
ванные
1.47
Activations Density 0.706%