INDEX
Negative Logits
069
-0.09
efetu
-0.08
निरी
-0.08
नि
-0.08
Condition
-0.08
إذا
-0.07
액
-0.07
Restaurants
-0.07
accomod
-0.07
punt
-0.07
POSITIVE LOGITS
ideology
0.10
ideological
0.10
理念
0.09
ide
0.09
词
0.08
worldview
0.08
泡
0.08
思想
0.08
purity
0.08
ologues
0.08
Activations Density 0.006%