INDEX
Explanations
references to people's perceptions or opinions
New Auto-Interp
Negative Logits
ãĥ¼ãĥ
-0.07
indh
-0.07
ialis
-0.07
ikh
-0.07
ef
-0.07
orama
-0.06
.middleware
-0.06
اÙĨÙĪ
-0.06
olkata
-0.06
inte
-0.06
POSITIVE LOGITS
sebagai
0.14
as
0.13
jako
0.11
ÏīÏĤ
0.11
differently
0.09
als
0.09
каÑĩеÑģÑĤве
0.09
как
0.09
ä½ľä¸º
0.09
Ñıк
0.08
Activations Density 0.010%