INDEX
Negative Logits
Far
-0.07
861
-0.07
hj
-0.07
ätze
-0.07
Friedman
-0.07
manipulation
-0.07
Entry
-0.07
जे
-0.06
Far
-0.06
harms
-0.06
POSITIVE LOGITS
связано
0.09
/is
0.09
выгляд
0.09
нашим
0.08
запр
0.08
विन
0.08
частью
0.08
иметь
0.08
synonymous
0.08
لدينا
0.08
Activations Density 0.012%