INDEX
Negative Logits
-loving
-0.09
aimé
-0.08
själva
-0.08
seconda
-0.08
λόγω
-0.08
aufgrund
-0.08
ঘটে
-0.07
lovers
-0.07
sorr
-0.07
VC
-0.07
POSITIVE LOGITS
corrective
0.09
remedy
0.09
pomocą
0.09
adjustable
0.09
adjust
0.08
көм
0.08
antid
0.08
调整
0.08
ことで
0.08
adjustment
0.08
Activations Density 0.018%