INDEX
Negative Logits
Nhiều
0.52
utilisent
0.50
মানুষ
0.49
机器学习
0.48
يستخدم
0.48
nhiều
0.47
χρησιμοποι
0.47
系统
0.46
输出
0.46
работают
0.46
POSITIVE LOGITS
allegations
0.63
infractions
0.60
allegation
0.58
misconduct
0.54
wrongdoing
0.54
impug
0.54
aggrieved
0.53
exoner
0.53
rebuke
0.52
incriminating
0.52
Activations Density 0.077%