INDEX
Negative Logits
唃
0.44
প্রাচ
0.43
வந்து
0.40
pathogenic
0.40
циям
0.40
Aap
0.39
신경
0.39
ப்படு
0.38
கலா
0.38
Classical
0.38
POSITIVE LOGITS
conspiracy
0.52
denial
0.47
denials
0.45
YouTube
0.44
denying
0.44
conspir
0.43
unsupported
0.42
conspiracies
0.42
حوال
0.41
falsely
0.41
Activations Density 0.032%