INDEX
Explanations
occurrences of the word "false."
New Auto-Interp
Negative Logits
EndContext
-0.90
+#+#
-0.87
وتسجيلات
-0.83
زیین
-0.82
Hecht
-0.81
referenties
-0.80
ンダント
-0.77
%)$
-0.77
์ตูน
-0.76
קישורים
-0.76
POSITIVE LOGITS
false
0.84
[]:
0.80
ation
0.79
false
0.74
False
0.72
fals
0.71
False
0.69
FALSE
0.65
falsely
0.64
FALSE
0.63
Activations Density 0.069%