INDEX
Explanations
instances of numerical data or statistics
New Auto-Interp
Negative Logits
ﷺ
-0.80
postmedia
-0.78
Савезне
-0.77
кӀ
-0.74
GGLE
-0.72
Попис
-0.72
ніципа
-0.72
مرئيه
-0.71
olge
-0.71
كومونز
-0.70
POSITIVE LOGITS
ftagPool
0.77
↵↵
0.70
↵
0.65
</h1>
0.61
</h2>
0.61
</h4>
0.59
djangoproject
0.58
</h3>
0.58
[toxicity=0]
0.51
0.51
Activations Density 3.022%