INDEX
Explanations
that depict explicit sexual acts
New Auto-Interp
Negative Logits
że
0.48
että
0.48
ότι
0.45
的是
0.42
bahwa
0.41
যে
0.40
že
0.39
ថា
0.37
ว่า
0.36
दट
0.36
POSITIVE LOGITS
they
0.60
soever
0.56
elbe
0.48
ched
0.46
heißt
0.45
વો
0.44
mashtami
0.44
gehen
0.43
আছেন
0.43
옳은
0.42
Activations Density 0.008%