INDEX
Negative Logits
ҳо
0.55
пъ
0.49
かなり
0.48
marks
0.48
失效
0.47
んど
0.47
มัน
0.46
pretty
0.46
Marks
0.46
অদ্ভুত
0.46
POSITIVE LOGITS
safer
1.06
安全的
0.98
safely
0.91
healthier
0.88
instead
0.85
bezpie
0.83
ปลอดภัย
0.83
健康的
0.83
Instead
0.82
without
0.82
Activations Density 0.016%