INDEX
Explanations
specific conditions or issues
New Auto-Interp
Negative Logits
floors
0.42
$
0.41
treaties
0.40
фак
0.40
華
0.39
fabric
0.39
circa
0.39
fact
0.39
房
0.39
mái
0.38
POSITIVE LOGITS
PUC
0.46
Regul
0.45
حمله
0.44
القاعدة
0.44
ఆరోగ
0.43
NEGLIGENCE
0.43
Heterocycl
0.43
istung
0.42
ໜອງ
0.42
可以看出
0.42
Activations Density 0.006%