INDEX
Negative Logits
moderation
0.77
。「
0.72
接入
0.71
escapes
0.70
کو
0.70
ຈະ
0.69
모르
0.69
梅里
0.69
catcher
0.69
éről
0.68
POSITIVE LOGITS
verify
0.84
verify
0.81
confirm
0.80
Verify
0.79
confirmation
0.78
Confirm
0.77
verifying
0.75
verified
0.74
Verify
0.74
confirming
0.74
Activations Density 0.027%