INDEX
Negative Logits
Woman
0.65
Water
0.62
R
0.61
this
0.59
woman
0.59
einer
0.58
Explorer
0.58
na
0.57
English
0.57
Research
0.57
POSITIVE LOGITS
克斯
0.51
роб
0.50
ቦች
0.50
拉斯
0.49
ائج
0.49
大家好
0.48
ต้
0.48
囟
0.48
흡
0.48
मराह
0.48
Activations Density 0.021%