INDEX
Negative Logits
и
0.51
WICK
0.49
вле
0.48
ת
0.47
дро
0.46
об
0.45
кле
0.45
ма
0.44
д
0.43
сь
0.43
POSITIVE LOGITS
Helvetica
0.56
兩個
0.54
ควร
0.52
應該
0.50
Agreed
0.50
agreeing
0.50
kev
0.50
আচরণ
0.49
Directions
0.48
গ্রহন
0.48
Activations Density 0.002%