INDEX
Negative Logits
نفسه
0.86
Replace
0.82
自己
0.77
replace
0.76
Belle
0.75
ourselves
0.74
///
0.74
نفسها
0.73
tags
0.73
0.67
POSITIVE LOGITS
बराम
0.87
ϕ
0.86
ανο
0.78
transmitter
0.77
transmission
0.77
eslint
0.76
exhibition
0.76
ρύ
0.76
anders
0.75
pathology
0.74
Activations Density 0.002%