INDEX
Explanations
people, individuals, person
New Auto-Interp
Negative Logits
리
0.60
ار
0.58
ar
0.58
P
0.58
م
0.58
י
0.58
ي
0.56
Io
0.52
SEN
0.52
uatan
0.52
POSITIVE LOGITS
了一个
0.47
いる
0.46
crs
0.44
ки
0.44
多い
0.43
咣
0.43
重要的是
0.40
人的
0.40
ники
0.40
Jans
0.40
Activations Density 0.353%