INDEX
Explanations
social development and science
New Auto-Interp
Negative Logits
odigd
0.47
紵
0.44
姍
0.43
ጨም
0.42
撾
0.42
銈
0.42
በጣም
0.42
嗶
0.41
ምልክ
0.41
蛲
0.40
POSITIVE LOGITS
社会
0.62
美好的
0.55
美好
0.53
自我
0.53
connot
0.52
connotation
0.52
发展
0.52
精神
0.49
理性
0.49
social
0.49
Activations Density 0.023%