INDEX
Explanations
currency symbols and numbers
New Auto-Interp
Negative Logits
n
0.45
en
0.43
“‘
0.40
primeros
0.40
У
0.38
၁
0.38
Объ
0.38
ự
0.38
palabras
0.38
nde
0.37
POSITIVE LOGITS
ის
0.56
ون
0.54
รับ
0.52
いる
0.50
悪
0.47
appet
0.46
อย่าง
0.45
อย่างไร
0.45
嗎
0.44
ی
0.42
Activations Density 0.317%