INDEX
Negative Logits
{-2.38
have
-2.33
ра
-2.30
]
-2.30
knows
-2.19
{
-2.17
;
-2.11
’.
-2.11
In
-2.06
teh
-2.06
POSITIVE LOGITS
翃
3.05
猻
2.72
呌
2.55
豋
2.55
ウォーター
2.48
釤
2.42
}$
2.41
孥
2.34
哥哥
2.33
PETITION
2.27
Activations Density 0.002%
{have
ра
]
knows
{
;
’.
In
teh
翃
猻
呌
豋
ウォーター
釤
}$
孥
哥哥
PETITION