INDEX
Negative Logits
Actually
-0.08
sixteen
-0.07
Insurance
-0.07
Song
-0.07
modifications
-0.07
coins
-0.07
man
-0.07
Function
-0.07
banged
-0.07
そうな
-0.07
POSITIVE LOGITS
>
0.10
еты
0.08
EW
0.08
潜
0.08
ewe
0.08
EP
0.08
ET
0.07
>>
0.07
EU
0.07
预
0.07
Activations Density 0.047%