INDEX
Negative Logits
this
1.01
of
1.00
worthy
0.97
우리의
0.93
contributes
0.91
창
0.89
these
0.89
exerts
0.88
그런
0.87
motivates
0.86
POSITIVE LOGITS
suivantes
1.46
suivante
1.41
immediatamente
1.28
alfabeto
1.27
suivant
1.25
siguiente
1.23
suivants
1.23
टॉपर
1.23
auxquelles
1.20
größte
1.19
Activations Density 0.088%