INDEX
Negative Logits
ate
0.50
u
0.47
0.41
』
0.40
adik
0.39
ing
0.38
es
0.38
undance
0.38
ビニ
0.38
scenic
0.38
POSITIVE LOGITS
اك
0.51
احة
0.51
wykon
0.49
Ofer
0.49
ავ
0.47
Besitz
0.47
Folgen
0.46
trato
0.45
condiciones
0.45
只要
0.45
Activations Density 0.001%