INDEX
Negative Logits
:true
-0.07
FINE
-0.07
+len
-0.06
nghỉ
-0.06
ischen
-0.06
плю
-0.06
Endpoint
-0.06
truck
-0.06
Από
-0.06
Аль
-0.06
POSITIVE LOGITS
が
0.14
성이
0.10
のが
0.10
사람들이
0.10
さんが
0.10
내가
0.10
그가
0.09
이가
0.09
지가
0.09
들이
0.09
Activations Density 0.011%