INDEX
Negative Logits
Tor
0.67
Tor
0.62
Adding
0.61
advantage
0.59
˹
0.57
Adding
0.56
Plas
0.56
addNew
0.55
adv
0.55
TOR
0.54
POSITIVE LOGITS
Struktur
0.80
輕
0.79
estrutura
0.76
ousal
0.74
структуры
0.73
そこ
0.73
strukt
0.72
struktur
0.71
estructura
0.71
льної
0.71
Activations Density 0.005%