INDEX
Negative Logits
poisoning
0.42
primer
0.39
وده
0.37
poetry
0.37
orben
0.36
proportionately
0.36
curvature
0.36
ual
0.36
result
0.35
items
0.35
POSITIVE LOGITS
版本
0.46
Version
0.44
版本
0.43
apagos
0.41
Какие
0.41
Version
0.40
Versions
0.38
версии
0.38
Tango
0.37
Kishan
0.37
Activations Density 0.000%