INDEX
Negative Logits
accompany
0.41
bezahlen
0.40
tabs
0.40
cited
0.38
Scripts
0.38
Psychology
0.38
Availability
0.38
War
0.38
Chat
0.38
intimated
0.38
POSITIVE LOGITS
clean
0.60
dusty
0.57
odor
0.55
clean
0.54
Clean
0.53
சுத்த
0.53
ماحول
0.53
環境
0.51
environnement
0.50
清洁
0.50
Activations Density 0.004%