INDEX
Negative Logits
Yelp
0.48
ﻔ
0.42
jej
0.42
ças
0.41
的名字
0.41
ỗi
0.40
joj
0.39
profundamente
0.39
igu
0.38
צות
0.38
POSITIVE LOGITS
颀
0.40
historians
0.39
genutzt
0.39
manoeuvre
0.36
gesch
0.35
attendants
0.35
detainees
0.35
effiz
0.35
نزدیک
0.35
რომ
0.35
Activations Density 0.008%