INDEX
Negative Logits
Know
0.41
衆
0.39
KNOW
0.39
arguments
0.38
Know
0.38
கலோரிகள்
0.38
項
0.36
جانا
0.36
項
0.36
ENDER
0.36
POSITIVE LOGITS
筛
0.43
unidad
0.38
갱
0.37
awesome
0.37
cosity
0.37
лость
0.36
amyloid
0.35
rats
0.35
ません
0.35
incredibly
0.35
Activations Density 0.001%