INDEX
Negative Logits
Cleaning
0.83
hemat
0.79
nou
0.78
Wür
0.78
μά
0.77
നിക്ക
0.76
jär
0.76
нков
0.74
произ
0.74
букмекердик
0.73
POSITIVE LOGITS
Ins
0.78
ins
0.77
absorbing
0.72
얇
0.69
absorption
0.65
بط
0.64
DE
0.62
Absorption
0.61
behaved
0.61
absorb
0.61
Activations Density 0.003%