INDEX
Explanations
references to the name "Yang."
New Auto-Interp
Negative Logits
ulang
-0.66
圳
-0.62
Centa
-0.60
सन्दर्भ
-0.57
+#+#
-0.56
Bav
-0.55
Krum
-0.54
Hit
-0.53
Davi
-0.53
buk
-0.53
POSITIVE LOGITS
Yang
2.92
Yang
2.69
yang
2.14
YANG
2.13
yang
2.06
yg
1.33
阳
1.02
杨
0.97
楊
0.95
杨
0.94
Activations Density 0.024%