INDEX
Explanations
role introduction or AI identity
New Auto-Interp
Negative Logits
هنا
0.40
FEM
0.39
فري
0.38
ẖ
0.38
varied
0.37
ႉ
0.36
CRC
0.35
variado
0.35
NKG
0.35
Here
0.35
POSITIVE LOGITS
我会
0.48
hello
0.45
我已经
0.43
hello
0.41
நான்
0.41
我很
0.40
resolve
0.40
دارم
0.39
ato
0.39
我是
0.38
Activations Density 0.006%