INDEX
Explanations
"I" followed by perception or action
New Auto-Interp
Negative Logits
diciendo
0.89
বললো
0.83
说道
0.83
বলল
0.81
বলেছে
0.80
หลังจาก
0.78
പറഞ്ഞു
0.77
বলেছিল
0.74
他说
0.74
prosa
0.73
POSITIVE LOGITS
see
0.82
hear
0.79
можем
0.75
ببین
0.75
хотим
0.71
可以看到
0.70
hear
0.69
myself
0.68
看到
0.68
ourselves
0.67
Activations Density 0.015%