Человек отличает гласные звуки друг от друга по формантам - областям резонанса вокального тракта (если звуки находятся в слитной речи - то и по артикуляции). Каждому звуку соответствуют свои положения (частоты, ширины и амплитуды) формант. Подробнее об этом можно почитать, например, у Алдошиной в "Звукорежиссере".
Для преобразования звука "а" в "е" я сначала проанализировал спектр этой "а" и убрал (подавил эквалайзером) форманты в районе 1..1.5 кГц, и 3...4 кГц, чтобы более-менее выровнять спектр (пресет "Formants out"). После этого проанализировал несколько звуков "е" у девушек с относительно похожими голосами и постарался придать спектру "а" такую же форму путем искуственного создания формантных областей (пресеты "Formants in" и "Formants in 2", применить последовательно). Частично настройки подбирались на слух.
Вот, собственно, и все. Пресеты вкладываю.