Гармоничным анализом звука называют. Анализ звука

Артефакты спектрального анализа и принцип неопределённости Гейзенберга

На предыдущей лекции мы рассмотрели проблему разложения любого звукового сигнала на элементарные гармонические сигналы (составляющие), которые в дальнейшем мы будем называть атомарными информационными элементами звука. Повторим основные выводы и введём некоторые новые обозначения.

Будем обозначать исследуемый звуковой сигнал так же, как и на прошлой лекции, .

Комплексный спектр это сигнала находится с помощью преобразования Фурье так:

. (12.1)

Этот спектр позволяет нам определить, на какие элементарные гармонические сигналы разных частот раскладывается наш исследуемый звуковой сигнал . Иными словами, спектра описывает полный набор гармоник, на которые раскладывается исследуемый сигнал .

Для удобства описания, вместо формулы (12.1) часто используют более выразительную следующую запись:

, (12.2)

подчёркивая тем самым, что на вход преобразования Фурье подаётся временная функция , а на выходе получается функция, зависящая не от времени, а от частоты.

Чтобы подчеркнуть комплексность получаемого спектра, его обычно представляют в одном из следующих видов:

где - это амплитудный спектр гармоник, (12.4)

а - это фазовый спектр гармоник. (12.5)

Если правую часть уравнения (12.3) прологарифмировать, то мы получим следующее выражение:

Получается так, что реальная часть логарифма от комплексного спектра равна амплитудному спектру в логарифмической шкале (что совпадает с законом Вебера-Фехнера), а мнимая часть логарифма от комплексного спектра равна фазовому спектру гармоник, значения которых (фазовых значений) наше ухо не ощущает. Такое интересное совпадение поначалу может обескуражить, но мы на это не будем обращать внимание. Но подчеркнём принципиально важное для нас сейчас обстоятельство – преобразование Фурье переводит любой сигнал из временной физической сигнальной области в информационное частотное пространство, в котором инвариантны частоты гармоник, на которые раскладывается звуковой сигнал.


Обозначим атомарный информационный элемент звука (гармонику) следующим образом:

Воспользуемся графическим образом, отражающий область слышимости гармоник с разными частотами и амплитудами, взятый из замечательной книги E. Zwicker and H. Fastl “Psychoacoustics: facts and models” (Second Edition, Springer, 1999) на странице 17 (см. рис. 12.1).

Если некоторый звуковой сигнал будет состоять из двух гармоник:

то их положение на слуховом информационном пространстве может иметь, например, такой вид, какой показан на рис. 12.2.

Глядя на эти рисунки, легче можно понять, почему отдельные гармонические сигналы мы назвали атомарными информационными элементами звука. Всё слуховое информационное пространство (рис. 12.1) ограничено снизу кривой порога слышимости, а сверху – кривой болевого порога звучащих гармоник разных частот и амплитуд. Это пространство имеет несколько неправильные очертания, но оно несколько напоминает по форме другое информационное пространство, которое имеется в нашем глазу – сетчатку глаза. В сетчатке атомарными информационными объектами являются палочки и колбочки. Аналогом их в цифровой информационной технологии являются пискелы. Эта аналогия не вполне корректна, поскольку в изображении все пикселы (в двумерном пространстве) играют свою роль. В нашем же звуковом информационном пространство не могут две точки находиться на одной вертикале. И поэтому любой звук отражается в этом пространстве, в лучшем случае, лишь в виде некоторой кривой линии (амплитудного спектра), начинающейся слева на низких частотах (около 20 Гц), и заканчивающейся справа на высоких частотах (около 20 кГц).

Подобные рассуждения выглядят, довольно-таки, красиво и убедительно, если только не считаться с реальными законами природы. Дело в том, что, даже если исходный звуковой сигнал состоит всего лишь из одной единственной гармоники (некоторой частоты и амплитуды), то реально наша слуховая система «не увидит» её виде точки в информационном слуховом пространстве. В действительности эта точка несколько размоется. Почему? Да потому, что все эти рассуждения справедливы для спектров бесконечно долго звучащих гармонических сигналов. А реальная наша слуховая система анализирует звуки на относительно небольших временных интервалах. Длина этого интервала колеблется от 30 до 50 мс. Получается так, что наша слуховая система, которая как и весь нейронный механизм мозга, работает дискретно с частотой кадров 20-33 кадра в секунду. Поэтому спектральный анализ должен проводиться по кадрам. А это приводит к некоторым неприятным эффектам.

На первых этапах исследования и анализа звуковых сигналов с помощью цифровых информационных технологий, разработчики просто нарезали сигнал на отдельные кадры, как, например, показано на рис. 12.3.

Если один кусочек этого гармонического сигнала в кадре отправить на преобразование Фурье, то мы не получим одиночную спектральную линию, как показано для примера на рис. 12.1. А получится график амплитудного (логарифмического) спектра, показанного на рис. 12.4.

На рис. 12.4 красным цветом показано истинное значение частоты и амплитуды гармонического сигнала (12.7). Но тонкая спектральная (красная) линия существенно размылась. И, что хуже всего, – появилось множество артефактов, фактически сводящих полезность спектрального анализа на нет. Действительно, если каждая гармоническая компонента звукового сигнала будет вносить свои подобные артефакты, то отличить истинные следы звука от артефактов не удастся.



В этой связи в 60-е годы прошлого века многие ученые предприняли усиленные попытки улучшить качество получаемых спектров от отдельных кадров звукового сигнала. Оказалось, что если кадр вырезать не грубо («прямыми ножницами»), а умножать сам звуковой сигнал на некоторую гладкую функцию, то артефакты можно существенно подавить.

Например, на рис. 12.5 показан пример вырезания кусочка (кадра) сигнала с помощью одного периода функции косинуса (это окно иногда называют окном Хеннинга). Логарифмический спектр вырезанного таким образом одиночного гармонического сигнала показан на рис. 12.6. На рисунке хорошо видно, что артефакты спектрального анализа в значительной мере исчезли, но, всё равно, ещё остались.

В те же годы известный исследователь Хемминг предложил комбинацию из двух типов окон – прямоугольного и косинусного – и рассчитал их соотношение таким образом, чтобы величина артефактов была минимальной. Но и эта лучшая из лучших комбинаций простейших окон оказалась, на самом деле, не лучшей в принципе. Лучшим во всех отношения окон оказалось окно Гаусса.

Для сравнения вносимых артефактов всеми типами временных окон на рис. 12.7 показаны результаты применения этих окон на примере получения амплитудного спектра одиночного гармоничного сигнала (12.7). А на рис. 12.8 показан спектр гласного звука «о».

Из рисунков хорошо видно, что временное окно Гаусса не создаёт артефактов. Но что следует особо отметить, так это одно замечательное свойство получаемого амплитудного (не в логарифмическом, а в линейном масштабе) спектра всё того же одиночного гармонического сигнала. Оказывается, что график получаемого спектра сам имеет виду функции Гаусса (см. рис. 12.9). Причём, полуширина временного окна Гаусса связана с полушириной получаемого спектра следующим простым отношением:

Это соотношение отражает принцип неопределённости Гейзенберга. Рассказать о самом Гейзенберге. Привести примеры проявления принципа неопределённости Гейзенберга в ядерной физике, в спектральном анализе, в математической статистике (критерий Стьюдента), в психологии и в социальных явлениях.



Принцип неопределённости Гейзенберга позволяет получить ответы на многие вопросы, связанные с тем, почему следы некоторых гармонических составляющих сигнала не различаются на спектре. Общий ответ на этот вопрос можно сформулировать так. Если мы построим спектральный фильм с частотой кадров , то гармоники, различающиеся по частоте, менее, чем на , мы не различим – их следы на спектре сольются.

Рассмотрим это утверждение на следующем примере.


На рис. 12.10 показан сигнал, про который известно лишь то, что он состоит из нескольких гармоник разных частот.


Вырезая с помощью временного окна Гаусса маленькой ширины (т. е. относительно мало) один кадр этого сложного сигнала, мы получим амплитудный спектр, показанный на рис. 12.11. Из-за того, что очень мало, полуширина амплитудного спектра от каждой гармоники будет настолько велика, что спектральные лепестки от частот всех гармоник сольются и перекроют друг друга (см. рис. 12.11).

Увеличив немного ширину временного окна Гаусса, мы получим другой спектр, показанный на рис. 12.12. По этому спектру уже можно предположить, что в исследуемом сигнале имеются, по крайней мере, две гармонические составляющие.

Продолжая увеличивать ширину временного окна, мы получим спектр, показанный на рис. 12.13. Затем – спектры на рис. 12.14 и 12.15. Останавливаясь на последнем рисунке, можно с большой степенью уверенности утверждать, что сигнал на рис. 12.10 состоит из трёх отдельных составляющих. После столь больших по объёму иллюстраций, вернёмся к вопросу поиска гармонических компонент в реальных речевых сигналах.

Здесь следует подчеркнуть, что в чистом виде гармонических компонентов в реальном речевом сигнале не бывает. Иначе говоря, мы не продуцируем гармонические компоненты типа (12.7). Но, тем не менее, квазигармонические компоненты в речи, всё же, присутствуют.

Единственными квазигармоническими компонентами в речевом сигнале являются затухающие гармоники, возникающие в резонаторе (в речевом тракте) после хлопка голосовых связок. Взаимное расположение частот этих затухающих гармоник и определяет формантную структуру речевого сигнала. Синтезированный пример затухающего гармонического сигнала показан на рис. 12.16. Если вырезать из этого сигнала с помощью временного окна Гаусса маленький фрагмент, и отправить его на преобразование Фурье, то получится амплитудный спектр (в логарифмическом масштабе), показанный на рис. 12.17.


Если же вырезать из реального речевого сигнала один период между двумя хлопками голосовых связок (см. рис. 12.18), и где-то посреди этого фрагмента разместить временное окно спектрального оценивания, то мы получим амплитудный спектр, показанный на рис. 12.19. На этом рисунке красными линиями показаны значения проявившихся частот сложных резонансных колебаний речевого тракта. На этом рисунке хорошо видно, что с выбранной маленькой шириной временного окна спектрального оценивания далеко не все резонансные частоты речевого тракта проявились в спектре достаточно хорошо.

Но это неизбежно. В этой связи можно сформулировать следующие рекомендации по визуализации следов резонансных частот речевого тракта. Частота кадров спектрального фильма должна быть на порядок (раз в 10) больше частоты работы голосовых связок. Но увеличивать частоту кадров спектрального фильма до бесконечности нельзя, поскольку из принципа неопределенности Гейзенберга следы формант на сонограмме начнут сливаться.



А как бы выглядел спектр на предыдущем слайде, если бы прямоугольное окно вырезало бы ровно N периодов гармонического сигнала? Вспомнить о ряде Фурье.

Артефакт - [от лат. arte искусственно + factus сделанный] – биол. образования или процессы, возникающие иногда при исследовании биологического объекта вследствие воздействия на него самих условий исследования.

Эту функцию называют по-разному: весовой функцией, оконной функцией, взвешивающей функцией или взвешивающим окном.

Гармоническим анализом звука называют

А. установление числа тонов, входящих в состав сложного звука.

Б. установление частот и амплитуд тонов, входящих в состав сложного звука.

Правильный ответ:

1) только А

2) только Б

4) ни А, ни Б


Анализ звука

При помощи наборов акустических резонаторов можно установить, какие тоны входят в состав данного звука и каковы их амплитуды. Такое установление спектра сложного звука называется его гармоническим анализом.

Раньше анализ звука выполнялся с помощью резонаторов, представляющих собой полые шары разного размера, имеющих открытый отросток, вставляемый в ухо, и отверстие с противоположной стороны. Для анализа звука существенно, что всякий раз, когда в анализируемом звуке содержится тон, частота которого равна частоте резонатора, последний начинает громко звучать в этом тоне.

Такие способы анализа, однако, очень неточны и кропотливы. В настоящее время они вытеснены значительно более совершенными, точными и быстрыми электроакустическими методами. Суть их сводится к тому, что акустическое колебание сначала преобразуется в электрическое колебание с сохранением той же формы, а следовательно, имеющее тот же спектр, а затем это колебание анализируется электрическими методами.

Один из существенных результатов гармонического анализа касается звуков нашей речи. По тембру мы можем узнать голос человека. Но чем различаются звуковые колебания, когда один и тот же человек поёт на одной и той же ноте различные гласные? Другими словами, чем различаются в этих случаях периодические колебания воздуха, вызываемые голосовым аппаратом при разных положениях губ и языка и изменениях формы полости рта и глотки? Очевидно, в спектрах гласных должны быть какие-то особенности, характерные для каждого гласного звука, сверх тех особенностей, которые создают тембр голоса данного человека. Гармонический анализ гласных подтверждает это предположение, а именно: гласные звуки характеризуются наличием в их спектрах областей обертонов с большой амплитудой, причём эти области лежат для каждой гласной всегда на одних и тех же частотах независимо от высоты пропетого гласного звука.

Какое физическое явление лежит в основе электроакустического метода анализа звука?

1) преобразование электрических колебаний в звуковые

2) разложение звуковых колебаний в спектр

3) резонанс

4) преобразование звуковых колебаний в электрические

Решение.

Идея электроакустического метода анализа звука состоит в том, что исследуемые звуковые колебания действуют на мембрану микрофона и вызывают её периодическое перемещение. Мембрана связана с нагрузкой, сопротивление которой изменяется в соответствии с законом перемещения мембраны. Поскольку сопротивление меняется при неизменной силе тока, меняется и напряжение. Говорят, что происходит модуляция электрического сигнала - возникают электрические колебания. Таким образом, в основе электроакустического метода анализа звука лежит преобразование звуковых колебаний в электрические.

Правильный ответ указан под номером 4.

При помощи наборов акустических резонаторов можно установить, какие тоны входят в состав данного звука и с какими амплитудами они присутствуют в данном звуке. Такое установление гармонического спектра сложного звука называется его гармоническим анализом. Раньше такой анализ действительно производился с помощью наборов резонаторов, в частности резонаторов Гельмгольца, представляющих собой полые шары разного размера, снабженные отростком, вставляющимся в ухо, и имеющие отверстие с противоположной стороны (рис. 43). Действие такого резонатора, как и действие резонансного ящика камертона, мы объясним ниже (§51). Для анализа звука существенно то, что всякий раз, когда в анализируемом звуке содержится тон с частотой резонатора, последний начинает громко звучать в этом тоне.

Рис. 43. Резонатор Гельмгольца

Такие способы анализа, однако, очень неточны и кропотливы. В настоящее время они вытеснены значительно более совершенными, точными и быстрыми электроакустическими способами. Суть их сводится к тому, что акустическое колебание сначала преобразуется в электрическое колебание с сохранением той же формы, и следовательно, имеющее такой же спектр (§ 17); затем уже это электрическое колебание анализируется электрическими методами.

Укажем один существенный результат гармонического анализа, касающийся звуков нашей речи. По тембру мы можем узнать голос человека. Но чем различаются звуковые колебания, когда один и тот же человек поет на одной и той же ноте различные гласные: а, и, о, у, э? Другими словами, чем различаются в этих случаях периодические колебания воздуха, вызываемые голосовым аппаратом при разных положениях губ и языка и изменениях формы полостей рта и горла? Очевидно, в спектрах гласных должны быть какие-то особенности, характерные для каждого гласного звука, сверх тех особенностей, которые создают тембр голоса данного человека. Гармонический анализ гласных подтверждает это предположение, а именно, гласные звуки характеризуются наличием в их спектрах областей обертонов с большой амплитудой, причем эти области лежат для каждой гласной всегда на одних и тех же частотах, независимо от высоты пропетого гласного звука. Эти области сильных обертонов называются формантами. Каждая гласная имеет две характерные для нее форманты. На рис. 44 показано положение формант гласных у, о, а, э, и.

Очевидно, если искусственным путем воспроизвести спектр того или иного звука, в частности спектр гласной, то наше ухо получит впечатление этого звука, хотя бы его «естественный источник» отсутствовал. Особенно легко удается осуществлять такой синтез звуков (и синтез гласных) с помощью электроакустических устройств. Электрические музыкальные инструменты позволяют очень просто изменять спектр звука, т. е. менять его тембр.

Применение метода гармонического анализа к исследованию акустических явлений позволило разрешить многие теоретические и практические проблемы. Одним из трудных вопросов акустики является вопрос об особенностях восприятия человеческой речи.

Физическими характеристиками звуковых колебаний являются частота, амплитуда и начальная фаза колебаний. Для восприятия звука человеческим ухом важны только две физические характеристики - частота и амплитуда колебаний.

Но если это действительно так, то каким образом мы узнаем одни и те же гласные а, о, у и т. д. в речи разных людей? Ведь один человек говорит басом, другой - тенором, третий - сопрано; поэтому высота звука, т. е. частота звуковых колебаний, при произношении одной и той же гласной оказывается у разных людей различной. Можно пропеть на одной и той же гласной а целую октаву, изменяя частоту звуковых колебаний вдвое, и все же мы узнаем, что это а, но не о или у.

Не изменяется наше восприятие гласных и при изменении громкости звука, т. е. при изменении амплитуды колебаний. И громко и тихо произнесенное а мы уверенно отличаем от и, у, о, э.

Объяснение этой замечательной особенности человеческой речи дают результаты анализа спектра звуковых колебаний, возникающих при произнесении гласных.

Анализ спектра звуковых колебаний может быть осуществлен различными способами. Самый простой из них заключается в использовании набора акустических резонаторов, называемых резонаторами Гельмгольца.

Акустический резонатор - это полость обычно шарообразной

формы, сообщающаяся с внешней средой через небольшое отверстие. Как показал Гельмгольц, собственная частота колебаний воздуха, заключенного в такой полости, в первом приближении не зависит от формы полости и для случая круглого отверстия определяется формулой:

где - собственная частота резонатора; - скорость звука в воздухе; - диаметр отверстия; V - объем резонатора.

Если иметь набор резонаторов Гельмгольца с различными собственными частотами, то для определения спектрального состава звука от какого-нибудь источника нужно поочередно подносить разные резонаторы к уху и определять на слух наступление резонанса по усилению громкости звучания. На основании таких опытов можно утверждать, что в составе сложных акустических колебаний имеются гармонические составляющие, являющиеся собственными частотами резонаторов, в которых наблюдалось явление резонанса.

Такой способ определения спектрального состава звука слишком трудоемок и не очень надежен. Можно было бы попытаться усовершенствовать его: применить сразу весь комплект резонаторов, снабдив каждый из них микрофоном для преобразования звуковых колебаний в электрические и прибором для измерения силы тока на выходе микрофона. Для получения сведений о спектре гармонических составляющих сложных звуковых колебаний с помощью такого прибора достаточно снять показания со всех измерительных приборов на выходе.

Однако и такой способ не применяют на практике, так как разработаны более удобные и надежные способы спектрального анализа звука. Сущность наиболее распространенного из них состоит в следующем. С помощью микрофона исследуемые колебания давления воздуха звуковой частоты преобразуются в колебания электрического напряжения на выходе микрофона. Если качество микрофона достаточно высокое, то зависимость напряжения на выходе микрофона от времени выражается той же функцией, что и изменение со временем звукового давления. Тогда анализ спектра звуковых колебаний можно заменить анализом спектра электрических колебаний. Анализ же спектра электрических колебаний звуковой частоты осуществляется технически проще, и результаты измерений оказываются значительно более точными. Принцип действия соответствующего анализатора также основан на явлении резонанса, но уже не в механических системах, а в электрических цепях.

Применение метода анализа спектров к исследованию человеческой речи позволило обнаружить, что при произнесении человеком, например, гласной а на высоте тона до первой октавы

возникают звуковые колебания сложного частотного спектра. Кроме колебаний с частотой 261,6 Гц, соответствующих тону до первой октавы, в них обнаруживается ряд гармоник более высокой частоты. При изменении тона, на котором произносится гласная, в спектре звуковых колебаний происходят изменения. Падает до нуля амплитуда гармоники с частотой 261,6 Гц, и появляется гармоника, соответствующая тому тону, на котором теперь произносится гласная, но ряд других гармоник при этом не изменяет своей амплитуды. Устойчивую группу гармоник, характерную для данного звука, называют его формантой.

Если проиграть на скорости 78 об/мин грампластинку с записью исполнения какой-нибудь песни, предназначенную для проигрывания на скорости 33 об/мин, то мелодия песни останется неизменной, но звуки и слова звучат не просто более высоко, а становятся неузнаваемыми. Причина этого явления состоит в том, что изменяются частоты всех гармонических составляющих каждого звука.

Мы приходим к выводу, что мозг человека по сигналам, поступающим через нервные волокна от слухового аппарата, способен определять не только частоту и амплитуду звуковых колебаний, но и спектральный состав сложных звуковых колебаний, как бы выполняя работу анализатора спектра гармонических составляющих негармонических колебаний.

Человек способен узнавать голоса знакомых людей, отличать звуки одного тона, полученные с помощью различных музыкальных инструментов. Эта способность также основана на различии спектрального состава звуков одного основного тона от разных источников. Наличие в их спектре устойчивых групп - формант гармонических составляющих - придает звучанию каждого музыкального инструмента характерную «окраску», называемую тембром звука.

1. Приведите примеры негармонических колебаний.

2. В чем заключается существо метода гармонического анализа?

3. Каковы практические применения метода гармонического анализа?

4. Чем отличаются друг от друга различные гласные звуки?

5. Как осуществляется на практике гармонический анализ звука?

6. Что такое тембр звука?