- Moderator
- #81
- 8 902
- 25 792
Audiofilski wątek dopustu bożego ze Smoleńska... Czekamy aż Steven Wilson zrobi remastera taśm z czarnych skrzynek? Słuchałbym roztrzaskujących się komuchów w miksie surround...
Trudna nauka po Smoleńsku
Rozmawiał Jacek Krywko
14.04.2015 01:00
Nie można sformułować rzetelnej opinii o emocjach pilotów tylko na podstawie nagrania ich głosów. A podniesienie częstotliwości nagrania nie poprawi jego jakości. Jak eksperci prokuratury usłyszeli dodatkowe słowa w kokpicie Tu-154?
ROZMOWA Z PROF. PETEREM FRENCHEM*, prezesem Międzynarodowego Stowarzyszenia Akustyki i Fonetyki sądowej.
Prof. Peter French: A jaki jest podany przez producenta zakres częstotliwości rejestrowanych przez MARS-BM?
Od 300 Hz do 3,4 kHz.
- To standard w telefonach. Jeśli ktoś chce sobie wyobrazić, jakie jest wrażenie z odsłuchu takich materiałów, może po prostu do kogoś zadzwonić.
Dla porównania - zdrowy młody człowiek jest w stanie usłyszeć dźwięki od ok. 16 Hz do 20 kHz. Mniej więcej w takim przedziale mieszczą się też częstotliwości odtwarzania systemów hi-fi.
Ponieważ oryginalne nagranie było analogowe, czyli zapisane na taśmie magnetycznej, trzeba było je przekonwertować do pliku cyfrowego. Aby podczas konwersji nie utracić żadnej informacji, stosuje się tzw. teorię Nyquista. Mówi ona, że częstotliwość próbkowania kopii powinna być co najmniej dwukrotnie wyższa od maksymalnej częstotliwości oryginalnego sygnału. Łatwo policzyć, że dla górnego zakresu wynoszącego 3,4 kHz to 6,8 kHz. Użyta przy wykonywaniu pierwszej kopii jakość 16 bit/11 kHz była więc w zupełności wystarczająca dla odwzorowania pełnego zakresu rozmów z czarnej skrzynki. Zostawiała nawet pewien margines bezpieczeństwa.
Eksperci prokuratury twierdzą jednak, że współpracujący z rejestratorem magnetofon MARS-NW, na którym odtwarzano taśmy, był w stanie objąć znacznie szerszy zakres dźwięku, niż to wynikało ze specyfikacji. Nawet do 14 kHz
- Całkiem możliwe. Istotą rzeczy nie jest jednak to, co potrafi odtworzyć magnetofon, ale to, co jest zapisane na taśmie. Jeśli urządzenie rejestrujące nie mogło wychwycić dźwięków powyżej pewnej częstotliwości, to na nagraniu ich nie będzie.
Pańskim zdaniem specjaliści wykonujący pierwsze kopie nie popełnili błędu?
- Nie. Postąpili zgodnie z zasadami sztuki.
Zatem błąd popełniła ostatnia ekipa?
- Konwersja do pliku o jakości 24 bit/96 kHz z pewnością nie zaszkodzi. W tym wypadku, zważywszy na źródło, zakres przenoszonych częstotliwości jest jednak absurdalnie szeroki. To trochę jak przewożenie myszy w kontenerze przeznaczonym dla słonia. Kontener jest olbrzymi, ale mysz nie zrobi się od tego większa. Wokół niej pozostanie masa wolnej przestrzeni.
Nie nazwałbym tego błędem - dźwięk nie stanie się od tego gorszy. Natomiast twierdzenia, że dzięki temu wypowiadane słowa stały się wyraźniejsze, są moim zdaniem wyssane z palca. To przeczy podstawowym zasadom akustyki. Tak czy inaczej, pliki już mamy. W nagraniach z kokpitu samolotu jest zapewne mnóstwo szumu, który utrudnia wychwytywanie słów. Słychać hałas silników, szum powietrza opływającego maszynę. Można się tego jakoś pozbyć?
- Jest na to kilka sposobów. Pierwszy to tzw. odejmowanie spektralne. Z zaszumionego nagrania wybiera się fragment, w którym nikt nie mówi. Wtedy słychać wyłącznie szum. Ustala się jego charakterystykę i dźwięki w tym przedziale częstotliwości można usunąć z całego nagrania. Pozwala to w pewnym zakresie uwypuklić wypowiadane słowa.
Znane jest też rozwinięcie tej metody, które pozwala radzić sobie z szumem o zmiennej charakterystyce. Zmiany w zakresie szumu są tu dynamicznie analizowane przez specjalne oprogramowanie.
Potrafimy również podbijać głośność głosu, który na nagraniu jest bardzo cichy. Można dzięki temu odsłuchać kwestie wypowiadane z dala od mikrofonu, nawet na granicy jego zasięgu.
Inżynieria dźwięku jest w stanie zdziałać niesamowite rzeczy, ale bywa przeceniana. Ludzie oglądają seriale w stylu "CSI" i wyobrażają sobie, że przyniosą materiał, na którym właściwie nic nie słychać, a my przepuścimy go przez magiczne czarne pudełko, naciśniemy kilka guzików, przesuniemy kilka suwaków i nagle dźwięk stanie się ostry jak brzytwa. Rzeczywistość jest o wiele bardziej skomplikowana.
A jak sobie poradzić, gdy dwie osoby mówią jednocześnie?
- Wielokrotnie i uważnie odsłuchując nagranie. Dla ułatwienia sprawy można stosować zabiegi, o których już wspomniałem. Nie ma jednak technologii pozwalającej rozdzielić jednoczesną wypowiedź na dwa odrębne kanały.
Stenogramy powstały na podstawie odsłuchów siedmiu biegłych, którzy ostatecznie ustalili wspólną wersję. To normalna procedura?
- Normalnie nie wykorzystuje się do odsłuchów aż siedmiu osób. Nigdy wcześniej z czymś takim się nie spotkałem.
Jak to może wpłynąć na jakość stenogramów? Wierność transkrypcji wyjdzie poniżej czy powyżej światowych standardów?
- Znacznie powyżej. To jest wręcz niezwykła dbałość o wierność stenogramu.
Katastrofa też była niezwykła. Zginęli w niej najwyżsi przedstawiciele polskich władz z prezydentem włącznie.
- To tłumaczy niecodzienne środki ostrożności nawet tam, gdzie nie ma to realnego sensu. Pozytywny efekt wykorzystania siedmiu biegłych przy odsłuchach jest dla mnie jasny. Myślę, że to dzięki temu odczytano dodatkowe 30 proc. słów. Na pewno nie z powodu znacznie zawyżonej częstotliwości próbkowania nowych kopii.
Prof. Grażyna Demenko połączyła nagrane głosy z osobami obecnymi na pokładzie samolotu. Jak się przeprowadza taką identyfikację?
- Przede wszystkim trzeba to robić na podstawie materiału bazowego, np. bez żadnych zabiegów redukujących szumy. Wszystkie takie zmiany wypaczają charakterystykę głosów na nagraniu i utrudniają ich identyfikację. Potrzebne są też próbki innych wypowiedzi osób, których tożsamość się weryfikuje. Budujemy profil czyjegoś głosu i porównujemy go z nagraniem.
Na ile pewny jest wynik takiego porównania?
- Stuprocentowej pewności nigdy nie ma. Charakterystyka akustyczna to nie jest odcisk palca czy próbka DNA. Potrafimy jednak dojść do wniosków o względnie małym marginesie błędu.
Duża część pracy prof. Demenko skupia się na ustaleniu poziomu stresu załogi, tego, czy piloci działali pod presją.
- Reakcje na stres ogromnie różnią się u poszczególnych ludzi. Nie ma obecnie możliwości sformułowania naukowej, rzetelnej opinii o czyimś działaniu pod presją czy w warunkach stresu na podstawie odsłuchu nagrania.
Zdaję sobie jednak sprawę, że organy ścigania na całym świecie nader często życzą sobie takich właśnie ekspertyz. Dlatego Międzynarodowe Stowarzyszenie Akustyki i Fonetyki Sądowej ma wśród zasad dobrych praktyk jasny zakaz jakiegokolwiek psychologicznego profilowania ludzi na podstawie materiałów audio. Tyczy się to też kwestii presji i stresu.
Prawidłowa odpowiedź w takich sytuacjach brzmi: "Nie wiem".
*Prof. Peter French jest prezesem Międzynarodowego Stowarzyszenia Akustyki i Fonetyki Sądowej (IAFPA), wykładowcą Uniwersytetu w Yorku i szefem JP French & Associates, najstarszego prywatnego laboratorium analizy dźwięku w Wielkiej Brytanii.
Rozmawiał Jacek Krywko
14.04.2015 01:00
Nie można sformułować rzetelnej opinii o emocjach pilotów tylko na podstawie nagrania ich głosów. A podniesienie częstotliwości nagrania nie poprawi jego jakości. Jak eksperci prokuratury usłyszeli dodatkowe słowa w kokpicie Tu-154?
ROZMOWA Z PROF. PETEREM FRENCHEM*, prezesem Międzynarodowego Stowarzyszenia Akustyki i Fonetyki sądowej.
Od redakcji
Jedno z pytań, które można postawić po lekturze rozmowy z prof. Peterem Frenchem, brzmi: "Dlaczego nie poprosiliście o opinię polskiego specjalisty?".
Otóż przez trzy dni usiłowaliśmy to zrobić. Jako pierwszą postanowiliśmy zapytać samą prof. Grażynę Demenko. Ta jednak odmówiła kontaktów z mediami, bo "nie chce być kojarzona z politycznym sporem wokół katastrofy". Kolejne rozmowy z kolejnymi naukowcami wykazały, że grono specjalistów od tego rodzaju analiz akustycznych liczy w naszym kraju "kilka osób". Z tych kilku osób niektóre nagle stały się "nieuchwytne". Inni wprost mówili, że sprawa jest "bardzo delikatna i sami państwo rozumieją".
Żyjemy w kraju, w którym nikt nie chce publicznie, zgodnie ze swą fachową wiedzą odpowiedzieć na pytanie o sens używania jednej częstotliwości próbkowania pliku audio zamiast innej. Fachowcy obawiają się, że niezależnie od tego, co powiedzą, któraś ze stron "politycznego sporu" natychmiast obrzuci ich błotem.
Rozmowa z jednym z najwybitniejszych brytyjskich ekspertów w tej dziedzinie nie jest naszym wyborem. Jest smutną puentą narodowej histerii otaczającej katastrofę pod Smoleńskiem. Jeszcze trochę i z każdym technicznym pytaniem trzeba będzie wydzwaniać do Waszyngtonu.
Jacek Krywko: Polska prokuratura wykonała nowe kopie taśm z rejestratora pokładowego MARS-BM prezydenckiego samolotu Tu-154, który 10 kwietnia 2010 r. rozbił się podczas podchodzenia do lądowania na lotnisku pod Smoleńskiem w Rosji. Tym razem w bardzo wysokiej jakości 24 bit/96 kHz. Zdaniem specjalistów, którym przewodził Andrzej Artymowicz, poprzedni zapis o jakości 16 bit/11 kHz sztucznie ucinał część sygnału. Teraz udało im się odczytać o 30 proc. więcej słów.Jedno z pytań, które można postawić po lekturze rozmowy z prof. Peterem Frenchem, brzmi: "Dlaczego nie poprosiliście o opinię polskiego specjalisty?".
Otóż przez trzy dni usiłowaliśmy to zrobić. Jako pierwszą postanowiliśmy zapytać samą prof. Grażynę Demenko. Ta jednak odmówiła kontaktów z mediami, bo "nie chce być kojarzona z politycznym sporem wokół katastrofy". Kolejne rozmowy z kolejnymi naukowcami wykazały, że grono specjalistów od tego rodzaju analiz akustycznych liczy w naszym kraju "kilka osób". Z tych kilku osób niektóre nagle stały się "nieuchwytne". Inni wprost mówili, że sprawa jest "bardzo delikatna i sami państwo rozumieją".
Żyjemy w kraju, w którym nikt nie chce publicznie, zgodnie ze swą fachową wiedzą odpowiedzieć na pytanie o sens używania jednej częstotliwości próbkowania pliku audio zamiast innej. Fachowcy obawiają się, że niezależnie od tego, co powiedzą, któraś ze stron "politycznego sporu" natychmiast obrzuci ich błotem.
Rozmowa z jednym z najwybitniejszych brytyjskich ekspertów w tej dziedzinie nie jest naszym wyborem. Jest smutną puentą narodowej histerii otaczającej katastrofę pod Smoleńskiem. Jeszcze trochę i z każdym technicznym pytaniem trzeba będzie wydzwaniać do Waszyngtonu.
Prof. Peter French: A jaki jest podany przez producenta zakres częstotliwości rejestrowanych przez MARS-BM?
Od 300 Hz do 3,4 kHz.
- To standard w telefonach. Jeśli ktoś chce sobie wyobrazić, jakie jest wrażenie z odsłuchu takich materiałów, może po prostu do kogoś zadzwonić.
Dla porównania - zdrowy młody człowiek jest w stanie usłyszeć dźwięki od ok. 16 Hz do 20 kHz. Mniej więcej w takim przedziale mieszczą się też częstotliwości odtwarzania systemów hi-fi.
Ponieważ oryginalne nagranie było analogowe, czyli zapisane na taśmie magnetycznej, trzeba było je przekonwertować do pliku cyfrowego. Aby podczas konwersji nie utracić żadnej informacji, stosuje się tzw. teorię Nyquista. Mówi ona, że częstotliwość próbkowania kopii powinna być co najmniej dwukrotnie wyższa od maksymalnej częstotliwości oryginalnego sygnału. Łatwo policzyć, że dla górnego zakresu wynoszącego 3,4 kHz to 6,8 kHz. Użyta przy wykonywaniu pierwszej kopii jakość 16 bit/11 kHz była więc w zupełności wystarczająca dla odwzorowania pełnego zakresu rozmów z czarnej skrzynki. Zostawiała nawet pewien margines bezpieczeństwa.
Eksperci prokuratury twierdzą jednak, że współpracujący z rejestratorem magnetofon MARS-NW, na którym odtwarzano taśmy, był w stanie objąć znacznie szerszy zakres dźwięku, niż to wynikało ze specyfikacji. Nawet do 14 kHz
- Całkiem możliwe. Istotą rzeczy nie jest jednak to, co potrafi odtworzyć magnetofon, ale to, co jest zapisane na taśmie. Jeśli urządzenie rejestrujące nie mogło wychwycić dźwięków powyżej pewnej częstotliwości, to na nagraniu ich nie będzie.
Pańskim zdaniem specjaliści wykonujący pierwsze kopie nie popełnili błędu?
- Nie. Postąpili zgodnie z zasadami sztuki.
Zatem błąd popełniła ostatnia ekipa?
- Konwersja do pliku o jakości 24 bit/96 kHz z pewnością nie zaszkodzi. W tym wypadku, zważywszy na źródło, zakres przenoszonych częstotliwości jest jednak absurdalnie szeroki. To trochę jak przewożenie myszy w kontenerze przeznaczonym dla słonia. Kontener jest olbrzymi, ale mysz nie zrobi się od tego większa. Wokół niej pozostanie masa wolnej przestrzeni.
Nie nazwałbym tego błędem - dźwięk nie stanie się od tego gorszy. Natomiast twierdzenia, że dzięki temu wypowiadane słowa stały się wyraźniejsze, są moim zdaniem wyssane z palca. To przeczy podstawowym zasadom akustyki. Tak czy inaczej, pliki już mamy. W nagraniach z kokpitu samolotu jest zapewne mnóstwo szumu, który utrudnia wychwytywanie słów. Słychać hałas silników, szum powietrza opływającego maszynę. Można się tego jakoś pozbyć?
- Jest na to kilka sposobów. Pierwszy to tzw. odejmowanie spektralne. Z zaszumionego nagrania wybiera się fragment, w którym nikt nie mówi. Wtedy słychać wyłącznie szum. Ustala się jego charakterystykę i dźwięki w tym przedziale częstotliwości można usunąć z całego nagrania. Pozwala to w pewnym zakresie uwypuklić wypowiadane słowa.
Znane jest też rozwinięcie tej metody, które pozwala radzić sobie z szumem o zmiennej charakterystyce. Zmiany w zakresie szumu są tu dynamicznie analizowane przez specjalne oprogramowanie.
Potrafimy również podbijać głośność głosu, który na nagraniu jest bardzo cichy. Można dzięki temu odsłuchać kwestie wypowiadane z dala od mikrofonu, nawet na granicy jego zasięgu.
Inżynieria dźwięku jest w stanie zdziałać niesamowite rzeczy, ale bywa przeceniana. Ludzie oglądają seriale w stylu "CSI" i wyobrażają sobie, że przyniosą materiał, na którym właściwie nic nie słychać, a my przepuścimy go przez magiczne czarne pudełko, naciśniemy kilka guzików, przesuniemy kilka suwaków i nagle dźwięk stanie się ostry jak brzytwa. Rzeczywistość jest o wiele bardziej skomplikowana.
A jak sobie poradzić, gdy dwie osoby mówią jednocześnie?
- Wielokrotnie i uważnie odsłuchując nagranie. Dla ułatwienia sprawy można stosować zabiegi, o których już wspomniałem. Nie ma jednak technologii pozwalającej rozdzielić jednoczesną wypowiedź na dwa odrębne kanały.
Stenogramy powstały na podstawie odsłuchów siedmiu biegłych, którzy ostatecznie ustalili wspólną wersję. To normalna procedura?
- Normalnie nie wykorzystuje się do odsłuchów aż siedmiu osób. Nigdy wcześniej z czymś takim się nie spotkałem.
Jak to może wpłynąć na jakość stenogramów? Wierność transkrypcji wyjdzie poniżej czy powyżej światowych standardów?
- Znacznie powyżej. To jest wręcz niezwykła dbałość o wierność stenogramu.
Katastrofa też była niezwykła. Zginęli w niej najwyżsi przedstawiciele polskich władz z prezydentem włącznie.
- To tłumaczy niecodzienne środki ostrożności nawet tam, gdzie nie ma to realnego sensu. Pozytywny efekt wykorzystania siedmiu biegłych przy odsłuchach jest dla mnie jasny. Myślę, że to dzięki temu odczytano dodatkowe 30 proc. słów. Na pewno nie z powodu znacznie zawyżonej częstotliwości próbkowania nowych kopii.
Prof. Grażyna Demenko połączyła nagrane głosy z osobami obecnymi na pokładzie samolotu. Jak się przeprowadza taką identyfikację?
- Przede wszystkim trzeba to robić na podstawie materiału bazowego, np. bez żadnych zabiegów redukujących szumy. Wszystkie takie zmiany wypaczają charakterystykę głosów na nagraniu i utrudniają ich identyfikację. Potrzebne są też próbki innych wypowiedzi osób, których tożsamość się weryfikuje. Budujemy profil czyjegoś głosu i porównujemy go z nagraniem.
Na ile pewny jest wynik takiego porównania?
- Stuprocentowej pewności nigdy nie ma. Charakterystyka akustyczna to nie jest odcisk palca czy próbka DNA. Potrafimy jednak dojść do wniosków o względnie małym marginesie błędu.
Duża część pracy prof. Demenko skupia się na ustaleniu poziomu stresu załogi, tego, czy piloci działali pod presją.
- Reakcje na stres ogromnie różnią się u poszczególnych ludzi. Nie ma obecnie możliwości sformułowania naukowej, rzetelnej opinii o czyimś działaniu pod presją czy w warunkach stresu na podstawie odsłuchu nagrania.
Zdaję sobie jednak sprawę, że organy ścigania na całym świecie nader często życzą sobie takich właśnie ekspertyz. Dlatego Międzynarodowe Stowarzyszenie Akustyki i Fonetyki Sądowej ma wśród zasad dobrych praktyk jasny zakaz jakiegokolwiek psychologicznego profilowania ludzi na podstawie materiałów audio. Tyczy się to też kwestii presji i stresu.
Prawidłowa odpowiedź w takich sytuacjach brzmi: "Nie wiem".
*Prof. Peter French jest prezesem Międzynarodowego Stowarzyszenia Akustyki i Fonetyki Sądowej (IAFPA), wykładowcą Uniwersytetu w Yorku i szefem JP French & Associates, najstarszego prywatnego laboratorium analizy dźwięku w Wielkiej Brytanii.