Стиснення розкладених представлень звукового поля

Номер патенту: 116140

Опубліковано: 12.02.2018

Автори: Рю Санг-Ук, Сен Діпанджан

Є ще 228 сторінок.

Дивитися все сторінки або завантажити PDF файл.

Формула / Реферат

1. Спосіб, який включає етап, на якому:

одержують бітовий потік, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента.

2. Спосіб за п. 1, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, інформації таблиці Хаффмана, що вказує таблицю Хаффмана, використовувану при стисненні просторового компонента.

3. Спосіб за п. 1, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує значення, яке виражає розмір кроку квантування або його змінну, використовувану при стисненні просторового компонента.

4. Спосіб за п. 3, у якому значення містить значення nbits.

5. Спосіб за п. 3, у якому бітовий потік містить стиснену версію з множини просторових компонентів звукового поля, стиснена версія просторового компонента якого включена, і

при цьому значення виражає розмір кроку квантування або його змінну, використовувану при стисненні множини просторових компонентів.

6. Спосіб за п. 1, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, коду Хаффмана для представлення ідентифікатора категорії, що ідентифікує категорію стиснення, якій відповідає просторовий компонент.

7. Спосіб за п. 1, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, знакового біта, що ідентифікує, чи має просторовий компонент позитивне значення або негативне значення.

8. Спосіб за п. 1, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, коду Хаффмана для представлення залишкового значення просторового компонента.

9. Спосіб за п. 1, у якому одержання бітового потоку включає генерацію бітового потоку за допомогою пристрою генерації бітового потоку.

10. Спосіб за п. 1, у якому одержання бітового потоку включає одержання бітового потоку за допомогою пристрою витягання бітового потоку.

11. Спосіб за п. 1, у якому розкладання включає розкладання на сингулярні значення.

12. Пристрій, який містить:

один або більше процесорів, виконаних з можливістю одержання бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента.

13. Пристрій за п. 12, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, інформації таблиці Хаффмана, що вказує таблицю Хаффмана, використовувану при стисненні просторового компонента.

14. Пристрій за п. 12, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує значення, яке виражає розмір кроку квантування або його змінну, використовувану при стисненні просторового компонента.

15. Пристрій за п. 14, у якому значення містить значення nbits.

16. Пристрій за п. 14, у якому бітовий потік містить стиснену версію з множини просторових компонентів звукового поля, стиснена версія просторового компонента якого включена, і

при цьому значення виражає розмір кроку квантування або його змінну, використовувану при стисненні множини просторових компонентів.

17. Пристрій за п. 12, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, коду Хаффмана для представлення ідентифікатора категорії, що ідентифікує категорію стиснення, якій відповідає просторовий компонент.

18. Пристрій за п. 12, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, знакового біта, що ідентифікує, чи має просторовий компонент позитивне значення або негативне значення.

19. Пристрій за п. 12, у якому стиснена версія просторового компонента додатково представлена в бітовому потоці з використанням, щонайменше частково, коду Хаффмана для представлення залишкового значення просторового компонента.

20. Пристрій за п. 12, у якому пристрій містить пристрій аудіокодування і пристрій генерації бітового потоку.

21. Пристрій за п. 12, у якому пристрій містить пристрій аудіодекодування.

22. Пристрій за п. 12, у якому розкладання включає розкладання на сингулярні значення.

23. Пристрій, який містить:

засіб для одержання бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента; і

засіб для збереження бітового потоку.

24. Довгостроковий зчитуваний комп'ютером носій даних, де зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам одержувати бітовий потік, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік.

25. Спосіб, який включає етап, на якому:

генерують бітовий потік, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента.

26. Спосіб за п. 25, у якому генерація бітового потоку включає генерацію бітового потоку для включення інформації таблиці Хаффмана, що вказує таблицю Хаффмана, використовувану при стисненні просторового компонента.

27. Спосіб за п. 25, у якому генерація бітового потоку включає генерацію бітового потоку для включення поля, що вказує значення, яке виражає розмір кроку квантування або його змінну, використовувану при стисненні просторового компонента.

28. Спосіб за п. 27, у якому значення містить значення nbits.

29. Спосіб за п. 27, у якому генерація бітового потоку включає генерацію бітового потоку для включення стисненої версії з множини просторових компонентів звукового поля, стиснена версія просторового компонента якого включена, і

при цьому значення виражає розмір кроку квантування або його змінну, використовувану при стисненні множини просторових компонентів.

30. Спосіб за п. 25, у якому генерація бітового потоку включає генерацію бітового потоку для включення коду Хаффмана для представлення ідентифікатора категорії, що ідентифікує категорію стиснення, якій відповідає просторовий компонент.

31. Спосіб за п. 25, у якому генерація бітового потоку включає генерацію бітового потоку для включення знакового біта, що ідентифікує, чи має просторовий компонент позитивне значення або негативне значення.

32. Спосіб за п. 25, у якому генерація бітового потоку включає генерацію бітового потоку для включення коду Хаффмана для представлення залишкового значення просторового компонента.

33. Спосіб за п. 25, у якому розкладання включає розкладання на сингулярні значення.

34. Пристрій, який містить:

один або більше процесорів, виконаних з можливістю генерації бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента.

35. Пристрій за п. 34, у якому один або більше процесорів виконані з можливістю генерації бітового потоку для включення інформації таблиці Хаффмана, що вказує таблицю Хаффмана, використовувану при стисненні просторового компонента.

36. Пристрій за п. 34, у якому один або більше процесорів виконані з можливістю генерації бітового потоку для включення поля, що вказує значення, яке виражає розмір кроку квантування або його змінну, використовувану при стисненні просторового компонента.

37. Пристрій за п. 36, у якому значення містить значення nbits.

38. Пристрій за п. 36, у якому один або більше процесорів виконані з можливістю генерації бітового потоку для включення стисненої версії з множини просторових компонентів звукового поля, стиснена версія просторового компонента якого включена, і

при цьому значення виражає розмір кроку квантування або його змінну, використовувану при стисненні множини просторових компонентів.

39. Пристрій за п. 34, у якому один або більше процесорів виконані з можливістю генерації бітового потоку для включення коду Хаффмана для представлення ідентифікатора категорії, що ідентифікує категорію стиснення, якій відповідає просторовий компонент.

40. Пристрій за п. 34, у якому один або більше процесорів виконані з можливістю генерації бітового потоку для включення знакового біта, що ідентифікує, чи має просторовий компонент позитивне значення або негативне значення.

41. Пристрій за п. 34, у якому один або більше процесорів виконані з можливістю генерації бітового потоку для включення коду Хаффмана для представлення залишкового значення просторового компонента.

42. Пристрій за п. 34, у якому розкладання включає розкладання на сингулярні значення.

43. Пристрій, який містить:

засіб для генерації бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента; і

засіб для збереження бітового потоку.

44. Довгостроковий зчитуваний комп'ютером носій даних, що містить інструкції, які, при виконанні, призначають одному або більше процесорам:

генерувати бітовий потік, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент заданий в області сферичних гармонік і генерується шляхом здійснення розкладання відносно множини коефіцієнтів сферичних гармонік, у якому стиснена версія просторового компонента представлена в бітовому потоці з використанням, щонайменше частково, поля, що вказує режим прогнозування, використовуваний при стисненні просторового компонента.

Текст

Реферат: Загалом, описані методи стиснення розкладеного представлення звукового поля. Пристрої, що містять один або більше процесорів, можуть бути виконані з можливістю здійснення методів. Один або більше процесорів можуть бути виконані з можливістю одержання бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 [1] Дана заявка вимагає пріоритет по попередній патентній заявці США № 61/828,445, поданій 29 травня 2013 р., попередній патентній заявці США № 61/829,791, поданій 31 травня 2013 р., попередній патентній заявці США № 61/899,034 поданій 1 листопада 2013 р., попередній патентній заявці США № 61/899,041, поданій 1 листопада 2013 р., попередній патентній заявці США № 61/829,182, поданій 30 травня 2013 р., попередній патентній заявці США № 61/829,174, поданій 30 травня 2013 р., попередній патентній заявці США № 61/829,155, поданій 30 травня 2013 р., попередній патентній заявці США № 61/933,706 поданій 30 січня 2014 р., попередній патентній заявці США № 61/829,846, поданій 31 травня 2013 р., попередній патентній заявці США № 61/886,605, поданій 3 жовтня 2013 р., попередній патентній заявці США № 61/886,617, поданій 3 жовтня 2013 р., попередній патентній заявці США № 61/925,158, поданій 8 січня 2014 р., попередній патентній заявці США № 61/933,721, поданій 30 січня 2014 р., попередній патентній заявці США № 61/925,074, поданій 8 січня 2014 р., попередній патентній заявці США № 61/925,112, поданій 8 січня 2014 р., попередній патентній заявці США № 61/925,126, поданій 8 січня 2014 р., попередній патентній заявці США № 62/003,515, поданій 27 травня 2014 р., і попередній патентній заявці США № 61/828,615, поданій 29 травня 2013 р., зміст яких у повному обсязі включений в даний опис у порядку посилання. Галузь техніки, до якої належить винахід [2] Даний винахід стосується аудіоданних, зокрема стиснення аудіоданих. Рівень техніки [3] Сигнал амбіофонії більш високого порядку (HOA) (часто представлений множиною коефіцієнтів сферичних гармонік (SHC) або іншими ієрархічними елементами) є тривимірним представленням звукового поля. Це представлення HOA або SHC може представляти це звукове поле незалежно від локальної геометрії гучномовців, використовуваних для відтворення багатоканального аудіосигналу, рендеризованого з цього сигналу SHC. Цей сигнал SHC також може полегшувати зворотну сумісність, оскільки цей сигнал SHC можна рендеризувати у загальновідомі і широко розповсюджені багатоканальні формати, наприклад формат аудіоканалів 5.1 або формат аудіоканалів 7.1. Таким чином, представлення SHC може забезпечувати краще представлення звукового поля, яке також має зворотну сумісність. Сутність винаходу [4] У цілому, описані методи стиснення і зняття стиснення аудіоданих амбіофонії більш високого порядку. [5] В одному аспекті, спосіб включає одержання одного або більше перших векторів, що описують характерні компоненти звукового поля, і одного або більше других векторів, що описують фонові компоненти звукового поля, причому один або більше перших векторів і один або більше других векторів генеруються щонайменше шляхом здійснення перетворення відносно множини коефіцієнтів сферичних гармонік. [6] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю визначення одного або більше перших векторів, що описують характерні компоненти звукового поля, і одного або більше других векторів, що описують фонові компоненти звукового поля, причому один або більше перших векторів і один або більше других векторів генеруються щонайменше шляхом здійснення перетворення відносно множини коефіцієнтів сферичних гармонік. [7] В іншому аспекті, пристрій містить засіб для одержання одного або більше перших векторів, що описують характерні компоненти звукового поля, і одного або більше других векторів, що описують фонові компоненти звукового поля, причому один або більше перших векторів і один або більше других векторів генеруються щонайменше шляхом здійснення перетворення відносно множини коефіцієнтів сферичних гармонік, і засіб для збереження одного або більше перших векторів. [8] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам одержувати один або більше перших векторів, що описують характерні компоненти звукового поля, і один або більше других векторів, що описують фонові компоненти звукового поля, причому один або більше перших векторів і один або більше других векторів генеруються щонайменше шляхом здійснення перетворення відносно множини коефіцієнтів сферичних гармонік. [9] В іншому аспекті, спосіб включає вибір однієї з множини схем зняття стиснення на основі указання, чи генерується стиснена версія коефіцієнтів сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта, і зняття стиснення стисненої версії коефіцієнтів сферичних гармонік з використанням вибраної однієї з множини схем зняття стиснення. [10] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю вибору однієї з множини схем зняття стиснення на основі указання, чи генерується стиснена 1 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 версія коефіцієнтів сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта, і зняття стиснення стисненої версії коефіцієнтів сферичних гармонік з використанням вибраної однієї з множини схем зняття стиснення. [11] В іншому аспекті, пристрій містить засіб для вибору однієї з множини схем зняття стиснення на основі указання, чи генерується стиснена версія коефіцієнтів сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта, і засіб для зняття стиснення стисненої версії коефіцієнтів сферичних гармонік з використанням вибраної однієї з множини схем зняття стиснення. [12] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам вбудованого пристрою декодування вибирати одну з множини схем зняття стиснення на основі указання, чи генерується стиснена версія коефіцієнтів сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта, і знімати стиснення стисненої версії коефіцієнтів сферичних гармонік з використанням вибраної однієї з множини схем зняття стиснення. [13] В іншому аспекті, спосіб включає одержання указання, чи генеруються коефіцієнти сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта. [14] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю одержання указання, чи генеруються коефіцієнти сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта. [15] В іншому аспекті, пристрій містить засіб для збереження коефіцієнтів сферичних гармонік, що представляють звукове поле, і засіб для одержання указання, чи генеруються коефіцієнти сферичних гармонік із синтетичного аудіооб'єкта. [16] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам одержувати указання, чи генеруються коефіцієнти сферичних гармонік, що представляють звукове поле, із синтетичного аудіооб'єкта. [17] В іншому аспекті, спосіб включає квантування одного або більше перших векторів, що представляють один або більше компонентів звукового поля, і компенсацію помилки, що вноситься внаслідок квантування одного або більше перших векторів в один або більше других векторів, що також представляють ті ж один або більше компонентів звукового поля. [18] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю квантування одного або більше перших векторів, що представляють один або більше компонентів звукового поля, і компенсації помилки, що вноситься внаслідок квантування одного або більше перших векторів в один або більше других векторів, що також представляють ті ж один або більше компонентів звукового поля. [19] В іншому аспекті, пристрій містить засіб для квантування одного або більше перших векторів, що представляють один або більше компонентів звукового поля, і засіб для компенсації помилки, що вноситься внаслідок квантування одного або більше перших векторів в один або більше других векторів, що також представляють ті ж один або більше компонентів звукового поля. [20] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам квантувати один або більше перших векторів, що представляють один або більше компонентів звукового поля, і компенсувати помилку, що вноситься внаслідок квантування одного або більше перших векторів в один або більше других векторів, що також представляють ті ж один або більше компонентів звукового поля. [21] В іншому аспекті, спосіб включає здійснення, на основі цільової бітової швидкості, зниження порядку відносно множини коефіцієнтів сферичних гармонік або їх розкладань для генерації приведених коефіцієнтів сферичних гармонік або їх приведених розкладань, причому множина коефіцієнтів сферичних гармонік представляє звукове поле. [22] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю здійснення, на основі цільової бітової швидкості, зниження порядку відносно множини коефіцієнтів сферичних гармонік або їх розкладань для генерації приведених коефіцієнтів сферичних гармонік або їх приведених розкладань, причому множина коефіцієнтів сферичних гармонік представляє звукове поле. [23] В іншому аспекті, пристрій містить засіб для збереження множини коефіцієнтів сферичних гармонік або їх розкладань і засіб для здійснення, на основі цільової бітової швидкості, зниження порядку відносно множини коефіцієнтів сферичних гармонік або їх розкладань для генерації приведених коефіцієнтів сферичних гармонік або їх приведених розкладань, причому множина коефіцієнтів сферичних гармонік представляє звукове поле. 2 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 [24] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам здійснювати, на основі цільової бітової швидкості, зниження порядку відносно множини коефіцієнтів сферичних гармонік або їх розкладань для генерації приведених коефіцієнтів сферичних гармонік або їх приведених розкладань, причому множина коефіцієнтів сферичних гармонік представляє звукове поле. [25] В іншому аспекті, спосіб включає одержання першого ненульового набору коефіцієнтів вектора, які представляють характерний компонент звукового поля, причому вектор розкладений з множини коефіцієнтів сферичних гармонік, що описують звукове поле. [26] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю одержання першого ненульового набору коефіцієнтів вектора, що представляють характерний компонент звукового поля, причому вектор розкладений з множини коефіцієнтів сферичних гармонік, що описують звукове поле. [27] В іншому аспекті, пристрій містить засіб для одержання першого ненульового набору коефіцієнтів вектора, що представляють характерний компонент звукового поля, причому вектор розкладений з множини коефіцієнтів сферичних гармонік, що описують звукове поле, і засіб для збереження першого ненульового набору коефіцієнтів. [28] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам визначати перший ненульовий набір коефіцієнтів вектора, що представляють характерний компонент звукового поля, причому вектор розкладений з множини коефіцієнтів сферичних гармонік, що описують звукове поле. [29] В іншому аспекті, спосіб включає одержання, з бітового потоку, щонайменше одного з одного або більше векторів, розкладених з коефіцієнтів сферичних гармонік, які рекомбінували з коефіцієнтами сферичних гармонік фону, причому коефіцієнти сферичних гармонік описують звукове поле, і при цьому коефіцієнти сферичних гармонік фону описують один або більше фонових компонентів одного і того ж звукового поля. [30] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю визначення, з бітового потоку, щонайменше одного з одного або більше векторів, розкладених з коефіцієнтів сферичних гармонік, які рекомбінували з коефіцієнтами сферичних гармонік фону, причому коефіцієнти сферичних гармонік описують звукове поле, і при цьому коефіцієнти сферичних гармонік фону описують один або більше фонових компонентів одного і того ж звукового поля. [31] В іншому аспекті, пристрій містить засіб для одержання, з бітового потоку, щонайменше одного з одного або більше векторів, розкладених з коефіцієнтів сферичних гармонік, які рекомбінували з коефіцієнтами сферичних гармонік фону, причому коефіцієнти сферичних гармонік описують звукове поле, і при цьому коефіцієнти сферичних гармонік фону описують один або більше фонових компонентів одного і того ж звукового поля. [32] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам одержувати, з бітового потоку, щонайменше один з одного або більше векторів, розкладених з коефіцієнтів сферичних гармонік, які рекомбінували з коефіцієнтами сферичних гармонік фону, причому коефіцієнти сферичних гармонік описують звукове поле, і при цьому коефіцієнти сферичних гармонік фону описують один або більше фонових компонентів одного і того ж звукового поля. [33] В іншому аспекті, спосіб включає ідентифікацію одного або більше характерних аудіооб'єктів з одного або більше коефіцієнтів сферичних гармонік (SHC), пов'язаних з аудіооб'єктами, на основі направленості, визначеної для одного або більше з аудіооб'єктів. [34] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю ідентифікації одного або більше характерних аудіооб'єктів з одного або більше коефіцієнтів сферичних гармонік (SHC), пов'язаних з аудіооб'єктами, на основі направленості, визначеної для одного або більше з аудіооб'єктів. [35] В іншому аспекті, пристрій містить засіб для збереження одного або більше коефіцієнтів сферичних гармонік (SHC) і засіб для ідентифікації одного або більше характерних аудіооб'єктів з одного або більше коефіцієнтів сферичних гармонік (SHC), пов'язаних з аудіооб'єктами, на основі направленості, визначеної для одного або більше з аудіооб'єктів. [36] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам ідентифікувати один або більше характерних аудіооб'єктів з одного або більше коефіцієнтів 3 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 сферичних гармонік (SHC), пов'язаних з аудіооб'єктами, на основі направленості, визначеної для одного або більше з аудіооб'єктів. [37] В іншому аспекті, спосіб включає здійснення синтезу на векторній основі відносно множини коефіцієнтів сферичних гармонік для генерації розкладених представлень з множини коефіцієнтів сферичних гармонік, що представляють один або більше аудіооб'єктів і відповідну інформацію направленості, причому коефіцієнти сферичних гармонік пов'язані з порядком і описують звукове поле, визначення окремої і фонової інформації направленості з інформації направленості, зниження порядку інформації направленості, пов'язаної з фоновими аудіооб'єктами, для генерації перетвореної інформації направленості фону, застосування компенсації для збільшення значень перетвореної інформації направленості для збереження повної енергії звукового поля. [38] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю здійснення синтезу на векторній основі відносно множини коефіцієнтів сферичних гармонік для генерації розкладених представлень з множини коефіцієнтів сферичних гармонік, що представляють один або більше аудіооб'єктів і відповідну інформацію направленості, причому коефіцієнти сферичних гармонік пов'язані з порядком і описують звукове поле, визначення окремої і фонової інформації направленості з інформації направленості, зниження порядку інформації направленості, пов'язаної з фоновими аудіооб'єктами, для генерації перетвореної інформації направленості фону, застосування компенсації для збільшення значень перетвореної інформації направленості для збереження повної енергії звукового поля. [39] В іншому аспекті, пристрій містить засіб для здійснення синтезу на векторній основі відносно множини коефіцієнтів сферичних гармонік для генерації розкладених представлень з множини коефіцієнтів сферичних гармонік, що представляють один або більше аудіооб'єктів і відповідну інформацію направленості, причому коефіцієнти сферичних гармонік пов'язані з порядком і описують звукове поле, засіб для визначення окремої і фонової інформації направленості з інформації направленості, засіб для зниження порядку інформації направленості, пов'язаної з фоновими аудіооб'єктами, для генерації перетвореної інформації направленості фону, і засіб для застосування компенсації для збільшення значень перетвореної інформації направленості для збереження повної енергії звукового поля. [40] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам здійснювати синтез на векторній основі відносно множини коефіцієнтів сферичних гармонік для генерації розкладених представлень з множини коефіцієнтів сферичних гармонік, що представляють один або більше аудіооб'єктів і відповідну інформацію направленості, причому коефіцієнти сферичних гармонік пов'язані з порядком і описують звукове поле, визначати окрему і фонову інформацію направленості з інформації направленості, знижувати порядок інформації направленості, пов'язаноїз фоновими аудіооб'єктами, для генерації перетвореної інформації направленості фону, і застосовувати компенсацію для збільшення значень перетвореної інформації направленості для збереження повної енергії звукового поля. [41] В іншому аспекті, спосіб включає одержання розкладених інтерпольованих коефіцієнтів сферичних гармонік для відрізка часу, щонайменше частково, шляхом здійснення інтерполяції відносно першого розкладання першої множини коефіцієнтів сферичних гармонік і другого розкладання другої множини коефіцієнтів сферичних гармонік. [42] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю одержання розкладених інтерпольованих коефіцієнтів сферичних гармонік для відрізка часу, щонайменше частково, шляхом здійснення інтерполяції відносно першого розкладання першої множини коефіцієнтів сферичних гармонік і другого розкладання другої множини коефіцієнтів сферичних гармонік. [43] В іншому аспекті, пристрій містить засіб для збереження першої множини коефіцієнтів сферичних гармонік і другої множини коефіцієнтів сферичних гармонік і засіб для одержання розкладених інтерпольованих коефіцієнтів сферичних гармонік для відрізка часу, щонайменше частково, шляхом здійснення інтерполяції відносно першого розкладання першої множини коефіцієнтів сферичних гармонік і другого розкладання другої множини коефіцієнтів сферичних гармонік. [44] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам одержувати розкладені інтерпольовані коефіцієнти сферичних гармонік для відрізка часу, щонайменше частково, шляхом здійснення інтерполяції відносно першого розкладання першої множини коефіцієнтів сферичних гармонік і другого розкладання другої множини коефіцієнтів сферичних гармонік. 4 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 [45] В іншому аспекті, спосіб включає одержання бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [46] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю одержання бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [47] В іншому аспекті, пристрій містить засіб для одержання бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік, і засіб для збереження бітового потоку. [48] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам одержувати бітовий потік, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [49] В іншому аспекті, спосіб включає генерацію бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [50] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю генерації бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [51] В іншому аспекті, пристрій містить засіб для генерації бітового потоку, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік, і засіб для збереження бітового потоку. [52] В іншому аспекті, довгостроковий зчитуваний комп'ютером носій даних має інструкції, які, при виконанні, призначають одному або більше процесорам генерувати бітовий потік, що містить стиснену версію просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [53] В іншомуаспекті, спосіб включає ідентифікацію кодової книги Хаффмана для використання при знятті стиснення стисненої версії просторового компонента з множини стиснених просторових компонентів на основі порядку стисненої версії просторового компонента відносно стиснених просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [54] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю ідентифікації кодової книги Хаффмана для використання при знятті стиснення стисненої версії просторового компонента з множини стиснених просторових компонентів на основі порядку стисненої версії просторового компонента відносно стиснених просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [55] В іншому аспекті, пристрій містить засіб для ідентифікації кодової книги Хаффмана для використання при знятті стиснення стисненої версії просторового компонента з множини стиснених просторових компонентів на основі порядку стисненої версії просторового компонента відносно стиснених просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік, і засіб для збереження множини стиснених просторових компонентів. [56] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам ідентифікувати кодову книгу Хаффмана для використання при знятті стиснення просторового компонента з множини просторових компонентів на основі порядку просторового компонента відносно просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [57] В іншому аспекті, спосіб включає ідентифікацію кодової книги Хаффмана для використання при стисненні просторового компонента з множини просторових компонентів на 5 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 основі порядку просторового компонента відносно просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [58] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю ідентифікації кодової книги Хаффмана для використання при стисненні просторового компонента з множини просторових компонентів на основі порядку просторового компонента відносно просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [59] В іншому аспекті, пристрій містить засіб для збереження кодової книги Хаффмана і засіб для ідентифікації кодової книги Хаффмана для використання при стисненні просторового компонента з множини просторових компонентів на основі порядку просторового компонента відносно просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [60] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам ідентифікувати кодову книгу Хаффмана для використання при стисненні просторового компонента з множини просторових компонентів на основі порядку просторового компонента відносно просторових компонентів, що залишилися з множини, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [61] В іншому аспекті, спосіб включає визначення розміру кроку квантування, що підлягає використанню при стисненні просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [62] В іншому аспекті, пристрій містить один або більше процесорів, виконаних з можливістю визначення розміру кроку квантування, що підлягає використанню при стисненні просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [63] В іншому аспекті, пристрій містить засіб для визначення розміру кроку квантування, що підлягає використанню при стисненні просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік, і засіб для збереження розміру кроку квантування. [64] В іншому аспекті, на довгостроковому зчитуваному комп'ютером носії даних зберігаються інструкції, які, при виконанні, призначають одному або більше процесорам визначати розміру кроку квантування, що підлягає використанню при стисненні просторового компонента звукового поля, причому просторовий компонент генерується шляхом здійснення векторного синтезу відносно множини коефіцієнтів сферичних гармонік. [65] Деталі одного або більше аспектів методів викладені в прикладених кресленнях і нижченаведеному описі. Інші ознаки, задачі і переваги цих методів стають зрозумілі з опису і креслень, а також з формули винаходу. Короткий опис креслень [66] Фіг. 1 і 2 - схеми, що демонструють сферичні гармонічні базисні функції різних порядків і підпорядків. [67] Фіг. 3 - схема, що демонструє систему, яка може здійснювати різні аспекти методів, описаних у цьому винаході. [68] Фіг. 4 - блок-схема, що демонструє, більш детально, один приклад пристрою аудіокодування, показаного в прикладі, наведеному на фіг. 3, який може здійснювати різні аспекти методів, описаних у цьому винаході. [69] Фіг. 5 - блок-схема, що більш детально демонструє пристрій аудіодекодування, показаний на фіг. 3. [70] Фіг. 6 - блок-схема операцій, що демонструє роботу блока аналізу контенту пристрою аудіокодування при здійсненні різних аспектів методів, описаних у цьому винаході. [71] Фіг. 7 - блок-схема операцій, що демонструє роботу пристрою аудіокодування при здійсненні різних аспектів методів синтезу на векторній основі, описаних у цьому винаході. [72] Фіг. 8 - блок-схема операцій, що демонструє роботу пристрою аудіодекодування при здійсненні різних аспектів методів, описаних у цьому винаході. [73] Фіг. 9A-9L - блок-схеми, що більш детально демонструють різні аспекти пристрою аудіокодування прикладу, наведеного на фіг. 4. 6 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 [74] Фіг. 10A-10O(ii) - схеми, що демонструють частину бітового потоку або інформації побічного каналу, яка може більш детально вказувати стиснені просторові компоненти. [75] Фіг. 11A-11G - блок-схеми, що демонструють, більш детально, різні блоки пристрою аудіодекодування, показаного в прикладі, наведеному на фіг. 5. [76] Фіг. 12 - схема, що демонструє приклад аудіо-екосистеми, яка може здійснювати різні аспекти методів, описаних у цьому винаході. [77] Фіг. 13 - схема, що більш детально демонструє один приклад аудіо-екосистеми, показаної на фіг. 12. [78] Фіг. 14 - схема, що більш детально демонструє один приклад аудіо-екосистеми, показаної на фіг. 12. [79] Фіг. 15A і 15B - схеми, що більш детально демонструють інші приклади аудіоекосистеми, показаної на фіг. 12. [80] Фіг. 16 - схема, що демонструє приклад пристрою аудіокодування, який може здійснювати різні аспекти методів, описаних у цьому винаході. [81] Фіг. 17 - схема, що більш детально демонструє один приклад пристрою аудіокодування, показаного на фіг. 16. [82] Фіг. 18 - схема, що демонструє приклад пристрою аудіодекодування, який може здійснювати різні аспекти методів, описаних у цьому винаході. [83] Фіг. 19 - схема, що більш детально демонструє один приклад пристрою аудіодекодування, показаного на фіг. 18. [84] Фіг. 20A-20G - схеми, що демонструють приклад пристроїв захоплення аудіосигналу, які можуть здійснювати різні аспекти методів, описаних у цьому винаході. [85] Фіг. 21A-21E - схеми, що демонструють приклад пристроїв відтворення аудіосигналу, які можуть здійснювати різні аспекти методів, описаних у цьому винаході. [86] Фіг. 22A-22H - схеми, що демонструють приклад середовищ відтворення аудіосигналу відповідно до одного або більше методів, описаних в цьому винаході. [87] Фіг. 23 - схема, що демонструє приклад випадку використання, коли користувач може випробувати 3D звукове поле спортивної гри при носінні головних телефонів відповідно до одного або більше методів, описаних в цьому винаході. [88] Фіг. 24 - схема, що демонструє спортивний стадіон, де 3D звукове поле може записуватися відповідно до одного або більше методів, описаних в цьому винаході. [89] Фіг. 25 - блок-схема операцій, що демонструє метод рендеризації 3D звукового поля на основі локального аудіоландшафту відповідно до одного або більше методів, описаних в цьому винаході. [90] Фіг. 26 - схема, що демонструє приклад ігрової студії відповідно до одного або більше методів, описаних в цьому винаході. [91] Фіг. 27 - схема, що демонструє множину ігрових систем, які включають в себе машини рендеризації, відповідно до одного або більше методів, описаних в цьому винаході. [92] Фіг. 28 - схема, що демонструє конфігурацію гучномовців, яку можна імітувати головними телефонами, відповідно до одного або більше методів, описаних в цьому винаході. [93] Фіг. 29 - схема, що демонструє множину мобільних пристроїв, які можна використовувати для захоплення і/або редагування 3D звукового поля відповідно до одного або більше методів, описаних в цьому винаході. [94] Фіг. 30 - схема, що демонструє кадр відео, пов'язаний з 3D звуковим полем, який може оброблятися відповідно до одного або більше методів, описаних в цьому винаході. [95] Фіг. 31A-31M - схеми, що демонструють графіки, де показані різні результати імітації здійснення синтетичної або записаної категоризації звукового поля відповідно до різних аспектів методів, описаних у цьому винаході. [96] Фіг. 32 - схема, що демонструє графік сингулярних значень з матриці S, розкладеної з коефіцієнтів амбіофонії більш високого порядку, відповідно до методів, описаних в цьому винаході. [97] Фіг. 33A і 33B - схеми, що демонструють відповідні графіки, де показаний потенційний вплив переупорядковування при кодуванні векторів, що описують компоненти переднього плану звукового поля відповідно до методів, описаних в цьому винаході. [98] Фіг. 34 і 35 - принципові схеми, що демонструють відмінності між ідентифікацією характерних аудіооб'єктів тільки на основі енергії і на основі направленості, відповідно до цього розкриття. [99] Фіг. 36A-36G - схеми, що демонструють проекції щонайменше частини розкладеної версії коефіцієнтів сферичних гармонік у просторову область для здійснення інтерполяції відповідно до різних аспектів методів, описаних у цьому винаході. 7 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 [100] Фіг. 37 демонструє представлення описаних тут методів одержання просторовочасової інтерполяції. [101] Фіг. 38 - блок-схема, що демонструє штучні матриці US, US 1 і US2 для послідовних блоків SVD для багатовимірного сигналу відповідно до описаних тут методів. [102] Фіг. 39 - блок-схема, що демонструє розкладання наступних кадрів сигналу амбіофонії більш високого порядку (HOA) з використанням розкладання на сингулярні значення і згладжування просторово-часових компонентів відповідно до методів, описаних у цьому винаході. [103] Фіг. 40A-40J показані блок-схеми, що демонструють приклади пристроїв аудіокодування, які можуть здійснювати різні аспекти методів, описаних у цьому винаході, для стиснення коефіцієнтів сферичних гармонік, що описують дво- або тривимірні звукові поля. [104] Фіг. 41A-41D - блок-схеми, що демонструють ілюстративний пристрій аудіодекодування, який може здійснювати різні аспекти методів, описаних у цьому винаході, для декодування коефіцієнтів сферичних гармонік, що описують дво- або тривимірні звукові поля. [105] Фіг. 42A-42C - блок-схеми, що демонструють блок зниження порядку, показаний в прикладах, наведених на фіг. 40B-40J більш детально. [106] Фіг. 43 - схема, що більш детально демонструє блок стиснення V, показаний на фіг. 40I. [107] Фіг. 44 - схема, що демонструє ілюстративні операції, здійснювані пристроєм аудіокодування для компенсації помилки квантування відповідно до різних аспектів методів, описаних у цьому винаході. [108] Фіг. 45A і 45B - схеми, що демонструють інтерполяцію підкадрів з ділянок двох кадрів відповідно до різних аспектів методів, описаних у цьому винаході. [109] Фіг. 46A-46E - схеми, що демонструють поперечний переріз проекції одного або більше векторів розкладеної версії множини коефіцієнтів сферичних гармонік, інтерпольованих відповідно до методів, описаних в цьому винаході. [110] Фіг. 47 - блок-схема, що демонструє, більш детально, блок витягання пристроїв аудіодекодування, показаних у прикладах, наведених на фіг. 41A-41D. [111] Фіг. 48 - блок-схема, що більш детально демонструє блок аудіорендеризації пристрою аудіодекодування, показаного в прикладах, наведених на фіг. 41A-41D. [112] Фіг. 49A-49E(ii) - схеми, що демонструють відповідні системи аудіокодування, які можуть реалізувати різні аспекти методів, описаних у цьому винаході. [113] Фіг. 50A і 50B - блок-схеми, що демонструють один із двох різних підходів для потенційного зниження порядку фонового контенту відповідно до методів, описаних в цьому винаході. [114] Фіг. 51 - блок-схема, що демонструє приклади тракту стиснення характерних компонентів пристрою аудіокодування, який може реалізуватирізні аспекти методів, описаних у цьому винаході, для стиснення коефіцієнтів сферичних гармонік. [115] Фіг. 52 - блок-схема, що демонструє інший приклад пристрою аудіодекодування, який може реалізувати різні аспекти методів, описаних у цьому винаході, для реконструкції або зразкової реконструкції коефіцієнтів сферичних гармонік (SHC). [116] Фіг. 53 - блок-схема, що демонструє інший приклад пристрою аудіокодування, який може здійснювати різні аспекти методів, описаних у цьому винаході. [117] Фіг. 54 - блок-схема, що демонструє, більш детально, ілюстративну реалізацію пристрою аудіокодування, показаного в прикладі, наведеному на фіг. 53. [118] Фіг. 55A і 55B - схеми, що демонструють приклад здійснення різних аспектів методів, описаних у цьому винаході, для повороту звукового поля. [119] Фіг. 56 - схема, що демонструє приклад звукового поля, захопленого відносно першої системи координат, яке потім повертається відповідно до методів, описаних в цьому винаході, для вираження звукового поля відносно другої системи координат. [120] Фіг. 57A-57E - схеми, що демонструють бітові потоки, сформовані відповідно до методів, описаних в цьому винаході. [121] Фіг. 58 - блок-схема операцій, що демонструє приклад роботи пристрою аудіокодування, показаного в прикладі, наведеному на фіг. 53, при реалізації аспектів повороту методів, описаних у цьому винаході. [122] Фіг. 59 - блок-схема операцій, що демонструє приклад роботи пристрою аудіокодування, показаного в прикладі, наведеному на фіг. 53, при здійсненні аспектів перетворення методів, описаних у цьому винаході. Докладний опис 8 UA 116140 C2 5 10 15 20 25 30 35 40 [123] Розвиток об'ємного звуку зробив доступними багато які вихідні формати для розваги в наш час. Приклади таких споживацьких форматів об'ємного звуку, більшою частиною, є основаними на 'каналах', оскільки вони неявно вказують підведення до гучномовців у визначених геометричних координатах. Вони включають в себе популярний формат 5.1 (який включає в себе наступні шість каналів: передній лівий (FL), передній правий (FR), центральний або передній центральний, задній лівий або лівий оточення, задній правий або правий оточення і низькочастотні ефекти (LFE)), перспективний формат 7.1, різні формати, що включають в себе висотні гучномовці, наприклад формат 7.1.4 і формат 22.2 (наприклад, для використання зі стандартом телебачення надвисокої чіткості). Неспоживацькі формати можуть займати будь-яку кількість гучномовців (у симетричних і несиметричних геометріях), що часто іменуються 'решітками оточення'. Один приклад такої решітки включає в себе 32 гучномовці, розташовані в координатах кутів зрізаного ікосаедра. [124] Вхід у майбутній кодер MPEG, у необов'язковому порядку, є одним із трьох можливих форматів: (i) традиційний аудіосигнал на канальній основі (як розглянуто вище), що означає відтворення через гучномовці в попередньо зазначених позиціях; (ii) аудіосигнал на основі об'єктів, що передбачає дискретну імпульсно-кодову модуляцію (ІКМ) даних для одиничних аудіооб'єктів з відповідними метаданими, що містять координати їх положення (крім іншої інформації); і (iii) аудіосигнал на основі сцени, що передбачає представлення звукового поля з використанням коефіцієнтів сферичних гармонічних базисних функцій (також іменованих "коефіцієнтами сферичних гармонік" або SHC, "амбіофонією більш високого порядку" або HOA і "коефіцієнтами HOA"). Цей майбутній кодер MPEG описаний більш детально в документі під назвою "Call for Proposals for 3D Audio", виданому Міжнародною організацією по стандартизації/Міжнародною електротехнічною комісією (ISO)/(IEC) JTC1/SC29/WG11/N13411, січень 2013 р. Женева, Швейцарія, і доступному за адресою http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip. [125] На ринку присутні різні формати на канальній основі 'оточуючого звуку'. Вони простягаються, наприклад, від 5.1 для системи домашнього кінотеатру (який був найбільш успішним відносно поширення в житлових приміщеннях після стерео) до системи 22.2, розробленої NHK (Nippon Hoso Kyokai або Japan Broadcasting Corporation). Творці контенту (наприклад, голлівудські студії), імовірно, будуть створювати звукову доріжку для кінофільму один раз, замість того, щоб витрачати зусилля для її реміксу для кожної конфігурації гучномовців. Нещодавно, організації по розробці стандартів розглянули можливості забезпечення кодування в стандартизований бітовий потік і наступне декодування, що адаптується і не залежить від геометрії (і кількості) гучномовців і акустичних умов у положенні відтворення (з використанням рендеризатора). [126] Для забезпечення такої гнучкості для творців контенту, можна використовувати ієрархічний набір елементів для представлення звукового поля. Ієрархічний набір елементів може означати набір елементів, у якому елементи упорядковані таким чином, що базовий набір елементів більш низького порядку забезпечує повне представлення модельованого звукового поля. Коли набір розширюється для включення елементів більш високого порядку, представлення стає більш деталізованим і розрізнення збільшується. [127] Одним прикладом ієрархічного набору елементів є набір коефіцієнтів сферичних гармонік (SHC). Наступне вираз демонструє опис або представлення звукового поля з використанням SHC: 45 [128] цей вираз показує, що тиск у будь-якій точці часу t, можна однозначно представити за допомогою SHC, 50 звуку (~343 м/с), звукового поля, у момент . Тут, - точка відліку (або точка спостереження), бесселева функція порядку n, і , c - швидкість - сферична - сферичні гармонічні базисні функції порядку n і підпорядку m. Ясно, що член у квадратних дужках є представленням у частотній області сигналу (тобто ), який можна апроксимувати різними частотно-часовими 9 UA 116140 C2 5 10 перетвореннями, наприклад дискретним перетворенням Фур'є (DFT), дискретним косинусним перетворенням (DCT) або вейвлетним перетворенням. Інші приклади ієрархічних наборів включають в себе набори коефіцієнтів вейвлетного перетворення й інші набори коефіцієнтів базисних функцій з різними розрізненнями. [129] На фіг. 1 показана схема, що демонструє сферичні гармонічні базисні функції від нульового порядку (n=0) до четвертого порядку (n=4). Як можна бачити, для кожного порядку, існує розширення підпорядків m, що показані, але явно не зазначені в прикладі, наведеному на фіг. 1, для спрощення ілюстрації. [130] На фіг. 2 показана інша схема, що демонструє сферичні гармонічні базисні функції від нульового порядку (n=0) до четвертого порядку (n=4). На фіг. 2, сферичні гармонічні базисні функції показані в тривимірному координатному просторі, де показані порядок і підпорядок. [131] SHC 15 20 можуть або фізично захоплюватися (наприклад, записуватися) різними конфігураціями мікрофонної решітки, або, альтернативно, можуть виводитися з описів звукового поля на канальній основі або на основі об'єктів. SHC представляють аудіосигнал на основі сцени, де SHC може вводитися на аудіокодер для одержання кодованого SHC, що може сприяти більш ефективній передачі або збереженню. Наприклад, можна використовувати 2 представлення четвертого порядку, що передбачає (1+4) (25, і, таким чином, четвертого порядку) коефіцієнтів. [132] Як згадано вище, SHC можна виводити з мікрофонного запису з використанням мікрофона. Різні приклади, як SHC можна виводити з мікрофонних решіток, описані в Poletti M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., Vol. 53, № 11, 2005 November, pp. 1004-1025. [133] Для ілюстрації, як ці SHC можна виводити з опису на основі об'єктів, розглянемо наступне рівняння. Коефіцієнти 25 для звукового поля, що відповідає окремому аудіооб'єкту, можна виразити у вигляді: , де i позначає 30 , - сферична функція Ханкеля (другого роду) порядку n, і - положення об'єкта. Знання енергії джерела об'єкта як функції частоти (наприклад, з використанням методів частотно-часового аналізу, наприклад, здійснюючи швидке перетворення Фур'є на потоці ІКМ) дозволяє перетворювати кожен об'єкт ІКМ і його положення в SHC . Крім того, можна показати (оскільки вищенаведене є лінійним і ортогональним розкладанням), що коефіцієнти 35 для кожного об'єкта адитивні. Таким чином, велику кількість об'єктів ІКМ можна представити коефіцієнтами (наприклад, як суму векторів коефіцієнтів для окремих об'єктів). Власне кажучи, ці коефіцієнти містять інформацію про звукове поле (тиск як функцію 3D координат), і вищенаведене представляє перетворення з окремих об'єктів у представлення загального звукового поля, поблизу точки спостереження 40 45 50 . Фігури, що залишилися, описані нижче в контексті аудіокодування на основі об'єктів і на основі SHC. [134] На фіг. 3 показана схема, що демонструє систему 10, що може здійснювати різні аспекти методів, описаних у цьому винаході. Як показано в прикладі, наведеному на фіг. 3, система 10 включає в себе творця 12 контенту і споживача 14 контенту. Хоча вони описані в контексті творця 12 контенту і споживача 14 контенту, методи можна реалізувати в будь-якому контексті, у якому SHC (які також можуть іменуватися коефіцієнтами HOA) або будь-яке інше ієрархічне представлення звукового поля кодуються для формування бітового потоку, що представляє аудіодані. Крім того, творець 12 контенту може представляти будь-яку форму обчислювального пристрою, здатногореалізувати методи, описані в цьому винаході, у тому числі телефонну трубку (або стільниковий телефон), планшетний комп'ютер, смартфон або настільний комп'ютер для забезпечення декількох прикладів. Аналогічно, споживач 14 контенту може представляти будь-яку форму обчислювального пристрою, здатного реалізувати методи, описані в цьому винаході, у тому числі телефонну трубку (або стільниковий телефон), 10 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 планшетний комп'ютер, смартфон, телевізійну приставку або настільний комп'ютер для забезпечення декількох прикладів. [135] Творець 12 контенту може представляти кіностудію або інший суб'єкт, що може генерувати багатоканальний аудіоконтент для споживання споживачами контенту, наприклад споживачем 14 контенту. У деяких прикладах, творець 12 контенту може представляти окремого користувача, що бажає стиснути коефіцієнти 11 HOA. Часто, цей творець контенту генерує аудіоконтент спільно з відеоконтентом. Споживач 14 контенту представляє фізичну особу, яка володіє або має доступ до системи відтворення аудіосигналу, що може означати будь-яку форму системи відтворення аудіосигналу, здатної рендеризувати SHC для відтворення як багатоканального аудіоконтенту. У прикладі, наведеному на фіг. 3, споживач 14 контенту включає в себе систему 16 відтворення аудіосигналу. [136] Творець 12 контенту включає в себе систему 18 аудіоредагування. Творець 12 контенту може одержувати живі записи 7 у різних форматах (у тому числі безпосередньо як коефіцієнти HOA) і аудіооб'єкти 9, які творець 12 контенту може редагувати з використанням системи 18 аудіоредагування. Творець 12 контенту може, при виконанні процесу редагування, рендеризувати коефіцієнти 11 HOA з аудіооб'єктів 9, прослуховуючи рендеризовані підведення гучномовця в спробі ідентифікації різних аспектів звукового поля, що вимагають додаткового редагування. Потім творець 12 контенту може редагувати коефіцієнти 11 HOA (потенційно опосередковано за допомогою маніпуляції різними аудіооб'єктами 9, з який можна виводити вихідні коефіцієнти HOA вищеописаним чином). Творець 12 контенту може використовувати систему 18 аудіоредагування для генерації коефіцієнтів 11 HOA. Система 18 аудіоредагування представляє будь-яку систему, здатну редагувати аудіодані і виводити ці аудіодані як один або більше вихідних коефіцієнтів сферичних гармонік. [137] Після завершення процесу редагування, творець 12 контенту може генерувати бітовий потік 21 на основі коефіцієнтів 11 HOA. Таким чином, творець 12 контенту включає в себе пристрій 20 аудіокодування, що представляє пристрій, виконаний з можливістю кодування або іншого стиснення коефіцієнтів 11 HOA відповідно до різних аспектів методів, описаних у цьому винаході, для генерації бітового потоку 21. Пристрій 20 аудіокодування може генерувати бітовий потік 21 для передачі, у порядку одного прикладу, по каналу передачі, який може бути дротовим або бездротовим каналом, пристроєм збереження даних і т. п. Бітовий потік 21 може представляти кодовану версію коефіцієнтів 11 HOA і може включати в себе первинний бітовий потік і інший побічний бітовий потік, які можуть іменуватися інформацією побічного каналу. [138] Хоча більш докладно описаний нижче, пристрій 20 аудіокодування може бути виконаний з можливістю кодування коефіцієнтів 11 HOA на основі синтезу на векторній основі або синтезу на основі напрямку. Для визначення, чи здійснювати методологію синтезу на векторній основі або методологію синтезу на основі напрямку, пристрій 20 аудіокодування може визначати, щонайменше частково, на основі коефіцієнтів 11 HOA, чи згенеровані коефіцієнти 11 HOA за допомогою природного запису звукового поля (наприклад, живого запису 7) або створені штучно (тобто синтетично), у порядку одного прикладу, з аудіооб'єктів 9, наприклад об'єкта ІКМ. Коли коефіцієнти 11 HOA згенеровані з аудіооб'єктів 9, пристрій 20 аудіокодування може кодувати коефіцієнти 11 HOA з використанням методології синтезу на основі напрямку. Коли коефіцієнти 11 HOA захоплені наживо з використанням, наприклад, власного мікрофона, пристрій 20 аудіокодування може кодувати коефіцієнти 11 HOA на основі методології синтезу на векторній основі. Вищеописана відмінність представляє один приклад, де може бути розгорнута методологія синтезу на векторній основі або на основі напрямку. Можуть існувати інші випадки, коли одна або обидві можуть бути корисні для природних записів, штучно генерованого контенту або їх суміші (гібридного контенту). Крім того, можна також використовувати обидві методології одночасно для кодування одиничного часового кадру коефіцієнтів HOA. [139] Передбачаючи з метою ілюстрації, що пристрій 20 аудіокодування визначає, що коефіцієнти 11 HOA захоплені наживо або інакше представляють живі записи, наприклад живий запис 7, пристрій 20 аудіокодування може бути виконаний з можливістю кодування коефіцієнтів 11 HOA з використанням методології синтезу на векторній основі, що передбачає застосування лінійного оборотного перетворення (LIT). Один приклад лінійного оборотного перетворення іменується "розкладанням на сингулярні значення" (або "SVD"). У цьому прикладі, пристрій 20 аудіокодування може застосовувати SVD до коефіцієнтів 11 HOA для визначення розкладеної версії коефіцієнтів 11 HOA. Потім пристрій 20 аудіокодування може аналізувати розкладену версію коефіцієнтів 11 HOA для ідентифікації різних параметрів, що може полегшувати переупорядковування розкладеної версії коефіцієнтів 11 HOA. Потім пристрій 20 аудіокодування може переупорядковувати розкладену версію коефіцієнтів 11 HOA на основі ідентифікованих параметрів, де таке переупорядковування, як описано більш докладно нижче, 11 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 може поліпшувати ефективність кодування, за умови, що перетворення може переупорядковувати коефіцієнти HOA по кадрах коефіцієнтів HOA (де кадр звичайно включає в себе M вибірок коефіцієнтів 11 HOA і M, у деяких прикладах, задане дорівнюючим 1024). Після переупорядковування розкладеної версії коефіцієнтів 11 HOA, пристрій 20 аудіокодування може вибирати ті з розкладеної версії коефіцієнтів 11 HOA, що представляють передньопланові (або, іншими словами, характерні, переважні або помітні) компоненти звукового поля. Пристрій 20 аудіокодування може вказувати розкладену версію коефіцієнтів 11 HOA, що представляє компоненти переднього плану, як аудіооб'єкт і відповідну інформацію направленості. [140] Пристрій 20 аудіокодування також може здійснювати аналіз звукового поля відносно коефіцієнтів 11 HOA по порядку, щонайменше частково, для ідентифікації з коефіцієнтів 11 HOA, що представляють один або більше компонентів фону (або, іншими словами, оточення) звукового поля. Пристрій 20 аудіокодування може здійснювати компенсацію енергії відносно фонових компонентів, за умови, що, у деяких прикладах, фонові компоненти можуть включати в себе тільки піднабір будь-якої даної вибірки коефіцієнтів 11 HOA (наприклад, що відповідають сферичним базисним функціям нульового і першого порядку, а не відповідним сферичним базисним функціям другого або більш високого порядку). При здійсненні зниження порядку, іншими словами, пристрій 20 аудіокодування може доповнювати (наприклад, додавати/віднімати енергію) до/з коефіцієнтів HOA, що залишилися, фону коефіцієнтів 11 HOA для компенсації зміни повної енергії, яка обумовлена здійсненням зниження порядку. [141] Потім пристрій 20 аудіокодування може здійснювати форму психоакустичного кодування (наприклад, MPEG surround, MPEG-AAC, MPEG-USAC або інші відомі форми психоакустичного кодування) відносно кожного з коефіцієнтів 11 HOA, що представляють фонові компоненти, і кожного з аудіооб'єктів переднього плану. Пристрій 20 аудіокодування може здійснювати форму інтерполяції відносно інформації направленості переднього плану і потім здійснювати зниження порядку відносно інтерпольованої інформації направленості переднього плану для генерації інформації направленості переднього плану зниженого порядку. Пристрій 20 аудіокодування може додатково здійснювати, у деяких прикладах, квантування відносно інформації направленості переднього плану зниженого порядку, виводячи кодовану інформацію направленості переднього плану. У ряді випадків, це квантування може містити скалярне/ентропійне квантування. Потім пристрій 20 аудіокодування може формувати бітовий потік 21 для включення кодованих фонових компонентів, кодованих аудіооб'єктів переднього плану і квантованої інформації направленості. Потім пристрій 20 аудіокодування може передавати або інакше виводити бітовий потік 21 споживачу 14 контенту. [142] Хоча на фіг. 3 показана безпосередня передача споживачу 14 контенту, творець 12 контенту може виводити бітовий потік 21 на проміжний пристрій, розташований між творцем 12 контенту і споживачем 14 контенту. Цей проміжний пристрій може зберігати бітовий потік 21 для доставки у подальшому споживачу 14 контенту, який може запитувати цей бітовий потік. Проміжний пристрій може містити файловий сервер, веб-сервер, настільний комп'ютер, портативний комп'ютер, планшетний комп'ютер, мобільний телефон, смартфон або будь-який інший пристрій, здатний зберігати бітовий потік 21 для витягання у подальшому аудіодекодером. Цей проміжний пристрій може розташовуватися в мережі доставки контенту, здатній до потокової передачі бітового потоку 21 (і, можливо, спільно з передачею відповідного бітового потоку відеоданих) абонентам, наприклад споживачу 14 контенту, який запитує бітовий потік 21. [143] Альтернативно, творець 12 контенту може зберігати бітовий потік 21 на носії даних, наприклад компакт-диск, цифровий відеодиск, диск відео високої чіткості або інші носії даних, більшість з яких можуть зчитуватися комп'ютером і, таким чином, можуть іменуватися зчитувані комп'ютером носії даних або довгострокові зчитувані комп'ютером носії даних. У цьому контексті, канал передачі може означати канали, по яких передається контент, що зберігається на цих носіях (і може включати в себе магазини роздрібної торгівлі й інший механізм доставки зі складу). У будь-якому випадку, методи цього винаходу не підлягають обмеженню в цьому відношенні прикладом, наведеним на фіг. 3. [144] Як показано далі в прикладі, наведеному на фіг. 3, споживач 14 контенту включає в себе систему 16 відтворення аудіосигналу. Система 16 відтворення аудіосигналу може представляти будь-яку систему відтворення аудіосигналу, здатну відтворювати багатоканальні аудіодані. Система 16 відтворення аудіосигналу може включати в себе декілька різних рендеризаторів 22. Кожний з рендеризаторів 22 може забезпечувати ту чи іншу форму рендеризації, де різні форми рендеризації можуть включати в себе один або більше з різних способів здійснення амплітудного панорамування на векторній основі (VBAP) і/або один або 12 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 більше з різних способів здійснення синтезу звукового поля. Використовуване тут "A і/або B" означає "A або B" або обидва "A і B". [145] Система 16 відтворення аудіосигналу може додатково включати в себе пристрій 24 аудіодекодування. Пристрій 24 аудіодекодування може представляти пристрій, виконаний з можливістю декодування коефіцієнтів 11' HOA з бітового потоку 21, де коефіцієнти 11' HOA можуть бути аналогічні коефіцієнтам 11 HOA, але відрізнятися внаслідок втратних операцій (наприклад, квантування) і/або передачі по каналу передачі. Таким чином, пристрій 24 аудіодекодування може деквантувати інформацію направленості переднього плану, зазначену в бітовому потоці 21, здійснюючи також психоакустичне декодування відносно аудіооб'єктів переднього плану, зазначених у бітовому потоці 21, і кодованих коефіцієнтів HOA, що представляють фонові компоненти. Пристрій 24 аудіодекодування може додатково здійснювати інтерполяцію відносно декодованої інформації направленості переднього плану і потім визначати коефіцієнти HOA, що представляють компоненти переднього плану, на основі декодованих аудіооб'єктів переднього плану й інтерпольованої інформації направленості переднього плану. Пристрій 24 аудіодекодування може потім визначати коефіцієнти 11' HOA на основі визначених коефіцієнтів HOA, що представляють компоненти переднього плану, і декодованих коефіцієнтів HOA, що представляють фонові компоненти. [146] Система 16 відтворення аудіосигналу може, після декодування бітового потоку 21, одержувати коефіцієнти 11' HOA і рендеризувати коефіцієнти 11' HOA для виведення підведень 25 гучномовця. Підведення 25 гучномовця можуть збуджувати один або більше гучномовців (які не показані в прикладі, наведеному на фіг. 3, для спрощення ілюстрації). [147] Для вибору належного рендеризатора або, у ряді випадків, генерації належного рендеризатора, система 16 відтворення аудіосигналу може одержувати інформацію 13 гучномовців, що вказує кількість гучномовців і/або просторову геометрію гучномовців. У ряді випадків, система 16 відтворення аудіосигналу може одержувати інформацію 13 гучномовців з використанням опорного мікрофона і збуджувати гучномовці таким чином, щоб динамічно визначати інформацію 13 гучномовців. В інших випадках або разом з динамічним визначенням інформації 13 гучномовців, система 16 відтворення аудіосигналу може пропонувати користувачу взаємодіяти з системою 16 відтворення аудіосигналу і вводити інформацію 13 гучномовців. [148] Потім система 16 відтворення аудіосигналу може вибирати один з аудіорендеризаторів 22 на основі інформації 13 гучномовців. У ряді випадків, система 16 відтворення аудіосигналу може, коли жоден з аудіорендеризаторів 22 не знаходиться в межах деякої порогової міри подібності (що визначається геометрією гучномовців) з зазначеними в інформації 13 гучномовців, система 16 відтворення аудіосигналу може генерувати один з аудіорендеризаторів 22 на основі інформації 13 гучномовців. Система 16 відтворення аудіосигналу, у ряді випадків, може генерувати один з аудіорендеризаторів 22 на основі інформації 13 гучномовців, не намагаючись спочатку вибрати один з існуючих аудіорендеризаторів 22. [149] На фіг. 4 показана блок-схема, що демонструє, більш детально, один приклад пристрою 20 аудіокодування, показаного в прикладі, наведеному на фіг. 3, який може здійснювати різні аспекти методів, описаних у цьому винаході. Пристрій 20 аудіокодування включає в себе блок 26 аналізу контенту, блок 27 методології синтезу на векторній основі і блок 28 методології синтезу на основі напрямку. [150] Блок 26 аналізу контенту представляє блок, виконаний з можливістю аналізу контенту коефіцієнтів 11 HOA для ідентифікації, чи представляють коефіцієнти 11 HOA контент, генерований з живого запису або аудіооб'єкта. Блок 26 аналізу контенту може визначати, чи згенеровані коефіцієнти 11 HOA із запису фактичного звукового поля або зі штучного аудіооб'єкта. Блок 26 аналізу контенту може здійснювати це визначення по-різному. Наприклад, 2 блок 26 аналізу контенту може кодувати (N+1) -1 каналів і прогнозувати останній канал, що залишився (який може бути представлений як вектор). Блок 26 аналізу контенту може 2 застосовувати скаляри до щонайменше деяких з (N+1) -1 каналів і підсумовувати результуючі значення для визначення останнього каналу, що залишився. Крім того, у цьому прикладі, блок 26 аналізу контенту може визначати точність прогнозованого каналу. У цьому прикладі, якщо точність прогнозованого каналу відносно висока (наприклад, точність перевищує конкретний поріг), коефіцієнти 11 HOA, імовірно, генеруються із синтетичного аудіооб'єкта. Навпаки, якщо точність прогнозованого каналу відносно низька (наприклад, точність нижче конкретного порога), коефіцієнти 11 HOA з більшою мірою імовірності представляють записане звукове поле. Наприклад, у цьому прикладі, якщо відношення сигнал/шум (SNR) прогнозованого каналу більше 100 децибелів (дБ), коефіцієнти 11 HOA з більшою мірою імовірності представляють звукове поле, генероване із синтетичного аудіооб'єкта. Навпаки, SNR звукового поля, записаного з використанням власного мікрофона, може складати від 5 до 20 дБ. Таким чином, 13 UA 116140 C2 5 10 15 20 25 30 може існувати очевидна відмінність відносно SNR між звуковим полем, представленим коефіцієнтами 11 HOA, генерованими з фактичного прямого запису і з синтетичного аудіооб'єкта. [151] Зокрема, блок 26 аналізу контенту може, при визначенні, чи генеруються коефіцієнти 11 HOA, що представляють звукове поле, із синтетичного аудіооб'єкта, одержувати кадровані коефіцієнти HOA, що можуть мати розмір 25 на 1024 для представлення четвертого порядку (тобто N=4). Після одержання кадрованих коефіцієнтів HOA (які також можуть бути позначені тут як матриця 11 кадрованих SHC, і подальші матриці кадрованих SHC можуть бути позначені як матриці 27B, 27C і т. д. кадрованих SHC). Блок 26 аналізу контенту може виключити перший вектор кадрованих коефіцієнтів 11 HOA для генерації приведених кадрованих коефіцієнтів HOA. У деяких прикладах, цей перший вектор, виключений з кадрованих коефіцієнтів 11 HOA, може відповідати коефіцієнтам 11 HOA, пов'язаним з базисною функцією у вигляді сферичної гармоніки нульового порядку, нульового підпорядку. [152] Потім блок 26 аналізу контенту може прогнозувати перший ненульовий вектор приведених кадрованих коефіцієнтів HOA з векторів, що залишилися, приведених кадрованих коефіцієнтів HOA. Перший ненульовий вектор може означати перший вектор, від першого порядку (і з урахуванням кожного з підпорядків, що залежать від порядку) до четвертого порядку (і з урахуванням кожного з підпорядків, що залежать від порядку), що має значення, відмінні від нуля. У деяких прикладах, перший ненульовий вектор приведених кадрованих коефіцієнтів HOA стосується коефіцієнтів 11 HOA, пов'язаних з базисною функцією у вигляді сферичної гармоніки першого порядку, нульового підпорядку. Хоча вони описані відносно першого ненульового вектора, методи можуть прогнозувати інші вектори приведених кадрованих коефіцієнтів HOA з векторів, що залишилися, приведених кадрованих коефіцієнтів HOA. Наприклад, блок 26 аналізу контенту може прогнозувати ті з приведених кадрованих коефіцієнтів HOA, які пов'язані з базисною функцією у вигляді сферичної гармоніки першого порядку, першого підпорядку або базисною функцією у вигляді сферичної гармоніки першого порядку, мінус першого підпорядку. В інших прикладах, блок 26 аналізу контенту може прогнозувати ті з приведених кадрованих коефіцієнтів HOA, які пов'язані з базисною функцією у вигляді сферичної гармоніки другого порядку, нульового підпорядку. [153] Для прогнозування першого ненульового вектора, блок 26 аналізу контенту може діяти згідно з наступним рівнянням:  ( v ) i i i 35 40 45 50 55 , 2 де i приймає значення від 1 до (N+1) -2, що дорівнює 23 для представлення четвертого порядку, i позначає деяку сталу для i-го вектора, і vi означає i-й вектор. Після прогнозування першого ненульового вектора, блок 26 аналізу контенту може одержувати помилку на основі прогнозованого першого ненульового вектора і фактичного ненульового вектора. У деяких прикладах, блок 26 аналізу контенту віднімає прогнозований перший ненульовий вектор з фактичного першого ненульового вектора для виведення помилки. Блок 26 аналізу контенту може обчислювати помилку як суму абсолютних значень різниць між кожним елементом у прогнозованому першому ненульовому векторі і фактичному першому ненульовому векторі. [154] Одержавши помилку, блок 26 аналізу контенту може обчислювати відношення на основі енергії фактичного першого ненульового вектора і помилки. Блок 26 аналізу контенту може визначати цю енергію шляхом піднесення до квадрата кожного елемента першого ненульового вектора і підсумовування квадратів елементів. Потім блок 26 аналізу контенту може порівнювати це відношення з порогом. Коли відношення не перевищує поріг, блок 26 аналізу контенту може визначити, що кадровані коефіцієнти 11 HOA генеруються з запису, і указати в бітовому потоці, що відповідне кодоване представлення коефіцієнтів 11 HOA згенероване із запису. Коли відношення перевищує поріг, блок 26 аналізу контенту може визначити, що кадровані коефіцієнти 11 HOA генеруються із синтетичного аудіооб'єкта, і вказати в бітовому потоці, що відповідне кодоване представлення кадрованих коефіцієнтів 11 HOA згенероване із синтетичного аудіооб'єкта. [155] Указання, чи згенеровані кадровані коефіцієнти 11 HOA з запису або синтетичного аудіооб'єкта, може містити одиничний біт для кожного кадру. Одиничний біт може вказувати, що різні операції кодування використовувалися для кожного кадру, ефективно переключаючись між різними способами кодування відповідного кадру. У ряді випадків, коли кадровані коефіцієнти 11 HOA згенеровані з запису, блок 26 аналізу контенту передає коефіцієнти 11 HOA на блок 27 синтезу на векторній основі. У ряді випадків, коли кадровані коефіцієнти 11 HOA згенеровані із 14 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 синтетичного аудіооб'єкта, блок 26 аналізу контенту передає коефіцієнти 11 HOA на блок 28 синтезу на основі напрямку. Блок 28 синтезу на основі напрямку може представляти блок, виконаний з можливістю здійснення синтезу на основі напрямку коефіцієнтів 11 HOA для генерації бітового потоку 21 на основі напрямку. [156] Іншими словами, методи базуються на кодуванні коефіцієнтів HOA з використанням зовнішнього класифікатора. Класифікатор може діяти наступним чином: почати з матриці кадрованих SHC (наприклад 4-го порядку, розмір кадру 1024, що також можуть іменуватися кадрованими коефіцієнтами HOA або коефіцієнтами HOA), де матриця одержується розміром 25×1024; виключити 1-й вектор (SH 0-го порядку), виходить матриця розміром 24×1024; спрогнозувати перший ненульовий вектор у матриці (вектор розміром 1×1024) з векторів, що залишилися, у матриці (23 векторів розміром 1×1024). Прогнозування здійснюється наступним чином: прогнозований вектор=сума по і [альфа-і × вектор-I] (де підсумовування по I здійснюється по 23 індексах, і=1…23). Потім перевірити помилку: фактичний вектор - прогнозований вектор=помилка. Якщо відношення енергія вектора/помилка велике (тобто помилка мала), то звукове поле, що лежить в основі (у цьому кадрі), є розрідженим/синтетичним. Інакше, звукове поле, що лежить в основі, є записаним (з використанням, наприклад, мікрофонної решітки) звуковим полем. Залежно від рішення записане/синтетичне, по-різному здійснювати кодування/декодування (яке може означати стиснення смуги). Рішення є 1-бітовим рішенням, що передається в бітовому потоці для кожного кадру. [157] Як показано в прикладі, наведеному на фіг. 4, блок 27 синтезу на векторній основі може включати в себе блок 30 лінійного оборотного перетворення (LIT), блок 32 обчислення параметрів, блок 34 переупорядковування, блок 36 вибору переднього плану, блок 38 компенсації енергії, блок 40 психоакустичного аудіокодера, блок 42 генерації бітового потоку, блок 44 аналізу звукового поля, блок 46 приведення коефіцієнтів, блок 48 вибору фону (BG), блок 50 просторово-часової інтерполяції і блок 52 квантування. [158] Блок 30 лінійного оборотного перетворення (LIT) приймає коефіцієнти 11 HOA у формі каналів HOA, причому кожен канал представляє блок або кадр коефіцієнта, пов'язаного з даним порядком, підпорядком сферичних базисних функцій (який може бути позначений як HOA[k], де k може позначати поточний кадр або блок вибірок). Матриця коефіцієнтів 11 HOA може мати 2 розміри D: M×(N+1) . [159] Таким чином, блок 30 LIT може представляти блок, виконаний з можливістю здійснення форми аналізу, іменованої розкладання на сингулярні значення. Хоча вони описані відносно SVD, методи, описані в цьому винаході, можна здійснювати відносно будь-якого аналогічного перетворення або розкладання, що забезпечує набори лінійно розкорельованих, ущільнених по енергії виходів. Також посилання на "набори" у цьому винаході, у загальному випадку, має означати ненульові набори, якщо прямо не зазначене зворотне, і не має означати класичне математичне визначення множин, що включає в себе так називану "порожню множину". [160] Альтернативне перетворення може включати аналіз головних компонентів, часто іменований "PCA". PCA означає математичну процедуру, яка використовує ортогональне перетворення для перетворення набору спостережень можливо корелюючих змінних у набір лінійно розкорельованих змінних, іменованих головними компонентами. Лінійно розкорельовані змінні представляють змінні, котрі не мають лінійного статистичного співвідношення (або залежності) одна від одної. Ці головні компоненти можна описати як такі, що мають малу міру статистичної кореляції один з одним. У будь-якому випадку, кількість так званих головних компонентів менше або дорівнює кількості вихідних змінних. У деяких прикладах, перетворення визначається таким чином, що перший головний компонент має найбільшу можливу дисперсію (або, іншими словами, враховує максимально можливу мінливість даних), і кожен наступний компонент по черзі має найвищу дисперсію, можливу при обмеженні, що цей наступний компонент ортогональний попереднім компонентам (іншими словами, розкорельований з ними). PCA може здійснювати форму зниження порядку, що відносно коефіцієнтів 11 HOA може приводити до стиснення коефіцієнтів 11 HOA. Залежно від контексту, PCA може іменуватися порізному, наприклад дискретне перетворення Карунена-Лева, перетворення Хотеллінга, правильне ортогональне розкладання (POD) і розкладання по власних значеннях (EVD), і т. д. Властивостями таких операцій, які приводять до мети стиснення аудіоданих, що лежить в основі, є 'ущільнення по енергії' і 'декореляція' багатоканальних аудіоданих. [161] У будь-якому випадку, блок 30 LIT здійснює розкладання на сингулярні значення (яке, знову ж, може іменуватися "SVD") для перетворення коефіцієнтів 11 HOA у два або більше 15 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 наборів перетворених коефіцієнтів HOA. Ці "набори" перетворених коефіцієнтів HOA можуть включати в себе вектори перетворених коефіцієнтів HOA. У прикладі, наведеному на фіг. 4, блок 30 LIT може здійснювати SVD відносно коефіцієнтів 11 HOA для генерації так називаної матриці V, матриці S і матриці U. SVD, у лінійній алгебрі, може представляти факторизацію дійсної або комплексної матриці X y на z (де X може представляти багатоканальні аудіодані, наприклад коефіцієнти 11 HOA) у наступній формі: X=USV*, де U може представляти дійсну або комплексну унітарну матрицю y на y, де y стовпців U звичайно відомі як ліві сингулярні вектори багатоканальних аудіоданих. S може представляти прямокутну діагональну матрицю y на z з ненегативними дійсними числами на діагоналі, де діагональні значення S звичайно відомі як сингулярні значення багатоканальних аудіоданих. V* (яка може позначати транспоновану і комплексно спряжену матрицю V) може представляти дійсну або комплексну унітарну матрицю z на z, де z стовпців V* звичайно відомі як праві сингулярні вектори багатоканальних аудіоданих. [162] Хоча в цьому винаході вони описані як застосовувані до багатоканальних аудіоданих, що містять коефіцієнти 11 HOA, методи можуть застосовуватися до будь-якої форми багатоканальних аудіоданих. Таким чином, пристрій 20 аудіокодування може здійснювати розкладання на сингулярні значення відносно багатоканальних аудіоданих, що представляють щонайменше частину звукового поля, для генерації матриці U, яка представляє ліві сингулярні вектори багатоканальних аудіоданих, матриці S, яка представляє сингулярні значення багатоканальних аудіоданих, і матриці V, яка представляє праві сингулярні вектори багатоканальних аудіоданих, і представлення багатоканальних аудіоданих як функції щонайменше частини однієї або більше з матриці U, матриці S і матриці V. [163] У деяких прикладах, матриця V* у згаданому вище математичному виразі SVD позначається як спряжена транспонована матриця V для відображення того, що SVD може застосовуватися до матриць, які містять комплексні числа. У випадку застосування до матриць, які містять тільки дійсні числа, комплексно-спряжену матрицю V (або, іншими словами, матрицю V*) можна розглядати як транспоновану матрицю V. Нижче передбачається, для спрощення ілюстрації, що коефіцієнти 11 HOA містять дійсні числа, у результаті чого матриця V виводиться через SVD замість матриці V*. Крім того, хоча в цьому винаході вона позначена як матриця V, посилання на матрицю V варто розуміти як транспоновану матрицю V, коли це доцільно. Хоча передбачається, що це матриця V, методи можуть застосовуватися аналогічним чином до коефіцієнтів 11 HOA, що мають комплексні коефіцієнти, де виходом SVD є матриця V*. Відповідно, методи не підлягають обмеженню в цьому відношенні тільки забезпеченням застосування SVD для генерації матриці V, але можуть включати в себе застосування SVD до коефіцієнтів 11 HOA, що мають комплексні компоненти, для генерації матриці V*. [164] У будь-якому випадку, блок 30 LIT може здійснювати поблокову форму SVD відносно кожного блока (який може означати кадр) аудіоданих амбіофонії більш високого порядку (HOA) (де ці аудіодані амбіофонії включають в себе блоки або вибірки коефіцієнтів 11 HOA або будьяку іншу форму багатоканальних аудіоданих). Як згадано вище, змінну M можна використовувати для позначення довжини кадру аудіо у вибірках. Наприклад, коли кадр аудіо включає в себе 1024 вибірки аудіосигналу, M дорівнює 1024. Хоча вони описані відносно цього типового значення для M, методи цього винаходу не підлягають обмеженню цим типовим значенням для M. Таким чином, блок 30 LIT може здійснювати поблокове SVD відносно блока 2 коефіцієнтів 11 HOA, що має M на (N+1) коефіцієнтів HOA, де N, знову ж, позначає порядок аудіоданих HOA. Блок 30 LIT може генерувати, за допомогою здійснення цього SVD, матрицю V, матрицю S і матрицю U, де кожна з матриць може представляти відповідні матриці V, S і U, описані вище. Таким чином, блок 30 лінійного оборотного перетворення може здійснювати SVD відносно коефіцієнтів 11 HOA для виведення векторів 33 US[k] (які можуть представляти 2 комбіновану версію векторів S і векторів U), що мають розміри D: M×(N+1) , і векторів 35 V[k], 2 2 що мають розміри D: (N+1) ×(N+1) . Окремі елементи вектора в матриці US[k] також можуть позначатися 55 , тоді як характерні вектори матриці V[k] також можуть позначатися . [165] Аналіз матриць U, S і V може показати, що ці матриці несуть або представляють просторові і часові характеристики звукового поля, що лежить в основі, представленого вище як X. Кожний з N векторів у U (довжиною M вибірок) може представляти нормалізовані розділені аудіосигнали як функцію часу (протягом періоду часу, представленого M вибірками), які ортогональні один одному і які відділені від будь-яких просторових характеристик (які також можуть іменуватися інформацією направленості). Просторові характеристики, що представляють просторову форму і позицію (r, тета, фі) ширини, можуть бути альтернативно 16 UA 116140 C2 представлені окремими i-ими векторами, 2 , у матриці V (кожен довжиною (N+1) ). Вектори в матриці U і в матриці V нормалізовані таким чином, що їх середньоквадратичні енергії дорівнюють одиниці. Енергія аудіосигналів у U, таким чином, представляється діагональними елементами в S. Множення U і S для формування US[k] (з окремими елементами вектора 5 10 15 20 25 30 35 40 45 50 55 ), таким чином, представляє аудіосигнал істинними енергіями. Здатність розкладання SVD відділяти часові аудіосигнали (у U), їх енергії (у S) і їх просторові характеристики (у V) може підтримувати різні аспекти методів, описаних у цьому винаході. Крім того, ця модель синтезу коефіцієнтів HOA[k], що лежать в основі, X, за допомогою векторного множення US[k] і V[k] породжує термін "методологія векторного синтезу", який використовується протягом цього документа. [166] Хоча він описаний як здійснюваний безпосередньо відносно коефіцієнтів 11 HOA, блок 30 LIT може застосовувати лінійне оборотне перетворення до похідних коефіцієнтів 11 HOA. Наприклад, блок 30 LIT може застосовувати SVD відносно матриці спектральної щільності потужності, виведеної з коефіцієнтів 11 HOA. Матриця спектральної щільності потужності може бути позначена як PSD і одержана шляхом матричного множення транспонованої hoaFrame на hoaFrame, що викладено в нижченаведеному псевдокоді. Позначення hoaFrame означає кадр коефіцієнтів 11 HOA. 2 [167] Блок 30 LIT може, після застосування SVD (svd) до PSD, одержувати матрицю S[k] 2 (S_squared) і матрицю V[k]. Матриця S[k] може позначати квадрат матриці S[k], у зв'язку з чим 2 блок 30 LIT може застосовувати операцію витягання квадратного кореня з матриці S[k] для одержання матриці S[k]. Блок 30 LIT може, у ряді випадків, здійснювати квантування відносно матриці V[k] для одержання квантованої матриці V[k] (яка може бути позначена як матриця V[k]'). Блок 30 LIT може одержувати матрицю U[k], спочатку множачи матрицю S[k] на квантовану матрицю V[k]' для одержання матриці SV[k]'. Потім блок 30 LIT може одержувати псевдообернену (pinv) матрицю SV[k]' і потім множити коефіцієнти 11 HOA на псевдообернену матрицю SV[k]' для одержання матриці U[k]. Вищенаведений опис може бути представлений наступним псевдокодом: PSD=hoaFrame'*hoaFrame; [V, S_squared]=svd(PSD, 'econ'); S=sqrt(S_squared); U=hoaFrame * pinv(S*V'); [168] Шляхом здійснення SVD відносно спектральної щільності потужності (PSD) коефіцієнтів HOA замість самих коефіцієнтів, блок 30 LIT може потенційно знижувати обчислювальну складність здійснення SVD відносно одного або більше з циклів процесора і простору зберігання, досягаючи при цьому такої ж ефективності аудіокодування джерела, як якби SVD застосовувалося безпосередньо до коефіцієнтів HOA. Таким чином, вищеописане SVD типу PSD може потенційно вимагати менше обчислювальної потужності, оскільки SVD здійснюється на матриці F*F (де F - кількість коефіцієнтів HOA). У порівнянні з матрицею M*F, де M - довжина кадру, тобто 1024 або більше вибірок. Тепер складність SVD, завдяки застосуванню до PSD замість коефіцієнтів 11 HOA, може бути близько O(L^3) у порівнянні з O(M*L^2) у випадку застосування до коефіцієнтів 11 HOA (де O(*) позначає символ великого O обчислювальної складності, звичайно використовуваний у комп'ютерній техніці). [169] Блок 32 обчислення параметрів представляє блок, виконаний з можливістю обчислення різних параметрів, наприклад параметр кореляції (R), параметри властивостей направленості (θ, φ, r) і властивість енергії (e). Кожний з цих параметрів для поточного кадру може бути позначений як R[k], θ[k], φ[k], r[k] і e[k]. Блок 32 обчислення параметрів може здійснювати аналіз енергії і/або кореляцію (або так називану крос-кореляцію) відносно векторів 33 US[k] для ідентифікації цих параметрів. Блок 32 обчислення параметрів також може визначати ці параметри для попереднього кадру, де параметри попереднього кадру можуть бути позначені R[k-1], θ[k-1], φ[k-1], r[k-1] і e[k-1], на основі попереднього кадру вектора US[k-1] і векторів V[k-1]. Блок 32 обчислення параметрів може виводити поточні параметри 37 і попередні параметри 39 на блок 34 переупорядковування. [170] Таким чином, блок 32 обчислення параметрів може здійснювати аналіз енергії відносно кожного з L перших векторів 33 US[k], що відповідають першому часу, і кожного з других векторів 33 US[k-1], що відповідають другому часу, обчислювати середньоквадратичну енергію для щонайменше частини (але часто усього) першого кадру аудіо і частини (але часто усього) другого кадру аудіо і, таким чином, генерувати 2L енергії, по одному для кожного з L перших векторів 33 US[k] першого кадру аудіо і по одному для кожного з других векторів 33 US[k-1] другого кадру аудіо. 17 UA 116140 C2 5 10 15 20 [171] В інших прикладах, блок 32 обчислення параметрів може здійснювати крос-кореляцію між деякою частиною (якщо не усього) набору вибірок для кожного з перших векторів 33 US[k] і кожного з других векторів 33 US[k-1]. Крос-кореляція може означати крос-кореляцію в тому розумінні, у якому її розуміють фахівці з обробки сигналів. Іншими словами, крос-кореляція може означати міру подібності між двома формами хвилі (які в цьому випадку визначаються як дискретний набір M вибірок) як функцію запізнювання за часом, застосовуваного до однієї з них. У деяких прикладах, для здійснення крос-кореляції, блок 32 обчислення параметрів порівнює останні L вибірок кожного з перших векторів 27 US[k], по черзі, з першими L вибірками кожного з других векторів 33 US[k-1], що залишилися, для визначення параметра кореляції. Використовувана тут "почергова" операція означає поелементну операцію, виконувану відносно першого набору елементів і другого набору елементів, де операція витягає один елемент із кожного з першого і другого наборів елементів "по черзі" відповідно до упорядкування наборів. [172] Блок 32 обчислення параметрів також може аналізувати вектори 35 V[k] і/або V[k-1] для визначення параметрів властивостей направленості. Ці параметри властивостей направленості можуть забезпечувати указання переміщення і положення аудіооб'єкта, представлених відповідними векторами 33 US[k] і/або US[k-1]. Блок 32 обчислення параметрів може забезпечувати будь-яку комбінацію вищенаведених поточних параметрів 37 (визначених відносно векторів 33 US[k] і/або векторів 35 V[k]) і будь-яку комбінацію попередніх параметрів 39 (визначених відносно векторів 33 US[k-1] і/або векторів 35 V[k-1]) на блок 34 переупорядковування. [173] Розкладання SVD не гарантує, що аудіосигнал/об'єкт представлений p-им вектором у векторах 33 US[k-1], який може бути позначений як вектор US[k-1][p] (або, альтернативно, як ), буде тим же аудіосигналом/об'єктом (що розвився у часі), представленим p-им вектором у векторах 33 US[k], які також можуть бути позначені як вектори 33 US[k][p] (або, 25 30 альтернативно, як ). Параметри, обчислені блоком 32 обчислення параметрів, можуть використовуватися блоком 34 переупорядковування для переупорядковування аудіооб'єктів для представлення їх природного оцінювання або неперервності протягом часу. [174] Таким чином, блок 34 переупорядковування потім може порівнювати кожний з параметрів 37 з перших векторів 33 US[k] по черзі з кожним з параметрів 39 для других векторів 33 US[k-1]. Блок 34 переупорядковування може переупорядковувати (з використанням, у порядку одного прикладу, угорського алгоритму) різні вектори в матриці 33 US[k] і матриці 35 V[k] на основі поточних параметрів 37 і попередніх параметрів 39 для виведення переупорядкованої матриці 33' US[k] (яка може бути математично позначена як 35 40 50 55 і переупорядкованої матриці 35' V[k] (яка може бути математично позначена як V[ k ] ) на блок 36 вибору звуку переднього плану (або переважного звуку - PS) ("блок 36 вибору переднього плану") і блок 38 компенсації енергії. [175] Іншими словами, блок 34 переупорядковування може представляти блок, виконаний з можливістю преупорядковування векторів у матриці 33 US[k] для генерації переупорядкованої матриці 33' US[k]. Блок 34 переупорядковування може переупорядковувати матрицю 33 US[k], оскільки порядок векторів 33 US[k] (де, знову ж, кожен вектор з векторів 33 US[k], який, знову ж, можна альтернативно позначати як 45 US[k ] ) , може представляти один або більше характерних (або, іншими словами, переважних) монофонічних аудіооб'єктів, присутніх у звуковому полі) може відрізнятися від ділянок аудіоданих. Таким чином, за умови, що пристрій 12 аудіокодування, у деяких прикладах, діє на цих ділянках аудіоданих, у загальному випадку, іменованих кадрами аудіо, позиція векторів, що відповідають цим окремим монофонічним аудіооб'єктам, представлених у матриці 33 US[k] як виведені, може відрізнятися від кадру аудіо до кадру аудіо внаслідок застосування SVD до кадрів і зміни помітності кожного аудіооб'єкта від кадру до кадру. [176] Передача векторів у матриці 33 US[k] безпосередньо на блок 40 психоакустичного аудіокодера без переупорядковування векторів у матриці 33 US[k] від кадру аудіо до кадру аудіо може знижувати міру стиснення, досяжну для деяких схем стиснення, наприклад успадкованих схем стиснення, що діють краще, коли монофонічні аудіооб'єкти є неперервними (поканально, що визначається в цьому прикладі позиційним порядком векторів у матриці 33 US[k] один відносно одного) по кадрах аудіо. Крім того, за відсутності переупорядковування, кодування векторів у матриці 33 US[k] може знижувати якість аудіоданих при декодуванні. Наприклад, кодери AAC, що можуть бути представлені в прикладі, наведеному на фіг. 3, блоком 40 18 UA 116140 C2 5 10 15 20 психоакустичного аудіокодера, можуть більш ефективно стискати переупорядковані один або більше векторів у матриці 33' US[k] від кадру до кадру в порівнянні зі стисненням, що досягається при безпосередньому кодуванні векторів у матриці 33 US[k] від кадру до кадру. Хоча вище приведений опис відносно кодерів AAC, методи можна здійснювати відносно будьякого кодера, який забезпечує краще стиснення, коли монофонічні аудіооб'єкти задаються по кадрах у конкретному порядку або позиції (поканально). [177] Різні аспекти методів, таким чином, можуть передбачати, що пристрій 12 аудіокодування преупорядковує один або більше векторів (наприклад, вектори в матриці 33 US[k] для генерації переупорядкованих одного або більше векторів у переупорядкованій матриці 33' US[k] і, таким чином, полегшує стиснення векторів у матриці 33 US[k] успадкованим аудіокодером, наприклад блоком 40 психоакустичного аудіокодера. [178] Наприклад, блок 34 переупорядковування може переупорядковувати один або більше векторів у матриці 33 US[k] з першого кадру аудіо, що іде за часом за другим кадром, якому відповідають один або більше других векторів у матриці 33 US[k-1] на основі поточних параметрів 37 і попередніх параметрів 39. Хоча описано, що перший кадр аудіо іде за часом за другим кадром аудіо, перший кадр аудіо може передувати за часом другому кадру аудіо. Відповідно, методи не підлягають обмеженню прикладом, описаним в цьому винаході. [179] Для ілюстрації розглянемо нижченаведену таблицю 1, де кожний з p векторів у матриці 33 US[k] позначається як US[k][p], де k позначає, чи одержаний відповідний вектор з k-го кадру або попереднього (k-1)-го кадру, і p позначає рядок вектора відносно векторів того ж кадру аудіо 2 (де матриця US[k] має (N+1) таких векторів). Як згадано вище, передбачаючи N заданим рівним одиниці, p може позначати вектори з першого (1) по четвертий (4). Таблиця 1 Енергія, що розглядається US[k-1][1] US[k-1][2] US[k-1][3] US[k-1][4] 25 30 У порівнянні з US[k][1], US[k][2], US[k][3], US[k][4] US[k][1], US[k][2], US[k][3], US[k][4] US[k][1], US[k][2], US[k][3], US[k][4] US[k][1], US[k][2], US[k][3], US[k][4] [180] У вищенаведеній таблиці 1, блок 34 переупорядковування порівнює енергію, обчислену для US[k-1][1], з енергією, обчисленою для кожного з US[k][1], US[k][2], US[k][3], US[k][4], енергію, обчислену для US[k-1][2], з енергією, обчисленою для кожного з US[k][1], US[k][2], US[k][3], US[k][4], і т. д. Блок 34 переупорядковування потім може відкидати один або більше із других векторів 33 US[k-1] другого попереднього кадру аудіо (за часом). Для ілюстрації, розглянемо нижченаведену таблицю 2, що демонструє другі вектори, що залишилися, 33 US[k-1]. Таблиця 2 Вектор, що розглядається US[k-1][1] US[k-1][2] US[k-1][3] US[k-1][4] 35 40 45 Інші, що розглядаються US[k][1], US[k][2] US[k][1], US[k][2] US[k][3], US[k][4] US[k][3], US[k][4] [181] У вищенаведеній таблиці 2, блок 34 переупорядковування може визначати, на основі порівняння енергії, що енергія, обчислена для US[k-1][1], аналогічна енергії, обчисленій для кожного з US[k][1] і US[k][2], енергія, обчислена для US[k-1][2], аналогічна енергії, обчисленій для кожного з US[k][1] і US[k][2], енергія, обчислена для US[k-1][3], аналогічна енергії, обчисленій для кожного з US[k][3] і US[k][4], і енергія, обчислена для US[k-1][4], аналогічна енергії, обчисленій для кожного з US[k][3] і US[k][4]. У деяких прикладах, блок 34 переупорядковування може здійснювати додатково аналіз енергії для ідентифікації подібності між кожним з перших векторів матриці 33 US[k] і кожним із других векторів матриці 33 US[k-1]. [182] В інших прикладах, блок 32 переупорядковування може переупорядковувати вектори на основі поточних параметрів 37 і попередніх параметрів 39, що стосуються крос-кореляції. У цих прикладах, повертаючись до вищенаведеної таблиці 2, блок 34 переупорядковування може визначати наступну ілюстративну кореляцію, виражену в таблиці 3, на основі цих параметрів крос-кореляції. 19 UA 116140 C2 Таблиця 3 Вектор, що розглядається US[k-1][1] US[k-1][2] US[k-1][3] US[k-1][4] 5 10 15 20 25 30 35 Корелює з US[k][2] US[k][1] US[k][3] US[k][4] [183] З вищенаведеної таблиці 3, блок 34 переупорядковування визначає, у порядку одного прикладу, що вектор US[k-1][1] корелює з інакше розташованим вектором US[k][2], вектор US[k1][2] корелює з інакше розташованим вектором US[k][1], вектор US[k-1][3] корелює з аналогічно розташованим вектором US[k][3] і вектор US[k-1][4] корелює з аналогічно розташованим вектором US[k][4]. Іншими словами, блок 34 переупорядковування визначає те, що може іменуватися інформацією переупорядковування, яка описує, як преупорядковувати перші вектори матриці 33 US[k] таким чином, що вектор US[k][2] змінює положення в першому рядку перших векторів матриці 33 US[k] і вектор US[k][1] змінює положення в другому рядку перших векторів 33 US[k]. Потім блок 34 переупорядковування може переупорядковувати перші вектори матриці 33 US[k] на основі цієї інформації переупорядковування для генерації переупорядкованої матриці 33' US[k]. [184] Додатково, блок 34 переупорядковування може, хоча це не показано в прикладі, наведеному на фіг. 4, забезпечувати цю інформацію переупорядковування на пристрій 42 генерації бітового потоку, який може генерувати бітовий потік 21 для включення цієї інформації переупорядковування, завдяки чому пристрій аудіодекодування, наприклад пристрій 24 аудіодекодування, показаний в прикладі, наведеному на фіг. 3 і 5, може визначати, як преупорядковувати переупорядковані вектори матриці 33' US[k] для відновлення векторів матриці 33 US[k]. [185] Хоча він описаний вище як здійснюючий двоетапний процес, що передбачає аналіз на основі спочатку залежних від енергії параметрів і потім параметрів крос-кореляції, блок 32 переупорядковування може здійснювати цей аналіз тільки відносно параметрів енергії для визначення інформації переупорядковування, здійснювати цей аналіз тільки відносно параметрів крос-кореляції для визначення інформації переупорядковування або здійснювати аналіз відносно як параметрів енергії, так і параметрів крос-кореляції вищеописаним чином. Додатково, методи можуть використовувати інші типи процесів для визначення кореляції, які не передбачають здійснення одного або обох з порівняння енергії і/або крос-кореляції. Відповідно, методи не підлягають обмеженню в цьому відношенні вищевикладеними прикладами. Крім того, інші параметри, одержані від блока 32 обчислення параметрів (наприклад, параметри просторового положення, виведені з векторів V або кореляції векторів у V[k] і V[k-1]), також можна використовувати (або одночасно/спільно, або послідовно) з параметрами енергії і кроскореляції, одержаними з US[k] і US[k-1], для визначення правильного упорядкування векторів у US. [186] У порядку одного прикладу використання кореляції векторів у матриці V, блок 34 обчислення параметрів може визначити, що вектори матриці 35 V[k] корелюють, як зазначено в нижченаведеній таблиці 4.. Таблиця 4 Вектор, що розглядається V[k-1][1] V[k-1][2] V[k-1][3] V[k-1][4] 40 45 Корелює з V[k][2] V[k][1] V[k][3] V[k][4] З вищенаведеної таблиці 4, блок 34 переупорядковування визначає, у порядку одного прикладу, що вектор V[k-1][1] корелює з інакше розташованим вектором V[k][2], вектор V[k-1][2] корелює з інакше розташованим вектором V[k][1], вектор V[k-1][3] корелює з аналогічно розташованим вектором V[k][3] і вектор V[k-1][4] корелює з аналогічно розташованим вектором V[k][4]. Блок 34 переупорядковування може виводити переупорядковану версію векторів матриці 35 V[k] як переупорядковану матрицю 35' V[k]. 20 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 [187] У деяких прикладах, те ж переупорядковування, яке застосовується до векторів у матриці US, також застосовується до векторів у матриці V. Іншими словами, будь-який аналіз, використовуваний при переупорядкуванні векторів V, можна використовувати спільно з будьяким аналізом, використовуваним для преупорядковування векторів US. Для ілюстрації прикладу, у якому інформація переупорядковування визначається не тільки відносно параметрів енергії і/або параметрів крос-кореляції відносно векторів 35 US[k], блок 34 переупорядковування також може здійснювати цей аналіз відносно векторів 35 V[k] на основі параметрів крос-кореляції і параметрів енергії аналогічно описаному вище відносно векторів 35 V[k]. Крім того, хоча вектори 33 US[k] не мають ніяких властивостей направленості, вектори 35 V[k] можуть забезпечувати інформацію, що стосується направленості відповідних векторів 33 US[k]. У цьому розумінні, блок 34 переупорядковування може ідентифікувати кореляції між векторами 35 V[k] і векторами 35 V[k-1] на основі аналізу відповідних параметрів властивостей направленості. Таким чином, у деяких прикладах, аудіооб'єкт рухається в звуковому полі неперервно, коли переміщається або знаходиться у стані спокою у відносно стійкому положенні. Таким чином, блок 34 переупорядковування може ідентифікувати ті вектори матриці 35 V[k] і матриці 35 V[k-1], які демонструють деякий відомий фізично реалістичний рух або стоять нерухомо в звуковому полі, як корелюючі, переупорядковуючи вектори 33 US[k] і вектори 35 V[k] на основі кореляції цих властивостей направленості. У будь-якому випадку, блок 34 переупорядковування може виводити переупорядковані вектори 33' US[k] і переупорядковані вектори 35' V[k] на блок 36 вибору переднього плану. [188] Додатково, методи можуть використовувати інші типи процесів для визначення правильного порядку, які не передбачають здійснення одного або обох з порівняння енергії і/або крос-кореляції. Відповідно, методи не підлягають обмеженню в цьому відношенні вищевикладеними прикладами. [189] Хоча воно описане вище як переупорядковування векторів матриці V для відображення переупорядковування векторів матриці US, у ряді випадків, вектори V можна переупорядковувати інакше, ніж вектори US, де окремі елементи синтаксису можуть генеруватися для указання переупорядковування векторів US і переупорядковування векторів V. У ряді випадків, вектори V можуть не переупорядковуватися, і тільки вектори US можуть переупорядковуватися за умови, що вектори V можуть не піддаватися психоакустичному кодуванню. [190] Варіант здійснення, де переупорядковування векторів матриці V і векторів матриці US відрізняються, відповідають наміру обмінюватися аудіооб'єктами в просторі, тобто переміщення їх з вихідної записаної позиції (коли звукове поле, що лежить в основі, є природним записом) або майстерно призначеної позиції (коли звукове поле, що лежить в основі, є штучною сумішшю об'єктів). У порядку прикладу, припустимо, що існує два аудіоджерела A і B, A може бути звуком котячого нявкання, що виходить з "лівої" частини звукового поля, і B може бути звуком собачого гавкоту, що виходить з "правої" частини звукового поля. Коли переупорядковування V і US відрізняються, позиції двох джерел звуку міняються місцями. Після обміну A (нявкання) виходить із правої частини звукового поля і B (гавкіт) виходить з лівоїчастини звукового поля. [191] Блок 44 аналізу звукового поля може представляти блок, виконаний з можливістю здійснення аналізу звукового поля відносно коефіцієнтів 11 HOA, щоб потенційно досягти цільової бітової швидкості 41. Блок 44 аналізу звукового поля може, на основі цього аналізу і/або прийнятої цільової бітової швидкості 41, визначати сумарну кількість екземплярів психоакустичного кодера (яка може бути функцією сумарної кількості каналів оточення або фону (BGTOT) і кількості каналів переднього плану або, іншими словами, переважних каналів). Сумарну кількість екземплярів психоакустичного кодера можна позначити як numHOATransportChannels. Блок 44 аналізу звукового поля також може визначати, знову ж для потенційного досягнення цільової бітової швидкості 41, сумарну кількість каналів переднього плану (nFG) 45, мінімальний порядок звукового поля фону (або, іншими словами, оточення) (NBG або, альтернативно, MinAmbHoaOrder), відповідну кількість фактичних каналів, що 2 представляють мінімальний порядок фонового звукового поля (nBGa=(MinAmbHoaOrder+1) ), і індекси (i) додаткових каналів HOA BG для відправлення (які можуть спільно позначатися як інформація 43 фонового каналу в прикладі, наведеному на фіг. 4). Інформація 42 фонового каналу також може іменуватися інформацією 43 каналу оточення. Кожний з каналів, що залишилися з numHOATransportChannels-nBGa, може бути або "додатковим каналом фону/оточення", "активним переважним каналом на векторній основі", "активним переважним сигналом на основі направленості", або "повністю неактивним". В одному варіанті здійснення, ці типи каналів можуть указуватися (як "ChannelType") елемент синтаксису двома бітами (наприклад 00: додатковий фоновий канал; 01: переважний сигнал на векторній основі; 10: 21 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 неактивний сигнал; 11: сигнал на основі направленості). Сумарну кількість сигналів фону або 2 оточення, nBGa, можна задавати у вигляді (MinAmbHoaOrder+1) +число разів, коли індекс 00 (у вищенаведеному прикладі) виглядає як тип каналу в бітовому потоці для цього кадру. [192] У будь-якому випадку, блок 44 аналізу звукового поля може вибирати кількість каналів фону (або, іншими словами, оточення) і кількість каналів переднього плану (або, іншими словами, переважних) на основі цільової бітової швидкості 41, вибирати більше каналів фону і/або переднього плану, при відносно більш високій цільовій бітовій швидкості 41 (наприклад, коли цільова бітова швидкість 41 більше або дорівнює 512 кбіт/с). В одному варіанті здійснення, numHOATransportChannels можна задати рівним 8, тоді як MinAmbHoaOrder можна задати рівним 1 у секції заголовка бітового потоку (яка описана більш детально з посиланням на фіг. 10-10O(ii)). У цьому сценарії, у кожному кадрі, чотири канали можуть бути призначені для представлення фонової або оточуючої частини звукового поля, тоді як інші 4 канали можуть, на основі кадрів, залежати від типу каналу, наприклад, використовуваного або як додатковий канал фону/оточення, або як передньоплановий/переважний канал. Сигнали переднього плану/переважні сигнали можуть бути або сигналами на векторній основі, або сигналами на основі направленості, як описано вище. [193] У ряді випадків, сумарну кількість переважних сигналів на векторній основі для кадру можна задавати у вигляді числа разів, коли індекс ChannelType дорівнює 01, у бітовому потоці цього кадру, у вищенаведеному прикладі. У вищенаведеному варіанті здійснення, для кожного додаткового каналу фону/оточення (наприклад, відповідного ChannelType, що дорівнює 00), відповідна інформація кожного з можливих коефіцієнтів HOA (крім перших чотирьох) може бути представлена в цьому каналі. Ця інформація, для контенту HOA четвертого порядку, може бути індексом для указання між 5-25 (перші чотири 1-4 можуть відправлятися увесь час, коли minAmbHoaOrder заданий рівним 1, тому необхідно тільки вказати між 5-25). Ця інформація, таким чином, може відправлятися з використанням 5-бітового елемента синтаксису (для контенту 4-го порядку), який може бути позначений як "CodedAmbCoeffIdx". [194] У другому варіанті здійснення, усі сигнали переднього плану/переважні сигнали є сигналами на векторній основі. У цьому другому варіанті здійснення, сумарну кількість сигналів переднього плану/переважних сигналів можна задавати у вигляді 2 nFG=numHOATransportChannels-[(MinAmbHoaOrder+1) +число разів, коли індекс дорівнює 00]. [195] Блок 44 аналізу звукового поля виводить інформацію 43 фонового каналу і коефіцієнти 11 HOA на блок 46 вибору фону (BG), інформацію 43 фонового каналу на блок 46 приведення коефіцієнтів і блок 42 генерації бітового потоку, і 45 nFG на блок 36 вибору переднього плану. [196] У деяких прикладах, блок 44 аналізу звукового поля може вибирати, на основі аналізу векторів матриці 33 US[k] і цільової бітової швидкості 41, змінну nFG, кількість цих компонентів, що мають найбільше значення. Іншими словами, блок 44 аналізу звукового поля може визначати значення змінної A (яке може бути аналогічне або по суті аналогічне N BG), яка розділяє два підпростори, шляхом аналізу нахилу кривої, створеної зменшуваними діагональними значеннями векторів матриці S[k] 33, де великі сингулярні значення представляють звуки переднього плану або характерні звуки і низькі сингулярні значення представляють фонові компоненти звукового поля. Таким чином, змінна A може сегментувати загальне звукове поле на підпростір переднього плану і підпростір фону. [197] У деяких прикладах, блок 44 аналізу звукового поля може використовувати першу і другу похідні кривої сингулярних значень. Блок 44 аналізу звукового поля може також обмежувати значення для змінної A величиною між одиницею і п'ятьма. У порядку іншого прикладу, блок 44 аналізу звукового поля може обмежувати значення змінної A величиною між 2 одиницею і (N+1) . Альтернативно, блок 44 аналізу звукового поля може попередньо задавати значення для змінної A, наприклад значення чотири. У будь-якому випадку, на основі значення A, блок 44 аналізу звукового поля визначає сумарну кількість каналів 45 переднього плану (nFG), порядок фонового звукового поля (NBG) і кількість (nBGa) і індекси (i) додаткових каналів HOA BG для відправлення. [198] Крім того, блок 44 аналізу звукового поля може визначати енергію векторів у матриці 35 V[k] для кожного вектора. Блок 44 аналізу звукового поля може визначати енергію для кожного з векторів у матриці 35 V[k] і ідентифікувати ті, що мають високу енергію, як компоненти переднього плану. [199] Крім того, блок 44 аналізу звукового поля може здійснювати різні інші аналізи відносно коефіцієнтів 11 HOA, що включають у себе просторовий аналіз енергії, аналіз просторового маскування, аналіз дифузії або інші форми звукових аналізів. Блок 44 аналізу звукового поля може здійснювати просторовий аналіз енергії шляхом перетворення коефіцієнтів 11 HOA у просторову область і ідентифікації областей високої енергії, що представляють направлені 22 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 компоненти звукового поля, які потрібно зберегти. Блок 44 аналізу звукового поля може здійснювати перцептивний аналіз просторового маскування аналогічно просторовому аналізу енергії, за винятком того, що блок 44 аналізу звукового поля може ідентифікувати просторові області, які маскуються просторово близькими звуками більш високої енергії. Потім блок 44 аналізу звукового поля може, на основі перцепційно маскованих областей, ідентифікувати менше компонентів переднього плану в ряді випадків. Блок 44 аналізу звукового поля може додатково здійснювати аналіз дифузії відносно коефіцієнтів 11 HOA для ідентифікації областей дифузної енергії, які можуть представляти фонові компоненти звукового поля. [200] Блок 44 аналізу звукового поля може також представляти блок, виконаний з можливістю визначення помітності, характерності або переваги аудіоданих, що представляють звукове поле, з використанням інформації на основі направленості, пов'язаної з аудіоданими. Хоча визначення на основі енергії можуть поліпшувати рендеризацію звукового поля, розкладеного за допомогою SVD для ідентифікації характерних аудіокомпонентів звукового поля, визначення на основі енергії також можуть приводити до того, що пристрій помилково ідентифікує фонові аудіокомпоненти як характерні аудіокомпоненти, у випадках, коли фонові аудіокомпоненти демонструють високий рівень енергії. Таким чином, розділення характерних і фонових аудіокомпонентів тільки на основі енергії може бути ненадійним, оскільки енергетичні (наприклад, більш голосні) фонові аудіокомпоненти можуть неправильно ідентифікуватися як характерні аудіокомпоненти. Щоб більш надійно розрізняти між характерними і фоновими аудіокомпонентами звукового поля, різні аспекти методів, описаних у цьому винаході, можуть передбачати, що блок 44 аналізу звукового поля здійснює аналіз на основі направленості коефіцієнтів 11 HOA для відділення аудіокомпонентів переднього плану й оточення від розкладених версій коефіцієнтів 11 HOA. [201] У цьому відношенні, блок 44 аналізу звукового поля може представляти блок, сконфігурований або інакше виконаний з можливістю ідентифікації характерних (або передньопланових) елементів з фонових елементів, включених в один або більше з векторів у матриці 33 US[k] і векторів у матриці 35 V[k]. Відповідно до деяких методів на основі SVD, найбільш енергетичні компоненти (наприклад, перші декілька векторів однієї або більше з матриці 33 US[k] і матриці 35 V[k] або виведених з них векторів) можна розглядати як характерні компоненти. Однак, найбільш енергетичні компоненти (які представлені векторами) з одного або більше з векторів у матриці 33 US[k] і векторів у матриці 35 V[k] можуть не у всіх сценаріях представляти найбільш направлені компоненти/сигнали. [202] Блок 44 аналізу звукового поля може реалізувати один або більше аспектів методів, описаних тут, для ідентифікації передній план/прямий/переважний елементи на основі направленості векторів з одного або більше з векторів у матриці 33 US[k] і векторів у матриці 35 V[k] або виведених з них векторів. У деяких прикладах, блок 44 аналізу звукового поля може ідентифікувати або вибрати як характерні аудіокомпоненти (де компоненти також можуть іменуватися "об'єктами") один або більше векторів на основі енергії і направленості векторів. Наприклад, блок 44 аналізу звукового поля може ідентифікувати ті вектори з одного або більше з векторів у матриці 33 US[k] і векторів у матриці 35 V[k] (або виведених з них векторів), які демонструють високу енергію і високу направленість (наприклад, представлену як показник направленості) як характерні аудіокомпоненти. У результаті, якщо блок 44 аналізу звукового поля визначає, що конкретний вектор є відносно менш направленим у порівнянні з іншими векторами з одного або більше з векторів у матриці 33 US[k] і векторів у матриці 35 V[k] (або виведених з них векторів), то, незалежно від рівня енергії, пов'язаного з конкретним вектором, блок 44 аналізу звукового поля може визначити, що конкретний вектор представляє аудіокомпоненти фону (або оточення) звукового поля, представленого коефіцієнтами 11 HOA. [203] У деяких прикладах, блок 44 аналізу звукового поля може ідентифікувати характерні аудіооб'єкти (які, як згадано вище, також можуть іменуватися "компоненти") на основі направленості, шляхом здійснення наступних операцій. Блок 44 аналізу звукового поля може множити (наприклад, з використанням одного або більше процесів матричного множення) вектори в матриці S[k] (які можна виводити з векторів 33 US[k] або, хоча це не показано в прикладі, наведеному на фіг. 4, окремо виводити блоком 30 LIT) на вектори в матриці 35 V[k]. Шляхом множення матриці 35 V[k] і векторів S[k], блок 44 аналізу звукового поля може одержувати матрицю VS[k]. Додатково, блок 44 аналізу звукового поля може підносити до квадрата (тобто, підносити до степеня два) щонайменше деякі з елементів кожного з векторів у матриці VS[k]. У ряді випадків, блок 44 аналізу звукового поля може підсумовувати квадрати елементів кожного вектора, що пов'язані з порядком, який більше 1. [204] У порядку одного прикладу, якщо кожен вектор матриці VS[k] включає в себе 25 елементів, блок 44 аналізу звукового поля може, відносно кожного вектора, підносити до 23 UA 116140 C2 5 10 15 20 25 30 35 40 45 50 55 60 квадрата елементи кожного вектора, починаючи з п'ятого елемента і закінчуючи двадцять п'ятим елементом, підсумовуючи квадрати елементів для визначення показника направленості (або індикатора направленості). Кожна операція підсумовування може давати показник направленості для відповідного вектора. У цьому прикладі, блок 44 аналізу звукового поля може визначити, що ті елементи кожного рядка, які пов'язані з порядком, що менше або дорівнює 1, а саме елементи з першого по четвертий, більшою мірою належать до величини енергії й меншою мірою до направленості цих елементів. Таким чином, амбіофонія більш низького порядку, пов'язана з порядком нуль або один, відповідають сферичним базисним функціям, які, як показано на фіг. 1 і фіг. 2, не забезпечують багато відносно напрямку хвилі тиску, але, проте, забезпечують деяку голосність (яка представляє енергію). [205] Операції, описані у вищенаведеному прикладі, також можуть бути виражені відповідно до наступного псевдокоду. Нижченаведений псевдокод включає в себе анотації, у формі операторів коментарів, які поміщені між послідовними екземплярами рядків символів "/*" і "*/" (без лапок). [U, S,V]=svd(audioframe, 'ecom'); VS=V*S; /* Наступний рядок стосується незалежного аналізу кожного рядка і підсумовування значень у першому (у порядку одного прикладу) рядку від п'ятого елемента до двадцять п'ятого елемента для визначення показника направленості або метрики направленості для відповідного вектора. Піднести до квадрата елементи до підсумовування. Елементи в кожному рядку, що пов'язані з порядком, який більше 1, пов'язані з амбіофонією більш високого порядку, і, таким чином, з більшою імовірністю є направленими. */ sumVS=sum(VS(5:end, :).^2,1); /* Наступний рядок стосується сортування суми квадратів для генерованої матриці VS і вибору набору найбільших значень (наприклад, трьох або чотирьох найбільших значень) */ [~,idxVS]=sort(sumVS, 'descend'); U=U(:,idxVS); V=V(:,idxVS); S=S(idxVS, idxVS); [206] Іншими словами, відповідно до вищенаведеного псевдокоду, блок 44 аналізу звукового поля може вибирати елементи кожного вектора матриці VS[k], розкладеної з коефіцієнтів 11 HOA, відповідних сферичній базисній функції, що має порядок, який більше одиниці. Потім блок 44 аналізу звукового поля може підносити до квадрата ці елементи для кожного вектора матриці VS[k], підсумовувати квадрати елементів для ідентифікації, обчислювати або інакше визначати метрику або показник направленості для кожного вектора матриці VS[k]. Потім, блок 44 аналізу звукового поля може сортувати вектори матриці VS[k] на основі відповідних метрик направленості кожного з векторів. Блок 44 аналізу звукового поля може сортувати ці вектори в порядку убування метрик направленості таким чином, що вектори з найвищою відповідною направленістю є першими і вектори з найнижчою відповідною направленістю є останніми. Потім блок 44 аналізу звукового поля може вибрати ненульовий піднабір векторів, що мають найвищу відносну метрику направленості. [207] Блок 44 аналізу звукового поля може здійснювати будь-яку комбінацію вищенаведених аналізів для визначення сумарної кількості екземплярів психоакустичного кодера (яка може бути функцією сумарної кількості каналів оточення або фону (BG TOT) і кількості каналів переднього плану. Блок 44 аналізу звукового поля може, на основі будь-якої комбінації вищенаведених аналізів, визначати сумарну кількість каналів 45 переднього плану (nFG), порядок фонового звукового поля (NBG) і кількість (nBGa) і індекси (i) додаткових каналів HOA BG для відправлення (які можуть спільно позначатися як інформація 43 фонового каналу в прикладі, наведеному на фіг. 4). [208] У деяких прикладах, блок 44 аналізу звукового поля може здійснювати цей аналіз кожні M вибірок, що може відновлюватися на основі кадрів. У цьому відношенні, значення A може змінюватися від кадру до кадру. Приклад бітового потоку, де рішення виробляється кожні M вибірок, показаний на фіг. 10-10O(ii). В інших прикладах, блок 44 аналізу звукового поля може здійснювати цей аналіз більше одного разу за кадр, аналізуючи дві або більше ділянок кадру. Відповідно, методи не підлягають обмеженню в цьому відношенні прикладами, наведеними в цьому винаході. [209] Блок 48 вибору фону може представляти блок, виконаний з можливістю визначення коефіцієнтів 47 HOA фону або оточення на основі інформації фонового каналу (наприклад, фонового звукового поля (NBG) і кількості (nBGa) і індексів (i) додаткових каналів HOA BG для відправлення). Наприклад, коли NBG дорівнює одиниці, блок 48 вибору фону може вибирати 24 UA 116140 C2 5 10 коефіцієнти 11 HOA для кожної вибірки кадру аудіо, що має порядок, який менше або дорівнює одиниці. Потім блок 48 вибору фону може, у цьому прикладі, вибрати коефіцієнти 11 HOA, що мають індекс, ідентифікований одним з індексів (i) як додаткові коефіцієнти HOA BG, де nBGa надходить на блок 42 генерації бітового потоку для указання в бітовому потоці 21, щоб пристрій аудіодекодування, наприклад пристрій 24 аудіодекодування, показаний в прикладі, наведеному на фіг. 3, виділяв коефіцієнти 47 HOA BG з бітового потоку 21. Потім блок 48 вибору фону може виводити коефіцієнти 47 HOA оточення на блок 38 компенсації енергії. Коефіцієнти 47 HOA 2 оточення можуть мати розміри D: M×[(NBG+1) +nBGa]. [210] Блок 36 вибору переднього плану може представляти блок, виконаний з можливістю вибору тих з переупорядкованої матриці 33' US[k] і переупорядкованої матриці 35' V[k], які представляють компоненти переднього плану або характерні компоненти звукового поля на основі 45 nFG (який може представляти один або більше індексів, що ідентифікують ці вектори переднього плану). Блок 36 вибору переднього плану може виводити сигнали 49 nFG (які можуть бути позначені як переупорядковані US[k]1,…, 49 nFG, FG1,…, nfG[k] 49, або 49) 15 на блок 40 психоакустичного аудіокодера, де сигнали 49 nFG можуть мати розміри D: M×nFG, і кожний представляє монофонічні аудіооб'єкти. Блок 36 вибору переднього плану також може виводити переупорядковану матрицю 35' V[k] (або 35'), 20 яка відповідає компонентам переднього плану звукового поля, на блок 50 просторово-часової інтерполяції, де ті з переупорядкованої матриці 35' V[k], що відповідають компонентам переднього плану, можуть бути позначені як матриця V[k] 51k переднього плану (яка може математично позначатися як 25 30 35 40 4550 55 V1,...,n FG [k ] ), що має розміри D: (N+1)2×nFG. [211] Блок 38 компенсації енергії може представляти блок, виконаний з можливістю здійснення компенсації енергії відносно коефіцієнтів 47 HOA оточення для компенсації втрати енергії внаслідок видалення різних каналів HOA блоком 48 вибору фону. Блок 38 компенсації енергії може здійснювати аналіз енергії відносно однієї або більше з переупорядкованої матриці 33' US[k], переупорядкованої матриці 35' V[k], сигналів 49 nFG, векторів 51 k переднього плану V[k] і коефіцієнтів 47 HOA оточення і потім здійснювати компенсацію енергії на основі цього аналізу енергії для генерації коефіцієнтів 47' HOA оточення з компенсацією енергії. Блок 38 компенсації енергії може виводити коефіцієнти 47' HOA оточення з компенсацією енергії на блок 40 психоакустичного аудіокодера. [212] По суті, блок 38 компенсації енергії можна використовувати для компенсації можливого зниження повної енергії фонових звукових компонентів звукового поля, обумовленого зниженням порядку компонентів звукового поля оточення, описаних коефіцієнтами 11 HOA, для генерації коефіцієнтів 47 HOA оточення зниженого порядку (які, у деяких прикладах, мають порядок, менший ніж N, відносно тільки включених коефіцієнтів, що відповідають сферичним 2 базисним функціям, які мають наступні порядки/підпорядки: [(N BG+1) +nBGa]). У деяких прикладах, блок 38 компенсації енергії компенсує ці втрати енергії шляхом визначення коефіцієнта підсилення компенсації у формі значень посилення для застосування до кожного з 2 [(NBG+1) +nBGa] стовпців коефіцієнтів 47 HOA оточення для збільшення середньоквадратичної (RMS) енергії коефіцієнтів 47 HOA оточення, щоб вони дорівнювали або щонайменше були більш наближені до RMS коефіцієнтів 11 HOA (які визначаються за допомогою аналізу сукупної енергії однієї або більше з переупорядкованої матриці 33' US[k], переупорядкованої матриці 35' V[k], сигналів 49 nFG, векторів 51k переднього плану V[k] і коефіцієнтів 47 HOA оточення зниженого порядку), до виведення коефіцієнтів 47 HOA оточення на блок 40 психоакустичного аудіокодера. [213] У ряді випадків, блок 38 компенсації енергії може ідентифікувати RMS для кожного рядка і/або стовпця однієї або більше з переупорядкованої матриці 33' US[k] і переупорядкованої матриці 35' V[k]. Блок 38 компенсації енергії також може ідентифікувати RMS для кожного рядка і/або стовпця одного або більше з вибраних каналів переднього плану, який може включати в себе сигнали 49 nFG і вектори 51k переднього плану V[k], і коефіцієнти 47 HOA оточення зниженого порядку. RMS для кожного рядка і/або стовпця однієї або більше з переупорядкованої матриці 33' US[k] і переупорядкованої матриці 35' V[k] може зберігатися у вектор, позначений RMSFULL, тоді як RMS для кожного рядка і/або стовпця одного або більше із 25 UA 116140 C2 сигналів 49 nFG, векторів 51k переднього плану V[k] і коефіцієнтів 47 HOA оточення зниженого порядку можуть зберігатися у вектор, позначений RMSREDUCED. Блок 38 компенсації енергії потім може обчислювати вектор Z значень посилення, згідно з наступним рівнянням: . Потім блок 38 компенсації енергії може застосовувати цей 5 вектор Z значень посилення або різні його ділянки до одного або більше із сигналів 49 nFG, векторів 51k переднього плану V[k] і коефіцієнтів 47 HOA оточення зниженого порядку. У ряді випадків, вектор Z значень посилення застосовується тільки до коефіцієнтів 47 HOA оточення зниженого порядку відповідно до наступного рівняння 10 15 20 25 30 35 40 45 50 55 , де HOABG-RED позначає коефіцієнти 47 HOA оточення зниженого порядку, HOABG-RED' позначає T приведені коефіцієнти 47' HOA оточення з компенсацією енергії і Z позначає транспонування вектора Z. [214] У деяких прикладах, для визначення кожного RMS відповідних рядків і/або стовпців однієї або більше з переупорядкованої матриці 33' US[k], переупорядкованої матриці 35' V[k], сигналів 49 nFG, векторів 51k переднього плану V[k] і коефіцієнтів 47 HOA оточення зниженого порядку, блок 38 компенсації енергії може спочатку застосовувати рендеризатор опорних коефіцієнтів сферичних гармонік (SHC) до стовпців. Застосування рендеризатора опорних SHC блоком 38 компенсації енергії дозволяє визначати RMS в області SHC для визначення енергії загального звукового поля, описаного кожним рядком і/або стовпцем кадру, представленого рядками і/або стовпцями однієї або більше з переупорядкованої матриці 33' US[k], переупорядкованої матриці 35' V[k], сигналів 49 nFG, векторів 51k переднього плану V[k] і коефіцієнтів 47 HOA оточення зниженого порядку, як більш докладно описано нижче. [215] Блок 50 просторово-часової інтерполяції може представляти блок, виконаний з можливістю прийому векторів 51k переднього плану V[k] для k-го кадру і векторів 51k-1 переднього плану V[k-1] для попереднього кадру (тому позначених k-1) і здійснення просторовочасової інтерполяції для генерації інтерпольованих векторів переднього плану V[k]. Блок 50 просторово-часової інтерполяції може рекомбінувати сигнали 49 nFG з векторами 51 k переднього плану V[k] для відновлення переупорядкованих коефіцієнтів HOA переднього плану. Потім блок 50 просторово-часової інтерполяції може ділити переупорядковані коефіцієнти HOA переднього плану на інтерпольовані вектори V[k] для генерації інтерпольованих сигналів 49' nFG. Блок 50 просторово-часової інтерполяції також може виводити ті з векторів 51k переднього плану V[k], які використовувалися для генерації інтерпольованих векторів переднього плану V[k], завдяки чому пристрій аудіодекодування, наприклад пристрій 24 аудіодекодування, може генерувати інтерпольовані вектори переднього плану V[k] і, таким чином, відновлювати вектори 51k переднього плану V[k]. Вектори 51k переднього плану V[k], використовувані для генерації інтерпольованих векторів переднього плану V[k], позначені як вектори 53, що залишилися, переднього плану V[k]. Щоб гарантувати, що одні і ті ж V[k] і V[k-1] використовуються на кодері і декодері (для створення інтерпольованих векторів V[k]), на кодері і декодері можна використовувати їх квантованні/деквантовані версії. [216] У цьому відношенні, блок 50 просторово-часової інтерполяції може представляти блок, що інтерполює першу частину першого кадру аудіо з яких-небудь інших ділянок першого кадру аудіо і другого в часі наступного або попереднього кадру аудіо. У деяких прикладах, ділянки можуть бути позначені як підкадри, де інтерполяція, здійснювана відносно підкадрів, більш докладно описана нижче з посиланням на фіг. 45-46E. В інших прикладах, блок 50 просторовочасової інтерполяції може діяти відносно деякої кількості останніх вибірок попереднього кадру і деякої кількості перших вибірок наступного кадру, як описано більш детально з посиланням на фіг. 37-39. Блок 50 просторово-часової інтерполяції може, при здійсненні цієї інтерполяції, зменшувати кількість вибірок векторів 51k переднього плану V[k], які необхідно вказувати в бітовому потоці 21, оскільки тільки ті з векторів 51k переднього плану V[k], які використовуються для генерації інтерпольованих векторів V[k], представляють піднабір векторів 51k переднього плану V[k]. Таким чином, щоб потенційно зробити стиснення коефіцієнтів 11 HOA більш ефективним (шляхом зменшення кількості векторів 51k переднього плану V[k], що задаються в бітовому потоці 21), різні аспекти методів, описаних у цьому винаході, можуть передбачати інтерполяцію однієї або більше ділянок першого кадру аудіо, де кожна з ділянок може представляти розкладені версії коефіцієнтів 11 HOA. [217] Просторово-часова інтерполяція може забезпечувати ряд переваг. По-перше, сигнали 49 nFG можуть не бути неперервними від кадру до кадру внаслідок поблокового характеру здійснення SVD або іншого LIT. Іншими словами, за умови, що блок 30 LIT застосовує SVD на основі кадрів, певні порушення неперервності можуть існувати в результуючих перетворених коефіцієнтах HOA як свідчення, наприклад, неупорядкованого характеру матриці 33 US[k] і 26 UA 116140 C2 5 10 15 20 25 30 35 40 45 матриці 35 V[k]. Завдяки здійсненню цієї інтерполяції, порушення неперервності може знижуватися за умови, що інтерполяція може мати згладжуючу дію, яка потенційно знижує будьякі артефакти, що вносяться внаслідок границь кадру (або, іншими словами, сегментування коефіцієнтів 11 HOA на кадри). Завдяки використанню векторів 51k переднього плану V[k] для здійснення цієї інтерполяції і потім генерації інтерпольованих сигналів 49' nFG на основі інтерпольованих векторів 51k переднього плану V[k] з відновлених переупорядкованих коефіцієнтів HOA, можна згладжувати щонайменше деякі ефекти, обумовлені покадровою операцією, а також переупорядкуванням сигналів 49 nFG. [218] У ході експлуатації, блок 50 просторово-часової інтерполяції може інтерполювати один або більше підкадрів першого кадру аудіо з першого розкладання, наприклад векторів 51 k переднього плану V[k], частини першої множини коефіцієнтів 11 HOA, включених у перший кадр, і другого розкладання, наприклад векторів переднього плану V[k] 51 k-1, частини другої множини коефіцієнтів 11 HOA, включених у другий кадр, для генерації розкладених інтерпольованих коефіцієнтів сферичних гармонік для одного або більше підкадрів. [219] У деяких прикладах, перше розкладання містить перші вектори 51 k переднього плану V[k], що представляють праві сингулярні вектори частини коефіцієнтів 11 HOA. Аналогічно, у деяких прикладах, друге розкладання містить другі вектори 51k переднього плану V[k], що представляють праві сингулярні вектори частини коефіцієнтів 11 HOA. [220] Іншими словами, 3D аудіо на основі сферичних гармонік може бути параметричним представленням 3D поля тиску відносно ортогональних базисних функцій на сфері. Чим вище порядок N представлення, тим потенційно вище просторове розрізнення і, часто, тим більше 2 кількість коефіцієнтів сферичних гармонік (SH) (для усього (N+1) коефіцієнтів). Для багатьох застосувань, може знадобитися, щоб стиснення смуги коефіцієнтів дозволяло ефективно передавати і зберігати коефіцієнти. Ці методи, передбачені в цьому винаході, можуть забезпечувати процес зниження розмірності на кадровій основі з використанням розкладання на сингулярні значення (SVD). Аналіз SVD може розкладати кожен кадр коефіцієнтів на три матриці U, S і V. У деяких прикладах, методи можуть обробляти деякі з векторів у матриці US[k] як компоненти переднього плану звукового поля, що лежить в основі. Однак, при такій обробці, ці вектори (у матриці U S[k]) є розривними від кадру до кадру, хоча вони представляють один і той же характерний аудіокомпонент. Ці порушення неперервності можуть приводити до значних артефактів, коли компоненти надходять через перетворюючі аудіокодери. [221] Методи, описані в цьому винаході, дозволяють справитися з цим порушенням неперервності. Таким чином, методи можуть основуватися на тому спостереженні, що матрицю V можна інтерпретувати як ортогональні просторові осі в області сферичних гармонік. Матриця U[k] може представляти проекцію даних сферичних гармонік (HOA) відносно цих базисних функцій, де порушення неперервності може приписуватися ортогональній просторовій осі (V[k]), які змінюють кожен кадр і, таким чином, самі є розривними. У цьому полягає відмінність від аналогічного розкладання, наприклад перетворення Фур'є, де базисні функції, у деяких прикладах, постійні від кадру до кадру. У цьому відношенні, SVD можна розглядати як алгоритм переслідування збігу. Методи, описані в цьому винаході, можуть передбачати, що блок 50 просторово-часової інтерполяції підтримує неперервність між базисними функціями (V[k]) від кадру до кадру шляхом інтерполяції між ними. [222] Як згадано вище, інтерполяцію можна здійснювати відносно вибірок. Цей випадок узагальнений у вищенаведеному описі, коли підкадри містять одиничний набір вибірок. В обох випадках інтерполяції по вибірках і по підкадрах операція інтерполяції може приймати форму наступного рівняння: У цьому рівнянні, інтерполяцію можна здійснювати відносно одиничного V-вектора 50 з одиничного V-вектора , який в одному варіанті здійснення може представляти V вектори із сусідніх кадрів k і k-1. У вищенаведеному рівнянні, l представляє розрізнення, з яким здійснюється інтерполяція, де l може вказувати цілочислову вібірку і l=1,…, T (де T - довжина вибірок, по яких здійснюється інтерполяція і по яких вимагаються вихідні інтерпольовані 55 вектори, , і також указує, що вихід цього процесу створює l з цих векторів). Альтернативно, l може вказують підкадри, що складаються з множинних вибірок. Коли, наприклад, кадр 27 UA 116140 C2 поділяється на чотири підкадри, l може містити значення 1, 2, 3 і 4, для кожного з підкадрів. Значення l може сигналізуватися як поле за назвою "CodedSpatialInterpolationTime" за допомогою бітового потоку, завдяки чому операція інтерполяції може повторюватися на декодері. 5 може містити значення вагових коефіцієнтів інтерполяції. Коли інтерполяція є лінійною, може змінюватися лінійно і монотонно між 0 і 1, як функція l. В інших випадках, 10 15 може змінюватися між 0 і 1 нелінійно, але монотонно (наприклад, чвертьперіод піднятого косинуса) як функція l. Функція, , може індексуватися між декількома різними можливостями функцій і сигналізуватися в бітовому потоці як поле за назвою "SpatialInterpolationMethod" таким чином, що ідентична операція інтерполяції може повторюватися декодером. Коли має значення, близьке до 0, вихід, , може мати високу вагу або визначатися . Тоді як, коли 20 має значення, близьке до 1, це гарантує, що вихід, , має високу вагу або визначається . 25 30 [223] Блок 46 приведення коефіцієнтів може представляти блок, виконаний з можливістю здійснення приведення коефіцієнтів відносно векторів 53, що залишилися, переднього плану V[k] на основі інформації 43 фонового каналу для виведення приведених векторів 55 переднього плану V[k] на блок 52 квантування. Приведені вектори 55 переднього плану V[k] 2 2 можуть мати розміри D: [(N+1) -(NBG+1) -nBGa]×nFG. [224] Блок 46 приведення коефіцієнтів може, у цьому відношенні,представляти блок, виконаний з можливістю зниження кількості коефіцієнтів векторів 53, що залишилися, переднього плану V[k]. Іншими словами, блок 46 приведення коефіцієнтів може представляти блок, виконаний з можливістю виключення коефіцієнтів векторів переднього плану V[k] (які утворюють вектори 53, що залишилися, переднього плану V[k]), які мають мало або не мають інформації направленості. Як описано вище, у деяких прикладах, коефіцієнти характерних або, 28

Дивитися

Додаткова інформація

Назва патенту англійською

Compression of decomposed representations of a sound field

Автори англійською

Sen, Dipanjan, Ryu, Sang-Uk

Автори російською

Сэн Дипанджан, Рю Санг-Ук

МПК / Мітки

МПК: G10L 19/008, G10L 19/038, H04R 5/00

Мітки: поля, розкладених, звукового, представлень, стиснення

Код посилання

<a href="http://uapatents.com/236-116140-stisnennya-rozkladenikh-predstavlen-zvukovogo-polya.html" target="_blank" rel="follow" title="База патентів України">Стиснення розкладених представлень звукового поля</a>

Подібні патенти