Това е вечният „проблем с коктейлното парти“ – стоиш в стая, пълна с хора, с питие в ръка, опитвайки се да чуеш какъв е твоят колега казвайки.
Всъщност човешките същества са забележително умели да водят разговор с един човек, като същевременно филтрират конкуриращи се гласове.
Въпреки това, може би изненадващо, това е умение, което технологията доскоро не можеше реплика.
И това има значение, когато става дума за използване на аудиодоказателство в съдебни дела. Гласовете във фонов режим могат да затруднят да бъдете сигурни кой говори и какво се казва, като потенциално правят записите безполезни.
Електроинженер Кийт МакЕлвийн, основател и главен технологичен директор от Wave Sciences, се заинтересува от проблема, когато работеше за правителството на САЩ по дело за военни престъпления.
"Това, което се опитвахме да разберем, беше кой е поръчал избиването на цивилни. Някои от доказателствата включват записи с куп гласове, които говорят наведнъж - и тогава научих какво „проблемът с коктейлното парти“ беше“, казва той.
„Имах успех в премахването на шум като автомобилни звуци или климатици или вентилатори от речта, но когато започнах да се опитвам да премахна речта от речта, това се оказа не само много труден проблем, но и един от класическите трудни проблеми в акустиката. p>
"Звуците подскачат из стая и е математически ужасно за решаване."
Отговорът, казва той, беше да се използва AI, за да се опита да определи и отсее всички конкуриращи се звуци въз основа на това откъде са дошли първоначално в стаята.
Това не означава само други хора, които може да говорят - има и значително количество смущения от начина, по който се отразяват звуците около стая, като гласът на целевия говорещ се чува както пряко, така и непряко.
В перфектна безехова камера - такава, която е напълно свободна от ехо - един микрофон на говорител би бъдете достатъчни, за да разберете какво казват всички; но в истинска стая проблемът също изисква микрофон за всеки отразен звук.
Г-н МакЕлвийн основава Wave Sciences през 2009 г., надявайки се да разработи технология, която може да отдели припокриващи се гласове. Първоначално фирмата използва голям брой микрофони в това, което е известно като масивно формиране на лъч.
Въпреки това, обратната връзка от потенциални търговски партньори беше, че системата изисква твърде много микрофони за свързаните разходи, за да даде добри резултати в много ситуации - и няма да работи при всички в много други.
"Общият рефрен беше, че ако можехме да излезем с решение, което да адресира тези притеснения, те биха били много заинтересовани“, казва г-н МакЕлвийн.
И той добавя: „Знаехме, че трябва да има решение, защото можете направете го само с две уши."
Компанията най-накрая реши проблема след 10 години вътрешно финансираха изследвания и подадоха заявка за патент през септември 2019 г.
Това, което бяха измислили, беше AI, който може да анализира как звукът отскача в стаята, преди да достигне до микрофона или ухо.
"Ние улавяме звука, докато пристига до всеки микрофон, връщаме назад, за да разберем откъде идва, и след това по същество потискаме всеки звук, който не би могъл да дойде от мястото, където седи човекът“, казва г-н МакЕлвийн.
Ефектът е сравним в някои отношения с това, когато камерата фокусира върху един обект и замъглява предния и задния план.
“Резултатите не звучат кристално ясно, когато можете да използвате само много шумен запис, за да се учите, но те все още са зашеметяващо."
Технологията беше използвана за първи път в съдебна медицина в реален свят в случай на убийство в САЩ, където доказателствата, които успя да предостави, се оказаха централни за присъдите.
След като двама наемни убийци бяха арестувани за убийството на мъж, ФБР искаше да докаже, че те са били наети от семейство, преминаващо през спор за попечителство над деца, ФБР е уредило семейството да повярва, че са били изнудвани за участието им - и след това се е отпуснало, за да види реакцията.
Докато съобщенията и телефонните обаждания бяха сравнително лесни за достъп от ФБР, личните срещи в два ресторанта бяха различен въпрос. Но съдът разреши използването на алгоритъма на Wave Sciences, което означава, че аудиото се превърна от недопустимо в основно доказателство.
Оттогава други правителствени лаборатории , включително в Обединеното кралство, са го подложили на набор от тестове. Сега компанията предлага технологията на американската армия, която я е използвала за анализиране на сонарни сигнали.
Тя също може да има приложения при преговори за заложници и сценарии за самоубийство, казва г-н МакЕлвийн, за да е сигурно, че и двете страни на разговора могат да бъдат чути – не само преговарящият с мегафон.
В края на миналата година компанията пусна софтуерно приложение, използващо своя алгоритъм за обучение за използване от правителствени лаборатории, извършващи аудио криминалистика и акустичен анализ.
В крайна сметка се стреми да представи персонализирани версии на своя продукт за използване в комплект за аудио запис, гласови интерфейси за автомобили, интелигентни високоговорители, разширена и виртуална реалност, сонар и слух помощни средства.
Така че, например, ако говорите с колата или интелигентния си високоговорител, няма да има значение дали около вас има много шум, устройството все още ще може да разбере какво казвате.
ИИ вече се използва и в други области на съдебната медицина, според съдебния педагог Тери Армента от Академията за криминалистика.
"ML [машинно обучение] модели анализират гласови модели, за да определят самоличността на говорещите, особено полезен процес в криминални разследвания, където гласовите доказателства трябва да бъдат удостоверени“, казва тя.
"Освен това AI инструментите могат да откриват манипулации или промени в аудиозаписи, като гарантират целостта на доказателствата, представени в съда."
И AI си проправя път и в други аспекти на аудио анализа.
Bosch има технология, наречена SoundSee, която използва алгоритми за обработка на аудиосигнали, за да анализира, например, звука на мотора, за да предвиди неизправност, преди да се случи. >
"Традиционните възможности за обработка на аудиосигнали нямат способността да разбират звука по начина, по който ние, хората, го правим“, казва д-р Самарджит Дас, директор по изследвания и технологии в Bosch USA.
„Аудио AI позволява по-задълбочено разбиране и семантична интерпретация на звука на нещата около нас по-добре от всякога - например звуци от околната среда или звукови сигнали, излъчвани от машини."
По-скорошни тестове на алгоритъма на Wave Sciences показаха, че дори само с два микрофона технологията може да работи толкова добре, колкото човешкото ухо - по-добре, когато повече добавени са микрофони.
И те разкриха още нещо.
"Математиката във всички наши тестове показва забележителни прилики с човешкия слух. Има малки странности относно това какво може да направи нашият алгоритъм и колко точно може да го направи, които са удивително подобни на някои от странностите, които съществуват в човешкия слух", казва МакЕлвийн.
"Подозираме, че човешкият мозък може да използва същата математика - че при решаването на проблема с коктейла може да сме се натъкнали на това, което наистина се случва в мозъка."
Прочетете повече за AI