AP News | 2024-05-13 | 11:08:24

Болестта й отне гласа. AI създаде реплика, която носи в телефона си

ПРОВИДЪНС, АР (АП) — Гласът, който Алексис „Лекси“ Богън имаше преди миналото лято, беше превъзходен.

Тя обичаше да пее Тейлър Суифт и Зак Брайън балади в колата. Тя се смееше през цялото време – дори докато събираше лошо държащи се деца в предучилищна възраст или обсъждаше политика с приятели над огнище в задния двор. В гимназията тя беше сопран в припева.

След това този глас изчезна.

Лекарите през август отстраниха животозастрашаващ тумор, заседнал в задната част на мозъка ѝ. Когато дихателната тръба излезе месец по-късно, Боган имаше проблеми с преглъщането и се напрегна да каже „здрасти“ на родителите си. Месеци рехабилитация помогнаха за възстановяването й, но говорът й все още е увреден. Приятели, непознати и членове на собственото й семейство се борят да разберат какво се опитва да им каже.

През април 21-годишното момиче си върна стария глас. Не истинският, а гласов клонинг, генериран от изкуствен интелект, който тя може да извика от телефонно приложение. Обучен на 15-секундна времева капсула на нейния тийнейджърски глас — произхождащ от демонстрационно видео за готвене, което е записала за проект в гимназията — нейният синтетичен, но забележително реално звучащ AI глас сега може да каже почти всичко, което пожелае.

Тя въвежда няколко думи или изречения в телефона си и приложението незабавно ги прочита на глас.

„Здравейте, мога ли да получа грандиозно еспресо със студена кафява захар и овесено мляко“, каза гласът на Боган с изкуствен интелект, докато тя държеше телефона през прозореца на колата си в Starbucks drive-thru.

Експерти предупредиха, че бързо подобряващата се технология за клониране на глас чрез изкуствен интелект може да разшири телефонните измами, да попречи на демократичните избори и да наруши достойнството на хора – живи или мъртви – които никога не са се съгласили гласът им да бъде пресъздаден, за да казват неща, които никога не са говорили.

Използва се за генериране на дълбоки фалшиви автоматични обаждания до избиратели в Ню Хемпшир, имитиращи президента Джо Байдън. В Мериленд властите наскоро обвиниха спортен директор на гимназия в използване на AI за генериране на фалшив аудио клип на директора на училището, който прави расистки забележки.

Но Богън и екип от лекари от болничната група Lifespan на Роуд Айлънд вярват, че са открили приложение, което оправдава рисковете. Богън е един от първите хора – единственият с нейното състояние – който е успял да пресъздаде изгубен глас с новата Voice Engine на OpenAI. Някои други доставчици на AI, като стартиращата компания ElevenLabs, са тествали подобна технология за хора с говорни затруднения и загуба - включително адвокат, който сега използва своя гласов клонинг в съдебната зала.

„Надяваме се, че Лекси е пионер, тъй като технологията се развива“, каза д-р Рохайд Али, ординатор по неврохирургия в медицинското училище на университета Браун и болница Роуд Айлънд. Милиони хора с инвалидизиращи инсулти, рак на гърлото или неврогенеративни заболявания могат да се възползват, каза той.

„Трябва да сме наясно с рисковете, но не можем да забравяме за пациента и социалното благо“, каза Д-р Фатима Мирза, друг резидент, работещ върху пилота. „Можем да помогнем на Лекси да върне истинския й глас и тя може да говори с думи, които са най-верни за самата нея.“

Мирза и Али, които са женени, привлякоха вниманието на ChatGPT- производител OpenAI поради техния предишен изследователски проект в Lifespan, използващ AI chatbot за опростяване на формулярите за медицинско съгласие за пациенти. Компанията от Сан Франциско протегна ръка, докато беше на лов по-рано тази година за обещаващи медицински приложения за своя нов гласов генератор с изкуствен интелект.

Боган все още бавно се възстановяваше от операцията. Заболяването започна миналото лято с главоболие, замъглено зрение и увиснало лице, тревожат лекарите в детската болница Хасбро в Провидънс. Те откриха съдов тумор с размерите на топка за голф, притискащ мозъчния й ствол и оплетен в кръвоносни съдове и черепни нерви.

„Беше битка да контролираме кървенето и да извадим тумора,“ каза детският неврохирург д-р Константина Свокос.

10-часовата продължителност на операцията, съчетана с местоположението и тежестта на тумора, увреди мускулите на езика и гласните струни на Боган, възпрепятствайки способността й да се храни и говори, каза Свокос.

„Почти сякаш част от самоличността ми беше взета, когато изгубих гласа си“, каза Богън.

Тръбата за хранене излезе тази година. Логопедичната терапия продължава, позволявайки й да говори разбираемо в тиха стая, но без никакви признаци тя ще възстанови пълната яснота на естествения си глас.

„В един момент започнах да забравям как звуча, “, каза Богън. „Толкова свикнах с начина, по който звуча сега.“

Когато телефонът звънеше в дома на семейството в предградието на Провидънс, Норт Смитфийлд, тя го предаваше на майка си, за да приеме обажданията й . Чувстваше, че натоварва приятелите си, когато отидат на шумен ресторант. Баща й, който има загуба на слуха, се бореше да я разбере.

В болницата лекарите търсеха пилотен пациент, който да експериментира с технологията на OpenAI.

„Първият човек, който дойде на ум на д-р Свокос, беше Лекси“, каза Али. „Свързахме се с Лекси, за да видим дали ще се заинтересува, без да знаем какъв ще бъде нейният отговор. Тя искаше да го изпробва и да види как ще работи.“

Боган трябваше да се върне няколко години назад, за да намери подходящ запис на гласа й, за да „обучи“ AI системата как говори. Това беше видео, в което тя обясняваше как се прави салата с паста.

Нейните лекари умишлено подадоха на AI системата само 15-секунден клип. Звуците от готвене правят други части от видеото несъвършени. Това беше и всичко, от което се нуждаеше OpenAI — подобрение в сравнение с предишната технология, изискваща много по-дълги проби.

Те също знаеха, че извличането на нещо полезно от 15 секунди може да бъде жизненоважно за всички бъдещи пациенти, които нямат следа от гласа си в интернет. Кратко гласово съобщение, оставено за роднина, може да е достатъчно.

Когато го тестваха за първи път, всички бяха зашеметени от качеството на гласовия клонинг. Случайните проблеми - неправилно произнесена дума, липсваща интонация - бяха предимно незабележими. През април лекарите оборудваха Bogan със специално направено приложение за телефон, което само тя може да използва.

„Ставам толкова емоционална всеки път, когато чуя гласа й“, каза майка й, Памела Bogan, със сълзи в очите .

„Мисля, че е страхотно, че мога да имам този звук отново“, добави Лекси Богън, като каза, че това помогна „да повиша увереността си донякъде там, където беше преди всичко това да се случи.“

Сега тя използва приложението около 40 пъти на ден и изпраща обратна връзка, която се надява да помогне на бъдещи пациенти. Един от първите й експерименти беше да говори с децата в детската градина, където работи като асистент-учител. Тя написа „ха ха ха ха“, очаквайки роботизиран отговор. За нейна изненада това прозвуча като нейния стар смях.

Тя го е използвала в Target and Marshall’s, за да попита къде да намери предмети. Това й помогна да се свърже отново с баща си. И за нея е по-лесно да поръчва бърза храна.

Лекарите на Богън са започнали да клонират гласовете на други желаещи пациенти от Роуд Айлънд и се надяват да въведат технологията в болници по целия свят. OpenAI каза, че действа предпазливо в разширяването на използването на Voice Engine, който все още не е публично достъпен.

Редица по-малки стартиращи AI вече продават услуги за клониране на глас на развлекателни студия или ги правят по-широко достъпни. Повечето доставчици на гласово генериране казват, че забраняват представянето под чужда самоличност или злоупотребата, но се различават по начина, по който налагат своите условия за използване.

„Искаме да сме сигурни, че всеки, чийто глас се използва в услугата, се съгласява с текуща база,” каза Джеф Харис, лидер на OpenAI за продукта. „Искаме да сме сигурни, че не се използва в политически контекст. Така че възприехме подход да бъдем много ограничени в това на кого даваме технологията.“

Харис каза, че следващата стъпка на OpenAI включва разработването на защитен инструмент за „гласово удостоверяване“, така че потребителите да могат да копират само своите собствен глас. Това може да е „ограничаващо за пациент като Лекси, който е имал внезапна загуба на говорните си способности“, каза той. „Така че смятаме, че ще трябва да имаме отношения с високо доверие, особено с доставчиците на медицински услуги, за да дадем малко по-безпрепятствен достъп до технологията.“

Боган е впечатлила лекарите си с фокуса си върху мисленето за това как технологията може да помогне на други хора с подобни или по-сериозни говорни дефекти.

„Част от това, което тя е направила през целия този процес, е да мисли за начини да коригира и промени това“, каза Мирза. „Тя беше голямо вдъхновение за нас.“

Докато засега тя трябва да си играе с телефона си, за да накара гласовия механизъм да говори, Боган си представя гласов двигател с изкуствен интелект, който подобрява по-старите средства за възстановяване на речта – като като роботизирано звучащ електроларинкс или гласова протеза - при сливане с човешкото тяло или превод на думи в реално време.

Тя не е толкова сигурна какво ще се случи, когато порасне и нейният AI глас продължава да звучи като тийнейджърка. Може би технологията може да „състари“ нейния AI глас, каза тя.

Засега, „въпреки че нямам гласа си напълно възстановен, имам нещо, което ми помага да намеря гласа си отново“, тя каза.

___

Associated Press и OpenAI имат лицензионно и технологично споразумение, което позволява на OpenAI достъп до част от текстовите архиви на AP.

Източник: apnews.com

Последвайте ни в

Свързани новини

болестта отне отне гласа гласа създаде създаде реплика реплика която която носи носи телефона болестта отне гласа създаде реплика която носи телефона

Коментари

Болестта й отне гласа. AI създаде реплика, която носи в телефона си

___

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация