Hangot módosító AI-modellt mutatott az NVIDIA

Beszédet, zenét és hangokat is képes szöveges utasításra generálni vagy szerkeszteni az NVIDIA Fugatto.

Az NVIDIA Fugatto néven mutatta be azt az új AI-modellt, ami szöveges utasításra képes hangot, zenét, beszédet generálni vagy módosítani. Alapvetően a filmiparnak, zeneiparnak és videojáték-fejlesztőknek szánják ezt.

Hirdetés

Az NVIDIA azt mondja, egyelőre nem teszi nyilvánosan elérhető a technológiát, amelynek teljes neve Foundational Generative Audio Transformer Opus 1. Nyílt forráskódú adatok alapján tréningezték egyébként.

Hasonló megoldást mindenesetre a Runway és a Meta is kínál, de az NVIDIA egyik érdekessége az, hogy meglévő hangot is tud módosítani. Ha például valaki zongorázott, abból emberi énekhangot csinál. Vagy egy kimondott szónál megváltoztatja a beszélő akcentusát, hangulatát. A cég szerint az AI új lehetőségeket hoz a zeneiparnak, a játékpiacnak és mindenkinek, aki dolgokat akar létrehozni.

Az OpenAI és társai egy ideje Hollywooddal tárgyalnak arról, hogyan tudják az AI-t hasznosítani a szórakoztatóiparban. A két oldal kapcsolata elég feszült.

Hozzáteszik, hogy a generatív technológia mindig rejt kockázatokat, olyanra használhatják az emberek, amire az alkotó nem akarta. Ezért az NVIDIA is óvatos, és ezért nem adják ki a modellt egyelőre. A szektornak ugyanis nagy gondjai vannak azzal kapcsolatban, hogy meggátolják a visszaéléseket, például tévinformáció vagy jogsértő tartalom gyártását. Vélhetően emiatt nem tette nyilvánosan elérhetővé az effajta modelljét az OpenAI és a Meta sem.

Azóta történt

Előzmények