Új hozzászólás Aktív témák
-
ddekany
veterán
Lehet, hogy rossz indulatúan járt el a cég (nem tudom). De ez ilyen nem ismert embereknek egy átmeneti probléma, mert pár év, és eleve fel se kérik őket ilyesmire, mert már elég jó a meglévő mesterséges megoldás, ahol beállíthatod, hogy milyen jellegű beszédet akarsz, meg milyen hatást akarsz elérni, és milyen célcsoportnál.
A régebbről már eleve ismert emberek hangja trükkösebb kérdés. Pl. mi van, ha nem is tréningezték rá az AI-t, csak sikerült nagyon hasonlóra beállítani egy meglévő megoldást...
-
CRTs
aktív tag
" mert már elég jó "
szép álom. De valószínű hangban is létezik az uncanny valley effektus ahogy 3D-ben ezt hajlamosak elfelejteni metahuman és stb. hype miatt. És elvárás lesz hogy egy VA (voice actor/actress) többet adjon bele mint szokott azért hogy fel se merülhessen hogy generált. Abba meg bele se kezdek hogy emberi hangkeltés az 100(?) izom munkája.
[ Szerkesztve ]
-
Chiller
őstag
Ezt a videót láttad már?
https://www.youtube.com/watch?v=dB6uWwL565s -
CRTs
aktív tag
Nem de majd lecsekkolom. Azért narrációt ne keverjük össze azzal hogy filmben játékban hányféle szituáció van, hozok is vicces példát (állítólag több féle lett volna de annyira LOL hogy csak ezt hagyták benne )
https://www.youtube.com/watch?v=kqBXQVxS-qk -
ddekany
veterán
Szép álom, vagy rémálom... de ez egy eléggé alacsony lécnek tűnik. Adott a szöveg. A szemantika azon részét, amit hanghordozással adsz át is megadhatod, ha gépelés helyett elve bemondod a szöveget. A sok izmot meg fizikát meg nem kell leszimulálni ahhoz, hogy egy embernek már bőven valósnak tűnjön.
-
ddekany
veterán
Ott a GPT-4o, amiben az LLM rész lényegében hang-be hang-ki ellenben azzal, hogy eddig szöveg-be szöveg-ki volt (amit körbevehettél hangból-szöveg, és szövegből-hang átalakítóval). Így most az érzelmi töltés, a hangsúlyok, stb. egybe van fonódva a szöveggel, az folyik át a neurális hálón, nem a csupasz szöveg. Persze, korai darab, hallatszik hogy AI, hibázik, de ahogy a hanghordozást alkalmazza a kimeneten... nem vennék tartós tejet, ha valami reklámbemondó vagy hasonló narrátor lennék.
(GPT-4o interjú előkészítéses demó: [link])
[ Szerkesztve ]
-
CRTs
aktív tag
uhhhhh xD
ezek megcsinálták a "valley girl" sztereotipiát.
https://en.wikipedia.org/wiki/Valley_girl
-
nubreed
veterán
És még mennyi ilyen lesz. AI cégek tömege gondolja azt, hogy a neten elérhető tartalmakat szabadon használhatják a modelljük tréningezésére, anélkül, hogy engedélyt kérnének rá.
We are the first of cyber evolution. We are the first to program your future.
-
ddekany
veterán
Játékhoz hanggeneráláshoz közölni kell vele kontextust, hogy adódjon hogyan kell hangsúlyozni, ahhoz meg néha mélyebben is érteni kell a világot. De egy reklámfilmhez ezeket elég jól megadhatod, mert nem egy dinamikus szituáció.
3D... te a hagyományos 3D-ről beszélsz, hogy az meddig jutott. Vesd össze pl. a Sora-val. Totál más irányból támadja a problémát. A fő gondja nem is renderelésnek megfelelő rész utánzása, hanem a világ mélyebb megértésének hiányból adódó inkonzisztenciák.
-
CRTs
aktív tag
"mélyebb megértésének hiányból adódó inkonzisztenciák."
hát igen, ezért van már openphysics-ük is ha jól láttam XD
szerintem valahogy mindig leütődik a léc. Szvsz a Sora is leüti azzal hogy a távolban látszódnak a patch-ek. Közelre egész jó, de nem mondják meg hogy hány kilowatt szerintem 10+. És ha kitolná a látótávot rendesen akkor könnyen tizszer annyi, ami meg rosszabb hogy nincs re-use ELVILEG. -
Yodafon
senior tag
AI-ceg? Mar cegeket is alapitanak AI-ok ?
I'm gangsta!
-
ddekany
veterán
Az nem úgy 3D engine, mint egy mostani, szóval elég valószínűtlen, hogy távolra látás sokba kerülne, vagy hogy bármi más analógiát felállíthatnál. Hogy mennyit eszik... ezért is gondolom, hogy hang hamarabb lesz. (De valószínűleg meg se tudják mondani, hogy elszeparálva csak a megjelenítés mennyi energia. Mert nincs elszeparálva.)
-
CRTs
aktív tag
Elég valószínű hogy fel lehet állítani meg "megapixellel" megy.
Én sokat játszok stable diffusion-el, azonbelül is LCM-el. Azzal is ez megy csak kicsiben. 512x512 képen emberi arcot már nem kell tőle várni ha egészalakos a kép (főleg hogy az LCM nem konvergál de legalább gyors). Ahogy SORA-nál sem kell várni kilóméteren túl nagyon dolgokat. Ennek az a megoldása ha fenntebb van véve a felbontás. Aminek az lenne az ára hogy ne felejtse el hogy mit rajzolt és hova azidáig. Kirakni egy dolog, de formátumozni, cache-lni már érdekesebb. Ez eddig messze nem piacképes. Igazából nem is 2D videó lenne érdekes belőle hanem "fénytér" lightfield, úgy 3D-vel is kompatibilisebb lenne. És akkor eljutunk odáig hogy komplett kamerát akarunk szimulálni, csak egy vmirevaló lightfield kamera az gigapixel(!).
[ Szerkesztve ]
-
ddekany
veterán
Nem tudom mik a fundamentális, és mik az átmeneti akadályok ezen a téren. De meglepne, ha részletesség nem emelkedne elég gyorsan tovább a jövőben. Az ember látása meg korlátosan részletes, szóval nem is kell végtelenségig skálázódnia. És amúgy nekem az volt a benyomásom az AI-s dolgok kapcsán, hogy megtalálja kiskaput, az elégséges megközelítést (kb. mint az ember), szóval nem lehet azzal számolni, hogy elvileg mennyi számítás egy fizikai jelenséget leszimulálni. A kérdés, hogy mennyi be kerül a "csalás", ami egy embernek már nem (nagyon) észrevehető.
De a beszéd hang másodpercenként sokkal kevesebb információ, és sokkal vékonyabb szelettét tükrözi a valóságnak. Ezért mondtam, hogy az alighanem alacsony léc, főleg ha a tartalmat is mögé teszed szöveg és némi instrukciók formájában.
-
2544AACD
csendes tag
" a cég illegálisan lopta.. "
Legális lopásról még nem hallottam...
Csak a Puffin ad neked erőt és mindent lebíró akaratot!
-
Tasunkó
senior tag
Ha sikerül jól lemásolniuk, ugyanaz a probléma lesz mint a filmeknél. Hogy a filmgyártás a világon, 99,99%-ban nézhetetlen szart termel, és csak egy mikrónyi része ami jó, és azon belül van megint egy kis rész ami mégjobb és emlékezetes a színészek hangja. Így csak a 99.99%-on belül számítok afféle bandaháborúkra a gettóban, hogy az AI lenyom valakit, aztán megint az emberek, emberhangok visszavágnak, stb.
Az viszont hogy beszélgetős AI lesz, fenomenális lenne, meló közben dumálgatni, információkat szerezni.[ Szerkesztve ]
Kérek egy számot a jútútú. Európai macskakilátókő Nugáton a helyzet változatlan
-
Dißnäëß
nagyúr
Beszélgetünk itt hangról, én arra vagyok már kíváncsi, hogy amikor majd megjelennek 2026-ban (csak mondtam valamit) az Elvis Remaster-ek Tidal-ön, Spotin és mindenhol, ami úgy fog szólni, olyan minőségben, mintha tegnap vettük volna fel valami csúcs stúdióban, gyönyörű minden hang, minden "sz", "c" és egyáltalán, az egész beszéde-éneke, a hangszerek, nulla zajszint, bla bla....
Szóval majd amikor a képi restauráció mintájára régi idők anno technológia-limites zenéit javítjuk fel AI-val, akkor az úgy milyen lesz. És lesz-e azt követően olyan, aki "autentikus" (javítatlan) Elvis-t hallgat, meg lesz-e olyan, aki csak a tökéleteset ?
És ez ma.
Ugorjunk 2030-ra..
(Vietnam 1900 kemény)..
[ Szerkesztve ]
Kígyó vére, béka hája, pók levedlett ruhája.. kondéromban lepke sül, kívánságom teljesül !
-
nubreed
veterán
Most miért. Már most is vannak tökéletes deep fake videok, elég csak az Honest Con -ra gondolni:
[link]
Igen, az lesz amit írsz. A lemezkiadó cégek már készülnek és dörzsölik a tenyerüket. Már olvastam az elmúlt hetekben olyan cikket, hogy egy nem rég elhunyt zenész adott ki új lemezt az AI -nak köszönhetően...We are the first of cyber evolution. We are the first to program your future.
-
Héraklész
tag
Én ezt nem tudom elképzelni. Bár technikában van fejlődés, művészi szinten nem nyilvánul meg. Számomra a régi albumok a hallgathatóak, az újabbak, a remasztereltek mindig zajszűrtek de műviek.
A hangmérnöki szakma jelenleg is kihasználja az automatizáció/szimuláció lehetőségét, ami sok esetben mégsem jobb, mint a "butább" módszer. -
Tasunkó
senior tag
Művészetileg kétéséges, de lenyűgöző mennyi információval bővült a régi filmfelvétel. A fekete-fehér Chaplin filmek korabeli embereket, mindigis őrülteknek gondoltam, vagy erősen idegbetegeknek. Amit leművelnek az a rángatózó mozgás, meg az a kapkodás állandó sietség, türelmetlenség. Elképesztő hogy ezen mennyire normálisak.
Kérek egy számot a jútútú. Európai macskakilátókő Nugáton a helyzet változatlan
-
Dißnäëß
nagyúr
Dettó, és igen, Chaplin, úristen ezek mit csinálnak, stb, most meg .. pfff.
Hihetetlen ez a mértékű, maradék-infóból + egyéb betanultakból (feltételezem) bele-generált és ezáltal pótolt infó, ami egész jól illeszkedik ezen archív felvételek kockái közé, komplett generált képkockákat és kipótolt mozgásokat már nem is említve.Ebben a mai AI őrületben ez pár év múlva kb. újragenerálható és még jobb minőséget kaphatunk, néha a szín itt-ott még elcsúszik-lecsúszik emberekről, mozgó tárgyakról, de később, ahogy ez tökéletesedik, érdemes lesz teljesen újból ismét megcsinálni az egész restaurációt a majdani jóval precízebb AI algoritmussal.
Hihetetlen most is, csak megyek video-ról videor-a..
Ez sem gyenge !!! Csak esik le az állam..
Kígyó vére, béka hája, pók levedlett ruhája.. kondéromban lepke sül, kívánságom teljesül !
-
haxiboy
veterán
Ahhoz képest azok a modellek amik nagyon jól fel vannak tanítva, még a levegővételt és a hanglejtést, beszédstílust is nagyon durván tudják utánozni.
Darknet Diariesben volt egy rész ami pont erről szólt, és egy jó ~2-3 perces részben nem Jack hanem egy AI tool beszélt helyette, abszolút nem tűnt fel...és az csak ~10 percnyi anyagon lett feltanítva.Premium Mining Rigek és Gamer/Workstation gépek: tőlem, nektek :)
-
Tasunkó
senior tag
Itt már viszont a festményeken, szobrokon látszott, hogy masszívan a nyugati aktuális kommersz szépségideálhoz alakították, és többnyire inkább érdekes volt, mint hasznos. Viszont az eddigi történelemdeformációs technikákat bővíti, azt Vlad Tepesen látni, hogy mire is lehet majd használni, sorozatgyilkosból bohémot kreálni. Hasznos lehet, történelemkönyv illusztrációnak.
[ Szerkesztve ]
Kérek egy számot a jútútú. Európai macskakilátókő Nugáton a helyzet változatlan
-
Dißnäëß
nagyúr
Persze, nyilván nem kínaiakon tanítják be Fudan-ban, ha már egyszer a nyugati félteke kezdte el ezt az őrületet.
Biztos, hogy fog még fejlődni ez idővel, nagyon komoly "restaurációkra" lehet számítani.
Kígyó vére, béka hája, pók levedlett ruhája.. kondéromban lepke sül, kívánságom teljesül !
-
ddekany
veterán
válasz Héraklész #30 üzenetére
A színeket csak tippelni lehet, de amit tippel, az a te érzékelésed szemszögedből hozzáadott információ. Mert az érzékelésed kap színinformációt is immár. Csak tudati szinten tudod (ha tudod... az emberek többsége valószínűleg nem), hogy 200 éve ott valószínűleg más szín volt. Persze, a mostani modellel vannak furcsa jelenségek néha, szóval ez a későbbiekre vonatkozik.
-
Dr. Akula
félisten
Stílusos lenne, ha AI ügyvédek vinnék a pert.
-
Tasunkó
senior tag
A politikus is jellemzően egyféle hangon dumál, nem szoktak Al Pacino-i hanglejtéstartománnyal operálni, és a legtöbb híres politikust sosem láttam élőben, szóval egy tipikus áldozat vagyok aki átverésért kiált, így bármikor találhatnának ki, ahogy sok más embernek is egy AI politikust, AI parlamentet is akár, jelentkezem megvezetésre.
Kérek egy számot a jútútú. Európai macskakilátókő Nugáton a helyzet változatlan
-
Tasunkó
senior tag
Akartam mondani, abból
majd az lesz a watergate hogy Al Capónén is tréningeztették, repülős Gizin, amit tagadni fognak, áhh.Kérek egy számot a jútútú. Európai macskakilátókő Nugáton a helyzet változatlan
-
totron
addikt
Mutathatnál párat. Gondolom ezután is meglesz az a szegmens minek tagjai szentül hirdetik, hogy az mp3-nál nem kell több, meg hogy maradéktalanul visszaalakítható wavba a nyomorított anyag. Na ők láthatják tökéletesnek a generált mozgóképet, hallhatják rendben lévőnek a természettel durván szembe menő autotune-okat, valójában igen messze vannak az élvezhetőtől.
(#21) Dißnäëß, nem vagyok biztos benne, hogy a filmfelújítás jó párhuzam erre, de lehet, hogy deaz. 1-2 fokkal érzékenyebb a fül, nem? Zenei album terén eddig egy jól kihallható műviségben megállt egy középszerű rekonstruálás eredménye, jelenleg mit tud egy AI hozzáadni pozitív oldalon? Mit várunk egyáltalán és azokat hogy lehet kivitelezni, milyen áron? Kell-e a nagyobb dinamika, ha vesztünk a tisztaságból? A zajmentesség sincs ingyen, stb.
-
Tasunkó
senior tag
A [Congress] jut eszembe az is ilyen beszkennelés mögötti hátteret dolgoz fel, de nem túl szórakoztató módon.
Kérek egy számot a jútútú. Európai macskakilátókő Nugáton a helyzet változatlan
-
ddekany
veterán
"1-2 fokkal érzékenyebb a fül, nem"
Mozgó kép és hang közt nem tudom mi alapján lehetne érzékenységet mérni. De én úgy tippelném, a mozgó kép előállítás nehezebb, mert sokkal többet kell hozzá érteni a világból. Nem mellékesen több adatot kell előállítani a videónál (avagy, a videó többet foglal mint a hang), szóval nagyobb sávszélesség. -
pengwin
addikt
A probléma nem is a tréning, hanem az, hogy a tréning eredményét minden egyes alkalommal pénzzé akarja tenni a másik cég.
Attól, hogy te valamit megnézhetsz YT-on, még nem töltheted le és posztolhatod egy saját videómegosztó oldalra ahol te keresel pénzt utána.Ez az egész pont ugyanolyan, mintha egy cég saját termékbe leforkolna egy nyílt projektet, majd a forkot zártan kezelné és terjesztené (láttam ere példát, egy elég nagy cég termékétől). És nem, nem MIT vagy hasonló licenc alatt volt a nyílt kód.
Üdv, pengwin
-
Reggie0
félisten
South Park S18E10 reszben ezt dolgozza fel, de szorakoztato modon
-
-
pengwin
addikt
Ez jogilag teljesen lényegtelen. Ennyi erővel nyugodtan lehetne szellemi tulajdont lopni, csak ügyesen kell könyvelni, hogy ne legyen belőle haszon.
Ha önállóan el akarják adni a végterméket akkor jogtalan a felhasználás, mert még félig-meddig sem tartozhat a jog által engedett reakció / homázs / kritika / karikatúra kategóriákba.
[ Szerkesztve ]
Üdv, pengwin
Új hozzászólás Aktív témák
- 206 gramm, 6550 mAh, 150 ezer forint
- AMD Ryzen 9 / 7 / 5 / 3 5***(X) "Zen 3" (AM4)
- Kupon kunyeráló
- Gépész 3D tervezőrendszerek
- AMD Navi Radeon™ RX 7xxx sorozat
- AMD vs. INTEL vs. NVIDIA
- WiFi-ben fejlődik a Galaxy S25, töltésben nem
- Autós topik
- OFF TOPIC 44 - Te mondd, hogy offtopic, a te hangod mélyebb!
- Huawei P50 Pro - emlékkép
- További aktív témák...
- Új Lenovo ThinkPad X13 G4 13.3" -50% AMD Ryzen 7 Pro 7840U 32GB 512GB FHD+ Radeon 780M
- Új MSI 17 Alpha QHD 240Hz Ryzen9 7945HX 16mag 16GB 512GB SSD Nvidia RTX 4070 8GB 140W Win11 Garancia
- Új MSI 17 Alpha QHD 240Hz Ryzen9 7945HX 16mag 16GB 1TB SSD Nvidia RTX 4060 8GB 140W Win11 Garancia
- Új Acer 17 Aspire 5 A517 FHD IPS i5-1135G7 4.2Ghz 8GB 1TB SSD Nvidia MX450 2GB Win11 Garancia
- Új Acer 17 Aspire 3 A317 FHD IPS i7-1165G7 4.7Ghz 16GB 512GB SSD Intel Iris XE Win11 Garancia
Állásajánlatok
Cég: Axon Labs Kft.
Város: Budapest
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest