మన దగ్గర ఓ ఇమేజ్ ఉంది ఆర్ ఎవరిదైనా ఆడియో క్లిప్ ఉంది. ఈ ఇమేజ్ ఆ ఆడియో క్లిప్ మిక్స్ చేసి వాళ్లే మాట్లాడుతున్నట్లు క్రియేట్ చేస్తే.. కొంచెం డీప్ ఫేక్ టెక్నాలజీలో ఇలాంటివే జరుగుతున్నా.. ఇది వేరే. ఇదో ఎథికల్ ఏఐ టూల్. గూగుల్ ఈ AI ని డెవలప్ చేస్తోంది. దీనికి గూగుల్ పెట్టిన పేరు VLOGGER. అసలు దీని ఉపయోగాలు ఏంటీ ఎలా పనిచేస్తుందో ఈ వీడియోలో డీటైల్డ్ గా చూద్దాం.
మీ ఇంట్లో పాత పెట్టెల్లో మీ పూర్వీకులు ఫోటోలు ఉండి ఉంటాయి. మీరు వాటిని చూస్తూ అసలు వీళ్లు ఎలా బతికేవాళ్లు ఎలా మాట్లాడేవాళ్లు అని ఆలోచించారా. ఎప్పుడో కొన్ని ఏళ్ల క్రితం బతికి చనిపోయిన మన తాతలో ముత్తాతలో మనతో మాట్లాడితే ఎలా ఉంటుంది. థ్రిల్ వేరే లెవల్ ఉంటుంది కదా. ఇప్పుడు ఇదే కాన్సెప్ట్ ని కొంచెం టెక్నికల్ సైడ్ లో మాట్లాడుకుందాం. మన దగ్గర ఓ ఇమేజ్ ఉంది ఆర్ ఎవరిదైనా ఆడియో క్లిప్ ఉంది. ఈ ఇమేజ్ ఆ ఆడియో క్లిప్ మిక్స్ చేసి వాళ్లే మాట్లాడుతున్నట్లు క్రియేట్ చేస్తే..కంగారు పడకండి కొంచెం డీప్ ఫేక్ టెక్నాలజీలో ఇలాంటివే జరుగుతున్నా..ఇది వేరే. ఇదో ఎథికల్ ఏఐ టూల్. గూగుల్ ఈ AI ని డెవలప్ చేస్తోంది. దీనికి గూగుల్ పెట్టిన పేరు VLOGGER. VLOGGER టెక్ట్స్ అండ్ ఆడియా డ్రివెన్ AI టూల్. అసలు దీని ఉపయోగాలు ఏంటీ ఎలా పనిచేస్తుందో ఈ వీడియోలో డీటైల్డ్ గా చూద్దాం.
1. Liveliness
ఈ వ్లాగర్ ఫోటలకు లైవ్లీనెస్ తీసుకువస్తుంది. అంటే ఫోటో ఆధారంగా ఎక్స్ ప్రెషన్స్ ను జాగ్రత్తగా యానిమేట్ చేసుకుని ఫోటోలో ఉన్న వ్యక్తి మాట్లాడితే ఎలా ఉంటుందో పర్ముటేషన్స్ అండ్ కాంబినేషన్స్ లో నెంబర్ ఆఫ్ అవుట్ పుట్స్ ఇస్తుంది. వీటిలో చాలా వరకూ ఎంత నేచురల్ గా ఉంటాయి అంటే నిజంగా వాళ్లే మాట్లాడుతున్న ఫీలింగ్ కలుగుతుంది.
2. Temporal Diffusion
అంటే మనం ఇచ్చిన రిఫరెన్స్ ఇమేజ్ తీసుకుని దానికి 3D మోషన్ జనరేషన్ చేస్తుంది. ఆడియో ఇస్తే ఫ్రేమ్స్ గా, ఫోటోను వీడియో బాడీ కంట్రోల్స్ గా మార్చుకుని రెండింటినీ కలిపి ఓ టెంపోరల్ డిఫ్యూజన్ చేసుకుంటుంది. ఆ తర్వాత దాన్ని సూపర్ రిసొల్యూషన్ జెనరేటెడ్ వీడియో గా కన్వర్ట్ చేసుకుంటుంది. సింపుల్ గా చెప్పాలంటే ఆడియో లో పిచెస్ ఆధారంగా కన్ను ఎలా కదపొచ్చు..పెదాల మూమెంట్ ఎలా ఉండొచ్చు అనేది ఓ కొరియోగ్రఫీలా డిజైన్ చేసుకుంటుని మంచి వీడియో అవుట్ పుట్ ఇస్తుందన్నమాట.
మరి వ్లాగర్ టూల్ వల్ల ఎలాంటి మార్పులు వస్తాయి.
1. ఫొటో నుంచి వీడియోలు (Image to Video)
ఇకపై ఇమేజ్ మాత్రమే ఉందని ఆలోచించక్కర్లేదు. కావాలనుకుంటే ఇమేజ్ ని సింపుల్ గా వీడియోగా మార్చేసుకోవచ్చు. ఒక్క ఫోటోనే ఉన్నా చాలు మీరు ఊహించనలేనన్ని ఎక్స్ ప్రెషన్స్ ను మీకు అందుబాటులోకి తీసుకువచ్చి ఫలితంగా మీరే ఆశ్చర్యపోయేలా ఓ వీడియో తయారు చేస్తుంది.
2. వీడియోలో మాటల్ని మీ భాషలోకి అనువాదం (Video Translation)
మీరు వీడియోలో ఇంగ్లీష్ మాట్లాడినా దాన్ని మీకు కావాల్సిన బాషలోకి మార్చుకోవచ్చు. అంటే మీ దగ్గర ఇంగ్లీష్ లో మాట్లాడిన వీడియో ఉన్నా దాన్ని కావాలనుకుంటే తెలుగులోకి కన్వర్ట్ చేసుకోవచ్చు. అది కూడా ఎలా ఉంటుందంటే ఫర్ ఫెక్ట్ లిప్ సింక్ ఉండి నిజంగా తెలుగులోనే మాట్లాడుతున్నారా అనిపించేలా అవుట్ పుట్ ఉంటుంది.
3. కోరుకున్నట్లుగా వీడియోలో మార్పులు (Video Editing)
ఈ టూల్ ద్వారా బేసిక్ వీడియో ఎడిటింగ్ కూడా చేసుకోవచ్చు. అంటే మీరు మాట్లాడేప్పుడు ఎక్కువగా కళ్లు మూస్తున్నారు అనుకోండి. నాకు కళ్లు మూసుకోకుండా అన్ని రెప్పలు ఆర్పకుండా నేరుగా చూస్తున్నట్లు వీడియో మాట్లాడుతున్నట్లు కావాలంటే అలా మార్చి ఇస్తుంది. నవ్వుతున్నట్లు, బాధగా చెబుతున్నట్లు మనకు ఏ రకమైన ఎక్స్ ప్రెషన్ కావాలన్నా ఆ రకమైన ఎక్స్ ప్రెషన్ తో వీడియోను ఎడిట్ చేసి ఇస్తుంది.
Final గా రిజల్ట్ చూస్తే.. కొన్ని చాలా బాగున్నాయి కొన్ని కొంచెం క్రీపీగా కూడా ఉన్నాయి. ఆడియోను పర్పెక్ట్ గా లిప్ మూమెంట్ మ్యాచ్ చేయటం ఇందులో మంచి విషయం. హెడ్ ను పైకి కిందకి కదపటం టిల్ట్ చేయటం లాంటివి చాలా బాగా వర్కవుట్ అవుతున్నాయి.
నెగటివ్స్ విషయానికి వస్తే కొన్ని ఎక్స్ ప్రెషన్స్ కొంచెం రోబోటిక్ గా అనిపిస్తున్నాయి. ఇప్పటికి ఇవి ఉన్నా ఫ్యూచర్ లో ఈ ఫోటో, వీడియో సెక్షన్స్ ని VLOGGER AI చాలా ఇంపాక్ట్ చేయొచ్చని టెక్నోక్రాట్స్ అభిప్రాయపడుతున్నారు. ఆ పర్సన్ ది ఒక్క ఫోటో ఉంటే చాలు దాంతో సినిమానే తీసేయొచ్చన్నమాట.