Google Duplex

ഒരു കമ്പ്യൂട്ടർ നിങ്ങൾക്കുവേണ്ടി ഒരു ബാർബർ ഷോപ്പിലേക്കോ ഹോട്ടലിലേക്കോ ഫോൺ ചെയ്തു റിസർവേഷൻ എടുത്തുതരുന്ന കാലത്തെപ്പറ്റി നിങ്ങൾ ചിന്തിച്ചിട്ടുണ്ടോ? എങ്കിൽ അറിയുക, നാം അവിടെയെത്തിയെന്ന്! അതാണ് ഗൂഗിൾ ഡ്യൂപ്ളെക്സ് (Google Duplex) .

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സീരീസ് ഭാഗം- 5

AI രംഗത്തെ ഏറ്റവും പ്രധാനപ്പെട്ട നാഴികക്കല്ലുകളിലൊന്നിനാണ് നമ്മൾ ഇന്നലെ സാക്ഷ്യം വഹിച്ചത്. നമുക്കുവേണ്ടി ഫോൺ കാളുകൾ നടത്താനും അവിടെയുള്ളവരോട് സംസാരിക്കാനും കഴിയുന്ന AI സംവിധാനമായ Google Duplex ഇന്നലെ ഗൂഗിൾ അവതരിപ്പിച്ചു (വീഡിയോ കാണുക). Google assistant കുറെ കാലമായി നമ്മൾ കണ്ടിരുന്നതാണെങ്കിലും അതിനു ധാരാളം പരിമിതികളുണ്ടായിരുന്നു. അതിൽനിന്നൊക്കെ വളരെയധികം മുന്നോട്ടുപോയ ഒരു മനുഷ്യൻതന്നെയെന്നു തോന്നിപ്പിക്കുമാറ് നമ്മുടെ സംസാരത്തിലെ ചെറിയ കാര്യങ്ങൾ വരെ (ഇടക്കുള്ള pause, hmmm, err ശബ്ദങ്ങൾ) ഉൾപ്പെടുത്തിയാണ് ഈ AI സംവിധാനം സംസാരിക്കുന്നത്!

ഇന്നലത്തെ പരിപാടിയിൽ രണ്ടു ഉദാഹരണങ്ങളാണ് google അവതരിപ്പിച്ചത്. അതിൽ ആദ്യത്തേത് ഒരു ബാർബർ ഷോപ്പിൽ മുടിവെട്ടാൻ റിസേർവ് ചെയ്യുന്നതാണ്. ഇത്തരം ഒരു കോളിൽ എന്തൊക്കെ സംഭവിക്കുമെന്ന് മുൻകൂട്ടി അറിയുക സാധ്യമല്ല. ബാർബർ ഷോപ്പിൽ ഫോൺ എടുത്തയാൾ പറയുന്നതിനനുസരിച്ചു ബുദ്ധിപരമായി സ്വയം പ്രതികരിക്കാനുള്ള കൃത്രിമബുദ്ധിക്കുപിന്നിലെ സങ്കീർണതകൾ പലതാണ്. അതെല്ലാം കൃത്യമായി ഉൾക്കൊള്ളിച്ച് ബാർബർ ഷോപ്പിലെ ആൾക്ക് തന്നോട് സംസാരിക്കുന്നത് ഒരു മെഷീനാണെന്നു ഒരിക്കൽപോലും സംശയം തോന്നാത്ത രീതിയിലാണ് google duplex സംസാരിക്കുന്നത്!

രണ്ടാമത്തെ ഉദാഹരണം അതിലും ബുദ്ധിമുട്ടേറിയതായിരുന്നു. restaurant reservation ആണ് അതിൽ google duplex ചെയ്യുന്നത്. അതിൽ ഫോൺ എടുക്കുന്നതാകാട്ടെ ചൈനീസ് അക്‌സെന്റിൽ ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ആളും. അതോടൊപ്പം നാലുപേരിൽ താഴേ ഉള്ള ഗ്രൂപ്പിന് റിസർവേഷൻ പറ്റില്ല എന്ന് പറയുമ്പോൾ അതും AI മനസ്സിലാക്കുന്നുണ്ട്! ഇത്തരമൊരു സാഹചര്യമൊന്നും മുൻകൂട്ടി പഠിച്ച മാതൃകകളിൽനിന്നു പഠിച്ചെടുക്കാനായെന്നുവരില്ല. അവിടെയാണ് ഗൂഗിൾ എന്ന ബിഗ് ഡാറ്റ ഭീമൻ വികസിപ്പിച്ചെടുത്ത ഈ സംവിധാനം വേറിട്ടു നിൽക്കുന്നത്.

Google Duplex ഇൽ AI രംഗത്തെ ധാരാളം സാങ്കേതികവിദ്യകൾ ഉപയോഗിച്ചിട്ടുണ്ട്. ആദ്യം നമ്മൾ കൊടുക്കുന്ന ടാസ്ക് മനസിലാക്കണം. അതിനു automatic speech recognition (ASR) സാങ്കേതികവിദ്യയാണ് ഉപയോഗിക്കുന്നത്. നമ്മുടെ ശബ്ദത്തെ മൈക്രോഫോൺവച്ചു റെക്കോർഡ് ചെയ്ത്, അതിലെ വാക്കുകൾ കണ്ടുപിടിക്കുന്നതാണ് ASR. ഒരുതരത്തിൽ പറഞ്ഞാൽ speech-to-text. ഈ വാക്കുകളിൽനിന്നും അതിലെ അർഥം മനസിലാക്കണം. ഒരു ടാസ്ക് ആണെങ്കിൽ അതിലെ പ്രധാനവാക്കുകൾ (keywords) കണ്ടെത്തുകയാണ് ആദ്യപടി.

ഉദാഹരണത്തിന്, Book a dinner reservation for six people at ZamZam next Wednesday evening, എന്നാണു നമ്മൾ പറയുന്നതെങ്കിൽ ആ റെക്കോർഡിങ്ങിൽ നിന്നും ഈ വാക്കുകൾ ASR ഉപയോഗിച്ച് ആദ്യം കണ്ടെത്തും. എന്നിട്ടു keywords കണ്ടുപിടിക്കും.പ്രധാനമായും കണ്ടെത്തുന്നവ

what? : Book dinner

when? : Wednesday evening

where?: ZamZam

how many seats ? : six

ഇതിൽ നിന്നും വെബ് സെർച്ച് നടത്തി സംസമിലെ ഫോൺ നമ്പർ കണ്ടെത്തി ഫോൺ ചെയ്യുകയാണ് അടുത്തപടി. അവിടെ ഫോൺ എടുക്കുന്നയാൾ എങ്ങനെയാണ് പ്രതികരിക്കുകയെന്നു google duplex നു അറിയില്ലെന്നോർക്കണം. പിന്നീട് സംഭാഷണം നടക്കുകയാണ്. ഓരോ വാക്യങ്ങളും ASR ഉപയോഗിച്ചാണ് AI മനസിലാക്കുന്നത്. അതോടൊപ്പം നാച്ചുറൽ ലാംഗ്വേജ് അണ്ടർസ്റ്റാൻഡിങ് (NLU) എന്ന സങ്കേതവുമുപയോഗിച്ചെങ്കിലേ AI ക്കു സംഭാഷണം സാധ്യമാകൂ. അപ്പോൾ ഫോൺ എടുത്തയാളുടെ വാക്യങ്ങളുടെ ASR ഉം NLU ഉം ഉപയോഗിച്ച്, അടുത്തതായിപറയാനുള്ള മറുപടി text രൂപത്തിൽ ഉണ്ടാക്കപ്പെടുന്നു.

ഈ text നെ ശബ്ദങ്ങൾ (speech) ആക്കുകയാണ് അടുത്തപടി. ഇതിനു text-to-speech (TTS) എന്നാണു പറയുന്നത്. TTS ആണ് നമ്മുടെ സംസാരത്തിലെ അക്‌സെന്റ്, ഇടക്കുള്ള pause കൾ hmm,err പോലുള്ള ശബ്ദങ്ങൾ ഇടുന്നത്. ഒരു മെഷീന് അങ്ങനെ ശബ്ദങ്ങൾ ഉണ്ടാക്കണ്ടകാര്യമില്ല. പക്ഷെ അപ്പുറത്തു മഷിനോട്‌ സംസാരിക്കുന്നത് ഒരു മനുഷ്യനാണ്. തന്നോട് സംസാരിക്കുന്നത് ഒരു മെഷീൻ അല്ല, ഒരു മനുഷ്യൻ തന്നെയാണ് എന്നു തോന്നിപ്പിക്കാനാണ് ഇത്തരം ശബ്ദങ്ങൾ മനഃപൂർവം ഇടുന്നത്.

അപ്പോൾ Google Duplex എന്നാൽ ASR, NLU, TTS, web search integration എന്നീ അതിസങ്കീർണമായ AI സാങ്കേതികവിദ്യകളുടെ ആകെത്തുകയാണ്. ഗൂഗിളിന്റെ എതിരാളികളായ ആപ്പിൾ, ആമസോൺ, മൈക്രോസോഫ്ട് തുടങ്ങിയ കമ്പനികൾക്ക് വലിയൊരു വെല്ലുവിളിതന്നെയാണ് duplex.

അതോടൊപ്പം ധാരാളം ചോദ്യങ്ങളും ഇതുയർത്തുന്നുണ്ട്. ഒരു AI ആണ് തന്നോട് സംസാരിക്കുന്നതെന്ന് ഫോൺ എടുത്ത മനുഷ്യർക്ക്‌ മനസിലായിട്ടില്ല (ഒരു AI ക്കു ഇതു സാധ്യമായാൽ അത് Turing test പാസായി എന്നാണു പറയുക). അതുപറയാനുള്ള ഉത്തരവാദിത്വം ഗൂഗിളിനില്ലേ എന്നതാണ് പ്രധാനചോദ്യം. മറ്റുപല സ്വകാര്യതാപ്രശ്നങ്ങളും പലരും ഉയർത്തുന്നുണ്ട്‌.

എന്തൊക്കെയായാലും, AI രംഗത്തെ പ്രധാനപ്പെട്ട ഒരു മുന്നേറ്റമാണ് Google Duplex. മനുഷ്യൻ മറ്റുള്ളവരുമായി ബന്ധപ്പെടാൻ ഏറ്റവുമധികം ഉപയോഗിക്കുന്ന ഉപാധിയാണ് speech. അതിൽ ഇത്രവലിയൊരു മുന്നേറ്റമെന്നത് AI രംഗത്തുള്ളവർക്ക് വലിയ ഉണർവുതന്നെയാണ്. അതോടൊപ്പം അതുയർത്തുന്ന വെല്ലുവിളികളെ നാം എങ്ങനെ നേരിടുമെന്നും കാത്തിരുന്നു കാണാം.

Deepak Baby
Deepak Baby
Applied Scientist

My research interests include speech recognition, enhancement and deep learning.

comments powered by Disqus

Related