മെഷീൻ ലേണിങ്/ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സീരീസ്

കേംബ്രിഡ്ജ് അനാലിറ്റിക്കയും അതുവഴി ഫേസ്ബുക് പിടിച്ച പുലിവാലുമൊക്കെ എല്ലാവരും അറിഞ്ഞിരിക്കുമല്ലോ. ഉപയോക്താക്കളുടെ വിവരങ്ങൾ ചോർത്തി, ആ വിവരങ്ങൾ ഉപയോഗിച്ച് നമ്മുടെ ചിന്തകളെ സ്വാധീനിക്കുന്ന തരം പോസ്റ്റുകൾ നമ്മുടെ ന്യൂസ് ഫീഡിലേക്ക് കടത്തിവിടുകയാണ് കേംബ്രിഡ്ജ് അനാലിറ്റിക്ക ചെയ്തതെന്നും പലരും വായിച്ചിരിക്കും. എന്നാൽ എങ്ങനെയാണ് ഒരാളുടെ വിവരങ്ങളിൽ നിന്നും ഇതെല്ലാം മനസിലാക്കി, എന്തുതരം പോസ്റ്റുകൾ ഇടണം എന്ന തീരുമാനം എടുക്കുന്നതെന്നു പലർക്കും മനസിലായിട്ടുണ്ടാവില്ല. ഇത്രയധികം ഉപയോക്താക്കളുടെ ഡാറ്റ പരിശോധിച്ച് അവരുടെ അഭിരുചികൾ മനസിലാക്കി കൃത്യമായ പോസ്റ്റുകൾ കടത്തിവിടാൻ ഒരു മനുഷ്യനെക്കൊണ്ടു സാധിക്കില്ലെന്നുറപ്പ്. അപ്പോൾ പിന്നെ അത് കമ്പ്യൂട്ടർ തന്നെ.

എന്നാലും കമ്പ്യൂട്ടർ ഒരു മെഷിനല്ലേ. അതിനു ഇത്തരത്തിലൊരു കഴിവുണ്ടോ ? കംപ്യൂട്ടറുകൾ സത്യത്തിൽ വെറും മണ്ടന്മാരാണ്. അതിനു ആകെക്കൂടെ കുറെ സംഖ്യകളെ കൂട്ടാനും കുറക്കാനും ഗുണിക്കാനും ഹരിക്കാനും അറിയാം.. നമ്മൾ മനുഷ്യരെപോലെ പഞ്ചേന്ദ്രിയങ്ങളോ അവയിൽനിന്നു വരുന്ന വിവരങ്ങളെ ഏകോപിപ്പിക്കുന്ന ഒരു തലച്ചോറോ ഇല്ല. നമ്മുടെ വിവരങ്ങളെല്ലാം കമ്പ്യൂട്ടറുകൾ കാണുന്നത് സംഖ്യകൾ ആയിട്ടാണ്. എല്ലാവര്ക്കും ബൈനറി നമ്പർ സിസ്റ്റം അറിയാമെന്നു കരുതുന്നു. കമ്പ്യൂട്ടറിൽ എല്ലാം 1 അല്ലെങ്കിൽ 0 ആയിട്ടാണ് എല്ലാം ശേഖരിച്ചുവച്ചിരിക്കുന്നത്. ഇങ്ങനെയുള്ള കുറെ ഒന്നുകളിൽ നിന്നും പൂജ്യങ്ങളിൽ നിന്നും കമ്പ്യൂട്ടറിനെ ഒരു തീരുമാനം എടുക്കാൻ പഠിപ്പിക്കുന്ന ശാസ്ത്രശാഖയാണ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് അഥവാ മെഷീൻ ലേർണിംഗ്.

ഉദാഹരണത്തിന്, നിങ്ങൾ ഫേസ്ബുക്കിൽ ഒരു ഫോട്ടോ ഇടുമ്പോൾ ഉടനെ ടാഗ് ചെയ്യാനുള്ള ഓപ്‌ഷൻസ് വരും. നിങ്ങളുടെയും നിങ്ങളുടെ സുഹൃത്തുക്കളുടെയും ഒക്കെ സജഷൻസ് വരും. ആദ്യമൊക്കെ ഇത്തരം സജഷൻസ് തെറ്റായിരിക്കും. നിങ്ങൾ അത് ശരിയാക്കുമ്പോൾ ഫേസ്ബുക്കിന് നിങ്ങളുടെ മുഖമുള്ള ഒരു ഫോട്ടോ കിട്ടും. ഓരോ തവണ പുതിയ ഫോട്ടോ ഇടുംതോറും സജഷൻസ് മെച്ചപ്പെടും. കാരണം നിങ്ങളുടെ പല പോസിൽ പല ആംഗിളുകളിലുള്ള ഫോട്ടോകൾ ഫേസ്ബുക്കിന് അല്ലെങ്കിൽ ഫേസ്ബുക് മെഷിനു അറിയാം. ഈ ഫോട്ടോകൾ വച്ച് ഇത് നിങ്ങളുടെ ഫോട്ടോയാണെന്നു പറഞ്ഞു മെഷിനെ പഠിപ്പിക്കുകയാണ് ചെയ്യുന്നത്. ഒരു കുഞ്ഞിനെ ഒരു പൂവുകാണിച്ചു അത് പൂവാണെന്നു പറഞ്ഞു പഠിപ്പിക്കുന്നതുപോലെ. ഇതിനു ട്രെയിനിങ് എന്ന് പറയും. നമ്മൾ അപ്ലോഡ് ചെയ്യുന്ന ഓരോ ഫോട്ടോയും ട്രെയിനിങ് എക്‌സാംപിളുകളാണ്. നമ്മൾ കൊടുക്കുന്ന ടാഗിംഗ് ഇൻഫർമേഷൻ ആണ് ഫേസ്ബുക് അത് ആരുടെയാണെന്നു തിരിച്ചറിയാൻ ഉപയോഗിക്കുന്നത്.. അതിനെ നമ്മൾ ലേബലിംഗ് എന്ന് വിളിക്കും. ഇത്തരത്തിൽ ലേബൽ ചെയ്യപ്പെട്ടിട്ടുള്ള ട്രെയിനിങ് ഡാറ്റായാണ് മെഷിൻ ലേർണിംഗിനു ആവശ്യം വേണ്ടത്.

മുകളിൽ പറഞ്ഞത് മെഷീൻ ലേണിങിന്റെ ഏറ്റവും സിമ്പിൾ ആയ ഒരുദാഹരണമാണ്. പണ്ടൊക്കെ സയൻസ് ഫിക്ഷൻ സിനിമകളിൽ മാത്രം കണ്ടുശീലിച്ചിരുന്ന പലതും ചെയ്യാൻ ഇന്ന് മെഷിനുകൾ പ്രാപ്തരാണ്. നമുക്കിന്നു മഷിനുകളോട് സംസാരിക്കാം (automatic speech recognition), നമ്മുടെ ചിത്രങ്ങൾ വേർതിരിക്കാം (image classification), വിവിധ ഭാഷകൾ translate ചെയ്യാം (machine translation), എന്തിന്, നമ്മളോട് ചാറ്റ് ചെയ്യാൻ പോലും ഉപയോഗിക്കാം (chat bots). ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ഉപയോഗിച്ചു കമ്പ്യൂട്ടറിനു സ്വന്തമായി ചിത്രം വരക്കാനും സംഗീതം ഉണ്ടാക്കാനുമെല്ലാം കഴിയും. സോഷ്യൽ മീഡിയകളും സ്മാർട്ഫോണുകളും മെച്ചപ്പെട്ട സാങ്കേതികവിദ്യകളുമെല്ലാം ഇന്നത്തെ ഈ വളർച്ചക്കുപിന്നിലുണ്ട്.

അപ്പോൾ നല്ല കൃത്രിമബുദ്ധിയുണ്ടാക്കാൻ വേണ്ടത് ഡാറ്റയാണ്. കൃത്യമായ ലേബലിംഗ് ഉള്ള നല്ല ട്രെയിനിങ് ഡാറ്റ. ഡാറ്റയുള്ളവനാണ് രാജാവ്. മനുഷ്യർ മണിക്കൂറുകളോളം എടുത്തുചെയ്തിരുന്ന പലജോലികളും ഇന്ന് കമ്പ്യൂട്ടറുകൾ അതിവേഗം ഏറ്റെടുത്തുകൊണ്ടിരിക്കുകയാണ്. മെഷിൻ ലേർണിംഗ് അഥവാ ബിഗ് ഡാറ്റ അഥവാ ഡാറ്റ സയൻസ് ഇന്ന് ഏറ്റവും ഡിമാന്റുള്ള ഫീൽഡുകളിലൊന്നാണ്. ഇന്ത്യയിൽ ഈ ഏരിയായിൽ അധികം ഗവേഷണമൊന്നും നടക്കുന്നില്ല. പക്ഷേ ഓൺലൈനിൽ ധാരാളം കോഴ്‌സുകളും മെഷീൻ ലേർണിംഗ് ഉദാഹരണങ്ങളും ലഭ്യമാണ്. എഞ്ചിനീയറിംഗ് രംഗത്ത്, പ്രത്യേകിച്ച് ഇലെക്ട്രിക്കൽ, കമ്പ്യൂട്ടർ സയൻസ്, ഇൻഫർമേഷൻ ടെക്നോളജി, മാത്തമാറ്റിക്സ്, ഫിസിക്സ് മേഖലയിലുള്ളവർ അത്യാവശ്യമായി അറിഞ്ഞിരിക്കേണ്ട ഒന്നാണ് ഡാറ്റാ സയൻസ്. വലിയ കമ്പനികളെല്ലാം ഒന്നിനുപുറകെ ഒന്നായി കോടികളാണ് ഈ മേഖലയിൽ ഇൻവെസ്റ്റ് ചെയ്യുന്നത്. അതിനാൽത്തന്നെ ഡാറ്റ സയന്റിസ്റ്റുകൾക്കു നല്ല ഡിമാൻഡാണ്.

നമ്മുടെ ഡാറ്റകളെല്ലാം സംഖ്യകളായി മാത്രം കാണുന്ന, സ്വന്തമായി യാതൊരു ബുദ്ധിയുമില്ലാത്ത കംപ്യുട്ടറുകൾക്ക് ഇത്തരം കൃത്രിമബുദ്ധി ഉണ്ടാക്കുന്നതിനുപിന്നിൽ ഗണിതശാസ്ത്രത്തിലെ തീർത്തും സങ്കീർണമായ പല തത്വങ്ങളും ഉപയോഗിച്ചിട്ടുണ്ട്. ഇത്തരം സാങ്കേതികവിദ്യകളെ കഴിയുന്നതും ലളിതമായി അവതരിപ്പിക്കാൻ ശ്രമിക്കുകയാണ് ഈ സീരിസിൽ.
ധാരാളം ഗണിതവും ടെക്നിക്കൽ വാക്കുകളുമെല്ലാമുള്ള ഒരു മേഖലയെ മലയാളത്തിൽ ലളിതമായി അവതരിപ്പിക്കുക എന്നത് എളുപ്പമല്ല. ജോലിക്കിടയിലാണ് എഴുതാൻ സമയം കണ്ടെത്തുന്നത്. ആഴ്ചയിൽ ഒരെണ്ണമെങ്കിലും വച്ച് എഴുതാനാണു ശ്രമിക്കുന്നത്. എഴുത്തിലും തിരുത്തിലും ചിലരുടെ സഹായവും പ്രതീക്ഷിക്കുന്നുണ്ട്. ഈ സീരീസിലേക്കു എഴുതാൻ താല്പര്യമുള്ള ഗ്രൂപ്പ് മെമ്പേഴ്സിന്റെയും സഹകരണം പ്രതീക്ഷിക്കുന്നു. !

ഇപ്പോൾ നിലവിലുള്ള ടെക്‌നിക്കുകളെ പരിചയപ്പെടുത്തുകയും കൂടുതൽ അറിയാൻ താല്പര്യമുള്ളവർക്ക് അതിനുപിന്നിലുള്ള ഗണിതവും (ലളിതമാക്കാൻ ശ്രമിക്കാം) ചെറുതായി വിവരിക്കാനാണ് ഉദ്ദേശിക്കുന്നത്.

അപ്പോൾ അടുത്ത പോസ്റ്റിൽ അല്പം ചരിത്രമാവാം. താല്പര്യമുള്ളവർക്ക് ചെയ്യാൻ പറ്റിയ ഓൺലൈൻ കോഴ്‌സുകളും പ്രോഗ്രാമിങിന് സഹായിക്കുന്ന ടൂൾകിറ്റുകളുമെല്ലാം വഴിയേ പരിചയപ്പെടുത്താം.

Deepak Baby
Deepak Baby
Applied Scientist

My research interests include speech recognition, enhancement and deep learning.

comments powered by Disqus

Related