മലയാളഭാഷയും സാങ്കേതികവിദ്യയും
സിദ്ധാന്തങ്ങളും സാങ്കേതികവിദ്യയും അടിസ്ഥാനമാക്കി മനുഷ്യഭാഷയെ
മനസ്സിലാക്കാൻ കമ്പ്യൂട്ടറിനെ പ്രാപ്തമാക്കുന്നതിന്റെ ഭാഗമായി ഭാഷയെ
വിശകലനം ചെയ്യുന്ന പദ്ധതിയാണ് സ്വാഭാവികഭാഷാസംസ്കരണം അഥവാ നാച്വറൽ
ലാംഗ്വേജ് പ്രോസസ്സിങ് (എൻ.എൽ.പി). മനുഷ്യഭാഷാസംസ്കരണത്തിനായി
കമ്പ്യൂട്ടേഷണൽ മാതൃകകളുടെ വികസനം സാധ്യമാകുന്നത് എൻ.എൽ.പിയിലൂടെയാണ്.
ധാരാളം ഭാഷാപരമായ നിയമങ്ങളും സ്റ്റാറ്റിസ്റ്റിക്കൽ രീതികളും ഇതിനായി
ഉപയുക്തമാക്കുന്നു. കമ്പ്യൂട്ടറുകളും മനുഷ്യഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകൾ
ഇത് അനായാസമാക്കുന്നു. വലിയ അളവിൽ സ്വാഭാവികഭാഷാ ഡാറ്റസംസ്കരണത്തിനും
വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ ഫലപ്രദമായ രീതിയിൽ പ്രോഗ്രാം
ചെയ്യാൻ എൻ.എൽ.പി വളരെയധികം സഹായിക്കുന്നു.
''സ്വാഭാവികഭാഷാസംസ്കരണം ഒരു ആധുനിക കമ്പ്യൂട്ടേഷണൽ ടെക്നോളജി എന്നതിലുപരി
മനുഷ്യഭാഷയുടെ സവിശേഷതകൾ അന്വേഷിക്കുകയും വിലയിരുത്തുകയും ചെയ്യുന്ന ഒരു
മേഖലയാണ്. സ്വാഭാവികഭാഷയിലെ പാഠമോ സംഭാഷണമോ സംസ്കരിച്ചു
മനസ്സിലാക്കിന്നതിനും കൈകാര്യം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകൾ എങ്ങനെ
ഉപയോഗിക്കാം, അത് പ്രായോഗികതലത്തിൽ ഫലപ്രദമാക്കി വ്യത്യസ്ത ടൂളുകൾ എങ്ങനെ
നിർമ്മിക്കാം എന്നു വിശകലനം ചെയ്യുന്ന ഗവേഷണമേഖലയാണിത്. മനുഷ്യൻ ഭാഷ എങ്ങനെ
മനസ്സിലാക്കുകയും പ്രയോഗിക്കുകയും ചെയ്യുന്നു എന്നതിനെക്കുറിച്ചുള്ള അറിവു
ശേഖരിച്ച് അതേ മാതൃകയിൽ കമ്പ്യൂട്ടർ സിസ്റ്റത്തിന് ഭാഷ മനസ്സിലാക്കാനും
അർത്ഥപൂർണമായ ഭാഷ കൈകാര്യം ചെയ്യാനും ആവശ്യമായ ഉപകരണങ്ങളും
സാങ്കേതികവിദ്യകളും വികസിപ്പിക്കുക എന്നതിനാണ് എൻ.എൽ.പി ലക്ഷ്യമിടുന്നത്.''
ഭാഷാശാസ്ത്രം, കമ്പ്യൂട്ടർ സയൻസ്, ഇൻഫർമേഷൻ എൻജിനീയറിങ്, കൃത്രിമബുദ്ധി
(artificial intelligence), ഗണിതം, ഇലക്ട്രിക്കൽ ആന്റ് ഇലക്ട്രോണിക്സ്
എൻജിനീയറിങ്, റോബോട്ടിക്സ്, സൈക്കോളജി തുടങ്ങിയ ശാഖകൾ ഉൾക്കൊണ്ട എൻ.എൽ.പി.
ഒരു അന്തർവൈജ്ഞാനികമേഖലയാണ്. എൻ.എൽ.പി യുടെ ചില പ്രയോഗമേഖലകളാണ്
(application) യന്ത്രവിവർത്തനം (machine Translation), സംഗ്രഹരൂപവത്കരണം
(Automatic summarization), വിവരണശേഖരണം (Information
Retrivel/Extraction), പാഠം ലളിതമാക്കാൻ, ചോദ്യോത്തരങ്ങൾ (question
answering), ഭാവാപഗ്രഥനം (Sentiment Analysis), ഭാഷണാഭിജ്ഞാനം (Automatic
Speech Recognition), നാമം തിരിച്ചറിയൽ (Name Equity Recognition),
പദാർത്ഥസന്ദേഹനിരാസം (Word Sense Disambiguation), വിവരസംസ്കരണം
(Information Processing), വ്യാകരണാപഗ്രഥനം (Parsing),
സ്വാഭാവികഭാഷാപാഠസംസ്കരണം (Natural language Text Processing and
Summarization), യൂസർ ഇന്റർഫേസുകൾ (User Intetrface), പല ഭാഷാവിഭവസമാഹരണം
(Cross Language Information Retrieval - CLIR) തുടങ്ങിയവയാണ്.
സ്വാഭാവികഭാഷാസംസ്കരണപ്രക്രിയയിലെ വ്യത്യസ്തതലങ്ങളാണ് രൂപാപഗ്രഥനം
(Morphological analysis), വാക്യഘടനാപഗ്രഥനം (Semantic Analysis),
വ്യവഹാരാപഗ്രഥനം (Discourse Integration), പ്രകരണപരമായ അപഗ്രഥനം എന്നിവ.
സ്വാഭാവികഭാഷാസംസ്കരണം സന്ദിഗ്ധതകൾ നിറഞ്ഞതാണ്. ഭാഷണവിഭാഗാനുബന്ധനം (Parts
of speech tagging) സ്വാഭാവികഭാഷാ സംസ്കരണത്തിന്റെ കോശീയമായ (Lexical)
തലത്തിലുള്ള സന്ദിഗ്ധതകളെ ഇല്ലാതാക്കുന്ന സാങ്കേതികപദ്ധതിയാണ്.
വാക്കുകളെയും അതിന്റെ പരിസരത്തെയുംകുറിച്ച് വൻതോതിലുള്ള വിവരങ്ങൾ നല്കുക
എന്നതാണ് ഭാഷാസംസ്കരണപ്രക്രിയയിൽ പി.ഒ.എസ്സിന്റെ പ്രാധാന്യം.
സ്വാഭാവികഭാഷാസംസ്കരണത്തിന്റെ (NLP) പ്രയോഗമേഖലകളിലെ പ്രധാനപ്പെട്ട ഒരു
ഉപകരണമാണ് (tool) ആണ് പി.ഒ.എസ്സ് ടാഗിങ്ങ്. ധാരാളം എൻ.എൽ.പി.
ആപ്ലിക്കേഷനുകളുടെ കൃത്യത പി.ഒ.എസ്സ് ടാഗ്ഗറിന്റെ കൃത്യതയും സൂക്ഷ്മതയുമായി
ബന്ധപ്പെട്ടുകിടക്കുന്നു.
വാക്കുകളെ വിവിധ ക്ലാസ്സുകളായി തിരിച്ചിരിക്കുന്നു. വ്യാകരണ ടാഗിങ്
(Grammatical tagging) എന്നു വിളിക്കപ്പെടുന്ന പി.ഒ.എസ്സ് ടാഗിങ് (POST)
സംഭാഷണത്തിന്റെ ഭാഗങ്ങളായ നാമം, ക്രിയ, നാമവിശേഷണം, ക്രിയാവിശേഷണം, മുൻഗണന,
സംയോജനം മുതലായവയെ ഒരു വാക്യത്തിലെ ഓരോ പദത്തിലും അടയാളപ്പെടുത്തുന്ന
പ്രക്രിയയാണ്. ''ശേഖരിക്കപ്പെട്ടു ദത്തശേഖരം അഥവാ കോർപ്പസിലെ പദങ്ങൾക്ക്
കുറിപ്പുകളുടെ രൂപത്തിൽ വ്യാഖ്യാനങ്ങൾ നല്കുന്ന രീതിയെയാണ് അനോട്ടേഷൻ എന്നു
പറയുന്നത്. പദങ്ങളെ അനോട്ടേറ്റു ചെയ്യുന്നത് നാമം, ക്രിയ, വിശേഷണം
എന്നിങ്ങനെ ഭാഷണവിഭാഗങ്ങളുടെ അടിസ്ഥാനത്തിലാണെങ്കിൽ അതിനെ
ഭാഷണവിഭാഗാനുബന്ധനം അഥവാ പി.ഒ.എസ്സ് ടാഗിങ് എന്നു പറയുന്നു. തന്നിരിക്കുന്ന
വാക്യത്തിന്റെ സന്ദർഭാനുസരണമാണ് ഭാഷണവിഭാഗം അടയാളപ്പെടുത്തേണ്ടത്. ഒരു
സവിശേഷ ഭാഗത്തിന് അനുസൃതമായി ഒരു വാക്യത്തിൽ ഒരു വാക്ക്
അടയാളപ്പെടുത്തുമ്പോൾ അതിന്റെ നിർവ്വചനത്തെയും, സന്ദർഭത്തെയും
അടിസ്ഥാനമാക്കി ഒരു വാക്യം അല്ലെങ്കിൽ ഖണ്ഡികയിലെ അടുത്തുള്ളതും
ബന്ധപ്പെട്ടതുമായ വാക്കുകളുമായുള്ള പാരസ്പര്യത്തെക്കൂടി ഈ ടാഗിങ്
അടയാളപ്പെടുത്തുന്നു. ഒരു വാക്യത്തിലെ ഓരോ വാക്കിന്റെയും സൂക്ഷ്മമായ അർത്ഥം
കണ്ടെത്തുക എന്നത് പി.ഒ.എസ്സ്. ടാഗിങ് നേരിടുന്ന ഏറ്റവും വലിയ
വെല്ലുവിളിയാണ്.
മലയാളത്തിൽ നാനാർത്ഥങ്ങൾ ധാരാളമുണ്ട്. അതായത്, വിവിധ സന്ദർഭങ്ങളിൽ
വ്യത്യസ്തമായ അർത്ഥങ്ങൾ സൂചിപ്പിക്കുന്ന ധാരാളം വാക്കുകൾ നിലവിലുണ്ട്.
നിർദ്ദിഷ്ടസന്ദർഭത്തിൽ വ്യക്തമല്ലാത്ത വാക്കുകളുടെ ശരിയായ അർത്ഥത്തെ
നിർണ്ണയിക്കുന്ന പദാർത്ഥസന്ദേഹനിരാസം (Word Sense disambiguation)
ഉപയോഗിച്ച് പി.ഒ.എസ്സ് ടാഗിങ് നേരിടുന്ന അർത്ഥസന്ദിഗ്ധതയെ
ദൂരീകരിക്കാവുന്നതാണ്. ഒരു പദത്തിന് പി.ഒ.എസ്സ് ടാഗിങ് ഉപയോഗിച്ച് നാമം,
ക്രിയ, വിശേഷണം തുടങ്ങിയവ നിയോഗിക്കുമ്പോൾ ഈ അർത്ഥസന്ദിഗ്ധതകൾ
പദാർത്ഥസന്ദേഹനിരാസപ്രക്രിയയിലൂടെ ഒഴിവാക്കുന്നത് അത്യന്താപേക്ഷിതമാണ്.
മലയാളം ഒരു സംശ്ലിഷ്ടഭാഷ ആയതിനാൽ ഡബ്ലൂ.എസ്.സി. (Word sense
Disambiguation) ഒരു സങ്കീർണ്ണപ്രശ്നമായി പരിഗണിക്കപ്പെടുന്നു.
സന്ദർഭാനുസരണം ഒരു വാക്കിന്റെ അർത്ഥം മനസ്സിലാക്കാൻ മനുഷ്യന് അവന്റെ
ഭാഷാജ്ഞാനം മതിയാകും. എന്നാൽ കമ്പ്യൂട്ടറിന് അതിനുള്ള കഴിവില്ല.
യന്ത്രങ്ങൾ നിർദ്ദേശങ്ങളനുസരിച്ചുമാത്രം പ്രവർത്തിക്കുന്നതിനാൽ
ഇത്തരത്തിലുള്ള പ്രവൃത്തികൾക്ക് സാങ്കേതികവിദ്യകളും നിയമങ്ങളും
വികസിപ്പിക്കേണ്ടതായുണ്ട്. ഒരു സന്ദിഗ്ധാർത്ഥപദത്തിന്റെ കൃത്യമായ അർത്ഥം
സാന്ദർഭികമായി കണ്ടെത്തുന്നതിനുള്ള സാങ്കേതികതയാണ് പദാർത്ഥസന്ദേഹനിരാസം.
ഉദാഹരണത്തിന് 'ബാസ്സ്' (bass) എന്ന വാക്ക് നോക്കുക. മൂന്നുവ്യത്യസ്തമായ
അർത്ഥങ്ങൾ അതിനുണ്ട്. ഒരു മത്സ്യം, കുറഞ്ഞ ആവൃത്തി (frequency)യിലുള്ള
സ്വരഭേദം (tone), ഒരു വാദ്യോപകരണം. ഇത്തരം അർത്ഥസന്ദിഗ്ധപദങ്ങൾക്ക്
അൽഗോരിതങ്ങൾ വികസിപ്പിക്കുന്നത് സങ്കീർണ്ണമായ ഒരു നടപടിയാണ്. ഡബ്ലൂ.എസ്.ഡി.
പ്രക്രിയ ഇതിനെ ലഘൂകരിക്കും. ഇതിനു സമാനമായ ഒന്നാണ് പി.ഒ.എസ്സ് ടാഗിങ്.
നാമമായും ക്രിയയായും പ്രവർത്തിക്കുന്ന പദങ്ങളെ സന്ദർഭാധിഷ്ഠിതമായി അർത്ഥം
നിർണ്ണയിക്കാൻ ഈ ടാഗിംഗ് സഹായിക്കും ഉദാഹരണമായി 'ഓട്' 'ആൽ' എന്നീ പദങ്ങൾ
നോക്കുക. ഇവ ഒരേ സമയം നാമമായും ക്രിയയായും വർത്തിക്കുന്നു. 'ഓട്' എന്നതിന്
വീടിന് മേൽക്കൂരയായി ഉപയോഗിക്കുന്ന വസ്തു (നാമം) 'ഓടുക' (ക്രിയ) എന്നിങ്ങനെ
അർത്ഥം കല്പിക്കാം. സംയോജികാവിഭക്തിയുടെ പ്രത്യയവുമാണ് 'ഓട്' (ഓട്
സംയോജികാ സാക്ഷി). ഇതേപോലെ 'ആൽ' ഒരു മരമാണ് (നാമം), അതേസമയം ഒരു
വിഭക്തിപ്രത്യയവുമാണ് (ആൽ പ്രയോജികയാം ഹേതു). ഇവയെല്ലാം വേർതിരിക്കാനും
സന്നിവേശിപ്പിക്കാനും പാകത്തിലുളള അൽഗോരിതങ്ങൾ പി.ഒ.എസ്സ്. ടാഗിങ്ങിലും
ഡബ്ലൂ.എസ്.ഡി യിലും ഉണ്ടാകേണ്ടത് അനിവാര്യമാണ്. പദാർത്ഥസന്ദേഹനിരാസം എന്ന
സാങ്കേതികതയെ കാവ്യശാസ്ത്രത്തിലെ ശബ്ദവ്യാപാരം, ധ്വനി, വക്രോക്തി എന്നീ
സങ്കല്പങ്ങളുമായി കൂട്ടിച്ചേർത്തു വായിക്കാവുന്നതാണ്. അതിനാൽ ഭാഷയിലെ ഈ
ശബ്ദാർത്ഥവ്യാപ്തിയുടെ തലങ്ങളിലേക്ക് ഇത്തരം സാങ്കേതികതയെ
വികസിപ്പിക്കേണ്ടതുണ്ട്.
ദ്രാവിഡകുടുംബത്തിലെ ഭാഷയാണ് മലയാളം. ''ലോകഭാഷകളെ
നിശ്ചിതപദക്രമമുള്ളവയെന്നും സ്വതന്ത്രപദക്രമമുള്ളവയെന്നും രണ്ടായി
വേർതിരിച്ചിരിക്കുന്നു. ഇംഗ്ലീഷ് നിശ്ചിതപദക്രമമുള്ള ഒരു ഭാഷയാണ്. എന്നാൽ
സംസ്കൃതഭാഷയ്ക്ക് ഒരു വാക്യത്തിലെ പദങ്ങൾക്ക് കൃത്യമായ പദക്രമം
നിർബന്ധമില്ല. മലയാളവും അത്തരത്തിലുള്ള ഭാഷയാണ്. മലയാളം
സംശ്ലിഷ്ടകക്ഷ്യയിൽപ്പെട്ട ഭാഷയാണ്. പ്രത്യയങ്ങൾ ഒന്നിനു പുറകെ
ഒന്നായിച്ചേർത്ത് സമ്പന്നമായ രൂപിമപരസവിശേഷതകളും സന്ദർഭാധിഷ്ഠിത
അർത്ഥവ്യതിയാനങ്ങളും പദക്രമം മാറലും ഒക്കേച്ചേർന്ന് ഭാഷ കൂടുതൽ
സങ്കീർണമാവുന്നു.''
കമ്പ്യൂട്ടറുകളുടെ ശക്തി അതിന്റെ പാരമ്യത്തിൽ ഉപലബ്ധമാക്കാൻ ഉതകുന്ന
അൽഗോരിതങ്ങൾ ഇന്നു സുലഭമാണ്. പക്ഷേ മലയാളം പോലുള്ളവയിൽ
ഭാഷാസാങ്കേതികപ്രവർത്തനങ്ങൾ മന്ദഗതിയിലാണ്. ആവശ്യത്തിനുള്ള നല്ല
ദത്തശേഖരത്തിന്റെ അഭാവം ഇതിനൊരു കാരണമാണ്. മികച്ച മലയാളം കോർപ്പസ്
ഉണ്ടെങ്കിൽ മികവുറ്റ ടാഗിങ്പ്രക്രിയ നടപ്പാക്കാവുന്നതാണ്. പി.ഒ.എസ്സ്
ടാഗിങ്ങിനുവേണ്ടി ബൃഹത്തായ പദശൃംഖല (word net) വികസിപ്പിക്കേണ്ടതും
അത്യന്താപേക്ഷിതമാണ്. കമ്പ്യൂട്ടേഷണൽ നിഘണ്ടുവിജ്ഞാനം, കമ്പ്യൂട്ടേഷണൽ
അർഥവിജ്ഞാനം, യന്ത്രജ്ഞാന വിഭവങ്ങളുടെ ലഭ്യത, കോശീയപദങ്ങളെ അപഗ്രഥിക്കുന്ന
സങ്കേതങ്ങളുടെ വികാസം തുടങ്ങിയവയെല്ലാം മലയാളത്തിന് ബൃഹത്തായ പദശൃംഖല
നിർമ്മിക്കാൻ സഹായകമാണ്.
സ്വാഭാവികഭാഷാസംസ്കരണഗവേഷണമേഖലയിൽ ഏറ്റവും വെല്ലുവിളി നേരിടുന്ന
പഠനമണ്ഡലമാണ് പി.ഒ.എസ്സിനോടു ചേർന്ന് സഹായകമായി നില്ക്കുന്ന
പദാർഥസന്ദേഹനിരാസം. ഇംഗ്ലീഷ് ഒഴികെയുള്ള, പ്രത്യേകിച്ച് മലയാളം പോലെയുള്ള
ഒരു സംശ്ലിഷ്ടഭാഷയ്ക്ക് സ്വയംപ്രേരിത പദാർഥസന്ദേഹനിരാസത്തിൽ
പ്രവർത്തിക്കുന്നത് പ്രയാസമാണ്. മലയാളം സന്ദർഭാധിഷ്ഠിതമായി മാറ്റം വരാവുന്ന
ഒരു കൂട്ടം ഘടകങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നതിനാൽ വേർഡ് സെൻസ് ഡിസാംബിഗ്വേഷൻ
വളരെ സങ്കീർണ്ണമായ ഒരു പ്രശ്നമായിട്ടാണ് കണക്കാക്കപ്പെടുന്നത്.
വ്യാഖ്യാനിച്ച ടെക്സ് കോർപ്പസിന്റെയും മലയാളഭാഷാസാങ്കേതികോപകരണങ്ങളുടെയും
അപര്യാപ്തതയും അഭാവവും കാര്യക്ഷമമായ ഡബ്ലൂ.എസ്.സിയുടെ വികസനത്തെ
തടസ്സപ്പെടുത്തുന്നു. ഇതിന്റെ വികാസം മലയാളം പി.ഒ.എസ്സ് ടാഗിങ്ങിന് ഒരു
മുതൽക്കൂട്ടായിരുന്നേനേ എന്നതിൽ തർക്കമില്ല.

No comments:
Post a Comment