അറബി ഭാഷയും വ്യാകരണവും : ആർട്ടിഫിഷ്യൽ ഇന്റലിജെൻസിലെ സങ്കീർണ്ണതകൾ

അലക്സക്ക് അറബി സംസാരിക്കാൻ കഴിയില്ല. കോർട്ടാനക്കുമാവില്ല. സിറി സ്റ്റാൻഡേർഡ് അറബി മനസ്സിലാക്കുമെങ്കിലും പ്രാദേശിക ഭാഷകൾ കൈകാര്യം ചെയ്യില്ല. ഗൂഗിൾ ട്രാൻസിലേറ്റിന്റെ കൃത്യത വെറും ഭാഗികമാണ്. ലോകത്തേറ്റവും കൂടുതലാളുകൾ സംസാരിക്കുന്നതിൽ അഞ്ചാം സ്ഥാനത്തുള്ള അറബി ഭാഷയുടെ കാര്യമെടുത്താൽ ഇരുപത്തിയൊന്നാം നൂറ്റാണ്ടിലെ ടെക്നോളജി ഇനിയുമെത്രയോ പുറകിലാണ്.
“ലോകത്താകമാനം 300 കോടിയോളം ജനങ്ങൾ അറബി സംസാരിക്കുന്നുണ്ട്. 1.5 ബില്യൺ ജനങ്ങളുടെ മതകീയ ഭാഷയാണ്. പക്ഷേ, ടെക്നോളജിക്ക് ഈ ഭാഷ ഇന്നും ദൂരെയാണ്”. പറയുന്നത് റാമല്ലയിലെ ബിർസെത് യൂണിവേഴ്സിറ്റിയിൽ കമ്പ്യൂട്ടർ സയന്റിസ്റ്റായ മുസ്തഫ ജറാർ. ഇദ്ധേഹവും മിഡിൽ ഈസ്റ്റിൽ നിന്നുള്ള സഹപ്രവർത്തകരുമെല്ലാം പ്രാദേശികഭാഷകളെക്കൂടി ഗ്രഹിക്കാനുള്ള ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ കഴിവ് വികസിപ്പിക്കാനുള്ള വലിയ ശ്രമങ്ങളിലാണിപ്പോൾ.

എൻ. എൽ. പിയും വിവരശേഖരണവും

മനുഷ്യ ഭാഷയുടെ വ്യാഖ്യാനം കമ്പ്യൂട്ടറുകൾക്ക് സാധ്യമാക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ശാഖയെയാണ് നാച്ച്വറൽ ലാംഗ്വേജ് പ്രൊസംസിഗ് (NLP) എന്ന് പറയുന്നത്. ആമസോണിന്റെ വോയ്സ് ആക്ടിവേറ്റഡ് വിർച്വൽ അസിസ്റ്റന്റ് ആയ അലെക്സയോട് ഒരു ഗാനം പ്ലേ ചെയ്യാൻ പറയുമ്പോൾ , എൻ.എൽ പി ടെക്നിക്കുകളെ ഉപയോഗിച്ച് അത് പ്രവർത്തിപ്പിക്കുന്നു. ഈ ടെക്നോളജി തന്നെയാണ് ഗൂഗ്ൾ ട്രാൻസ്ലേഷൻ പോലുള്ള മറ്റു സംവിധാനങ്ങളിലും പ്രവർത്തിക്കുന്നത്.

കമ്പ്യൂട്ടറുകൾ ഭാഷ പഠിക്കുന്നത് സാംഖ്യികമായാണ് (statitics). ഒരു വാക്യത്തിൽ പദത്തിന്റെ സ്ഥാനം, ഉപസർഗ്ഗം (Prefix) , പ്രത്യയം (suffix) പോലുള്ള സവിശേഷതകളെല്ലാം നിർണ്ണയിച്ചുകൊണ്ടുള്ള വിവരങ്ങളുടെ (Data) ഒരു ബോഡി ഗവേഷകർ തയ്യാറാക്കുന്നു. സ്റ്റാറ്റിറ്റിക്സിനായി കമ്പ്യൂട്ടർ ഈ ബോഡിയെയായിരിക്കും അവലംബിക്കുക. ഭാഷാന്തരം ചെയ്യുന്ന സമയത്ത് മൂലഭാഷയിലെയും ലക്ഷ്യ ഭാഷയിലെയും ദശലക്ഷക്കണക്കിന് വാക്യങ്ങൾ ശേഖരിച്ച് അവയിൽ നിന്നും അനുയോജ്യമായതിനെയാണ് നമുക്ക് പ്രദർശിപ്പിച്ചു തരുന്നത്.ശേഖരിക്കപ്പെടുന്ന ഡാറ്റയുടെ തോതനുസരിച്ച് നമുക്ക് ലഭിക്കുന്ന വിവരങ്ങൾ കൂടുതൽ കൃത്യതയുള്ളതാവും.

ഒരു കമ്പ്യൂട്ടറിനെ ഭാഷ പഠിപ്പിക്കുമ്പോൾ ഏറ്റവും പ്രധാനം നൽകപ്പെടുന്നവിവരങ്ങൾ(Data)ആണ്.പക്ഷേ,അറബിയിലേക്ക് വരുമ്പോൾ ഈ വിവരശേഖരണം ബുദ്ധിമുട്ടുള്ളതായിത്തീരുമെന്ന് ജറാർ പറയുന്നു. സോഷ്യൽ മീഡിയ വരുന്നതിന് മുമ്പ് ഒരു പ്രാദേശികഭാഷയും എഴുത്ത് രൂപത്തിലുണ്ടായിരുന്നില്ല. കേവലമൊരു സംസാര ഭാഷ മാത്രമായിരുന്നു. എന്നാൽ സോഷ്യൽ മീഡിയ പ്ലാറ്റ് ഫോമുകളിൽ അറബികൾ ഒരോരുത്തരും അവർ സംസാരിക്കുന്ന രീതിയിൽ തന്നെ എഴുത്താരംഭിച്ചതോടെ അവയുടെയെല്ലാം പ്രോഗ്രാമിംഗ് അനിവാര്യമായിത്തീർന്നു.

ഇംഗ്ലീഷ്, ഫ്രഞ്ച്, സ്പാനിഷ് ഭാഷകൾക്ക് ശേഷമാണ് അറബിഭാഷ ഇന്റർനെറ്റ് ലോകത്തെത്തുന്നത്. അതുകൊണ്ട് തന്നെ മറ്റു ഭാഷകളിൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിനെ കൈകാര്യം ചെയ്യുന്നവരേക്കാൾ കുറഞ്ഞ ഡാറ്റ മാത്രമാണ് അറബിക്ക് ലഭ്യമായിട്ടുള്ളത്.

യാന്ത്രികലോകത്തെ വ്യാകരണപ്രതിസന്ധി

കമ്പ്യൂട്ടറിനെ അറബി പഠിപ്പിക്കുക എന്നത് സങ്കീർണ്ണമാകുന്നത് വിവരങ്ങളുടെ (Data) കുറവ് കൊണ്ട് മാത്രമല്ല. അനേകാർത്ഥങ്ങളും പ്രയോഗവിത്യസ്തതകളുമുള്ള അറബി ഭാഷയുടെ അടിസ്ഥാന സ്വഭാവം തന്നെ പ്രതിസന്ധി സൃഷ്ടിക്കുന്നുണ്ട്.

ഈജിപ്ത്യൻ എൻ.എൽ.പി റിസർച്ചർ അലി ഫറാഗി ഈ പ്രതിസന്ധിക്കുള്ള ചില പ്രധാന കാരണങ്ങളായി ചൂണ്ടിക്കാണിക്കുന്നത് വ്യക്തി, സ്ഥലം, കമ്പനികൾ തുടങ്ങിയ പേരുകൾ പറയുമ്പോൾ ആദ്യാക്ഷരത്തിനുണ്ടാക്കുന്ന Capitalisation അറബിയിലില്ല എന്നാണ്. വരികളിൽ സ്ഥാനമാറ്റം സംഭവിക്കുമ്പോൾ അക്ഷരങ്ങൾക്ക് രൂപമാറ്റം വരുന്നതും മറ്റൊരു തടസ്സമായി പറയുന്നു. മാത്രമല്ല, വലിയ അർത്ഥമുള്ള വാക്യം പോലും ചെറിയ വാക്കിലൊതുക്കി പറയാനാവും അറബിയിൽ. ഇത് ഡീകോഡിംഗ് സമയത്ത് കമ്പ്യൂട്ടറിന് സന്നിഗ്ദ്ധത സൃഷ്ടിക്കുന്നു.

അറബിയിലെ ഒരു സങ്കരപദം (Complex word) ഇംഗ്ലീഷിൽ മൂന്നായി വിഭജിക്കാനാവും. അതുപോലെത്തന്നെ ഒരു സങ്കരപദം പലരീതികളിലൂടെ വിശദീകരണത്തിനും സാധ്യമാണെന്നിരിക്കെ ഇത് സാങ്കേതിക ഭാഷയിൽ കൂടുതൽ സങ്കീർണ്ണതയുണ്ടാക്കുന്നു. ഉദാഹരണത്തിന് ‘അവൻ അവരെ കൊന്നു (He Killed them)’ എന്ന വാക്യത്തിന് ഇംഗ്ലീഷിൽ മൂന്ന് വാക്കുകൾ വ്യക്തമായിതന്നെ ഉണ്ടാകും. ആഖ്യ(Subject / He), ക്രിയ (verb / Killed), ലക്ഷ്യം ( Object /them). പക്ഷേ അറബിയിലിത് ഖതലഹും (قتلهم) എന്ന ഒറ്റവാക്കിലൊതുങ്ങുന്നു.
മറ്റൊരു ഉദാഹരണം ഫർഗാലി പറയുന്നു. വഫിയ് (وفي) പോലോത്ത പദങ്ങൾ ‘വിശ്വസ്തർ’ എന്ന അർത്ഥത്തിൽ പ്രയോഗിക്കും പോലെത്തന്നെ, കൂടെ (and) എന്നർത്ഥമുള്ള ‘വ’ (و) യും , ‘in’ എന്നർത്ഥത്തിലുള്ള ഫീ (في) യും ചേർന്ന വാക്കായും വായിക്കപ്പെടാം. ഒന്നിലൊതുങ്ങുന്നതോ ഒന്നിലധികം വഴികളിലൂടെ വായിക്കപ്പെടാവുന്നതോ ആയ ഇത്തരം പ്രയോഗങ്ങൾ അറബി ഭാഷയെ എൻ.എൽ.പി യിൽ വളരെ സങ്കീർണ്ണമാക്കുന്നു.

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസും അറബ് മാർക്കറ്റും

9/11 ന്റെ പ്രതിഫലനമെന്നോണം ഈ മേഖലയിലെ ഗവേഷണത്തിലും പൂർവ്വാധികം മുന്നേറ്റമുണ്ടായി. അറബിക് എൻ.എൽ പി യെ വിപുലീകരിക്കാൻ അമേരിക്ക യൂണിവേഴ്സിറ്റികൾക്കും ഗവേഷണ സ്ഥാപനങ്ങൾക്കും കമ്പനികൾക്കും വലിയ തോതിൽ സാമ്പത്തിക സഹായം ലഭ്യമാക്കി. എങ്കിലും മറ്റു ഭാഷയിലെ ഗവേഷണങ്ങൾക്ക് ലഭിക്കുന്നതിനെ അപേക്ഷിച്ച് ഇത് തുച്ഛമായിരുന്നു. അറബി ഭാഷയുടെ യാന്ത്രിക പ്രവർത്തനങ്ങൾ സാധ്യമാക്കാനുള്ള അമേരിക്കൻ ശാസ്ത്രജ്ഞരുടെ വലിയ ശ്രമങ്ങൾ മിഡിൽ ഈസ്റ്റിലെ എൻ.എൽ.പി ശ്രമങ്ങൾക്ക് വലിയ സഹായകമായിട്ടുണ്ട്.

കൂടുതലാളുകൾ സംസാരിക്കുന്ന മാൻഡറിൻ ഭാഷയിലും വാണിജ്യ സാധ്യതകൾ വലിയ തോതിലുള്ള സ്പാനിഷ് ഭാഷയിലുമൊക്കെയുള്ള ഉൽപന്നങ്ങൾക്ക് വലിയ പ്രോത്സാഹനമുള്ളതിനാൽ ലഭിക്കാതിരിക്കുന്ന നിക്ഷേപക്കുറവ് സാങ്കേതികതലത്തിൽ അറബി ഭാഷയുടെ വികസനത്തിനുള്ള വിലങ്ങാണെന്ന് ജോർദാനിലെ ടെക് വ്യവസായി അബ്ദുള്ള ഫാസ പറയുന്നു. ഇദ്ധേഹമാണ് അറബിയിലുള്ള ആദ്യ ചാറ്റ്ബോട്ട് (Chatbot) ആയ അറബോട്ട് (Arabot) നിർമ്മിച്ചത്. ഉപഭോക്താക്കളുടെ ഉൽപന്നങ്ങളെക്കുറിച്ചുള്ള സംശയങ്ങൾക്ക് കമ്പ്യൂട്ടർ മറുപടി നൽകുന്ന സംവിധാനമാണിത്.
അദ്ധേഹം പറയുന്നു : ഞങ്ങൾ ഒരു ഇഗ്ലീഷ് ചാറ്റ്ബോട്ടായിരുന്നു നിർമ്മിച്ചിരുന്നതെങ്കിൽ ഇതിലേറെ മാർക്കറ്റുണ്ടാകുമായിരുന്നു. ഐ.ബി.എം ആണ് ചാറ്റ്ബോട്ടുകളുടെ മറ്റൊരു പ്രധാന ഉത്പാദകർ. പക്ഷേ, അറബിയിൽ അവരുടേത് താഴ്ന്ന ഭാഷാ നിലവാരമാണ്.

വാണിജ്യ ലക്ഷ്യത്തോടെ പല പ്രൊജക്ടുകളും ഇപ്പോൾ നടന്നുകൊണ്ടിരിക്കുന്നുണ്ട്. കഴിഞ്ഞ വർഷം അബൂദാബി ഗവൺമെന്റിന്റെ ‘അബൂ ഭാബി മീഡിയ’ അറബിയിലുള്ള ആദ്യ ആർട്ടിഫിഷ്യൽ ഇന്റലിലജന്റ് വാർത്താ അവതാരകനെ നിർമിച്ചു കൊണ്ടിരിക്കുകയാണെന്ന് പ്രഖ്യാപിച്ചിരുന്നു. ജോർദാനിലെ മൗദൂദ് എന്ന കമ്പനി, അലെക്സ, സിറി പോലെ അറബിയിലെ പ്രാദേശിക ഭാഷകളെല്ലാമുൾക്കൊള്ളുന്ന വിർച്വൽ അസിസ്റ്റന്റ്, സൽമയുടെ പ്രവർത്തനങ്ങൾ തുടങ്ങി എന്നറിയിച്ചിരുന്നു. അറബ് ലോകത്തെ ഈ വാർത്തകൾ നമുക്ക് പുതു പ്രതീക്ഷകൾ നൽകുന്നതാണ്.

ഈ ശ്രമങ്ങളൊന്നും വാണിജ്യ രംഗത്തേക്ക് മാത്രം പരിമിതമല്ല. ലബനാനിലെ അമേരിക്കൻ യൂണിവേഴസിറ്റി ഓഫ് ബെയ്റൂത്തിലെ ഒരു സംഘം ഗവേഷകർ അറബിക് എൻ.എൽ.പിയെ സോഷ്യൽ മീഡിയയിലും ഉപയോഗപ്പെടുത്താനുള്ള ശ്രമങ്ങളിലാണ്. ഇന്ന് ഇംഗ്ലീഷ് ഭാഷക്കെല്ലാം സോഷ്യൽ മീഡിയയിൽ ലഭ്യമാകുന്ന Al സേവനങ്ങൾ അറബിയിലും ലഭ്യമാക്കാനാവുമെന്ന് ഇവർ വിശ്വസിക്കുന്നു.

ജറാർ പറയുന്നത് , പ്രാദേശിക ഭാഷയുടെ ഘട്ടം കഴിഞ്ഞാൽ പിന്നെയുള്ളത് , സ്റ്റാറ്റിറ്റിക്സുകൾ വെച്ചുള്ള പ്രവചനങ്ങൾ നടത്തുന്നതിന് പകരം, ഭാഷയെ യഥാർത്ഥമായി മനസ്സിലാക്കുന്നതിന് കമ്പ്യൂട്ടറിനെ പര്യാപ്തമാക്കുക എന്നതാണ്. ഒരാൾ കമ്പ്യൂട്ടറിനോട് ” ഇന്ന് അവധിയാണ് ” എന്ന് പറഞ്ഞാൽ അത് വിവർത്തനം ചെയ്ത് തരും. “ഞാനെവിടെ പോകണം?” എന്ന് ചോദിച്ചാൽ അത് പറയില്ല. നൽകപ്പെട്ട വിവരങ്ങളിൽ പ്രവർത്തിക്കും എന്നല്ലാതെ അർത്ഥമറിഞ്ഞു കൊണ്ടുള്ള പ്രവർത്തനമോ മറുപടിയോ കമ്പ്യൂട്ടറിൽ നിന്നുണ്ടാവില്ല. അടുത്ത ഘട്ടത്തിൽ ഈ പ്രശ്നത്തെ മറികടക്കണം. ഭാവിയിൽ ഇവ ഏതൊരു ചോദ്യത്തിനും ഉത്തരം നൽകുന്ന തലത്തിലേക്ക് വികസിക്കും. അത് അറബിയിലാണെങ്കിലും.

വിവർത്തനം : ബിശ്ർ ഇസ്മാഈൽ