scheduleशुक्रवार भाद्र १ गते, २०७५

कम्प्युटर भाषाविज्ञान, जान्नैपर्ने केही सवालहरु

स्तम्भ: भाषा प्रविधि र भाषाप्रविधि

कम्प्युटेसनल लिङ्ग्विस्टिक्स अर्थात् नेपालीकरण गर्दा कम्प्युटर भाषाविज्ञान भनेको भाषाका विभिन्न तत्वहरूलाई वर्गीकरण र विश्लेषण गरेर कम्प्युटर, इन्टरनेट सञ्जाल पृष्ट, आइटी वा आइसिटीमा भाषाका माध्यमबाट काम गर्न सक्षम बनाउने भाषा र प्रविधिको सम्मिश्रण वा अन्तरमिश्त्रित ज्ञानको विधा हो । विषयशास्त्रीय क्षेत्रका रुपमा यो भाषाविज्ञान र कम्प्युटर इन्जिनियरिङ दुबै विषय मिसाइएको अध्ययन पद्धति हो । कम्प्युटर भाषाविज्ञान साङ्ख्यिकीय पद्धति वा नियममा आधारित पद्धति प्रयोग गरेर प्राकृतिक भाषाको एउटा मोडेल वा प्राकृतिक भाषा अध्याहार सूत्रसँग निर्माण गर्ने कामसँग सम्बन्धित हुन्छ ।

परम्परागत पद्धति वा प्रचलन अनुसार कम्प्युटर विज्ञान भन्नाले वैज्ञानिक वा कम्प्युटर इन्जिनियरहरूले अल्गोरिदमका माध्यमबाट भाषाका ससाना एकाइहरुलाई कृत्रिम बुद्धिद्वारा प्रदर्शन गरिएको कम्प्युटरको प्रोग्राम वा अनुप्रयोगमा प्राकृतिक भाषाको प्रशोधन भन्ने बुझिन्थ्यो । हिजोआज चाहिँ कम्प्युटर इन्जिनियर वा भाषाविद्हरू जसले भएपनि मानव भाषाका माध्यमबाट मानिसको दिमागभन्दा फरक धातुबाट निर्मित मेसिन, कम्प्युटर वा यस्तै पकेट डिजिटल एसेसरिज वा सहायक सामग्रीलाई लाए अह्राएको काम गर्न सक्षम बनाउने विज्ञानलाई कम्प्युटर भाषाविज्ञान भन्ने गरिन्छ । सामान्यतया, कम्प्युटेसनल भाषाविज्ञान (कम्प्युटर भाषाविज्ञान) ले भाषाविद्, कम्प्युटर वैज्ञानिक वा कम्प्युटर इन्जिनियर, कृत्रिम बुद्धिका विशेषज्ञहरू, गणितज्ञहरू, दार्शनिकहरू, संज्ञानात्मक वैज्ञानिकहरू, संज्ञानात्मक मनोवैज्ञानिकहरू, मानवविज्ञानका विशेषज्ञहरू र सञ्चारविद्हरुको क्षेत्र आकर्षित गर्दछ ।

भाषाप्रविधिको प्रयोग गरेर कम्प्युटर भाषा र नियमित मानव भाषा बीच समन्वय गर्नका लागि ससाना सिरियल बस र माइक्रो चिप्सलाई मानव भाषा सिकाउने काम पनि भएको छ । कृत्रिम बुद्धि वा आर्टिफिसियल इन्टेलिजेन्स (एआइ) का माध्यमबाट विद्युतीय संयन्त्रलाई मानव भाषा बुझ्न सक्षम बनाउने काम भइरहेको छ । समग्र इन्टरनेट सञ्जाललाई कर्पस वा पाठसङ्ग्रहको रुपमा प्रयोग गरी त्यस पाठसङ्ग्रहबाट बहुभाषिक चेतना भएका सहायक सामग्रीको निर्माण गर्ने कामले पनि गति लिन थालेको छ। यस्तो कृयाकलापलाई अवलोकन गर्दा अबका दिनमा कुनै राष्ट्रभाषा वा मातृभाषा मानिसको दिमागले बुझेरमात्र पुग्दैन भन्ने निश्चित भइसक्यो ।

डा. लक्ष्मीप्रसाद खतिवडा

लिखित भाषा मात्र होइन, यदि कम्प्युटर वा अन्य सहायक यन्त्रलाई मानव बोली इन्टरफेसको प्रयोगमा लैजानुपर्छ भने वा कहिलेकाहीँ इन्टरनेट सर्च इन्जिनद्वारा मौखिक प्रश्नको जवाफ खोज्नु पर्छ भने कम्प्युटर भाषाप्रविधिको गहिरो अनुसन्धान आवश्यक हुन्छ । कम्प्युटर विज्ञानले मात्र यी समस्याहरू समाधान गर्न सक्दैन । कम्प्युटर त एउटा धातुको प्लेट मात्र हो । त्यसले आफै काम गर्न सक्दैन । त्यसलाई त मानव भाषा सिकाएर लाए अह्राएको काम गर्न सक्षम बनाइएको हो । र त्यो ज्ञान भाषाकै सहायताले दिइएको हो । खासगरी अङ्ग्रेजी भाषाका सहायताले । त्यो पनि बेलायत र अमेरिकाको राजश्व (पैसा) खर्च गरेर होइन, सन्सारभरका गरिब तर जेहेन्दार विद्यार्थीहरुले गरेका हुन् । ती विद्यार्थीलाई पनि उनीहरूका आमाबुबाले पेट काटेर खर्च जुटाएर पढ्न पठाएका थिए ।

वास्तवमा कम्प्युटरमा भाषाको काम गर्न यसलाई निर्देशित गरिएको मातृभाषा बुझ्न सक्ने बनाउनु पर्ने हुन्छ । अत: कम्प्युटर भाषाविज्ञान भनेको कम्प्युटर विज्ञान र बोली विज्ञानसहितको भाषाविज्ञानको समीकरण पनि हो । कम्प्युटर भाषाविज्ञानका सहायताले मेसिन प्रशोधनका माध्यमबाट गर्न सकिने कार्यका केही उदाहरणहरू यस प्रकार छन् ।

१. ठुलाठुला डेटाबेस वा लगत बैँक (ज्ञान भण्डार) जहाँ कृत्रिम बुद्धिका सहायताले मानव ज्ञान सङ्कलन गरिएको हुन्छ ।
२. लिखित वा बोली निर्देशन सुनेर मेसिनले आदेशहरू कार्यान्वयन गर्ने बनाइएको हुन्छ ।
३. मानव बोलीका बहुभाषिक कर्पस वा पाठसङ्ग्रह उपलब्ध गराइएको हुन्छ ।
४. एक भाषाबाट अर्को भाषामा लिखित पाठ वा बोलीपाठलाई स्वत: अनुवाद गराउने ।
५. निर्धारित पाठको अध्ययन गरी मानिसको (नेता, विशिष्ट व्यक्ति, आपराधिक मनोवृत्ति आदि) को सोचाइको स्थिराकृति वा मनोगत अवधारणा पत्ता लगाउने अनुप्रयोग आदि ।
६. रोबोटलाई कुनै मातृभाषा सिकाएर सोही भाषाको निर्देशन अनुसार काम गराउने ।

कम्प्युटेसनल भाषाविज्ञान (कम्प्युटर भाषाविज्ञान) सैद्धान्तिक र व्यावहारिक दुबै विज्ञान हो । मानिसको व्यवहारमा भाषाले कसरी काम गरेको हुन्छ भनेर भाषाप्रविधिका माध्यमबाट प्रयोगशालामा परीक्षण गरे जस्तै वैज्ञानिक तरिकाले टेस्ट गर्न सकिन्छ । कम्प्युटेसनल भाषाविज्ञान (कम्प्युटर भाषाविज्ञान) विश्वविद्यालयको शिक्षामा समेत समावेश भइसकेको विधा हो । विभिन्न समस्याहरू कम्प्युटर प्रविधिमार्फत प्रसोधन गरेर त्यसको समाधान निकाल्न विश्वविद्यालयको स्नातक र स्नातकोत्तर तहहरूमा पढाइ हुनथालेको पनि दशकौँ भइसक्यो । तर नेपालको हकमा यो विधा ओझेलमा परेको छ । बीए सीएससीआई वा बीए सिएसआइटी जस्ता विषय त पढाइ हुन्छ तर ती विषय पढाउँदा क्प्युटरले नेपाली वा नेपालका अन्य राष्ट्रभाषा बुझ्न सक्दैन र अङ्ग्रेजी बाहेक अन्य भाषामा कम्प्युटरलाई सक्षम गर्न सकिँदैन भन्ने भ्रमलाई अझ बलियो बनाउने गरी विद्यार्थिको दिमागमा जरो गाढ्ने किसिमको ज्ञान प्रशारण गर्दछ । यस्ता विद्यार्थीहरूमा बीए तह समाप्त गर्दानगर्दै विदेशको जागिर खोज्ने वा पलायन हुने मानसिकता विकास भइसकेको हुन्छ ।

कम्प्युटर भाषाविज्ञानको कुरा गर्दा विशुद्ध भाषाविज्ञानको कुरा स्वत: जोडिएर आउँछ । कम्प्युटर भाषाविज्ञानमा विशुद्ध भाषाविज्ञानको सूत्रलाई नै गणितीय व्याकरण विश्लेषणका विभिन्न मानक सिद्धान्तमा ढालेर भाषा सूत्रको विकास भएको छ । विभिन्न मानक सिद्धान्तहरूमध्ये हालसम्म पनि संरचनात्मक ब्याकरणको प्रभाव मात्रात्मक र क्षेत्रगत आधारबाट बढी व्यापक देखिन्छ । यो सिद्धान्त विशुद्ध भाषा विश्लेषणमा मात्र सिमित नभएर कम्प्युटरबाट भाषाको विश्लेषण गर्ने अनुप्रयुक्त पद्धतिमा पनि कैयौँ दशकदेखि मूलधारमा रहँदै आएको छ । संरचनात्मक ब्याकरणको विकास शब्दस्थानको निश्चित सोपानक्रम भएका भाषाको विश्लेषणलाई ध्यानमा राखेर बनाइएको हो । अङ्ग्रेजीलाई केन्द्रमा राखेर गरिएको संरचनात्मक ब्याकरण अङ्ग्रेजी भाषाको व्यापकतासँगै सिद्धान्तका रूपमा पनि सन्सारभर फैलियो। अङ्ग्रेजी स्थानक्रमको सोपानक्रम मिलाउनु पर्ने भाषा हो । अङ्ग्रेजी भाषाको स्थानक्रम भङ्ग भयो भने अर्थमा फरक पर्छ । तर नेपाली, मैथिली वा बङ्गाली आदि भाषामा स्थानक्रम भङ्ग गर्दा पनि अर्थमा फरक नपर्न सक्छ । त्यसैले स्थानक्रमको सोपानक्रम मिलाउनु नपर्ने भाषाका लागि ‘अधीनस्थ व्याकरण’ को विकास भयो । हाल जापानी, चाइनिज, कोरियन उर्दू र हिन्दी, तेलेगु आदिमा अधीनस्थ व्याकरणको प्रभाव बढ्न थालेको छ र नेपालीमा पनि यो सिद्धान्तको अनुशरण गर्दा सजिलो हुने देखिन्छ ।

भाषाका प्रत्येक शब्दलाई एउटा एकाइ वा अणुको रुपमा लिएर प्रत्येक अणुको मालालाई एउटा वाक्य र वाक्य वाक्यको मालालाई एउटा अनुच्छेद वा पाठका रुपमा व्यवस्थित गर्ने गरिन्छ । भाषाका यस्ता एकाइलाई वृक्षरेखामा ढालेर त्यही वृक्षरेखाका हाँगा (नोड) लाई निश्चित सूत्रमा आवद्ध गरेर त्यसले दिएको परिणामलाई मानकीकरण गरी सिद्धान्तको रूपमा स्थापना गर्ने चलन भाषा विज्ञानमा चलिआएको हो ।

भाषा एउटा लेखाइ वा बोलीको पद्धति मात्र नभएर मानव इतिहासको एउटा संज्ञानात्मक कौशल पनि हो जसले व्यक्तिको सम्पूर्ण जीवनलाई अन्य प्राणीभन्दा उत्कृष्ट बनाएको छ । मानव भाषा विकासले केही विधिहरू प्रदान गर्दछ । वालकले भाषा अधिग्रहण गरे जस्तै कम्प्युटेसनल तरिका प्रयोग गरेर मेसिनले भाषा अधिग्रहण गर्दछ । भाषा जटिल प्रकृया हो । जटिलतालाई सरल परिकल्पनामा ढालेर परीक्षण गरी मेसिनले भाषा अधिग्रहण गर्ने खाका वा मोडेलिङको विकास गरिएको हुन्छ । यस्तो प्रणालीले मानिसले बोल्ने भाषा बुझेर मानिसकै निर्देशन अनुसार कम्प्युटरले काम गर्ने गर्दछ ।

केही दशक यता साङ्ख्यिकीय व्याकरणको विकास भएर भाषालाई कम्प्युटरमा प्रविष्टि गराउन सहज पनि भएको छ । यस क्षेत्रमा कार्य गर्न भाषाका विभिन्न मोडेलहरूको प्रस्ताव गरिएको छ। यसलाई ध्यानमा राखेर ‘सन्दर्भ स्वतन्त्र व्याकरण’ को अवधारणा कम्प्युटर भाषाविज्ञानमा उपयुक्त हुने विचार कम्प्युटर इन्जिनियरले गरे । सामान्य भाषाविज्ञानमा ‘सन्दर्भ स्वतन्त्र व्याकरण’ को विकास पहिले देखिनै भए तापनि प्रविधिको विकास अङ्ग्रेजीमा सिमित रहेको र अङ्ग्रेजी व्याकरणले विज्ञान र प्रविधिमा सहजै प्रविष्टि पाएको हुनाले अङ्ग्रेजीभन्दा अन्य भाषालाई विश्लेषण गर्दा पनि अङ्ग्रेजीसँगै तुलना गरेर आधार अङ्रेजीलाई लिनुपर्ने अवस्था थियो । विस्तारै विस्तारै अङ्ग्रेजी मातृभाषा नभएका वा अङ्ग्रेजीका विमातृ विद्वत समुदायबाट ‘सन्दर्भ स्वतन्त्र व्याकरण’ का अलावा ‘अधीनस्थ व्याकरण’ लाई कम्प्युटर भाषाविज्ञानका क्षेत्रमा प्रविष्टि गराइयो । यस्तो विकासले एसिया , अफ्रिका र दक्षिणी अमेरिकाका विभिन्न भाषामा अधीनस्थ ब्याकरणमा मनग्गे काम गर्न सकिने भयो । हाल जापानी, चाइनिज, कोरियन उर्दू र हिन्दी, तेलेगु आदिमा अधीनस्थ व्याकरण र प्रविधिका सहायताले कम्प्युटर भाषाविज्ञानमार्फत यो सिद्धान्तको प्रयोगमा ब्यपकता बढ्दै गएको छ ।

अधीनस्थ व्याकरण सिद्धान्तमा शब्द र वाक्यको आपसी सम्बन्ध अधिशासन र अधिशासित शृङ्खलामा आवद्ध हुन्छ । अधिशासनलाई मुख्यरूपमा दुई तहमा विभाजित गरिएको हुन्छ । शब्दात्मक आधिशासन र वाक्यात्मक अधिशासन । अधीनस्थ व्याकरण सिद्धान्तमा एउटा वाक्य एउटा खेल बराबर हुन्छ । जसरी खेलमा खेलाडी र खेल्ने प्रक्रिया हुन्छ त्यसरी नै वाक्यमा प्रक्रियाका रूपमा क्रियापदले काम गरेको हुन्छ र खेलाडीका रूपमा नाम वा अन्य नामवत पदावलीले काम गरेको हुन्छ । वाक्यमा क्रियाले केही पदको माग गर्छ र नामवत पदले त्यस्ता पदको आपूर्ति गर्छ । वाक्यमा एउटा समापिका क्रियापदले एउटा प्रक्रिया पूरा गरिसके पछि एक गोल बराबर हुन्छ र दोस्रो वाक्यमा दोस्रो खेल सुरु हुन्छ । वाक्यमा विस्तारक वा विशेषक पदहरू शब्द समूहको तहका सहयोगी हुन्छन् भने नामवत पदहरू वाक्यात्मक केन्द्र वा क्रियामूलसँग आवद्ध हुन्छन । त्यसैले वाक्यको केन्द्र जहिले पनि क्रिया हुन्छ र अन्य नामवत शीर्ष पद वा शब्दहरू केन्द्रबाट अधिशासित हुन्छन् ।

वाक्यात्मक तहको संरचना शब्द शब्दको शृङ्खलामा नभएर केन्द्रको आधारमा निहित हुन्छ । एउटा वाक्यको एउटै मात्र केन्द्र हुन्छ र त्यो क्रियापद नै हुन्छ । शब्दलाई निश्चित सोपानक्रममा मिलाउनु जरुरी छैन । जुन शब्द जहाँ छ उसले त्यहीबाटै केन्दसँग आफ्नो आबद्धता जनाएको हुन्छ । त्यसैले यो सिद्धान्त वाक्यमा शब्दको निश्चित सोपानक्रम नभएका भाषालाई बढी उपयोगी साबित भएको छ ।
अङ्ग्रेजी भाषा स्थान सोपानक्रममा आधारित भाषा हो । कतिपय युरोपियन र अफ्रिकन एवम् एसियन भाषाहरू स्थान सोपानक्रममा आधारित भाषा होइनन् । जस्तै अङ्ग्रेजीमा राम किल्ड रावण र रावण किल्ड राम भन्दा उल्टो अर्थ लाग्छ । तर नेपाली वा बङ्गालीमा यस्तो हुँदैन । रामले रावणलाई मार्‌यो वा रावणले रामलाई मार्‌यो वा रामले मार्‌यो रावणलाई वा मार्यो रावणलाई रामले भन्दा हुन्छ । अर्थात नामपद जहाँ राखे पनि हुन्छ । अङ्ग्रेजी र नेपाली वा स्थान सोपानक्रम फरक भएका भाषाको फरक प्रकृतिलाई ध्यनमा राखेर गणित र कम्प्यूटर विज्ञानको डाइरेक्टेड एसिक्लिक ग्राफ (डिएजी) वा निर्देशित अचक्रीय ग्राफ पद्धतिलाई कम्प्युटर भाषाविज्ञानमा पनि भित्र्याइयो । माथि भनिसकियो जसरी एउटा वाक्य भनेको मानिलिउँ फुटबल खेलको एक गोल हो । यस्तो गोल गर्दा बलले एउटा तोकिएको चक्र पूरा गर्छ । त्यो चक्रलाई विच्छेद नगरी अर्को चक्र पूरा भएपछि मात्र अर्को गोल हुन्छ । त्यस्तै भाषामा पनि कृया पद र नापपदको चक्र हुन्छ । यस्ता नामपद र कृयापदको चक्र विच्छेद नगरी वाक्यका नोडहरूलाई साङ्ख्यिकीय पद्धतिबाट गणना गरेर परिणाम निकाल्नु पर्छ । अनिमात्र कम्प्युटरले एउटा वाक्य र अर्को वाक्यको फरक थाहा पाउन सक्छ ।

कम्प्युटर विज्ञान वा गणितमा प्रयोग हुने डाइरेक्टेड एसिक्लिक ग्राफ (डिएजी) वा निर्देशित अचक्रीय ग्राफ पद्धतिलाई कम्प्युटर भाषाविज्ञानमा भित्र्याएपछि यसलाई अधीनस्थ व्याकरणका नामले परिचित गराइयो ।

डाइरेक्टेड एसिक्लिक ग्राफले धेरै प्रकारका जानकारी प्रशोधन गर्न सक्छन् । एउटा वाक्यका हरेक टुक्रालाई किनाराको विन्दु मान्ने र कृया पदलाई मियो मानेर ती विन्दु र मियोका रेखालाई गणितीय सूत्रबाट कुनै पनि वाक्यलाई गणितको सूत्रमा बाँध्न सकिन्छ । इलेक्ट्रोनिक सर्किट डिजाइनमासमेत प्रयोग गर्न सकिने प्रोग्रामिङ भाषाका तत्वहरूको एसाइक्लिक सञ्जालले प्रभावकारी ढङ्गले डेटा वा लगत प्रशोधन गर्न मद्दत गर्दछ । मूल शब्द र विभक्ति वा नामयोगी जोडेर अचक्रीय शब्द ग्राफ, वा बाइनरी आरेख बनाउन सकिने हुनाले यसले भाषाको स्पेलिङ वा हिज्जेदेखि व्याकरणसम्मको अभिविन्यास गर्न सक्दछ ।

वाक्यमा भएका प्रत्येक एकाइहरू एउटा निश्चित आबद्धतामा रहेका हुन्छन् र आपसी रूपमा एक अर्कासँग अधीनस्थ हुन्छन् भन्ने अधीनस्थ व्याकरण परम्पराको मान्यता हो। अधीनस्थ व्याकरणमा आबद्धता शृङ्खलामा आउने एकाइहरूलाई तर्कशास्त्रअनुसार सूत्रात्मक रूपमा प्रस्तुत गर्न सकिन्छ भन्ने मान्यता पाणिनिले र फ्रान्सका तेस्निएरेले पनि प्रमाणित गरेकाछन् । यस्तै कम्प्युटर इन्जिनियर एवम् भाषावैज्ञानिक हेज र गफमैन जस्ता मानिसले पनि अधीनस्थ व्याकरणका बारेमा प्रकास पारेका छन् । क्रुजेफको भनाइअनुसार त अधीनस्थ व्याकरणको आधार पाणिनिको संस्कृत व्याकरणमा नै फेला परेको हो । यो परम्पराको प्रयोग अरेबियन ब्यारणकार इब्न अल सराफले उनको किताब ‘अल उसुल’ मा पनि गरेका छन् ।

पासी तपेइनिन् १९९९ का अनुसार अधीनस्थ व्याकरण भाषाका एकाइहरूलाई स्थानका आधारमा होइन प्रकार्यका आधारमा पहिचान तथा विश्लेषण गर्नुपर्छ भन्ने मान्यतामा आधारित सिद्धान्त हो । वाक्यमा शब्दका टुक्रा वा भाषिक एकाइहरू कहाँ छन् भनेर होइन तिनीहरूको विशेषता के हो भनेर पहिचान हुने हुनाले शब्द यता उति पर्दैमा संरचनाको अध्ययनमा बाधा हुँदैन र व्याकरण विश्लेषणमा केही फरक पर्दैन भन्ने यसको मान्यता हो । यो मान्यतालाई स्थापित गर्दा एसियाका स्थान सोपानक्रम निश्चित नभएका संस्कृतलगायत सम्पूर्ण भाषामा कम्प्युटरमा काम गर्न सकिन्छ भन्ने मान्यता रहेको छ ।

प्रतिकृया लेख्नुहोस्:

सम्बन्धित शीर्षकहरु

आजको लोकप्रिय

NTC
Vianet
Sajhajob