ଷ୍ଟେମିଂ

ବ୍ୟାକରଣ ଯୋଗୁଁ ଗୋଟିଏ ଶବ୍ଦ ଭିନ୍ନ ଭିନ୍ନ ବାକ୍ୟରେ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ଦେଖିବାକୁ ମିଳିଥାଏ ।^[୧] ଯେପରିକି 'ଆସୁଛନ୍ତି', 'ଆସିଲେ', 'ଆସିବେ' ଇତ୍ୟାଦି ଗୋଟିଏ ମୂଳଶବ୍ଦ, ଆସକୁ ବୁଝାଇଥାଏ । ଏକ ଲେଖାରେ ଖୋଜିଲାବେଳେ ଗୋଟିଏ ଶବ୍ଦ ଖୋଜିଲାବେଳେ ତାହାର ଏହି ଭଳି ଅନେକ ଉଧୃତ ଶବ୍ଦ ମିଳିପାରିଲେ ତାହା ଖୋଜିବାର ସମୟ ଏବଂ ଜାଗା କମାଇଦେଇଥାଏ । ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ଭାଷା ପ୍ରକ୍ରିୟାକରଣରେ ଗୋଟିଏ ଶବ୍ଦକୁ ତାହାର ସଂକ୍ଷିପ୍ତ ବା ମୂଳରୂପକୁ ଫେରାଇ ଆଣିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ । ଯେଉଁ ଆଲଗୋରିଦମ ଏହି କାମ କରିଥାଏ ତାକୁ ଷ୍ଟେମର କୁହାଯାଇଥାଏ । ୧୯୬୦ ମସିହାରୁ ଷ୍ଟେମିଂର ଆଲଗୋରିଦମ ଉପରେ ଗବେଷଣା ଚାଲୁଅଛି । ଅଧିକାଂଶ କ୍ଷେତ୍ରରେ ଏହା କହିହେବ ନାହିଁ କି ଷ୍ଟେମିଂ ଶବ୍ଦଟି ସମ୍ପୂର୍ଣରୂପେ ଶବ୍ଦଟିର ମୂଳରୂପକୁ ନେଇଆସିବ ।

ଇତିହାସ

ଜୁଲିଆ ବେଥ ଲଭିନ୍ସ ନାମକ ଜଣେ ବ୍ୟକ୍ତି ୧୯୬୮ ମସିହାରେ ପ୍ରଥମେ ଏହା ବିଷୟରେ ଲେଖିଥିଲେ । ସେହି ସମୟରେ ଏହା ଭାଷାବିତ୍ମାନଙ୍କ ମଧ୍ୟରେ ବହୁତ ଚହଳ ପକେଇଦେଇଥିଲା । କିଛି ବର୍ଷପରେ ୧୯୮୦ରେ ମାର୍ଟିନ ପୋର୍ଟର, ବର୍ତ୍ତମାନ ପର୍ଯ୍ୟନ୍ତ ପ୍ରଚଳିତ ପ୍ରସିଦ୍ଧ ପୋର୍ଟର ଷ୍ଟେମର ବାହାର କରିଥିଲେ । ୨୦୦୦ ମସିହାରେ ସେ ଏହାର ଏକ ପ୍ରୋଗ୍ରାମ ସର୍ବ ସାଧାରଣଙ୍କ ନିମିତ୍ତ ପ୍ରକାଶ କରିଥିଲେ । କିଛି ବର୍ଷପରେ ସେ ତାଙ୍କର କାମକୁ ସ୍ନୋ-ବଲ ଷ୍ଟେମରଦ୍ୱାରା ଆହୁରି ଭଲ କରିଥିଲେ ।^[୨]

ଆଲଗୋରିଦମ

ଷ୍ଟେମିଂ ନିମିତ୍ତ ବିଭିନ୍ନ ଆଲଗୋରିଦମ ଅଛି ସେମାନଙ୍କ ମଧ୍ୟରୁ କିଛି ନିମ୍ନରେ ପ୍ରଦାନ କରାହେଲା ।

ପ୍ରଡକ୍ସନ ଶୈଳୀ

ଏହି ଶୈଳୀରେ ଷ୍ଟେମର ଏକ ଶବ୍ଦ ଟେବୁଲ ବ୍ୟବହାର କରିଥାଏ । ଧରନ୍ତୁ ଗୋଟିଏ ଶବ୍ଦ ଆସିଲା, ଦୌଡ଼ ଏହା ଟେବୁଲଟିକୁ ଯାଇ ଅନ୍ୟ ସମ୍ପର୍କିତ ଶବ୍ଦଗୁଡ଼ିକ ଯଥା ଦୌଡ଼ିବା, ଦୌଡୁଛି , ଦୌଡିବା , ଦୌଡିବ , ଇତ୍ୟାଦି ମଧ୍ୟ ନଜରକୁ ନେଇଥାଏ । ଅର୍ଥାତ ଏହି ଶବ୍ଦମାନଙ୍କ ମଧ୍ୟରୁ କେହି ଗୋଟିଏ ଶବ୍ଦ ଯଦି ଲେଖାରେ ମିଳେ ତେବେ ଅନ୍ୟ ସବୁ ଶବ୍ଦ ମଧ୍ୟ ଲେଖାଟିରେ ଅଛି ବୋଲି ଧରାଯିବ ।

ସଫିକ୍ସ ଲିଭେଇଦେବା ଶୈଳୀ

ସଫିକ୍ସ ଅର୍ଥାତ ଶେଷ ଅକ୍ଷର(ଗୁଡ଼ିକ)କୁ ବାଦ ଦିଆଯାଇ ଶବ୍ଦର ମୂଳ ରୂପକୁ ଅଣାଯାଇପାରେ । ଓଡ଼ିଆରେ ଅନେକ ଶବ୍ଦ ଅଛି ଯେଉଁଥିରେ ବହୁଳ ମାତ୍ରାରେ ଏହି ଶେଷ ଅକ୍ଷର ଯୋଡ଼ା ହୋଇଥାଏ । ସେଭଳି କେତକ ସଫିକ୍ସ ନିମ୍ନରେ ଦିଆହେଲା ।

ସାଧାରଣ ଶେଷ ଅକ୍ଷର ବା ସଫିକ୍ସ
ସଫିକ୍ସ	ବ୍ୟବହୃତ କିଛି ଶବ୍ଦ	ସଫିକ୍ସ କାଢ଼ିଲାପରେ ହେଉଥିବା ଶବ୍ଦ
ଇଛି	ହୋଇଛି, ଯାଇଛି, ପାଇଛି, ଶୋଇଛି	ହୋ, ଯା, ପା, ଶୋ
ଉଛୁ	ଶୁଣୁଛୁ, ଶୋଉଛୁ, ପାଉଛୁ, ପଳଉଛୁ	ଶୁଣ, ଶୋ, ପା, ପଳ
ଇବା	ଶୁଣିବା, ଶୋଇବା, ପାଇବା, ପାଳିବା	ଶୁଣ, ଶୋ, ପା, ପାଳ

ଲେମାଟାଇଜେସନ ଉପାୟ

ସାଧାରଣତଃ ଷ୍ଟେମିଂର ଉନ୍ନତ ରୁପକୁ ଲେମାଟାଇଜେସନ କୁହାଯାଇଥାଏ, ଏଠାରେ ଶବ୍ଦକୁ ଗୋଟିଏ ପରେ ଗୋଟେ ପ୍ରକ୍ରିୟା ନକରି ପୁରାପୁରି ବାକ୍ୟଟିକୁ ବିଚାରକୁ ନିଆଯାଇଥାଏ, ସେହି ବାକ୍ୟରୁ ପ୍ରତି ଶବ୍ଦର ପଦ ପ୍ରକରଣ ବା ପାର୍ଟ ଅଫ ସ୍ପିଚଦ୍ୱାରା ବିଭିନ୍ନ କିସମର ମୂଳରୂପାକୁ ଫେରାଇ ଆଣିବା ପ୍ରକ୍ରିୟା ପ୍ରୟୋଗ କରାଯାଇଥାଏ ।

ଷ୍ଟକାସ୍ଟିକ ଉପାୟ

ଏନ-ଗ୍ରାମ ପ୍ରକ୍ରିୟା

ଆଫିକ୍ସ ଷ୍ଟେମର

ଯୋଡ଼ୁଥିବା ଉପାୟ

ଭାଷା ସମସ୍ୟା

ଓଡ଼ିଆ ଭାଷାରେ ସେଭଳି କିଛି ଭଲ ଷ୍ଟେମର ବାହାରିବାକୁ ନାହିଁ ।

ଆହୁରି ଦେଖନ୍ତୁ

ଆଧାର

[1] ttps://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

[2] ttp://blog.chapagain.com.np/python-nltk-stemming-lemmatization-natural-language-processing-nlp/

[୧]

[୨]