ବ୍ୟବହାରକାରୀ:Soumendrak/ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ

	ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ଗୁରୁତ୍ବପୂର୍ଣ ଲକ୍ଷ୍ୟଗୁଡିକ
	ନଲେଜ ରିଜନିଂ
	ପ୍ଲାନିଂ
	ମେସିନ ଲର୍ଣିଂ
	ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
	କମ୍ପ୍ୟୁଟର ଭିଜନ
	ରୋବୋଟିକ୍ସ
	ଆର୍ଟିଫିସିଆଲ ଜେନେରାଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ପଦ୍ଧତିଗୁଡିକ
	ସିମ୍ବଲିକ
	ଡିପ ଲର୍ଣିଂ
	ବାୟେସିଆନ ନେଟୱର୍କ
	ଏଭୋଲ୍ଯୁସନାରୀ ଆଲଗୋରିଦମ
ଫିଲୋସଫି
	ଏଥିକ୍ସ
	ବଞ୍ଚିରହିବାର ଆଶଙ୍କା
	ଟ୍ଯୁରିଙ୍ଗ ପରୀକ୍ଷା
	ଚୀନ ଘର
	ବନ୍ଧୁତ୍ବପୂର୍ଣ ଏଆଇ
ଇତିହାସ
	ଘଟଣାବଳୀ
	ପ୍ରଗତି
	ଏଆଇ ଶୀତ
ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା
	ପ୍ରୟୋଗ
	ପ୍ରକଳ୍ପ
	ପ୍ରୋଗ୍ରାମିଂ ଭାଷା
ଗ୍ଲୋସରି
	ଗ୍ଲୋସରି

ଇଂରାଜୀ ଲିଙ୍କ

https://or.wikipedia.org/wiki/Natural_Language_Processing

ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ। ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା

ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟ

ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।^[୨]

ବାକ୍ୟ-ରଚନା

ଟୋକେନାଇଜେସନ

କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । ^[୩]

ଉଦାହରଣ ସ୍ୱରୂପ, ନିମ୍ନଲିଖିତ ଲେଖାଗୁଡିକୁ ନଜରକୁ ନିଆଯାଉ ।

ଲେଖା	ଟୋକେନାଇଜେସନ ପରେ
ଓଡ଼ିଶାର ରାଜଧାନୀ ଭୁବନେଶ୍ୱର ଅଟେ ।	"ଓଡ଼ିଶାର", "ରାଜଧାନୀ", "ଭୁବନେଶ୍ୱର", "ଅଟେ", "।"
କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ ।	"କିଛି", "ଲେଖାକୁ", "ବାକ୍ୟ", "ବା", "ଶବ୍ଦରେ", "ଖଣ୍ଡ", "ଖଣ୍ଡ", "କରିବାକୁ", "ଏହା", "ଦର୍ଶାଇଥାଏ", "।", "ଗୋଟିଏ", "ବାକ୍ୟରେ", "ଥିବା", "ସମସ୍ତ", "ଶବ୍ଦଗୁଡ଼ିକୁ", "ଅଲଗା", "ଅଲଗା", "କରି", "ରଖିବାକୁ", "ଟୋକେନାଇଜେସନ", "ବା", "ଶବ୍ଦ", "ଖଣ୍ଡ", "କରିବା", "କୁହାଯାଇଥାଏ", "।"
ଆର୍ଟିଫିସିଆଲ ନ୍ୟୁରାଲ ନେଟୱର୍କ ବା କୁତ୍ରିମ ମସ୍ତିଷ୍କ ଜାଲ ହେଉଛି ଏକ କୁତ୍ରିମ ମସ୍ତିଷ୍କ ଯାହା ମନୁଷ୍ୟର ମସ୍ତିଷ୍କର ଅନୁସରଣ କରି ତିଆରି କରାହୋଇଛି।	"ଆର୍ଟିଫିସିଆଲ", "ନ୍ୟୁରାଲ", "ନେଟୱର୍କ", "ବା", "କୁତ୍ରିମ", "ମସ୍ତିଷ୍କ", "ଜାଲ", "ହେଉଛି", "ଏକ", "କୁତ୍ରିମ", "ମସ୍ତିଷ୍କ", "ଯାହା", "ମନୁଷ୍ୟର", "ମସ୍ତିଷ୍କର", "ଅନୁସରଣ", "କରି", "ତିଆରି", "କରାହୋଇଛି", "।"

ପ୍ରୋଗ୍ରାମ (ପାଇଥନ୍ ୩ ରେ)

from nltk.tokenize import word_tokenize

text = "ଓଡ଼ିଶାର ରାଜଧାନୀ ଭୁବନେଶ୍ୱର ଅଟେ |"
token_list = word_tokenize(text)
print(token_list)

# Output 
['ଓଡ଼ିଶାର', 'ରାଜଧାନୀ', 'ଭୁବନେଶ୍ୱର', 'ଅଟେ', '|']]

ଷ୍ଟେମିଂ

ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ

ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।^[୪] ଉଦାହରଣ ସ୍ୱରୂପ କିଛି ଶବ୍ଦ ନିମ୍ନରେ ପ୍ରଦର୍ଶନ ହେଲା ।^[୫]

ଶବ୍ଦ	ଷ୍ଟେମିଂ ପରେ ମୂଳଶବ୍ଦ
ଚଲେଇବା	ଚଲେ
ଲୋକମାନେ	ଲୋକ
ଓଡ଼ିଶାର	ଓଡ଼ିଶା
କୋକିଶିଆଳିଟିଏ	କୋକିଶିଆଳି
ହାତୀପଲ	ହାତୀ

ପ୍ରୋଗ୍ରାମ (ପାଇଥନ୍ ୩ ରେ)

import re
from nltk.tokenize import word_tokenize

text = "ଗାଈଆଳ ପିଲାମାନେ ଗାଈଗୁଡ଼ିକୁ ଚରାଉଛନ୍ତି"

plural_suffix = sorted(["ମାନେ", "ମାନ", "ମାନଙ୍କୁ", "ଗୁଡ଼ିକ", "ଗୁଡିକ", "ଗୁଡିକୁ", "ଗୁଡ଼ିକୁ", "ଟା", "ଟି", "ଗୋଟି", "ଟିଏ", "ଗୁଡ଼ାକ", "ଗୁଡାକ", "ଏ", "ଗଣ", "ପଲ", "ଗୁଡ଼ାଏ", "ଗୁଡାଏ", "ସବୁ", "ାଉଛନ୍ତି"])
plural_suffix_pattern = re.compile("$|".join(plural_suffix) + "$")

def stemm(token_list):
    new_token_list = []
    for token in token_list:
        new_token = re.sub(plural_suffix_pattern, '', token)
        new_token = token if len(new_token) < 2 else new_token
        new_token_list.append(new_token)
    return new_token_list

print(stemm(word_tokenize(text)))
# output
['ଗାଈଆଳ', 'ପିଲା', 'ଗାଈ', 'ଚର']

ଲେମାଟାଇଜେସନ

ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂ ଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।^[୬]^[୭] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ, ଯଦି ଭବିଷ୍ୟତରେ ହୁଏ ତେବେ ଏହିଭଳି କେତୋଟି ଉଦାହରଣ ଦିଆଗଲା ।

ଶବ୍ଦ	ଲେମାଟାଇଜେସନ ପରେ ମୂଳ ଶବ୍ଦ
ଯିବା, ଯାଉଛି, ଗଲା, ଯିବ, ଯାଏ, ଗମନ	ଯାଏ
କରେ, କଲା, କରୁଛି, କରିଆସୁଅଛି, କରିଥିଲା, କରିଥାଇପାରେ	କରେ
ସୁନ୍ଦର, ସୌନ୍ଦର୍ଯ୍ୟ, ସୌନ୍ଦର୍ଯ୍ୟତା, ସୁନ୍ଦରୀ, ସୁନ୍ଦରତା	ସୁନ୍ଦର

ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟର ମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।^[୮]

ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବା

ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ । କିଛି ଉଦାହରଣ ନିମ୍ନରେ ଦିଅ ହେଲା ।

ବାକ୍ୟ	ଷ୍ଟପୱାର୍ଡ
ହଇରେ ମଦନା କଣ କରୁଛୁ କିରେ ?	ହଇରେ, କିରେ
ମା'ରାଣ ଗଙ୍ଗାକୂଳକୁ ଆସି ପାପ ନଧୋଇ ଚାଲିଯିବ ଯେ ?	ମା'ରାଣ, ଯେ
ଇମା, ହେଇଟି ଶୁଣୁଛ ଶୁକୁଟାକୁ କହିକି ସେ ମାହାନ୍ତି ଦୋକାନରୁ ୨ ପଇସାର ଚେନାଚୁର ଟିକେ ମଗେଇଲେ	ଇମା, ହେଇଟି, ସେ, ଟିକେ

ବିରାମ ଚିହ୍ନ ବାହାର କରିବା

ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।

ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)

ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।^[୯] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।^[୧୦]

ଉଦାହରଣ ସ୍ୱରୂପ:

ମୁଁ ଯାଉଅଛି ।

ଏହି ବାକ୍ୟଟିରେ

ମୁଁ : ବିଶେଷ୍ୟ ଓ କର୍ତ୍ତା

ଯାଉଅଛି : କ୍ରିୟା

ସିମାନଟିକ୍ସ

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।^[୧୧] ସ୍ପଷ୍ଟଭାବରେ ବୁଝିବାନିମିତ୍ତ ନିମ୍ନରେ କିଛି ଉଦାହରଣ ଦେଖାଯାଇଅଛି ।

ଲେଖା	ଲେଖାରେ ଥିବା ଏନ.ଇ.ଆର.
ବୈଜୟନ୍ତ ପଣ୍ଡା ଅରଟେଲ କମ୍ପାନୀର ମାଲିକ ଅଟନ୍ତି ।	ବୈଜୟନ୍ତ ପଣ୍ଡା[ନାମ], ଅରଟେଲ[ସଂସ୍ଥା]
ବେଙ୍ଗାଳୁରୁରୁ ଭୁବନେଶ୍ୱର ୧୪୧୫ କିଲୋମିଟର ଅଟେ ।	ବେଙ୍ଗାଳୁରୁ[ସ୍ଥାନ], ଭୁବନେଶ୍ୱର[ସ୍ଥାନ]

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।^[୧୨]^[୧୩] ଅଧିକ ଜାଣିବା ନିମିତ୍ତ ଉଦାହରଣ ଦେଖନ୍ତୁ ।

ଲିଖିତ ବା କଥିତ ମନ୍ତବ୍ୟ	ଉଦ୍ଧାରିତ ଭାବ
ବୋବାଲ ହେଇଥିଲାବେ ମୁଭିଟା, ମୁଁ ଦିଥର ଦେଖିକି ଆସିଲିଣି । କାଲି ଆହୁରିଥରେ ଯିବି । ତୁ ଆସିବୁ ଯଦି କହ ? ତୋ ପାଇଁ ଗୋଟେ ଟିକଟ ବାଡ଼େଇ ଦେବା ।	ବହୁତ ଭଲ , ବହୁତ ଖୁସି
କି ଧଇଁୟାଁ ନଡ଼ିଆ ତେଲ ସେ ଗାଁ ମୁଣ୍ଡର ତେଜରାତି ଦୋକାନୀଟା ଦେଲାହୋ, ଲଗଉ ଲଗଉ ଚୁଟି ସବୁ ଝଡ଼ିଗଲା । ଆରଥର ଗାଁକୁ ଯାଏ, ତା'ର ଦିନେକୁ ମୋର ଦିନେ ।	ବହୁତ ରାଗି, ଅସନ୍ତୁଷ୍ଟ
କଟକ-ଚଣ୍ଡିଖୋଲ ରାସ୍ତା ମଝିରେ କାଳୁ ଭାଇ ଢ଼ାବା ଗୋଟେ ଖୋଲିଛି , ପଇସା ଠିକଠାକ ନଉଛି ଆଉ ତାର ମଟନ ତରକାରୀ କୁହନ୍ତୁନି ଆଜ୍ଞା, ପୁରା ଆଙ୍ଗୁଠି ଚାଟୁଥିବେ । ହେଲେ ବସିକି ଖାଇବାକୁ ଜାଗା ମିଳିବନି ବହୁତ ଗହଳି । ମଟନ ଛଡ଼ା ଆଉ କିଛିବି ଏତେ ଭଲ ମିଳେନି । ଥରେ ଯାଇକି ଘେରାଏ ମାରିଦେଇକି ଆସୁନାହାଁନ୍ତି ।	ମଝିଆ ମଝି, ବେଶି ଭଲ ନୁହେଁ କି ଖରାପ ନୁହେଁ

ଡିସ୍କୋର୍ସ

ଅଟୋମେଟିକ ସମରାଇଜେସନ

ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।^[୧୪]^[୧୫]^[୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।

ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ

ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।

ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ

ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।^[୧୭]

କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ

ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ । ଗୋଟିଏ ଉଦାହରଣ ନିମ୍ନରେ ଦିଆହେଲା ।

ନବୀନ ପଟ୍ଟନାୟକ ଓଡ଼ିଶାର ମୁଖ୍ୟମନ୍ତ୍ରୀ ଅଟନ୍ତି । ସେ ଭୁବନେଶ୍ୱରରେ ଅବସ୍ଥିତ ତାଙ୍କର ଗୃହ, ନବୀନ ନିବାସରେ ବାସ କରନ୍ତି ।

ଉପରୋକ୍ତ ବାକ୍ୟ ଦୁଇଟିରେ, ଦ୍ୱିତୀୟ ବାକ୍ୟରେ ଥିବା ଶବ୍ଦ 'ସେ' ପ୍ରଥମ ବାକ୍ୟରେ ଥିବା ନାମ "ନବୀନ ପଟ୍ଟନାୟକ"କୁ ସମ୍ବୋଧିତ କରୁଅଛି । ଯନ୍ତ୍ରକୁ ଯଦି ଏବେ ଉପରୋକ୍ତ ଦୁଇଟି ବାକ୍ୟ ଦେଇ କେହି ପରେ ପଚାରିବେ, ନବୀନ ପଟ୍ଟନାୟକ କେଉଁଠାରେ ବାସ କରନ୍ତି ?, ତେବେ ଯନ୍ତ୍ରକୁ ସମାଧାନ କରିବାର ଅଛିକି ଦ୍ୱିତୀୟ ବାକ୍ୟରେ ଥିବା 'ସେ' ହିଁ ପ୍ରଥମ ବାକ୍ୟର "ନବୀନ ପଟ୍ଟନାୟକ"କୁ ସମ୍ବୋଧିତ କରୁଅଛି । ଏହାକୁ କୁହାଯାଏ, କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ ।

କଥା

ସ୍ପିଚ ରେକଗନିସନ

କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।^[୧୮]

ଆହୁରି ଦେଖନ୍ତୁ

ବାହାର ତଥ୍ୟ

https://medium.com/@ageitgey/natural-language-processing-is-fun-9a0bff37854e

ଆଧାର

↑ Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
↑ http://docs.cltk.org/en/latest/odia.html#alphabet
↑ https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
↑ http://ijarcet.org/wp-content/uploads/IJARCET-VOL-3-ISSUE-1-9-11.pdf
↑ https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
↑ http://eprints.iisc.ernet.in/4856/1/oriya.pdf
↑ https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer
↑ https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
↑ https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
↑ https://www.sciencedirect.com/science/article/pii/S1877050915006365
↑ https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
↑ https://www.lexalytics.com/technology/sentiment
↑ https://www.brandwatch.com/blog/understanding-sentiment-analysis/
↑ https://machinelearningmastery.com/gentle-introduction-text-summarization/
↑ http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
↑ https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
↑ https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
↑ https://en.wikipedia.org/wiki/Speech_recognition

[Kongthon-1] Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908

[2] ttp://docs.cltk.org/en/latest/odia.html#alphabet

[3] ttps://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en

[4] ttp://ijarcet.org/wp-content/uploads/IJARCET-VOL-3-ISSUE-1-9-11.pdf

[5] ttps://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing

[6] ttp://eprints.iisc.ernet.in/4856/1/oriya.pdf

[7] ttps://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer

[8] ttps://www.quora.com/What-is-difference-between-stemming-and-lemmatization

[9] ttps://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia

[10] ttps://www.sciencedirect.com/science/article/pii/S1877050915006365

[11] ttps://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e

[12] ttps://www.lexalytics.com/technology/sentiment

[13] ttps://www.brandwatch.com/blog/understanding-sentiment-analysis/

[14] ttps://machinelearningmastery.com/gentle-introduction-text-summarization/

[15] ttp://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf

[16] ttps://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text

[17] ttps://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/

[18] ttps://en.wikipedia.org/wiki/Speech_recognition

[୧]

[୨]

[୩]

[୪]

[୫]

[୬]

[୭]

[୮]

[୯]

[୧୦]

[୧୧]

[୧୨]

[୧୩]

[୧୪]

[୧୫]

[୧୬]

[୧୭]

[୧୮]