ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
![](http://upload.wikimedia.org/wikipedia/commons/thumb/8/8b/Automated_online_assistant.png/200px-Automated_online_assistant.png)
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ। ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା:
- କଥୋପକଥନ ଚିନ୍ହିବା
- ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ଅଣ୍ଡରଷ୍ଟାଣ୍ଡିଂ
- ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ଜେନେରେସନ ଏବଂ
- ମେସିନ ଟ୍ରାନ୍ସଲେସନ
ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟ
[ସମ୍ପାଦନା]ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।[୨]
ବାକ୍ୟ-ରଚନା
[ସମ୍ପାଦନା]ଟୋକେନାଇଜେସନ
[ସମ୍ପାଦନା]କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । [୩]
ଷ୍ଟେମିଂ
[ସମ୍ପାଦନା]ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ
ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।[୪] [୫]
ଲେମାଟାଇଜେସନ
[ସମ୍ପାଦନା]ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।[୬][୭] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ ।
ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟରମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।[୮]
ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବା
[ସମ୍ପାଦନା]ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ ।
ବିରାମ ଚିହ୍ନ ବାହାର କରିବା
[ସମ୍ପାଦନା]ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।
ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)
[ସମ୍ପାଦନା]ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।[୯] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।[୧୦]
ସିମାନଟିକ୍ସ
[ସମ୍ପାଦନା]ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)
[ସମ୍ପାଦନା]ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।[୧୧]
ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ
[ସମ୍ପାଦନା]ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।[୧୨][୧୩]
ଡିସ୍କୋର୍ସ
[ସମ୍ପାଦନା]ଅଟୋମେଟିକ ସମରାଇଜେସନ
[ସମ୍ପାଦନା]ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।[୧୪][୧୫][୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।
ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
[ସମ୍ପାଦନା]ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।
ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
[ସମ୍ପାଦନା]ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।[୧୭]
କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ
[ସମ୍ପାଦନା]ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ ।
ସ୍ପିଚ ରେକଗନିସନ
[ସମ୍ପାଦନା]କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।[୧୮]
ଆହୁରି ଦେଖନ୍ତୁ
[ସମ୍ପାଦନା]ବାହାର ତଥ୍ୟ
[ସମ୍ପାଦନା]ଆଧାର
[ସମ୍ପାଦନା]- ↑ Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
- ↑ "ଆର୍କାଇଭ୍ କପି". Archived from the original on 2018-08-18. Retrieved 2018-07-28.
{{cite web}}
: Cite has empty unknown parameter:|1=
(help) - ↑ https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
- ↑ "ଆର୍କାଇଭ୍ କପି" (PDF). Archived from the original (PDF) on 2016-09-03. Retrieved 2018-07-27.
{{cite web}}
: Cite has empty unknown parameter:|1=
(help) - ↑ https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
- ↑ http://eprints.iisc.ernet.in/4856/1/oriya.pdf
- ↑ https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer[permanent dead link]
- ↑ https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
- ↑ https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
- ↑ https://www.sciencedirect.com/science/article/pii/S1877050915006365
- ↑ https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
- ↑ https://www.lexalytics.com/technology/sentiment
- ↑ https://www.brandwatch.com/blog/understanding-sentiment-analysis/
- ↑ https://machinelearningmastery.com/gentle-introduction-text-summarization/
- ↑ http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
- ↑ https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
- ↑ https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
- ↑ https://en.wikipedia.org/wiki/Speech_recognition