ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ

ଉଇକିପିଡ଼ିଆ ରୁ
(Natural Language Processing ରୁ ଲେଉଟି ଆସିଛି)
Jump to navigation Jump to search
ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ଗୁରୁତ୍ବପୂର୍ଣ ଲକ୍ଷ୍ୟଗୁଡିକ
ନଲେଜ ରିଜନିଂ
ପ୍ଲାନିଂ
ମେସିନ ଲର୍ଣିଂ
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
କମ୍ପ୍ୟୁଟର ଭିଜନ
ରୋବୋଟିକ୍ସ
ଆର୍ଟିଫିସିଆଲ ଜେନେରାଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ପଦ୍ଧତିଗୁଡିକ
ସିମ୍ବଲିକ
ଡିପ ଲର୍ଣିଂ
ବାୟେସିଆନ ନେଟୱର୍କ
ଏଭୋଲ୍ଯୁସନାରୀ ଆଲଗୋରିଦମ
ଫିଲୋସଫି
ଏଥିକ୍ସ
ବଞ୍ଚିରହିବାର ଆଶଙ୍କା
ଟ୍ଯୁରିଙ୍ଗ ପରୀକ୍ଷା
ଚୀନ ଘର
ବନ୍ଧୁତ୍ବପୂର୍ଣ ଏଆଇ
ଇତିହାସ
ଘଟଣାବଳୀ
ପ୍ରଗତି
ଏଆଇ ଶୀତ
ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା
ପ୍ରୟୋଗ
ପ୍ରକଳ୍ପ
ପ୍ରୋଗ୍ରାମିଂ ଭାଷା
ଗ୍ଲୋସରି
ଗ୍ଲୋସରି
An automated online assistant providing customer service on a web page, an example of an application where natural-language processing is a major component.[୧]

ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ।  ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା:


ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟ[ସମ୍ପାଦନା]

ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।[୨]

ବାକ୍ୟ-ରଚନା[ସମ୍ପାଦନା]

ଟୋକେନାଇଜେସନ[ସମ୍ପାଦନା]

କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । [୩]


ଷ୍ଟେମିଂ[ସମ୍ପାଦନା]

ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ

ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।[୪] [୫]

ଲେମାଟାଇଜେସନ[ସମ୍ପାଦନା]

ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂ ଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।[୬][୭] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ ।

ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟର ମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।[୮]

ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବା[ସମ୍ପାଦନା]

ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ ।

ବିରାମ ଚିହ୍ନ ବାହାର କରିବା[ସମ୍ପାଦନା]

ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।

ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)[ସମ୍ପାଦନା]

ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।[୯] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।[୧୦]

ସିମାନଟିକ୍ସ[ସମ୍ପାଦନା]

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)[ସମ୍ପାଦନା]

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।[୧୧]

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ[ସମ୍ପାଦନା]

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।[୧୨][୧୩]

ଡିସ୍କୋର୍ସ[ସମ୍ପାଦନା]

ଅଟୋମେଟିକ ସମରାଇଜେସନ[ସମ୍ପାଦନା]

ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।[୧୪][୧୫][୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।

ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ[ସମ୍ପାଦନା]

ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।

ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ[ସମ୍ପାଦନା]

ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।[୧୭]

କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ[ସମ୍ପାଦନା]

ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ ।

ସ୍ପିଚ ରେକଗନିସନ[ସମ୍ପାଦନା]

କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।[୧୮]

ଆହୁରି ଦେଖନ୍ତୁ[ସମ୍ପାଦନା]

ବାହାର ତଥ୍ୟ[ସମ୍ପାଦନା]

ଆଧାର[ସମ୍ପାଦନା]

  1. Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
  2. http://docs.cltk.org/en/latest/odia.html#alphabet
  3. https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
  4. http://ijarcet.org/wp-content/uploads/IJARCET-VOL-3-ISSUE-1-9-11.pdf
  5. https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
  6. http://eprints.iisc.ernet.in/4856/1/oriya.pdf
  7. https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer
  8. https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
  9. https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
  10. https://www.sciencedirect.com/science/article/pii/S1877050915006365
  11. https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
  12. https://www.lexalytics.com/technology/sentiment
  13. https://www.brandwatch.com/blog/understanding-sentiment-analysis/
  14. https://machinelearningmastery.com/gentle-introduction-text-summarization/
  15. http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
  16. https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
  17. https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
  18. https://en.wikipedia.org/wiki/Speech_recognition