ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ

ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ହେଉଛି ମେସିନ_ଟ୍ରାନ୍ସଲେସନର ଏକ ଉପାୟ, ଯାହା ଏକ artificial neural network ବ୳ବହାର କରି ଶବ୍ଦକ୍ରମର ସମ୍ଭାବନା ନିରୂପଣ କରେ , ପ୍ରାୟତଃ ସମ୍ପୂର୍ଣ୍ଣ ବାକ୳କୁ ଏକ ସଂଗଠିତ ରୂପରେ ସଜାଡ଼େ ।

ଗୁଣାବଳୀ

ନିଉରାଲ ଟ୍ରାନ୍ସଲେସନ ମଡେଲ ସବୁ ପାରମ୍ପାରିକ ଷ୍ଟାଟିଷ୍ଟିକାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ (statistical machine translation) ମଡେଲଠାରୁ ବହୁତ କମ ମେମୋରି ଆବଶ୍ୟକ କରନ୍ତି । ପାରମ୍ପାରିକ ଅନୁବାଦ ବ୳ବସ୍ଥାମାନଙ୍କଠାରୁ ଅଲଗା ଭାବରେ, ଅନୁବାଦର ମାନ ବୃଦ୍ଧି ପାଇଁ ନିଉରାଲ ଟ୍ରାନ୍ସଲେସନ ମଡେଲର ସମସ୍ତ ଭାଗ ସବୁକୁ ଏକ ସହିତ ଶିକ୍ଷା ଦିଆଯାଏ।

ଇତିହାସ

୧୯୯୦ରେ ଡିପ୍ ଲର୍ଣିଂର ପ୍ରୟୋଗ ସବୁ ପ୍ରଥମେ କଥା ଚିହ୍ନିବା( ସ୍ପୀଚ ରେକଗନିସନ) ରେ କରା ଯାଇଥିଲା। ନିଉରାଲ ନେଟୱର୍କ ବ୍ୟବହାରର ପ୍ରଥମ ବୈଜ୍ଞାନିକ ଲେଖା ୨୦୧୪ରେ ବାହାରିଲା , ତା ପର କିଛି ବର୍ଷ ଭିତରେ ବହୁତ ଉନ୍ନତି ହେଲା . ୨୦୧୫ରେ ଗୋଟିଏ ଯନ୍ତ୍ର ଅନୁବାଦ ପ୍ରତିଯୋଗିତାରେ ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ବ୍ୟବସ୍ଥା ପ୍ରଥମଥର ପାଇଁ ଜନସାଧାରଣ ଆଗକୁ ଆସିଲା (OpenMT'15) ^[୧].

କାର୍ଯ୍ୟକାରିଣୀ

ଖଣ୍ଡ ବାକ୳ ଉପରେ ଆଧାରିତ, ଷ୍ଟାଟିଷ୍ଟିକାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ମାନଙ୍କରେ ପ୍ରୟୋଗ ହେଉଥିବା, ଉପଖଣ୍ଡ ବାହାରକରି, ସେ ଉପଖଣ୍ଡମାନଙ୍କୁ ଅଲଗା ଇଂଜିନିୟରିଂ କରିବା ଉପାୟରୁ, NMT ନୂଆ ।ଶବ୍ଦ ଓ ଅନ୍ତର୍ଗତ ଅବସ୍ଥା ("embeddings", "continuous space representations") ପାଇଁ ଭେକ୍ଟର ରୂପର ବ୳ବହାର କରିବା ହେଉଛି ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନର ନୂତନତା ଏ ମଡେଲର ସଜ୍ଜା ଖଣ୍ଡ ବାକ୳ ଉପରେ ଆଧାରିତ ମଡେଲମାନଙ୍କଠାରୁ ସହଜ . ଅଲଗା ଭାଷା ମଡେଲ , ଅନୁବାଦ ମଡେଲ , ଆଉଥରେ ସଜଉଥିବା ମଡେଲ ଭଳି ଅଲଗା ଅଲଗା ମଡେଲ ସବୁ ନଥାଇ ଗୋଟିଏ ସିକୁଏନ୍ସ (କ୍ରମ) ମଡେଲ ଅଛି ଯାହା ଥରକେ ଗୋଟିଏ ଶବ୍ଦକୁ ଅନୁମାନ କରେ, ଯଦିଓ ଏ କ୍ରମର ଅନୁମାନ ପୁରା ଉତ୍ସ ବାକ୍ୟ ଓ ଲକ୍ଷ ବାକ୍ୟ ମାନଙ୍କୁ ନେଇ ତିଆରି ହୁଏ । ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନର ମଡେଲମାନେ deep learning ଓ representation learning ବ୍ୟବହାରର କରନ୍ତି ।

ଏ ଶବ୍ଦ କ୍ରମ ମଡେଲ ତିଆରି ପ୍ରଥମେ ପ୍ରାୟତଃ ଏକ recurrent neural network (RNN) ବ୳ବହାର କରି କରାଯାଉଥିଲା । ଏ neural network ଦ୍ୱାରା ଏକ ଉତ୍ସ ଭାଷାର(ସୋର୍ସ ଲାଙ୍ଗୁଏଜ) ବାକ୍ୟକୁ ଏନକୋଡ଼ିଙ୍ଗ କରିବା ପାଇଁ ଏନକୋଡର ନାମରେ ଏକ ଦୋମୁହାଁ RNN ବ୍ୟବହାର ହୁଏ , ଡିକୋଡର ନାମରେ ଥିବା ଦ୍ୱିତୀୟ RNN, (ଟାର୍ଗେଟ ଲାଙ୍ଗୁଏଜ) ଲକ୍ଷ ଭାଷାରେ ଶବ୍ଦ ସବୁ ଅନୁମାନ କରିବା ପାଇଁ ବ୳ବହାର ହୁଏ ।

Convolutional Neural Networks (Convnets) ସବୁ ଲମ୍ବା କ୍ରମସବୁ ପାଇଁ ପ୍ରାୟତଃ ଭଲ, କିନ୍ତୁ ପ୍ରଥମେ କିଛି ଦୁର୍ବଳତା ପାଇଁ ବ୍ୟବହାର କରାଯାଉନଥିଲା । ଅନେକ ଦୁର୍ବଳତା ୨୦୧୭ରେ ଧ୳୲ନ( "attention") ଉପରେ ଆଧାରିତ ଉପାୟମାନଙ୍କ ବ୳ବହାରଦ୍ୱାରା ଦୂର ହୋଇଛି ।ଅତି ଅଧିକା ଅନୁବାଦ ବା ଅତି କାମ ଅନୁବାଦ ଭଳି ସମସ୳୲ ତିଆରି କରୁଥିବା ଅଲାଇନମେଣ୍ଟ ଇନ୍ଫୋରମେସନକୁ ବାଦ କରିବା ଭଳି ଆହୁରି କଭରେଜ ମଡେଲ ସବୁ ଅଛି ପାରମ୍ପରିକ ଧ୳୲ନ ଉପାୟରେ ଥିବା ସମସ୳୲ ସମାଧାନ କରିବାପାଇଁ । ^[୨].

ବ୳ବହାର

୨୦୧୭ ସୁଦ୍ଧା , ପ୍ରାୟ ସବୁ ଭଲ ଯନ୍ତ୍ରାନୁବାଦ ବ୍ୟବସ୍ଥା କୃତ୍ରିମ ସ୍ନାୟୁ ଜାଲ ବ୍ୟବହାର କରୁଥିଲେ। ଏବେ Google, Google, Microsoft, IBM,Yandex and PROMT ଅନୁବାଦ ସେବା ସବୁ NMT ବ୍ୟବହାର କରୁଛନ୍ତି । Google ଆଗର ଷ୍ଟାଟିଷ୍ଟିକାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ଉପାୟ ସବୁ ଛାଡି ତାର ନିଜର Google Neural Machine Translation (GNMT) ବ୍ୟବହାର କରୁଛି । Microsoft ବକ୍ତବ୍ୟ ଅନୁବାଦ ସବୁରେ (including Microsoft Translator live and Skype Translator) ସମାନ ପ୍ରକାରର ଟେକ୍ନୋଲୋଜି ବ୍ୟବହାର କରୁଛି . Harvard NLP group ମଧ୍ୟ OpenNMT ନାମରେ ,ଏକ open source ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ବ୍ୟବସ୍ଥା ତିଆରି କରିଛି ।

ପ୍ରାକୃତିକ ଭାଷା ବାହାରେ ମଧ୍ୟ NMT ଟେକ୍ନୋଲୋଜି ବ୍ୟବହାର ହୋଇପାରିବ। ଦେଖାଯାଇଛି ଯେ NMT କମ୍ପ୍ୟୁଟର ପ୍ରୋଗ୍ରାମର ସୋର୍ସ କୋଡ଼ରେ ମଧ୍ୟ ବ୍ୟବହାର ହୋଇ ପାରିବ । ସୋର୍ସ କୋଡ଼କୁ ଠିକରେ ଏନକୋଡ଼ିଙ୍ଗ କରି, SequenceR automatic bug fixing system (ସ୍ୱୟଂଚଳିତ ଭୁଲ ଠିକ କରିବା ବ୍ୟବସ୍ଥା) ପୂର୍ବ କୋଡ଼କୁ ଦେଖି , ଏକ ଧାଡ଼ିଆ କୋଡ଼ ଲେଖି ଠିକ କରିପାରୁଛି। ^[୩]

ଆଧାର

↑ "Neural machine translation", Wikipedia (in ଇଂରାଜୀ), 2020-01-30, retrieved 2020-02-09
↑ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL].
↑ Chen, Zimin; Kommrusch, Steve James; Tufano, Michele; Pouchet, Louis-Noel; Poshyvanyk, Denys; Monperrus, Martin (2019). "SEQUENCER: Sequence-to-Sequence Learning for End-to-End Program Repair". IEEE Transactions on Software Engineering: 1. arXiv:1901.01808. doi:10.1109/TSE.2019.2940179. ISSN 0098-5589.

ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "WMT16" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "Medical" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "attention" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "DeepL" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "AIawakening" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "MS-NMT" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "OpenNMT" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "Yandex" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "KalchbrennerBlunsom" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "sequence" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "Properties" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।
ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "align&translate" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।

ଆଧାର ଭୁଲ: <references>ରେ ଦିଆଯାଇଥିବା "han&kuang2018nmt" ନାମ ସହ ଥିବା <ref> ଚିହ୍ନ ଦରକାରୀ ଲେଖାରେ ବ୍ୟବହାର ହୋଇନାହିଁ ।

[1] "Neural machine translation", Wikipedia (in ଇଂରାଜୀ), 2020-01-30, retrieved 2020-02-09

[2] Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Xiaohua; Li, Hang (2016). "Modeling Coverage for Neural Machine Translation". arXiv:1601.04811 [cs.CL].

[3] Chen, Zimin; Kommrusch, Steve James; Tufano, Michele; Pouchet, Louis-Noel; Poshyvanyk, Denys; Monperrus, Martin (2019). "SEQUENCER: Sequence-to-Sequence Learning for End-to-End Program Repair". IEEE Transactions on Software Engineering: 1. arXiv:1901.01808. doi:10.1109/TSE.2019.2940179. ISSN 0098-5589.

[୧]

[୨]

[୩]