ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍

ଇଂରାଜୀ ଲିଙ୍କ

https://or.wikipedia.org/wiki/Reinforcement_Learning

ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍ (English: Reinforcement Learning) କିମ୍ବା ସଂକ୍ଷେପରେ ଆରଏଲ ହେଉଛି ମେସିନ ଲର୍ଣ୍ଣିଙ୍ଗ୍ର ଏକ ବିଭାଗ ଯେଉଁଥିରେ କିପରି ଏକ ସଫ୍ଟୱେର ଏଜେଣ୍ଟ ଏକ ନିର୍ଦ୍ଧିଷ୍ଟ ପରିବେଶରେ ନିଷ୍ପତ୍ତି ନେଇ ଅଧିକ ଲାଭ ଉଠେଇପାରିବ ସେ ବିଷୟରେ ଗବେଷଣା ଓ ଆଲୋଚନା ହୋଇଥାଏ ।^[୧]^[୨] ଏହାର ସାଧାରଣତା ନିମିତ୍ତ ଏହି ବିଷୟାଟିକୁ ଆହୁରି ଅନେକ ସ୍ଥାନରେ ମଧ୍ୟ ପ୍ରୟୋଗ କରାଯାଇଥାଏ ଯେପରିକି ଗେମ ଥିଓରୀ, କଣ୍ଟ୍ରୋଲ ଥିଓରୀ, ଇନଫର୍ମେଶନ ଥିଓରୀ ଇତ୍ୟାଦି ।

ସୁପରଭାଇଜଡ଼ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ପରି ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ନିମିତ୍ତ ଚିନ୍ହିତ ତଥ୍ୟ ଆବଶ୍ୟକ ନୁହେଁ । ଚିନ୍ହିତ ତଥ୍ୟର ଅନୁପସ୍ଥିତିରେ ଏଜେଣ୍ଟଟି ନିଜର ଅଭିଜ୍ଞାତାରୁ ଶିକ୍ଷାଲାଭ କରିଥାଏ । ଶିଖିବା ସମୟରେ କେଉଁ ନିଷ୍ପତି ଭଲ ଏବଂ କେଉଁଟି ଖରାପ ଏହା ମନେରଖି ଦୂରଦୃଷ୍ଟିରେ କେଉଁ ନିଷ୍ପତିଟି ଭଲ ହେବ ସେହି ନିଷ୍ପତି ନେବାକୁ ଚେଷ୍ଟା କରିଥାଏ ।^[୩]

କିଛି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ତଥ୍ୟ ଏବଂ ଜାଣିବା କଥା

ଆରଏଲର ମୁଖ୍ୟ ଚରିତ୍ରଗୁଡ଼ିକ ହେଲେ ଏଜେଣ୍ଟ ଏବଂ ପରିବେଶ । ଏଜେଣ୍ଟଟି ପରିବେଶ ମଧ୍ୟରେ ରହିଥାଏ । ପରିବେଶ ସହ କଥାବାର୍ତ୍ତା କରିବା ସମୟରେ ପ୍ରତି ସ୍ତରରେ ଏଜେଣ୍ଟଟି ଏକ ଭିନ୍ନ ଦୁନିଆ ଦେଖିଥାଏ, ସେହି ହିସାବରେ ସେ ବିଚାର କରି କ୍ରିୟା କରିଥାଏ । ଏଜେଣ୍ଟଟିର ଏହି କ୍ରିୟା ଜନିତ ହସ୍ତକ୍ଷେପ ଯୋଗୁଁ ପାରିବେଶଟିରେ ପରିବର୍ତ୍ତନ ଘଟିଥାଏ । ବେଳେ ବେଳେ ଆପେ ଆପେ ମଧ୍ୟ ପରିବେଶରେ ପରିବର୍ତ୍ତନ ହୋଇପାରେ ।

ପରିବେଶ ମଧ୍ୟରୁ ଏଜେଣ୍ଟଟିକୁ ଏକ ରିବାର୍ଡ ବା ପୁରସ୍କାର ସଙ୍କେତ ମଧ୍ୟ ମିଳିଥାଏ ଯାହା ବର୍ତ୍ତମାନ ପରିସ୍ଥିତିରେ ଥିବା ପରିବେଶ ବିଷୟରେ ଦର୍ଶାଇଥାଏ । ବିଭିନ୍ନ ସ୍ତରର ପୁରସ୍କାର ମିଶିଲେ ତାହାକୁ ରିଟର୍ନ କୁହାଯାଏ । ଏଜେଣ୍ଟଟିର ଲକ୍ଷ ହେଉଛି ଏହି ରିଟର୍ନକୁ ବଢ଼ାଇବା । ଆରଏଲ ଆଲଗୋରିଦମର ବିଭିନ୍ନ ପ୍ରଣାଳୀ ଉପଯୋଗ କରି ଏଜେଣ୍ଟ ଏହି ଲକ୍ଷ୍ୟ ହାସଲ କରିଥାଏ ।

ଆରଏଲ ବିଷୟରେ ଅଧିକ ଜାଣିବାକୁ ନିମ୍ନଲିଖିତ ଅଧିକ ଶବ୍ଦ ବିଷୟରେ ଜାଣିବା ଜରୁରୀ:^[୪]

ଷ୍ଟେଟ ଏବଂ ଅବଜର୍ଭେସନ
ଆକ୍ସନ ସ୍ପେସ
ପଲିସି
ଟ୍ରାଜେକ୍ଟୋରି
ଅଧିକ ରିଟର୍ନ ପାଇବାର ପ୍ରଣାଳୀ
ଆରଏଲ ଅପଟିମାଇଜେସନ ସମସ୍ୟା ଏବଂ
ଭାଲ୍ୟୁ ଫଙ୍କସନ

ଘଟଣାବଳୀ

ଗୁଗଲ ସର୍ବସାଧାରଣ ଲୋକମାନଙ୍କ ନିମିତ୍ତ ଏହାର ନିଜର ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଫ୍ରେମବାର୍କକୁ ପ୍ରକାଶ କରିଛି ।^[୫] ଏହାର ଗିଟହବ ଆଧାର ଏଠାରେ ଉପଲବ୍ଧ ।

ଅଧାର

↑ "Reinforcement Learning Introduction". reinforcementlearning.ai-depot.net. Retrieved 2024-05-23.
↑ https://top.quora.com/What-is-reinforcement-learning^{[permanent dead link]}
↑ https://medium.com/machine-learning-for-humans/reinforcement-learning-6eacf258b265
↑ https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#key-concepts-and-terminology
↑ https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

ବାହ୍ୟ ଆଧାର

ଓପନ ଏଆଇ Archived 2018-11-10 at the Wayback Machine.

[1] "Reinforcement Learning Introduction". reinforcementlearning.ai-depot.net. Retrieved 2024-05-23.

[2] ttps://top.quora.com/What-is-reinforcement-learning^{[permanent dead link]}

[3] ttps://medium.com/machine-learning-for-humans/reinforcement-learning-6eacf258b265

[4] ttps://spinningup.openai.com/en/latest/spinningup/rl_intro.html#key-concepts-and-terminology

[5] ttps://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

[୧]

[୨]

[୩]

[୪]

[୫]