ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍
ମେସିନ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ଏବଂ ଡାଟା ମାଇନିଂ |
---|
ମେସିନ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ସ୍ଥାନଗୁଡ଼ିକ
|
ପାଖାପାଖି ପୃଷ୍ଠାଗୁଡ଼ିକ
|
ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍ (English: Reinforcement Learning) କିମ୍ବା ସଂକ୍ଷେପରେ ଆରଏଲ ହେଉଛି ମେସିନ ଲର୍ଣ୍ଣିଙ୍ଗ୍ର ଏକ ବିଭାଗ ଯେଉଁଥିରେ କିପରି ଏକ ସଫ୍ଟୱେର ଏଜେଣ୍ଟ ଏକ ନିର୍ଦ୍ଧିଷ୍ଟ ପରିବେଶରେ ନିଷ୍ପତ୍ତି ନେଇ ଅଧିକ ଲାଭ ଉଠେଇପାରିବ ସେ ବିଷୟରେ ଗବେଷଣା ଓ ଆଲୋଚନା ହୋଇଥାଏ ।[୧][୨] ଏହାର ସାଧାରଣତା ନିମିତ୍ତ ଏହି ବିଷୟାଟିକୁ ଆହୁରି ଅନେକ ସ୍ଥାନରେ ମଧ୍ୟ ପ୍ରୟୋଗ କରାଯାଇଥାଏ ଯେପରିକି ଗେମ ଥିଓରୀ, କଣ୍ଟ୍ରୋଲ ଥିଓରୀ, ଇନଫର୍ମେଶନ ଥିଓରୀ ଇତ୍ୟାଦି ।
ସୁପରଭାଇଜଡ଼ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ପରି ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ନିମିତ୍ତ ଚିନ୍ହିତ ତଥ୍ୟ ଆବଶ୍ୟକ ନୁହେଁ । ଚିନ୍ହିତ ତଥ୍ୟର ଅନୁପସ୍ଥିତିରେ ଏଜେଣ୍ଟଟି ନିଜର ଅଭିଜ୍ଞାତାରୁ ଶିକ୍ଷାଲାଭ କରିଥାଏ । ଶିଖିବା ସମୟରେ କେଉଁ ନିଷ୍ପତି ଭଲ ଏବଂ କେଉଁଟି ଖରାପ ଏହା ମନେରଖି ଦୂରଦୃଷ୍ଟିରେ କେଉଁ ନିଷ୍ପତିଟି ଭଲ ହେବ ସେହି ନିଷ୍ପତି ନେବାକୁ ଚେଷ୍ଟା କରିଥାଏ ।[୩]
କିଛି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ତଥ୍ୟ ଏବଂ ଜାଣିବା କଥା
[ସମ୍ପାଦନା]ଆରଏଲର ମୁଖ୍ୟ ଚରିତ୍ରଗୁଡ଼ିକ ହେଲେ ଏଜେଣ୍ଟ ଏବଂ ପରିବେଶ । ଏଜେଣ୍ଟଟି ପରିବେଶ ମଧ୍ୟରେ ରହିଥାଏ । ପରିବେଶ ସହ କଥାବାର୍ତ୍ତା କରିବା ସମୟରେ ପ୍ରତି ସ୍ତରରେ ଏଜେଣ୍ଟଟି ଏକ ଭିନ୍ନ ଦୁନିଆ ଦେଖିଥାଏ, ସେହି ହିସାବରେ ସେ ବିଚାର କରି କ୍ରିୟା କରିଥାଏ । ଏଜେଣ୍ଟଟିର ଏହି କ୍ରିୟା ଜନିତ ହସ୍ତକ୍ଷେପ ଯୋଗୁଁ ପାରିବେଶଟିରେ ପରିବର୍ତ୍ତନ ଘଟିଥାଏ । ବେଳେ ବେଳେ ଆପେ ଆପେ ମଧ୍ୟ ପରିବେଶରେ ପରିବର୍ତ୍ତନ ହୋଇପାରେ ।
ପରିବେଶ ମଧ୍ୟରୁ ଏଜେଣ୍ଟଟିକୁ ଏକ ରିବାର୍ଡ ବା ପୁରସ୍କାର ସଙ୍କେତ ମଧ୍ୟ ମିଳିଥାଏ ଯାହା ବର୍ତ୍ତମାନ ପରିସ୍ଥିତିରେ ଥିବା ପରିବେଶ ବିଷୟରେ ଦର୍ଶାଇଥାଏ । ବିଭିନ୍ନ ସ୍ତରର ପୁରସ୍କାର ମିଶିଲେ ତାହାକୁ ରିଟର୍ନ କୁହାଯାଏ । ଏଜେଣ୍ଟଟିର ଲକ୍ଷ ହେଉଛି ଏହି ରିଟର୍ନକୁ ବଢ଼ାଇବା । ଆରଏଲ ଆଲଗୋରିଦମର ବିଭିନ୍ନ ପ୍ରଣାଳୀ ଉପଯୋଗ କରି ଏଜେଣ୍ଟ ଏହି ଲକ୍ଷ୍ୟ ହାସଲ କରିଥାଏ ।
ଆରଏଲ ବିଷୟରେ ଅଧିକ ଜାଣିବାକୁ ନିମ୍ନଲିଖିତ ଅଧିକ ଶବ୍ଦ ବିଷୟରେ ଜାଣିବା ଜରୁରୀ:[୪]
- ଷ୍ଟେଟ ଏବଂ ଅବଜର୍ଭେସନ
- ଆକ୍ସନ ସ୍ପେସ
- ପଲିସି
- ଟ୍ରାଜେକ୍ଟୋରି
- ଅଧିକ ରିଟର୍ନ ପାଇବାର ପ୍ରଣାଳୀ
- ଆରଏଲ ଅପଟିମାଇଜେସନ ସମସ୍ୟା ଏବଂ
- ଭାଲ୍ୟୁ ଫଙ୍କସନ
ଘଟଣାବଳୀ
[ସମ୍ପାଦନା]- ଗୁଗଲ ସର୍ବସାଧାରଣ ଲୋକମାନଙ୍କ ନିମିତ୍ତ ଏହାର ନିଜର ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଫ୍ରେମବାର୍କକୁ ପ୍ରକାଶ କରିଛି ।[୫] ଏହାର ଗିଟହବ ଆଧାର ଏଠାରେ ଉପଲବ୍ଧ ।
ଅଧାର
[ସମ୍ପାଦନା]- ↑ "Reinforcement Learning Introduction". reinforcementlearning.ai-depot.net. Retrieved 2024-05-23.
- ↑ https://top.quora.com/What-is-reinforcement-learning[permanent dead link]
- ↑ https://medium.com/machine-learning-for-humans/reinforcement-learning-6eacf258b265
- ↑ https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#key-concepts-and-terminology
- ↑ https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/
ବାହ୍ୟ ଆଧାର
[ସମ୍ପାଦନା]- ଓପନ ଏଆଇ Archived 2018-11-10 at the Wayback Machine.