{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,23]],"date-time":"2026-01-23T11:51:55Z","timestamp":1769169115373,"version":"3.49.0"},"reference-count":35,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2022,11,25]],"date-time":"2022-11-25T00:00:00Z","timestamp":1669334400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Journal of King Saud University - Computer and Information Sciences"],"published-print":{"date-parts":[[2023,1]]},"DOI":"10.1016\/j.jksuci.2022.11.015","type":"journal-article","created":{"date-parts":[[2022,12,5]],"date-time":"2022-12-05T19:25:32Z","timestamp":1670268332000},"page":"257-269","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":13,"title":["An attention-based hybrid deep learning approach for bengali video captioning"],"prefix":"10.1007","volume":"35","author":[{"given":"Md. Shahir","family":"Zaoad","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"M.M. Rushadul","family":"Mannan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Angshu Bikash","family":"Mandol","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mostafizur","family":"Rahman","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Md. Adnanul","family":"Islam","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Md. Mahbubur","family":"Rahman","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","reference":[{"key":"10.1016\/j.jksuci.2022.11.015_b0005","doi-asserted-by":"crossref","first-page":"7168","DOI":"10.1016\/j.jksuci.2022.02.020","article-title":"Robust regularization for single image dehazing","volume":"34","author":"Ali","year":"2022","journal-title":"Journal of King Saud University - Computer and Information Sciences"},{"key":"10.1016\/j.jksuci.2022.11.015_b0010","unstructured":"Bahdanau, D., Cho, K., Bengio, Y., 2015. Neural machine translation by jointly learning to align and translate. In: 2015, 3rd International Conference on Learning Representations, ICLR 2015."},{"key":"10.1016\/j.jksuci.2022.11.015_b0015","unstructured":"Banerjee, S., Lavie, A., 2005. Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. In: Proceedings of the Acl Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization, pp. 65\u201372."},{"key":"10.1016\/j.jksuci.2022.11.015_b0020","doi-asserted-by":"crossref","unstructured":"Basaldella, M., Antolli, E., Serra, G., Tasso, C., 2018. Bidirectional lstm recurrent neural network for keyphrase extraction. In: Italian Research Conference on Digital Libraries, Springer, pp. 180\u2013187.","DOI":"10.1007\/978-3-319-73165-0_18"},{"issue":"7","key":"10.1016\/j.jksuci.2022.11.015_b0025","doi-asserted-by":"crossref","first-page":"2631","DOI":"10.1109\/TCYB.2018.2831447","article-title":"Describing video with attention-based bidirectional lstm","volume":"49","author":"Bin","year":"2018","journal-title":"IEEE transactions on cybernetics"},{"key":"10.1016\/j.jksuci.2022.11.015_b0030","series-title":"Proceedings of the 49th annual meeting of the association for computational linguistics: human language technologies","first-page":"190","article-title":"Collecting highly parallel data for paraphrase evaluation, in","author":"Chen","year":"2011"},{"key":"10.1016\/j.jksuci.2022.11.015_b0035","doi-asserted-by":"crossref","unstructured":"Cho, K., van Merri\u00ebnboer, B., Bahdanau, D., Bengio, Y., 2014. On the properties of neural machine translation: Encoder\u2013decoder approaches. In: Proceedings of SSST 2014 - 8th Workshop on Syntax, Semantics and Structure in Statistical Translation, Association for Computational Linguistics (ACL), pp. 103\u2013111.","DOI":"10.3115\/v1\/W14-4012"},{"key":"10.1016\/j.jksuci.2022.11.015_b0040","doi-asserted-by":"crossref","first-page":"105820","DOI":"10.1016\/j.asoc.2019.105820","article-title":"Human action recognition using two-stream attention based lstm networks","volume":"86","author":"Dai","year":"2020","journal-title":"Applied soft computing"},{"issue":"9","key":"10.1016\/j.jksuci.2022.11.015_b0045","doi-asserted-by":"crossref","first-page":"2045","DOI":"10.1109\/TMM.2017.2729019","article-title":"Video captioning with attention-based lstm and semantic consistency","volume":"19","author":"Gao","year":"2017","journal-title":"IEEE Transactions on Multimedia"},{"issue":"8","key":"10.1016\/j.jksuci.2022.11.015_b0050","doi-asserted-by":"crossref","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","article-title":"Long short-term memory","volume":"9","author":"Hochreiter","year":"1997","journal-title":"Neural computation"},{"key":"10.1016\/j.jksuci.2022.11.015_b0055","first-page":"698","article-title":"A hybridized deep learning method for bengali image captioning","volume":"12","author":"Humaira","year":"2021","journal-title":"Int. J. Adv. Comput. Sci. Appl."},{"issue":"18","key":"10.1016\/j.jksuci.2022.11.015_b0060","doi-asserted-by":"crossref","first-page":"12141","DOI":"10.1007\/s00521-021-05895-x","article-title":"Towards achieving a delicate blending between rule-based translator and neural machine translator","volume":"33","author":"Islam","year":"2021","journal-title":"Neural Computing and Applications"},{"key":"10.1016\/j.jksuci.2022.11.015_b0065","first-page":"1","article-title":"An enhanced rbmt: When rbmt outperforms modern data-driven translators","author":"Islam","year":"2022","journal-title":"IETE Technical Review"},{"issue":"4","key":"10.1016\/j.jksuci.2022.11.015_b0070","doi-asserted-by":"crossref","first-page":"447","DOI":"10.1016\/j.jksuci.2019.09.004","article-title":"A new hybrid deep learning model for human action recognition","volume":"32","author":"Jaouedi","year":"2020","journal-title":"Journal of King Saud University - Computer and Information Sciences"},{"key":"10.1016\/j.jksuci.2022.11.015_b0075","doi-asserted-by":"crossref","first-page":"108332","DOI":"10.1016\/j.asoc.2021.108332","article-title":"An attention based dual learning approach for video captioning","volume":"117","author":"Ji","year":"2022","journal-title":"Applied Soft Computing"},{"issue":"2","key":"10.1016\/j.jksuci.2022.11.015_b0080","doi-asserted-by":"crossref","first-page":"757","DOI":"10.11591\/ijeecs.v21.i2.pp757-767","article-title":"Bangla language textual image description by hybrid neural network model","volume":"21","author":"Jishan","year":"2021","journal-title":"Indonesian J. Electr. Eng. Comput. Sci."},{"key":"10.1016\/j.jksuci.2022.11.015_b0085","doi-asserted-by":"crossref","unstructured":"Kamal, A.H., Jishan, M.A., Mansoor, N., 2020. Textmage: The automated bangla caption generator based on deep learning. pp. 822\u2013826.","DOI":"10.1109\/DASA51403.2020.9317108"},{"issue":"3","key":"10.1016\/j.jksuci.2022.11.015_b0090","first-page":"348","article-title":"A novel steganography method using transliteration of bengali text","volume":"31","author":"Khairullah","year":"2019","journal-title":"J. King Saud Univ.- Comput. Informat. Sci."},{"key":"10.1016\/j.jksuci.2022.11.015_b0095","unstructured":"Kingma, D.P., Ba, J., 2014. Adam: A method for stochastic optimization, CoRR abs\/1412.6980."},{"key":"10.1016\/j.jksuci.2022.11.015_b0100","unstructured":"Lin, C.-Y., 2004. Looking for a few good metrics: Rouge and its evaluation. In: Ntcir workshop."},{"key":"10.1016\/j.jksuci.2022.11.015_b0105","unstructured":"Lin, K., Gan, Z., Wang, L., 2020. Multi-modal feature fusion with feature attention for vatex captioning challenge."},{"key":"10.1016\/j.jksuci.2022.11.015_b0110","doi-asserted-by":"crossref","unstructured":"Lin, K., Li, L., Lin, C.-C., Ahmed, F., Gan, Z., Liu, Z., Lu, Y., Wang, L., 2022. Swinbert: End-to-end transformers with sparse attention for video captioning. pp. 17949\u201317958.","DOI":"10.1109\/CVPR52688.2022.01742"},{"key":"10.1016\/j.jksuci.2022.11.015_b0115","first-page":"1412","article-title":"Effective approaches to attention-based neural machine translation","author":"Luong","year":"2015","journal-title":"Association for Computational Linguistics"},{"issue":"2","key":"10.1016\/j.jksuci.2022.11.015_b0120","first-page":"1","article-title":"A comprehensive guideline for bengali sentiment annotation, ACM Trans","volume":"21","author":"Mukta","year":"2021","journal-title":"Asian Low-Resour. Lang. Inf. Process."},{"key":"10.1016\/j.jksuci.2022.11.015_b0125","doi-asserted-by":"crossref","unstructured":"Palash, M.A.H., Nasim, M.A.A., Saha, S., Afrin, F., Mallik, R., Samiappan, S., 2002. Bangla image caption generation through cnn-transformer based encoder-decoder network. pp. 631\u2013644.","DOI":"10.1007\/978-981-19-2445-3_44"},{"key":"10.1016\/j.jksuci.2022.11.015_b0130","series-title":"Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics","first-page":"311","article-title":"Bleu: a method for automatic evaluation of machine translation, in","author":"Papineni","year":"2002"},{"key":"10.1016\/j.jksuci.2022.11.015_b0135","doi-asserted-by":"crossref","unstructured":"Raj, A.H., Seum, A., Dash, A., Islam, S., Shah, F.M., 2021. Deep learning based video captioning in bengali. In: 2021 26th International Conference on Automation and Computing (ICAC), IEEE, pp. 1\u20136.","DOI":"10.23919\/ICAC50006.2021.9594154"},{"issue":"1","key":"10.1016\/j.jksuci.2022.11.015_b0140","first-page":"1","article-title":"Bornon: Bengali image captioning with transformer-based deep learning approach","volume":"3","author":"Shah","year":"2022","journal-title":"SN Comput. Sci."},{"key":"10.1016\/j.jksuci.2022.11.015_b0145","doi-asserted-by":"crossref","unstructured":"Siam, M., Valipour, S., Jagersand, M., Ray, N., 2017. Convolutional gated recurrent networks for video segmentation. In: 2017 IEEE International Conference on Image Processing (ICIP), IEEE, pp. 3090\u20133094.","DOI":"10.1109\/ICIP.2017.8296851"},{"key":"10.1016\/j.jksuci.2022.11.015_b0150","first-page":"1","article-title":"Attention based video captioning framework for hindi","author":"Singh","year":"2021","journal-title":"Multimedia Systems"},{"key":"10.1016\/j.jksuci.2022.11.015_b0155","doi-asserted-by":"crossref","unstructured":"Wang, X., Wu, J., Chen, J., Li, L., Wang, Y.-F., Wang, W.Y., 2019. Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4581\u20134591.","DOI":"10.1109\/ICCV.2019.00468"},{"key":"10.1016\/j.jksuci.2022.11.015_b0160","unstructured":"Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., Bengio, Y., 2015. Show, attend and tell: Neural image caption generation with visual attention. In: International Conference on Machine Learning, PMLR, pp. 2048\u20132057."},{"key":"10.1016\/j.jksuci.2022.11.015_b0165","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"21","article-title":"Stacked attention networks for image question answering, in","author":"Yang","year":"2016"},{"issue":"11","key":"10.1016\/j.jksuci.2022.11.015_b0170","doi-asserted-by":"crossref","first-page":"5600","DOI":"10.1109\/TIP.2018.2855422","article-title":"Video captioning by adversarial lstm","volume":"27","author":"Yang","year":"2018","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.jksuci.2022.11.015_b0175","series-title":"Proceedings of the IEEE international conference on computer vision","first-page":"4507","article-title":"Describing videos by exploiting temporal structure, in","author":"Yao","year":"2015"}],"container-title":["Journal of King Saud University - Computer and Information Sciences"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1319157822004128?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1319157822004128?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,1,6]],"date-time":"2025-01-06T17:22:07Z","timestamp":1736184127000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1319157822004128"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,1]]},"references-count":35,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2023,1]]}},"alternative-id":["S1319157822004128"],"URL":"https:\/\/doi.org\/10.1016\/j.jksuci.2022.11.015","relation":{},"ISSN":["1319-1578"],"issn-type":[{"value":"1319-1578","type":"print"}],"subject":[],"published":{"date-parts":[[2023,1]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"An attention-based hybrid deep learning approach for bengali video captioning","name":"articletitle","label":"Article Title"},{"value":"Journal of King Saud University - Computer and Information Sciences","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.jksuci.2022.11.015","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2022 The Author(s). Published by Elsevier B.V. on behalf of King Saud University.","name":"copyright","label":"Copyright"}]}}