基于Word2vec的哈萨克文词向量化模型的实现
2025.07.02点击:
摘要:词向量嵌入技术是研究自然语言的重要一步,通过向量化,将自然语言数字化,使自然语言能够被计算机识别和进行相关处理计算。基于Word2vec实现哈萨克文向量化,对哈萨克语机器翻译、文本分类和识别等领域研究具有重要支撑意义。本文将开源的科大讯飞哈萨克文语料数据集作为语料库,经过清洗、分词等步骤,用Word2vc实现向量化,将每一个哈萨克文词转换为一个独立的K位词向量,通过对词向量的计算,实现发现哈萨克文文本中包含的上下文语义规律、文本主题词提取、相似词计算等功能。
关键词: 哈萨克文;Word2vec;词向量;相似度分析;
基金资助: 2024年新疆维吾尔自治区自然科学基金科研基金项目面向数据共享的安全电子数据存取方法研究研究成果之一(编号2024D01A55); 2024年度新疆警察学院校级科技创新团队无人机安全技术团队(编号XJKYKJTD202402);
专辑: 信息科技;哲学与人文科学
专题: 中国语言文字;计算机软件及计算机应用
分类号: H236;TP391.1
- 上一篇:“东数西算”背景下生成式AI赋能数字文化产业发展探讨 2025/7/4
- 下一篇:区块链技术在计算机网络信息安全中的应用研究 2025/7/2