人民网“主流价值语料库”入选国家数据局“高质量数据典型案例”

人民网北京10月11日电 (记者赵竹青)近日,人民网依托传播内容认知全国重点实验室建设的“主流价值语料库”,入选国家数据局高质量数据集典型案例。10月10日,国家数据局官方微信公众号对该案例进行了专题推介。
语料库如同人工智能的“教材”,深刻影响着人工智能的政治立场、价值导向和伦理边界。人民网主流价值语料库主要围绕习近平新时代中国特色社会主义思想和中国式现代化涉及的经济、政治、文化等十几个领域,依托党报党网长期建设形成的新闻资讯、理论评论、政策法规和科普知识等优质资源,经科学采样、归集、清洗标注、定制、风控等环节,精心打磨基础语料、图文语料、重点领域语料、问答语料、事实语料、风控语料等六类语料,相关成果在多家主流国产大模型厂家得到应用验证。
截至目前,主流价值语料库总体规模超过300TB,其中基础语料超过300亿字、问答语料超过30万对,是国内规模最大、内容最权威的主流价值语料库。
人民网主流价值语料库的建设具有三大创新亮点:
一是高质量语料建设范式创新。针对大模型面临的瓶颈问题,人民网全员下足“笨功夫”,人工设问、人工作答、三审三校。结合大模型、自然语言处理等多种前沿技术归集、清洗、标注、风控,以“笨功夫”“巧功夫”的有机结合推动高质量语料的高效建设。
二是高质量语料技术体系创新。依托传播内容认知全国重点实验室的技术、算力与数据资源,研究基于大模型与专有模型的语料数据自动分类、精细标注与体系化技术,搭建面向主流价值语料处理的全栈式语料处理工具链和可控共享服务平台。
三是高质量语料智能生产创新。凝练新闻、政策、著作、流行语等素材规律,构建适配多领域的专业语料库和语料生成大模型,结合人工经验对输出内容进行多维度纠偏提质。
2025年1月,人民网主流价值语料库在中国网络空间安全协会建设的中文互联网语料资源平台发布。目前,人民网正与多地省级媒体开展共建共享合作,并积极参与北京、上海等地的语料联盟建设,持续推动主流价值语料在更广范围的深度应用与协同发展。
说明:
本文来自网络媒体
纠错:2438514686@qq.com