> 训练数据相关问题

打开训练数据中的 train_small.json 简单看了一下,发现有个字符串 67 较为显眼,看起来是较为有规律地出现在句子中,甚至会以半角的形式出现在全角数字附近,基本可以认为是数据中的噪音或错误。
个人猜测会不会是在数据预处理的过程中,将某种标点或是特殊字符进行处理的时候出现了问题?

{"ID": "ID17391052", "source": "其中,67依利股份67(600887.SH)、67海康衞视67(002415.SZ)、67罔东汤A67(000715.SZ)分别位列资本品牌价值前三甲,而67渤海租赁67(000415.SZ)、67神奇制药67(600613.SH)、67乐视网67(300104.SZ)则在资本品使溢价率方面领先。", "target": "其中,67伊利股份67(600887.SH)、67海康威视67(002415.SZ)、67京东方A67(000715.SZ)分别位列资本品牌价值前三甲,而67渤海租赁67(000415.SZ)、67神奇制药67(600613.SH)、67乐视网67(300104.SZ)则在资本品牌溢价率方面领先。"}

{"ID": "ID16536370", "source": "李准基离开签约新东家67成文根英师弟。", "target": "李准基离开老东家IMX签约新东家67成文根英师弟。"}

{"ID": "ID15983384", "source": "投资者和网贷平台回归理性674月网贷利率同比降13%。", "target": "投资者和网贷平台回归理性674月P2P网贷利率同比降13%。"}

{"ID": "ID15057172", "source": "金属质感四核强机67联想郑州1860。", "target": "金属质感四核强机67联想S968T郑州1860。"}

{"ID": "ID17621382", "source": "中票67广东省广业资产经营有限公司201467年度第一期675677年无浦发银行", "target": "中票67广东省广业资产经营有限公司201467年度第一期675677年无AA+67AA+67浦发银行"}

Posted by: okcd00 @ June 28, 2021, 7:16 a.m.

感谢反馈,这个问题占比不大,对模型效果影响较小,在通过资格赛后提供的训练集中,我们将修复这个问题

Posted by: CTC_2021 @ June 28, 2021, 8:03 a.m.
Post in this thread