2021美赛C题:大黄蜂传播规律和目击准确性研究赛题分析及思路(2)
2023-05-01 来源:飞速影视
(1)数据扩充,数据为文本数据:
1、传统文本数据增强的技术:EDA
(1). 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。
Eg: “我非常喜欢这部电影” —> “我非常喜欢这个影片”,句子仍具有相同的含义,很有可能具有相同的标签。
(2). 随机插入(RI: Randomly Insert):不考虑stopwords,随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置。该过程可以重复n次。
Eg : “我非常喜欢这部电影” —> “爱我非常喜欢这部影片”。
(3). 随机交换(RS: Randomly Swap):句子中,随机选择两个词,位置交换。该过程可以重复n次。
(4). 随机删除(RD: Randomly Delete):句子中的每个词,以概率p随机删除。
2.深度学习数据增强技术
1.半监督 Mixmatch
2.无监督数据增强UDA
(2)加权损失函数
让对Positive ID预测错误的惩罚更重,即下面的公式中w1设置的更大点:
w1*LossPositive w2*LossNegative w3*LossUnverified
对Negative ID、Unverified数据预测错误的惩罚更轻,最后w1 w2 w3=1
2.2问题解答
方法:训练图像分类模型,模型需要构建深度学习框架:
(1)首先将数据分为训练数据和验证数据,
(2)然后利用深度学习网络进行特征提取。
(3)建立损失函数,方向传播进行训练
模型选择:CNN、SVM、决策树等
模型评估
问题分析:即对第二个模型进行评估,可以从准确率方面说明
模型优化
解释模型的更新机制、复杂度、时效性、不同区域的适用性等。
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)
www.fs94.org-飞速影视 粤ICP备74369512号