yinmn商标-yinhe商标

如何评价香侬科技提出的基于中文字型的深度学习模型 Glyce？

总结回复一下各位同学的问题。1. 中文字形会不会帮助中文自然语言理解？关于论文的立论部分稍微补充几点，第一，汉字造字方法中，形声字由形旁和声旁两部份组成，形旁表义声旁表音，我们推测Glyce能够在底层CNN中抽取出各个偏旁部首的特征，并且在max-pooling中突出形旁的特征。现行汉字最多的是形声字，形旁的表义功能比较强, 在帮助人们掌握字义上存在不可忽视的作用。这大概是形声字长久以来在汉字中的地位经久不衰的原因。会意字，是指用两个及两个以上的独体汉字，根据各自的含义所组合成的一个新汉字，Glyce方法的有效性就更容易理解了，如“武”，从戈从止。止是趾本字，戈下有脚，表示人拿着武器走，有征伐或显示武力的意思。而Glyce能够学出"武"跟“戈”和“止”的feature map更相近。象形是用描摹客观实体的外形来表达词义的一种造字法，指事是以象征性的符号来表示意义的造字法。我们推测Glyce能够学到字义相近的字之间的一些相似的字形特征，比如“日”跟“月”，“凹”跟“凸”，“刀”跟“刃”。能够对他们的表示有所贡献。第二， “人“和”入“长得很像，是不是说明字形可能没有作用。这是非常非常好的问题，其实我们在这个工作中有所考虑。”人“和”入“ 在简体中文中很像，但是在古代汉字中，其实差别非常大。这就是为什么，本文提出了运用不同历史时期汉字(比如金文，楷书，隶书等等)的重要性，这也是我们认为本文的主要贡献之一。比如在金文中，“入”和“人”的差别还是很大的，如下图。另外英语里面形似义不同的单词有很多，比如"dessert"跟“desert”，“coarse”跟“course”，“lose”跟“loose”，但不能否认Subword Encoding在英文NLP任务上的有效性。中文上也是一样，语言总有特殊跟例外现象，不能因为一些特殊和例外现象否定整个字形信息的有效性。第三，Glyce作为Subword Encoding的一种方法，学出来的表示用来丰富word embedding的表示，有了更好的字词表示之后，Glyce能在多个数据集上能带来效果提升也就不奇怪了；事实上，在英文的序列标注任务上，SubWord Encoding基本可以说是标准做法。第四，为什么从图片上做卷积会比直接对偏旁部首做encoding有效，我们推测有两点，其一，字形图中包含偏旁部首之间的空间位置关系，比如“闪”字的包围结构跟“们”字的左右结构关系显然不同。而偏旁部首的encoding显然没办法融入这一信息。其二，偏旁部首之间也有字形的相似性，比如月字旁的“肚”和肉字旁“腐”更加相似。从图片上直接做卷积得到的信息更原始更直接，因此更适合用来做subword encoding。2、之前已经有很多工作直接或者间接证明了中文字形的有效性其实之前的很多工作、很多研究已经直接或者间接地表明中文字形会对自然语言处理有很大的帮助，这一点在本文中有所讨论。比如很多早在14、15年的工作中，就提到运用中文偏旁部首(radical)会提升很多中文NLP任务的结果。Yanran Li的第一篇文章Component-Enhanced Chinese Character Embeddings即证明了运用偏旁部首可以帮助 word similarity 以及文本分类的中文任务。使用中文的偏旁部首在很多的工作中被用到或者提及到，比如Shi et al.,2015, Yin et al.,2016, Shao et al., 2017。另外将汉字变成五笔序列，也在一些任务上取得了很solid的进步。比如Tan et al.2018 直接用汉字用五笔序列代替汉字做encoding, 在中英翻译上取得了很好的结果增强。这些点，都从侧面证明了，用尺度更小的汉语字形细节，会使提升汉语的语义理解。既然运用偏旁部首、五笔字形在中文都已经取得了好的结果，那么直接在比偏旁部首、五笔字形（五笔也可以是认为是偏旁部首的变种）更基本的图像信息中抽取语义信息就变得自然而然。所以，在本工作之前，已经有一些学者做出了不少的尝试，这篇文章里面也有所提到。最早来自Dai and Cai (2017)的工作对字形中文做了探索。但是结果在Language Modeling和中文分词上都不是很positive。Dai and Cai (2017)也对negative的结果做出了一定的解释，其中就提到了跟本文相像的解释，引自原文：Unlike a digit class in MNIST (LeCun et al., 2010) which has 6,000 training examples, given one font, a character only has one glyph and every sub-glyph structure appears on average in only about 40 characters. Thus we suspect that the variability in input to the CNN is too limited. 原因就是说，相比图像识别，汉语字形的样本太少了。Dai and Cai (2017)也提出了一些数据增强的办法，有兴趣的同学可以去看这篇文章的细节。中文字形真正意义上的支持来自于Su and Lee 2017 在EMNLP2017的文章。漏引这篇文章使本文的失误，向Su and Lee表示道歉，后续版本一定会加上。Su and Lee 2017的文章证明了，在繁体中文上，运用CNN的信息可以提高 word similarity 以及 word analogy任务。可惜，好的结果还是停留在词的级别，Su and Lee并没有进一步拓展到句子级别甚至篇章级别的NLP任务。所以，将汉语图形信息大规模拓展，就变得势在必行。3. 针对辅助损失函数，有同学提出为什么不在char embedding上加分类loss：提出这个损失函数的intuition是为了辅助CNN对字形特征的学习，因为很明显直接使用objective-specific的loss function作为监督信号对于CNN太弱了——比如CNN很难通过Language Model 学出来有效的字形特征。这也是为什么文中提出了衰减系数，当CNN的filter稳定下来后就不需要这个额外的监督信号了。因此，有同学提出 “在常规模型的char的embedding也加上辅助损失函数”可能会有一定不妥，毕竟对于常规embedding来说，NLP自己的loss function就是最好的监督信号。在language modeling中广泛使用的模型也validate了这一点，在language modeling的任务上，大多数学者不会直接在char或者word的embedding上加辅助监督信号，包括Kim et al., 16的 character-aware language modeling。4. 田字格CNN为什么是2*2而不是3*3或4*4？原因有三点：1) 偏旁部首大多数都以田字格为单元存在于汉字的上下左右，这是一个先验知识。这就是为什么，我们小时候一般都用田字格学习汉字。2) 输入的维度是12*12，如果最后一层feature map太大，resolution与receptive field并不匹配。 3)如果同时提高最后一层feature map与input size的大小，就会与我们在论文里使用grouped convolution降低参数量的思路背道而驰。我在尝试不同CNN架构时的大量实验已经充分证明了控制参数量对于CNN效果的极大影响。最后，一篇回答@Liyuan Liu说得非常好：“做work说起来简单，做起来真的不简单。很多思路，往往只有少数几种方法做对，但做错的花样就太多了。”对于3*3或者4*4，如果有同学follow这个工作，我们很希望得知会不会得到更好的结果。5. 维度是不一致的吗？维度是大体一致的。在language modeling的task中，我们详细报道了参数数量。其他任务，我们在之后的arxiv版本中报道。比如 POS, NER, CWS 最好baseline（yue zhang 老师和Jie Yang的Lattice+LSTM）的参数量是27.6M，Glyce是30.0M。稍微大了一点，但并不会出现有同学提出的向量维度大了10倍的情况。说一句题外话，因为Glyce是直接加在之前SOTA模型上的，所以如果真的加了10倍的向量，结果肯定会变差的。之前SOTA的很多结果，大多是在向量维度上精细调参的。大一点、小一点都可能会使结果变差。从另外一个角度讲，为了冲击SOTA，研究人员是可以选择增加维度达到更好的表现的，没有增加维度的原因不外乎两种：要么是增加维度后效果变差，要么是增加后训练难度增加（调参更难或者模型太大训练不了）。如果我们能增加维度且work，这代表原本增加维度所能达到的性能极限被我们提高了，并不算是不公平的对比。但是即使是这样，我们还是限制了我们的模型，没有增加维度来对比。6. 关于MT任务machine translation任务，之前基于WMT数据集的工作大多集中在英文-德语和英文-法语任务上，目前只有17年和18年有中文-英文的翻译任务，已经发表的公开的论文比较少，对照实验不容易进行。因此我们选择了之前有很多发表在ACL和EMNLP工作的LDC数据集作为训练集，但是由于LDC数据集并没有完整和完善统一的划分方法因此我们的对照实验并不容易进行，存在一部分工作无法复现的问题。十分感谢北京大学的shuming Ma同学和北京大学的Sun XU老师无私的开源了发表在ACL 2018的工作Bag-of-Words as Target for Neural Machine Translation，并且工作十分的solid，我们在能够完全复现之前论文结果的基础上引入了Glyce，并且在之前存在大量工作的NIST2003， 2004， 2005， 2006， 2008上进行了测试，超过了之前论文中的工作，结果充分证明了Glyce NOT ONLY Simple but REALLY Effective。之前没有跑的benchmark数据集和transformer，可以关注后续的实验补充。Reference:Yanran Li, Wenjie Li, Fei Sun, and Sujian Li. 2015b. Component-enhanced chinese character em- beddings. arXiv preprint arXiv:1508.06669. Yan Shao, Christian Hardmeier, Jo ̈rg Tiedemann, and Joakim Nivre. 2017. Character-based joint segmen- tation and pos tagging for chinese using bidirec- tional rnn-crf. arXiv preprint arXiv:1704.01314. Xinlei Shi, Junjie Zhai, Xudong Yang, Zehua Xie, and Chao Liu. 2015. Radical embedding: Delving deeper to chinese radicals. In Proceedings of the 53rd Annual Meeting of the Association for Compu- tational Linguistics and the 7th International Joint Conference on Natural Language Processing (Vol- ume 2: Short Papers), volume 2, pages 594-598. Tzu-Ray Su and Hung-Yi Lee. 2017. Learning chi- nese word representations from glyphs of characters. arXiv preprint arXiv:1708.04755. Mi Xue Tan, Yuhuang Hu, Nikola I Nikolov, and Richard HR Hahnloser. 2018. wubi2en: Character- level chinese-english translation through ascii encod- ing. arXiv preprint arXiv:1805.03330. Rongchao Yin, Quan Wang, Peng Li, Rui Li, and Bin Wang. 2016. Multi-granularity chinese word embed- ding. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 981-986.

生活中常见的蓝色物品中的蓝色颜料（染料）是什么化学物质？

普鲁士蓝这高中的时候,我曾经拥有一个sm

yinmn商标-yinhe商标

如何评价香侬科技提出的基于中文字型的深度学习模型 Glyce？

生活中常见的蓝色物品中的蓝色颜料（染料）是什么化学物质？

其他相关问题

附近相关问题

其他常见问题