目录摘要1Abstract2前言3第一章绪论41.1研究背景及意义41.2本文的主要工作41.3本文的组织结构5第二章词性标注方法概述62.1词性标注简介62.2词表示62.2.1独热向量62.2.2词嵌入62.3序列标注模型92.3.1循环神经网络102.3.2LSTM网络112.3.3双向LSTM网络122.3.4CRF网络132.3.5LSTM-CRF网络162.3.6双向LSTM-CRF网络172.4本章小结18第三章语料库的建立193.1语料库的来源193.2宾州大学中文树库词性标注集193.3语料库基础信息193.4本章小结21第四章词性标注实验224.1TensorFlow简介224.2词嵌入的学习224.2.1实验流程234.2.2实验结果与分析244.3利用序列标注模型进行词性标注254.3.1实验流程254.3.2实验结果与分析284.4本章小结30第五章总结与展望315.1本文总结315.2后续工作展望31参考文献33致谢35摘要近些年来,我国司法领域的信息化建设取得飞速发展。利用司法大数据,可以完成智慧法院的建设,实现智慧司法。而裁判文书作为司法大数据的重要组成部分,可以利用自然语言处理技术挖掘其中的价值。本文实现了面向裁判文书的中文词性标注方法。词性标注是自然语言处理领域的一项基本任务,旨在为文本中的词加上合适的词性标记,可以为更复杂的任务提供词性信息。具体实现过程中,我们利用了循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(BI-LSTM)和带条件随机场的双向长短期记忆网络(BI-LSTM-CRF)这四种序列标注模型来完成词性的标注。实验结果表明,上述模型均可以很好地完成词性标注任务,而BI-LSTM-CRF是最佳的模型,拥有最高的词性标注准确率。关键词:词性标注;裁判文书;序列标注模型;词嵌入;BI-LSTM-CRFAbstractInrecentyears,theinformationconstructioninthejudicialfieldhasbeendevelopingrapidlyinChina.Byusingjudicialbigdata,wecancompletetheconstructionofthewisecourtandrealizethewisejustice.Judgmentdocumentisanimportantpartofjudicialbigdata,wecanuseNaturalLanguageProcessingtechnologytotapintoitsvalue.Inthispaper,weimplementaChinesepart-of-speechtaggingmethodforjudgmentdocument.Part-of-speechtaggingisabasictaskinthefieldofNaturalLanguageProcessing.Itaimstoaddappropriatepart-of-speechtagstothewordsinthetextandtoprovidepart-of-speechinformationformorecomplextasks.Inthespecificimplementationprocess,weusefoursequencetaggingmodelsofRecurrentNeuralNetwork(RNN),LongShort-TermMemoryNetwork(LSTM),BidirectionalLongShort-TermMemoryNetwork(BI-LSTM),andBidirectionalLongShort-TermMemoryNetworkwithaConditionalRandomFieldlayer(BI-LSTM-CRF)tocompletethepart-of-speechtagging.Theresultsoftheexperimentshowthattheabovemodelsallcancompletethetaskefficiently,andBI-LSTM-CRFisthebestmodel,ithasthehighestaccuracyofpart-of-speechtagging.Keywords:Part-of-speechTagging;JudgmentDocument;SequenceTaggingModel;WordEmbedding;BI-LSTM-CRF前言近些年来,我国司法领域的信息化建设取得飞速发展,最高人民法院已经搭建起了司法大数据管理和服务平台,初步实现了数据的收集、保存、管理[1]。但对数据的分析加工,还处在初级阶段,尚未完全挖掘出司法大数据的价值,这也是目前重点研究的对象。裁判文书记载了人民法院对案件的审理过程和结果,是司法大数据中的重要组成部分。运用自然语言处理技术分析裁判文书,可以帮助司法人员提升业务能力和审判效率[2]。例如,当法官审判案件时,可以精确推送相似案例,为法官判案提供参考。甚至可以根据当事人的案情描述,自动生成判决结果与裁判文书,让当事人对判决结果有一定的预期,减少其上诉上访,维护社会和谐稳定。词性标注作为自然语言处理领域的一项基本任务,可以为更复杂的任务提供词“”性信息,帮助解决一些问题。例如,利用词性信息完成语义消歧,设计分别作为名词和动词时,表达的含义不同,在拥有词性信息后,便可以区分其不同含义。如果可以完成对裁判文书的自动词性标注,势必为未来更加复杂的任务提供便利,打下坚实的基础。本文主要...