中科软博

当前位置:首页 > 科技研发

涉及自然语言的数据

涉及自然语言的数据

以《鼻窦炎预后效果分析》数据为例,介绍带有自然语言数据的任务的处理方法。其数据的典型特征为:
1.数据的预处理方法
1)文本等自然语言数据的进行分词,基于jieba分词的工具使用介绍。
2)【专有名词】字典如何输入到jieba中,使特定的单词不被分割。
3)去掉停用词等,保留文本的主要信息。
2.数据的编码方式
1)将文字信息,转化成一个向量表示。Embedding的技术。
2)可以考虑使用wordnet、word2vec等开源的Embedding的库,基于预训练的模型对特征进行迁移。
3.案例上手练习:基于RNN的深度学习建模方法。
1)RNN网络如何使用Tensorflow进行搭建。
2)将编码好的文字信息输入到RNN当中,并且训练对应的模型。
3)对RNN模型进行部署测试。使用已经训练的模型对未知的数据进行测试,评估效果。




上一篇:结构化数据
下一篇:医院影像数据--分类任务