资源经验分享用深度学习做命名实体识别(三):文本数据标注过程

用深度学习做命名实体识别(三):文本数据标注过程

2019-11-23 | |  58 |   0

原标题:用深度学习做命名实体识别(三):文本数据标注过程

原文来自:博客园      原文链接:https://www.cnblogs.com/anai/p/11474460.html


上一篇文章,我们介绍了brat的安装和配置,当成功安装和配置好了brat,我们就可以进行文本标注了。

首先,在brat项目的data目录下新建一个project目录,然后在brat项目的主目录下找到以下文件,复制到project目录:

  • 主目录:/var/www/html/brat

  • project目录:/var/www/html/brat/data/project

  • 要复制的文件:

我们来看一下这几个文件分别是做什么的。

  • annotation.conf
    这个是配置文件,内容如下:


[entities]
# Definition of entities.
# Format is a simple list with one type per line.
时间
地点
人名
组织名
公司名
产品名


  • visual.conf

这也是配置文件,可以配置不同的类别用不同的颜色显示,找到如下段落,更新内容:


[drawing]
时间 bgColor:yellow
地点 bgColor:blue, fgColor:white
人名 bgColor:deepskyblue
组织名 bgColor:green, fgColor:white
公司名 bgColor:purple, fgColor:white
产品名 bgColor:pink

 

  • mayun.txt

这是我们要标注的原文件,里面的内容片段如下(这里已经根据句号进行过分句处理,是因为不希望每个训练样本太长,建议控制在500字符内):

1964年9月10日,马云出生在杭州。
幼年的马云在人们的眼中是典型的坏孩子:叛逆、倔强、爱打架、逞强、顽皮淘气。
马云的父亲虽然是典型的江南人,但脾气却很火暴,马云从小在父亲拳脚下长大。
马云是看金庸的武侠小说长大的,行侠仗义、打抱不平的“侠义”情结在少年马云的内心深处早已生根、萌芽。

 

mayun.ann是一个空文件,使用brat对mayun.txt的标注结果,会记录在ann文件中。

此时我们通过浏览器访问brat项目界面,打开project目录下的mayun.txt文件(记得要先登录),看到的界面如下:

然后我们选择目标实体,比如“马云”,进行实体类别标注,效果如下:

此时,你可以邀请其他人用他们的帐号登录brat,也打开这个txt,和你一起标注。
标注之后,再看看ann文件内容,如下:

  • T1,T2所在的列,表示标注的类型和序号,比如如果是标注的实体间的关系会用R表示,这里因为只讨论命名实体,不涉及实体间的关系,所以只要知道这个T表示什么就可以了;

  • 人名,公司名所在列表示标注词汇的实体类别;

  • 第三、四列是标注词汇在整个txt中的起始和(结束索引+1)

  • 最后一列是就是标注的词汇列

标注完成后,我们就有了mayun.txt和mayun.ann两个对应的文件。关于如何使用这两个文件,将在下一篇《用深度学习做命名实体识别(四):模型训练》中介绍。

ok,本篇就这么多内容啦~,感谢阅读O(∩_∩)O,88~


 

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:工业大数据为何落地难

下一篇:手把手教你用深度学习做物体检测(七):YOLOv3介绍

用户评价
全部评价

热门资源

  • Python 爬虫(二)...

    所谓爬虫就是模拟客户端发送网络请求,获取网络响...

  • TensorFlow从1到2...

    原文第四篇中,我们介绍了官方的入门案例MNIST,功...

  • TensorFlow从1到2...

    “回归”这个词,既是Regression算法的名称,也代表...

  • 机器学习中的熵、...

    熵 (entropy) 这一词最初来源于热力学。1948年,克...

  • TensorFlow2.0(10...

    前面的博客中我们说过,在加载数据和预处理数据时...