数据标注是人工智能产业的基础,是机器感知现实世界的起点。从某种程度上来说,没有经过标注的数据就是无用数据。”美国加州科技大学校长秦志刚教授在接受科技日报记者采访时表示,机器识别事物主要通过物体的一些特征。被识别的物体还需要通过数据标注才能让机器知道这个物体是什么。 常见的几种数据标注类型 1.分类标注:分类标注,就是我们常见的打标签。一般是从既定的标签中选择数据对应的标签,是封闭集合。如下图,一张图就可以有很多分类/标签:成人、女、黄种人、长发等。对于文字,可以标注主语、谓语、宾语,名词动词等。 适用:文本、图像、语音、视频 应用:脸龄识别,情绪识别,性别识别 2.标框标注:机器视觉中的标框标注,很容易理解,就是框选要检测的对象。如人脸识别,首先要先把人脸的位置确定下来。行人识别,如下图。 适用:图像 应用:人脸识别,物品识别 3.区域标注:相比于标框标注,区域标注要求更加精确。边缘可以是柔性的。如自动驾驶中的道路识别。 适用:图像 应用:自动驾驶 4.描点标注:一些对于特征要求细致的应用中常常需要描点标注。人脸识别、骨骼识别等。
适用:图像 应用:人脸识别、骨骼识别 5.其他标注:标注的类型除了上面几种常见,还有很多个性化的。根据不同的需求则需要不同的标注。如自动摘要,就需要标注文章的主要观点,这时候的标注严格上就不属于上面的任何一种了。(或则你把它归为分类也是可以的,只是标注主要观点就没有这么客观的标准,如果是标注苹果估计大多数人标注的结果都差不多。) 数据标注员可以说是AI消灭了一部分工作又创造出来的一种工作。在未来AI发 展良好的前提下,数据的缺口一定是巨大的。可以预见3-5年内数据标注员的需求会一直存在。 至于发展,其实所谓一些熟能生巧的工作,都是有被替代掉的风险的。深度学习解决的一件事情就是熟能生巧。在这个岗位上,其实你的一些想法就代表了AI的想法,AI会根据你标注的数据进行学习,想想还是有点成就感的。 数据标注可以说是AI的入门级岗位,未来可转向其他AI岗位。如项目实施顾问等,这就要求更多的工作技能,需要再工作中积累。 数度智慧,自主研发,自主产权,牢记先创精神,牢记科学价值观。 围绕不同的需求自主研发第三方辅助分析标注工具。 标注工具支持图像、文本和视频等多种标注形式 图像分类,矩形框,多边形,曲线定位,3D定位 文本 分类,文本实体标注,视频跟踪等 可扩展性插件设计 通过插件形式支持自定义标注,可根据具体需求开发不同的标注形式 导出支持主流数据集格式 支持PascalVoc(与ImageNet采用的格式相同)和CoreNLP等标准。 跨平台,多语言,兼容不同操作系统 支持Window/Mac/CentOS/Ubuntu,支持中/英文,满足所有团队需求。 数度智慧官方网址:https://www.shudu-ai.com