业务内容

数据加工

适用于大规模的数据处理需求,专业的标注团队将原有数据转化为可用数据:

  1. 1. 数据分类/清洗:包括评价内容分类、图片分类、成人鉴黄清洗、有效语音筛选等;
  2. 2. 数据校验评估:包括文本语法校验、图片相关性评估、搜索相关性评估、情感倾向性评估等;
  3. 3. 数据内容提取:包括图片文字提取、文本关键字提取、语音转写文本、网页摘要撰写等;
  4. 4. O2O/LBS数据加工: 店铺信息、公交站牌、交通信号灯、GIS等;

文本标注

拓思运营的数据中心,除了能提供50多种语言、20多个种类的文本语料数据库资源之外,还凭借其经验丰富的多语种外籍项目团队,为用户提供多语种文本数据标注服务,如网页相关性标注、情感标注等,并具备文本语料内容分类和主题归纳等更深层的处理能力,可满足自然语言处理的不同层次的要求。

同时,还具有若干大规模、高品质、具有完整知识产权、能满足客户工程化应用的可授权文本语料库,如多语种机器翻译平行语料、手机短信、电子邮件等文本数据库。
我们提供的文本数据标注服务,主要包括以下类型:
文本注音
文本语料的分词、韵律、实体、词性、句法、语法、语义等标注
文本语料情感色彩标注
主题事件归纳
词义消歧标注
多语种对齐机器翻译语料制作和语料翻译

图像标注

根据客户的特定需要和大规模的数据处理需求,提供多种类型的筛选、分类、标注等服务专业的标注团队将源数据转化为可用数据:

  1. * 数据分类/清洗:包括评价内容分类、图片类型分类、垃圾流量清洗、有效语音筛选等
  2. * 数据校验评估:包括文本语法校验、图片相关性评估、搜索相关性评估、情感倾向性评估等
  3. * 数据内容提取:包括图片文字提取、文本关键字提取、语音转写文本、网页摘要撰写

视频标注

针对客户的具体需求,我们可以提供如下类型的视频数据标注服务:
视频主体分类
人物及物体属性标记
主体行踪轨迹分析
主体朝向标记
画面起始点标记

语音标注

拓思拥有多语种的外籍转写团队,具有丰富的语言学背景并接受过专业的数据转写培训, 能够为110多种语言(口音)的语音数据提供标注和转写服务,随着客户需求的增加,我们的语音数据处理能力也在与日俱增。
根据特定的转写和标注服务需要,我们还可以为客户定制开发语音转写/标注辅助工具和软件,极大的提高数据处理效率和准确性,从而加快交付进度。

语音数据转写服务

除了常规的转写服务外,基于科研客户模型训练和测试等算法提升的需要,我们可以提供各种特殊的转写服务:
语音转写 (Phonetic transcription),可以基于SAMPA , XSAMPA等不同字典,要求根据发音人实际发音进行。

语音数据标注服务

基于语音合成、语音识别和声纹识别等技术建模和测试需要,我们提供以下多种不同层次和类型的标注服务:
背景环境的情境,噪音标注(ASR)
发音人角色标注等

联系我们

  • 总公司 86-411-3989-5558
  • 東京分公司 050-5539-8972