243.数据工厂(1 / 2)

互联网2010 圳南 1298 字 2个月前

<dt class="tp"></dt>

<dt class="kw"></dt>

<dt class="rd"></dt>

路舟走后,陆铭回到了实验室内。

他一边走到后排,吩咐助手将新买的显卡拆出来安装。显得要老旧点的是他从住所搬过来的gtx280,而大多则是微讯的员工送过来的英伟达最新型号gtx580。

去年发表的论文堪称震惊世人。论文中采用了gtx280来处理数层的神经网络。而在此之前,神经网络的发展是一直苦于cpu的处理速度限制,而即便是要使用gpu,也得为特定的问题制作特定的算法。

而说来让陆铭觉得巧的是,路舟年前给他提这事还让他颇为头疼。但就仅仅几天前,新发布的论文提供了一种快速、可参数化的卷积神经网络,这可当真是瞌睡了来枕头。

当然,对陆铭来讲麻烦事自然也有,比如数据集的问题、实习生的水平问题、最终实际应用的问题。

而这些都得靠时间一点点解决。

陆铭想了想就笑了起来,他是没多大心态变化,反而是更加期待这接下来的工作。

反正天大的事也不是他陆铭顶着,这背靠着小学弟他也就安心研究便是。

......

两周后,梦谷云低调上线了众包平台。

大多数关注到消息的网民第一反应,“?!”

尽管众包的模式并不算新鲜,但让人感到新鲜的在于众包中的项目。

梦谷众包分了数个栏目:语音转文字、图片转文字、图片标注和分类、脸部照片和视频、脚部照片等。

前头两项按照提交的量计费,而后两项则是一次计费。

有眼尖的互联网从业者这就认出了这梦谷众包模仿的是亚马逊众包。须知,著名的image中就有大量来自亚马逊众包的数据集。

梦谷云这是要搞事情啊?有没这么牛逼?

当然,外头怎么猜怎么想是别人的事情。

一周后。

此时的路舟正在前往郑市的飞机上。说来,这是他第一次去这城市。

路舟身边是坐了梦谷推广广南分公司的经理周凯。身后的周达和王强东倒不是必要来的,不过是和周凯相熟一起合作所以也是跟了过来。

事情的倒也简单,无非还是ai那点事,需要一些下游的公司来处理一些业务。

在陆铭的实验室研究项目开始运转后,路舟先是安排了微讯向海天瑞声购买了一批语音库供陆铭研究使用。

海天瑞声是早在98年开始就做着语音标注的业务。路舟所买下的语音数据库,里头的结构可以看成是一段语音对应一段文字。这样的库被广泛地用于训练ai,做语音识别或者转换等领域。

至于这些库的源头?那自然是人工听取再标注出文字数据。

而有语音标注,自然就也有图片、视频。这些都被称为数据标注。一个神经网络搭建后,需要用到的训练数据便大多是来自于这里头。

梦谷云上线众包或者路舟这次来郑市的目的也在于此,找人,认数据,练ai。

至于裨益,那简直是全方位的。几乎所有梦谷内的产品都能有所获益。

“周凯。”

“老板请讲。”