国双科技:纳斯达克新来的年轻人

计算机世界 / 2018年10月24日 09:32

手机

国双科技成功登陆美国纳斯达克让数据说话

赵艳秋+王众

这家纳斯达克上市的新公司,长远目标是做“中国的Oracle”,提供“新时代的商业智能”。

9月,国双科技成功登陆纳斯达克,成为中国首家赴美上市的大数据分析软件企业。

如果让国双科技CEO祁国晟说出对自己影响很深的一家企业,这位自信而有雄心的80后可能会说“非微软莫属”。他从这家国际大企业找到了人生偶像,获得了技术和管理的启发,也确立了公司的目标——做一个掌握核心技术的B2B企业。

软件创客

祁国晟在小学一二年级时,就注意到了电脑。到了中学,他不仅学会了编程,做了网站,甚至还有了做软件企业的梦想。他的偶像是比尔·盖茨。

不过,从他对计算机产生兴趣到后来保送进清华读软件这段时期,中国软件产业“正在走下坡路”。由“中国第一程序员”求伯君开发的传奇程序WPS,从占领国内市场80%到最终几乎一夜之间被微软翻转。祁国晟看到,中国软件行业“慢慢没有了自主的东西”。

在祁国晟进入大学的第二年,他在校园内成立了“软件产业研究学会”,希望通过调研来解决一直困扰自己的一个问题——为什么“中国没有软件产业”?他认为自己有责任去研究行业,而不仅仅是学习编程技术。

在与国内各大行业协会合作的过程中,他发现,国内软件企業绝大多数更像是“项目企业、系统集成企业或信息服务企业,没有多少真正的软件产品企业”。即使是做产品的企业,也是在微软、Oracle或SAP这些国外基础软件产品上搭建一个应用,这与他心目中的软件——操作系统、浏览器、Office有着本质的不同。

做产业研究学会也开启了祁国晟的大学创业生涯。因为此时他认识了不少业内人士,都有编程需求。于是,祁国晟就组织同学,有时几个人,多时十几个人,“干点儿项目”。现在,当公司上市后,他身上的标签之一是“大学创业的成功代表”。

今天,社会鼓励大学生创业,但在祁国晟创业时,清华上上下下几乎都是反对派,因为之前学校刚掀起过一波创业潮,结果都不太好。这甚至导致祁国晟成立学会时,差点找不到规定的指导老师。恰好当时一位刚从美国麻省理工学院回清华任教的老师,开设了一门研究技术经济和创新经济的课程。“我觉得他无论如何都不该拒绝我,因为我想做的就是这个方向”。果然,这位老师支持了他,现在也是国双的一名董事。

如今,很多人都会问已成为“中关村创业之星导师团成员”的祁国晟,你对大学生创业怎么看?“坦白讲,我觉得非常非常难,因为很多产业分工已极度专业化了。20年前真的有“风口”,而且“风口”位置较低,有人肯站上去,就有可能被吹起来。现在“风口”是给很成熟、有资源、有准备的人去做的”。

不过,他也肯定地说,自己是鼓励大学生创业的,但前提是“应该抱着99.99%会失败的决心去创业”。因为创业经历可以让年轻人受到很强的锻炼,特别在意志和对残酷竞争的认知层面上。但是如果是抱着“30岁实现财务自由”的目标创业,那就不要做了。

比谷歌早一年

三四年前,“大数据”才被IT行业领头羊企业热烈探讨。但祁国晟11年前在校创建公司时,就给公司取名Gridsum——他当时想,如果有一天数据量太大,大到加法在一台计算机上搞不定时,就用分布式计算(Grid)处理加法(Sum)。这几乎预见了今天业界对大数据的解决之道。

“我们发觉这个方向太有意思了,因为数据的增量有一天可能会超出摩尔定律的速度,单台机器仅凭硬件升级永远不可能搞定数据分析的量”。

祁国晟听了大量分布式课程,像分布式操作系统、分布式数据库。但这些技术在当时更多的是为了解决部署问题,而不是性能问题。“我们一开始就要让它解决性能问题”。

如今,在大数据行业广为人知的是,2004年谷歌相继发表的三篇论文——Google FS、MapReduce、BigTable,这奠定了大数据的概念和算法基础,也是Hadoop的起源。

实际上,祁国晟2003年就写了一个程序,把四则运算转化成加法,并让多台计算机一起来做,这甚至比谷歌的论文还早一年。

而当时,除了谷歌这些搜索引擎公司,很少会有大公司想到数据的分布式处理,因为做搜索的企业是第一批面临每天新增网页数据超出单台计算机处理性能的企业。这也是为什么谷歌提出MapReduce、雅虎做出Hadoop的原因。

“我们可以拍着胸脯说,我们与MapReduce是同一个时候出来的。”祁国晟说。

这并不足奇,在业界,突破性技术往往来自小型初创公司。例如,CDMA编码技术就不是来自通信大企业诺基亚或AT&T,而是当时的初创公司高通。

独门秘籍

国双成立后,最早接触的需求是搜索引擎优化(SEO),就是让某网站更受搜索引擎青睐。

那时,市场上大部分SEO的做法是“抓搜索引擎的漏洞,然后钻空子”。但祁国晟认为“这类似金庸武侠小说中的‘旁门左道,不是正宗的功法”。他采用了与之不同的方法。

他们为大型网站拿去一个基于数据分析的诊断。在祁国晟看来,网站如果能掌握自己底层架构的数据,对每个页面的内容、链接、关键词密度和流量了如指掌,就能做出一个结构清晰、原创内容丰富的站点,搜索引擎自然就会喜欢。客户觉得国双的方法很有道理。

当年,国双SEO技术因为效果显著,受到大型网站认可。

“做完这些大客户后,我们就觉得Web Analytics(网页分析)太有机会了。即使是世界级产品,包括Google Analytics都有很多局限性。所以,我们花了两年时间潜心把它做好。”祁国晟说,“现在,Web Analytics是国双所有产品的核心。”

国双也很快通过解决点击欺诈问题,开启了最初的人工智能研发。当时在广告界,点击欺诈现象非常严重。国双可以提供一个多维度的自由剖析,帮助业内人士发现点击欺诈。但是很快,“我们发现这个事太多了,能不能教会计算机自动去做这件事?”于是,他们开始了人工智能的尝试。

人工智能模块将扎根于国双的每个产品中,“但我们并不想突出说这就是人工智能”。祁国晟坦言,现在,国双没有实力去投入一个“能下围棋的机器人”,但他们投入的人工智能研发,目标是在任何一个有规模的行业中,把一些机械的事变得更有效率。比如,一些应用要通过看很多数据进行判断,人总会有疲劳和疏漏,能不能用机器来替代?

另一个国双的突破,来自祁国晟毕业后在微软亚洲研究院的实习经历,这也是他唯一一段“打工生涯”。他接触了一个有趣的项目——自然语言分析,训练机器去读一批论文,然后回答“谁是这个领域的专家”。

“论文是非结构化数据,我当时觉得这类数据很有意思,它不是1+1=2这类结构化数据。我觉得,未来数据分析不只是1+1=2,还必须要对非结构化数据进行有效分析”。

祁国晟发现,因为当年计算机架构不能既看文本信息、又读数字,大家因此把精力都放在文本信息上。这会导致这个自然语言识别项目的准确率大打折扣。

“这是一个机会”。后来,国双确立了“结构化数据和非结构化数据不能分而治之的路线”。这条路有一定技术困难,做行业应用就更麻烦了,因为每个领域都要训练一个数据集,尤其是特别专业的领域,缺乏复合型人才,有很多问题要克服。

不过,这条路也为国双在多领域的大数据解决方案奠定了技术基础。 例如,在支持“法信——中国法律应用数字网络服务平台”的建设过程中,在人民法院电子音像出版社副社长张承兵看来,国双是唯一一家他们接触的大数据公司中,技术达到应用级水平的。

今年春季,“法信”平台上线,其中的裁判剖析大数据引擎(LD)和同案智推大数据引擎(SP)由国双研发。现在,“法信”平台主要是为法院体系服务。但在中国司法改革中,包括在一些领域要推广先例制度——不只是看法条,还要看先例,国双会藉此把它更深入地做成整个司法行业的解决方案。

国双也在深耕市场营销行业、政府公共服务行业,未来还会把技术带入金融行业,定制行业解决方案。

“互联网思维”是个坑

2014年底,当国双具备一定规模后,请来在微软曾管理过上千工程师团队的刘激扬担任公司CTO。

“其实,我们创业团队的技术背景都很强,为什么还要到外边请一个CTO?”祁国晟说,“因为我们都没有大公司的经验。而且,我们认为微软的工程质量是相当好的。当公司发展到一定规模后,一定要请一个专业的CTO,帮我们把控产品质量和流程。”

刘激扬是微软亚洲互联网工程院的创建人。“他的到来,把国双技术团队管理带上一个新层次,从创业公司带到一个国际公司的思维层面。”祁国晟对刘激扬的评价很高。

同出自微软,曾担任产品经理的国双科技助理总裁许云介绍说,微软是最早提出产品开发要有“产品经理、开发团队、测试团队三驾马车的”的企业。互联网企业,像谷歌最早都没有测试员。“但从产品质量管理角度,微软有一个很严格的标准,产品出去前一定要经过严格的流程”。

国双最初更像一个互联网公司,也采用敏捷开发。刘激扬加入之后,反而让他们别太敏捷,要按照一个规程,系统性地做一个软件。要分清测试、开发和产品职责,像大集团军一样作战。

“实际上,互联网思维是B2B行业最大的坑。”祁国晟说。对“互联网思维”一个极端的理解是快速做出新东西,病毒式推广出去,免费使用,黏住用户。但B2B企业的重心则完全不同——它要有核心技术,而不仅仅是一些功能。而核心技术如果没有时间积累、没有专业的人是做不好的。

“我觉得现在一个很大的问题是,很少有人真正相信,核心技术是可以被一个中国企业或中国团队掌握的。所以大家今天都在拼功能,而不是拼技术。”祁国晟说,“实际上,在企业级领域,你今天发布一个功能,明天再发布一个功能,这并不重要,因为企业级应用要适应严苛的实际应用场景。很多看似功能丰富的产品一到实际应用阶段,面对小规模数据量的场景还能应付,数据规模大到一定程度就垮了。”企业级产品靠照猫画虎那样模仿功能,是打不了真正的仗的。

在今年CNTV世界杯决赛直播、奥运会女排决赛直播中,国双提供了基于央视网PC网页、PC客户端、手机、Pad等多终端过亿用户的全样本“用户播放行为分析”,为新媒体直播提供了有力保障。“我们能应对的数据量级是行业最具有挑战性的,这是我特别自豪的一件事。” 祁国晟说。

2016年上半年,国双研发费用占到公司营收的45%。祁国晟说,他现在对研发的理解是不要那么急功近利。“研发是钱花在未来一年都不一定会变成现金收入的事上”。像国双与大学的合作,建立的“哈工大国双联合自然语言处理实验室”、“人民大学—国双大数据科学联合实验室”, 捐资设立“北京大学法学院科研与人才培养工作发展基金”,就是面向未来的研发。

目前,BAT也在加紧布局大数据。不过,祁国晟认为,BAT的大数据,更多与消费者相关,与B2B的DNA很不同。“B2B行业给客户一个工具是不行的,在中国必须提供一个端到端的解决方案,必须要做得很细。而且,以BAT的體量,如果不是做一个平台,而是一个应用,要一家一家地推,这不是他们想做的事。大家的方向差别还是挺大的。”

成长洞见

公司成功在纳斯达克上市后,祁国晟在不同场合对10多年来在B2B行业的摸爬滚打有一些总结。他认为early vision(早期视野)很关键,国双无论是SaaS还是在数据分布式处理上,都“看得非常早,运气也比较好”。

国双当时在考虑系统架构时,市场上还没有“SaaS”这个词。祁国晟记得很清楚,2007年他们做第一个产品Web Dissector时,同事问他,这个系统要不要考虑部署在客户那里?他说不考虑。祁国晟判断,做大数据必须用“SaaS”,除了极少数大企业外,计算机集群要放在国双这里来集中调度,效率才会比较高,成本也会比较优化。

他也谈到了做企业要坚持,“不管世界怎么变,我们就觉得这个事情要做下去。”

而行业专家是B2B企业成功的基石——你必须要找到这个行业里真正的专家,才有可能打动这个行业的购买者。“因为每个行业都是很深的,当你不能深度解决别人的问题时,没有人有时间陪你玩。你必须做出他能够用的东西。当只有一步之遥时,他才给你提点意见”。所以,B2B行业不光要有计算机编程能力,还一定要有行业专家。因为专家才能知道更深层面的痛和那个行业真正最严峻的问题。

祁国晟认为,文化和股权激励是把行业专家团结在一起的重要方式。

“真正的行业专家很少认同在企业里做互联网文化的,因为他自己在某个行业深耕多年,他不相信任何事情能简简单单、一两年就出成果。”他说,“你要能打动这样的人,必须要有一定的积淀。”

如今,国双联席总裁李峰就是互联网广告、搜索引擎营销领域的大专家、百度第一任销售总监。在政府行业,国双与国家信息中心合作,吸引了很多政府行业专家。在法律行业,国双既有法官、检察官,也有律师,都曾在司法机关或律师事务所担任要职。而B2B行业也要谨慎地对待风险投资。“因为B2B企业能做起来就能做起来,不一定需要很多钱”。即使现在SaaS公司烧钱很厉害,但都是在证明它的服务有人买、愿意付费后,再烧钱做销售的。

正因为如此,虽然国双之前曾做过三轮融资,从2010年迪士尼旗下的思伟投资和诺基亚成长基金,到2013年索罗斯的量子基金,这也是量子基金在亚洲唯一一次领投项目,再到2015年高盛投资,国双都低调处理,没有对外宣布。

祁国晟还提醒B2B创业者,在中国,由于采用现代治理制度的企业比较少,简单复制国外概念不太容易成功。而在一些领域,由于政策等因素变化比较大,解决方案最好不是一个点,而是一个面。这样,将来抗风险的能力会比较强。

“中国Oracle”

从当年做“软件创客”起,祁国晟的梦想就是要做基础软件。

在国双第一个产品Web Dissector的研发过程中,他们遇到一个问题是,商业智能领域很有价值的一种老产品——数据仓库技术,不仅架构不太适合分布式,而且数据量达到一定量级就不行了。直到现在,Oracle、微软都没有一个云上数据仓库。

“但值得自豪的是,2009年Web Dissector发布时,它是全世界第一个完全基于数据仓库的产品。在这个产品上,用户可以直接做各种分析,这些分析当年只有专业数据仓库才具备,而且我们是在云上提供的。”祁国晟说。

目前,国双正继续优化结构,希望几年之后,提供一个像AWS一样的云服务,但这是一个“数据分析云服务”,所有大数据的服务,包括数据仓库、实时数据分析、关联分析甚至单纯的自然語言分析,都在云上对外提供。

祁国晟说,自己的长远目标是做“中国的Oracle”,开发基础软件,其他企业可以在国双软件上做二次研发,实现某个行业的应用。而这个基础软件,也就是“新时代的商业智能”,现在被业界称为PaaS。

而在近期,这家前期走得还算顺风顺水的年轻企业更要努力证明,其在正在到来的大数据应用时代,能深入更多规模行业,用技术改变商业。

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。