第192章 MIT准大一新生(上)_穿越：2014

　　第192章 MIT准大一新生(上) (第3/3页)

种宏观角度看待问题的新奇视角让林灰受益匪浅。

    同林灰的这次交流，贺天昌也收获良多。

    当然了，贺天昌这个层级除了最前沿的知识之外已经很难再获取什么新知识了。m.

    而林灰就算学术上有些优势也不可能不分场合的去卖弄。

    因此贺天昌的主要收获是：

    通过和林灰的交流印证了先前的一些判断。

    首先就是南风APP涉及到的一系列专利。

    当时从老付那搜罗到一堆关于林灰的消息中，最让贺天昌意外的当属一堆专利申请了。

    当看到林灰国内外繁杂的专利申请时。

    贺天昌就感觉似乎看到了一张被精心编织起来的大网。

    至于为什么要编织这样一张网，大概率是为了构筑专利壁垒。

    当时得出这个判断的时候，贺天昌就很欣赏林灰。

    毕竟能在18岁就拥有这份沉稳，属实难得。

    这通电话中，贺天昌将这件事提出来之后，又从林灰口中得到了验证。

    贺天昌不由得更加欣赏林灰了。

    当然了贺天昌知道林灰之所以大大方方毫无避讳地承认这件事是因为林灰构筑的壁垒已经实现了。

    贺天昌一直在关注林灰专利申报的情况。

    因此林灰专利壁垒顺利组网这件事贺天昌早就注意到了。

    贺天昌觉得如果林灰的规划尚未实现的话以两人刚刚初识这种程度即便贺天昌将这个问题抛出来。

    林灰也未必痛痛快快地承认这件事。

    换作是二十年前的话，这种谨慎且算计较多的性格，贺天昌可能会很反感。

    但现在的话，贺天昌反而欣赏这种性格。

    _一段时期研究似乎是太渴望进展了。

    很多技术不待完成完成技术壁垒的构建就冒冒失失地拿出来。

    很多技术明明很有商业价值，可因为准备不足往往被对手钻空子。

    最终导致，明明是金镶玉，却只能卖出白菜价。

    不免让人痛心。

    通过跟林灰的交流贺天昌搞懂了林灰大致是怎么搞出来“生成式文本摘要算法专利”的。

    当然了贺天昌好奇的不是这项专利的具体技术本身。

    他好奇的是林灰的科研过程。

    像林灰这样一个未经过学术方面系统学习的人是怎样一个人搞定全球领先算法的呢？

    贺天昌询问林灰是怎么搞定语言模型训练的语料库的？

    事实上这并不是林灰第一次听到这个问题了。

    先前伊芙·卡莉就在信中提问过林灰这个问题。

    不过就算林灰以前没听人提过这个问题也不用担心被问住。

    因为涉及到生成式文本摘要算法专利，最容易让这个时空外界不解的就是语料库的问题了。

    不提前想好牵扯到训练语言模型所用到的语料库问题该怎么解释就贸然拿出文本摘要方面的新成果很容易遭受这样那样的质疑。

    这样的问题林灰早就注意到了。

    事实上这个问题林灰早就有了答案。

    而且林灰准备了至少三个备选的答案。

    林灰将他先前准备好的说辞说给了贺天昌教授。

    贺天昌听林灰讲了不少方法，一时不由得感慨果然年轻人电子多。

    在林灰提到的几种方法中。

    贺天昌比较感兴趣的还是借助互联网自动构建文本语料库这种方法：

    当利用这种方法构建语料库的时候，用户只需要提供所需的文本类别体系。

    而后从互联网中采集大量网站，提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

    从每个网站中筛选出用户所需要的文本作为候选语料。

    而后对形成的语料库进行去噪。

    事实上这种方法贺天昌记得以前看过国外大学一些学报似乎记录过这方面的研究。

    可国外那次失败了，因为采集到的语料库噪点太大，停用词过多，根本不堪一用。

    林灰为什么会提出这种方法。

    莫非林灰对去噪所用的算法一定有独到的理解。

    贺天昌默默将这事记下了。

    涉及到NLP什么的其实贺天昌也不是很擅长。

    但问题不大，贺天昌國内可是有些老朋友很是精于此道的。猪熊的穿越：2014

请记住本站永久域名

地址1→wodesimi.com
地址2→simishuwu.com
地址3→simishuwu.github.io
邮箱地址→simishuwu.com@gmail.com