发布网友 发布时间:2022-04-25 10:48
共2个回答
热心网友 时间:2024-09-30 13:27
简单来说,几年前感觉NLP这个领域很新鲜、很空白,决定做一做。读完博士,感觉NLP比我最初接触时理解的NLP更新鲜、空白、值得挖掘。NLP很多问题都没有正式定义、或者说很难用统一的标准去训练机器、很难搞 benchmark dataset。这可能也是AI的一大挑战。我认为现在比较成熟的AI方向,问题本身的答案都是相对来说确定的。比如语音识别,拿来一段语音、说的就是什么什么话。比如vision,猫的照片就是猫、这个人脸的照片就是这个人。NLP有一些问题就没这么明确了。比如文本摘要,到底哪一个摘要是最好的呢?机器翻译,到底哪一个译文是最好的呢?复杂一些的情感分析,这篇报道作者到底有没有在暗讽这个人?如果一个问题有明确的答案,比如waston——专门参加开心辞典回答问题,算法训练起来轻松一些。如果一个问题本身答案并无明确的高下之分,算法也很无奈啊。定义新问题、以较小的代价搜集新的数据集、开发新的 evaluation method,这些与研究新算法一样有趣、有挑战性。举个简单的例子。我们想让机器自动识别出来讽刺,那么去哪里找讽刺的话呢?Ellen Riloff教授2013年有一篇论文(Sarcasm as Contrast between a Positive Sentiment and Negative Situation)。在*上有一些本来很倒霉、但是作者好像又很高兴的推文。这些推文有的#sarcasm 的标签:1、Oh how I love being ignored.2、Thoroughly enjoyed shoveling the driveway today! :) 3、Absolutely adore it when my bus is late4、I’m so pleased mom woke me up with vacuuming my room this morning. :)我们有现成的分析情感的工具,再利用这些有#sarcasm标签的推文,可以训练一个识别“什么情况是倒霉情况”的分类器。以后可以用这个倒霉识别器去识别没有标签的讽刺句子,bootstrap一下把数据集搞大。这就是一个最初级的讽刺方面的数据集。NLP圈里很多人喜欢搞新的数据集,这个现象有利有弊。但的确说明有很多空白问题需要定义、有很多空白资源需要创建。
热心网友 时间:2024-09-30 13:28
我对NLP的兴趣主要是从工作开始的,又因为自己生活的需求而变得更强烈。读博前在一个数字文献数据库公司工作时候,做过从文献里提取专有名词的工作(做得很糙,只是模板匹配)。之后在互联网公司开发过搜索引擎组件和网页的正文提取工具。这些工作勉强只能算很低级的NLP,不过感觉也挺有用的,毕竟人每天都要读大量电子资料或者多次使用搜索引擎,如果能开发工具,让我们更轻松有效的获取信息,那会省下每个人的许多时间。另外我们也经常学习外语,如果有工具能让我们学习更便利,相信市场会是很大的,可能可以凭这个开公司,带来不错的收益。随着互联网服务变得越来越多样化和个性化,NLP的重要性也越来越大了,比如微博的“智能排序”如果真能做好,那是很方便的,然而现在做得并不好,从侧面也说明NLP是个很难的领域,可做的还有很多。对于学术界和商业界的人来说,问题就意味着机会。