Skip to main content

转:关键词抽取(keywords extraction)的相关研究


现有上线的关键词提取算法
1. 语言特征+位置特征,如标题中的名词
2. 对正文+标题的文本构造PAT,然后从中计算字符串的左右熵,互信息来抽取关键词
参考论文《PAT-Tree-Based Keyword Extraction for Chinese Information Retrival》
《Updateable PAT-Tree Approach to Chinese Key Phrase Extraction using Mutual Information:A Linguistic Foundation for Knowledge Management》
这种方案的好处能抽出一些网络新词,性能比较好;但会引入一些噪音,召回率也不太理想
3. 网页特征:标题中存在特殊标记如《》或者“”等直接抽取出来,微博中存在##
4. 位置特征,候选关键词是否在标题,正文,还有meta data中出现过
存在问题
关键词抽取算法研究小结
关键词抽取特征
论文《Finding Advertising Keywords on web pages》中提到过的特征
1.语言特征 词性标注
2.首字母大写
3.关键词是否在hypertext里
4.关键词是否在meta data里
5.关键词是否在title里
6.关键词是否在url里
7.TF,DF
8.关键词所处位置信息
9.关键词所在句子长度及文档长度
10.候选短语的长度
11.查询日志

关键词抽取的特征选取
1.语言特征:使用POS(part-of-speech),标出词性。如名词、动词、副词、形容词等。
2.title : 该关键词是否出现在document中的标题里。
3.position : 该关键词在document中的位置,是否出现在整篇文章的首句、末句或段落的首句、末句等。《Automatic Keyword Extraction Using Linguistic Features》里面详细介绍了这种方法。
4.TF,IDF:最基本的信息权衡特征。
5.Named-Entity: 该关键词是否为命名实体,如人名、地名、机构名、专有名词、产品名。是否为日期信息,如年月日,时间等。
6.关键词之间关系:关键词之间的语义距离,是越大越好还是越小越好,还是没有关系?(我理解的语义距离就是两个关键词共现的概率,如互信息度量)
7.周围词信息含量:该词所在的位置附近几个词的信息含量是否高?或者说该词所在的句子在整篇文章中信息含量情况如何?
8.该关键词是否在其他关键词中出现过:作为关键词出现的概率
9.document所属类别:可参考基于分类的关键词提取和基于concept的关键词提取
10.该词是否出现在一个总结性句子中

关于Named-Entity的问题
1.       在paper《News-Oriented Automatic Chinese Keyword Indexing》中使用过
2.       Named-Entity的信息含量非常高。
3.       Named-Entity的区分度非常高。

值得注意和探讨的问题:
1.       关键词的定义?是区分度最大还是信息含量最大。
2.       由分词带来的影响。TF的粒度的问题。分词本身存在的问题,《Chinese keyword extraction based on max-duplicated Strings of the Documents》找出重复的最大字串。

《News-Oriented Automatic Chinese Keyword Indexing》描写中文关键词抽取,非常经典的一篇文章。其提出了在分词前先统计字符频率,解决了分词不准确及分词粒度带来的问题。提到了过滤关键词 的方法等等。使用POS标记词串,然后过滤掉信息含量比较低的词性对应的词汇。例如连词,副词等等。
关于选择出来的 特征,如何选取最有效的特征,可以参考论文《Multi-Subset Selection for Keyword Extraction and Other Prototype Search Tasks Using Feature Selection Algorithms》

其他比较新的算法
这些算法都需要对文本进行分词处理
一、 TextRank算法,是受到网页之间关系PageRank算法启发,利用局部词汇之间关系(共现窗口)对后续关键词进行排序;复旦NLP有实现,但效果不好
二、 对语料进行标注,训练有监督的机器学习模型,来识别关键词。这种方法的局限是标注语料成本比较高,而且语料随着时间变化会过时。
三、 看了两篇关键词抽取的清华大学博士论文(说明关键词抽取不是个简单问题,都写成博士论文了),都是孙茂松老师的学生
一篇是《基于内容的社会标签推荐与分析研究》
它研究了无监督的关键词抽取研究,改进了TextRank算法,加入了全局词汇关系(点互信息,google distance,topic model),提出SemanticRank和SeamnticFlowRank
另外一篇是《基于文档主题的关键词抽取研究》
论文从四个方面研究
1.基于文档内部信息,利用文档的词聚类算法构建文档主题,进行关键词抽取。
本方法首先将候选词组成若干个聚类,然后选取每个聚类的聚类中心
词。然后,再用这些聚类中心词从文档中抽取名词短语作为关键词。
其中聚类算法用到了(层次聚类,谱聚类,AP聚类)
该方法的局限
一方面,一篇文档的信息有限,往往无法为发现文档主题提供足够的信息;
另一方面,该方法会受到词汇相似度度量和聚类方法性能的较大影响,而目前,
如何为聚类算法找到合适的聚类个数,仍然是一个困难的研究问题

2.基于文档外部信息,利用隐含主题模型构建文档主题,进行关键词抽取。
  它使用大规模文档集合学习隐含主题,这避免了一篇文档自身信息不足的问题,同时也能够得到比较有意义的、稳定的主题信息,避免了在一篇文档上聚类的不确定 性。由于LDA模型训练速度比较慢,所以研究了并行LDA算法,,主要的思路是采用流水线的思想并行吉布斯采样中的通信和计算部分

3.综合利用隐含主题模型和文档结构信息,进行关键词抽取。
该方法针对仅利用文档结构信息进行关键词抽取(如TextRank)和仅利用隐含主
题模型进行关键词抽取存在的问题,提出一种综合利用隐含主题模型和文档结构
信 息的关键词抽取方法,Topical PageRank. 该方法是一种基于主题的随机游走模型,在每个主题上运行PageRank,计算词在不同主题下的PageRank值。该方法一方面能够通过隐含主题模型构 建文档主题,同时能够通过文档图的随机游走模型考虑文档结构为关键词抽取提供信息

4.基于文档与关键词主题一致性的前提,提出基于机器翻译模型的关键词抽取方法。

Comments

Popular posts from this blog

北美 加州 草坪维护 草黄了怎么办

当今中国有句顺口溜, 叫做:穷的时候种稻, 富的时候种草。我虽然 不富,但也种了几年的 草。我对种草其实懂得 不多,虽自学不辍,但 终未成才。不过到底种 了几年的草,心得和体 会总是有的。现在把我 的心得体会写出来,希 望对房前屋后有块小草 坪的朋友们,不管是穷 还是富,都有些帮助。 草地上的草,都属于禾 本科(Grass Family),与竹 子、水稻、小麦、甘蔗 和狗尾巴花是同一个科 的植物。从个体的数量 和分布的范围来讲,禾 本科植物应该是植物界 最大的科了。草本的禾 本科植物通常有两种生 长的形态,一种叫蓬草 (bunch grass),一种叫 坪草(sod grass)。用来做 草坪的草,当然都是坪 草 。坪草的物种和品种很 多,不同地区不同气候 条件种的草不一样,但 也有一些共性。一般来 说,当地商店里买的草 籽(grass seeds)和草皮( sod),都是比较适 合当地的自然条件的。 一.维护和保养草坪必 做的四件事情 1.割草。定期割草, 不仅能使草坪美观,而 且也可防止或减缓坪草 从营养生长到生殖生长 的过渡。营养生长就是 长叶子,生殖生长就是 开花结籽。很多人都知 道,春天的时候有一段 时间不割草,草就开花 结籽了。大家也见过, 边边角角割不到草的地 方,那里的草就会开花 结籽。 2.浇水。对北美大部 分地区来说,春秋天时 可视情况少浇水甚至不 浇水。草地最需要浇水 的时候是夏天,因为夏 天最热最干,水分蒸发 快。至于浇水要多频繁 ,那就看你想草地是保 绿,还是保命。如果想 保绿,那草地每星期得 有一英寸的水量。除非 有自动浇水系统,浇水 是很费时间的,也费钱 。我只想我的草地保命 ,所以我的草地夏天基 本不浇水,只在特别容 易干死的草地或在特别 干旱的年份浇点水。所 以到8-9月份的时候 ,我的草地就黄黄的了 ,有些难看。不过,一 场秋雨来,草地依旧绿 。 3.施肥。草地的肥料 应以氮素为主,钾素得 有一点,但磷的含量可 以很低。我用的最多的 草坪肥料是30-0- 4。现在有一种运动, 推崇不含磷素的草地肥 料,因为磷素施用过多 ,会引起水体(如湖泊 ,池塘)的富营养化。 施肥的话,还是得买个 撒肥机(spread er/broadca ster),手持的或 手推的型号都行,当地 商店都有卖的。没有撒 肥机,肥料会撒得很不 均匀。 4.杂草...

湾区好吃的中餐馆

一个伪吃货在湾区的checklist 来源: 徐聪的日志 海鲜: Boiling Crab (San Jose), Joe's Crab Shack (San Francisco) , Tomi Sushi & Seafood Buffet(San Jose), Tatami Sushi & Seafood Buffet(Cupertino) 番外:Pier 39  的大螃蟹  (San Francisco) Boiling Crab的螃蟹从来都是酒香不怕巷子深,关键在于它家的酱绝对不会让人想起它 是一家西餐馆。它家的龙虾也是一绝,当然一旦点了龙虾还打算吃饱的话人均基本在40 刀以上。它家在San Jose有两家分店,如果想避免排长队的话推荐周末中午11点50点以 前(12点开门)去101高速边上那家,屡试不爽。 Joe's Crab Shack是一家全美连锁的海鲜餐馆,一锅端 (Steampot) 的吃法很有特色。 Tomi Sushi & Seafood Bufferz中文名叫涛味,排在Tatami之前的原因是它家的口味比 较偏中餐,龙虾膏蟹做的不错(不是每天都有)。最近中午去过一次,东西很少,不推 荐中午去(虽然价格便宜一些)。 Tatami跟南加著名的Todai都是差不多的日式海鲜自助,生鱼片比较新鲜,不过没有 Todai每小时限量的烤龙虾尾。 渔人码头的螃蟹主要的砝码是价格,但跟Boling Crab一比也不见得能便宜多少。有一 家摊位上面写着“我们通晓国、粤、英语”,每次都会去。 川菜: 御食园(San Francisco),金饭碗(Berkeley), 红翻天(Foster City), 吃香喝 辣(Newark), 老赵川菜(Mountain View), 鹿鸣春(Berkeley), 福恩园( Menlo Park),麻辣诱惑(Fremont), 巴山蜀水(Milpitas) , 福恩园(San  Mateo), 大四川(Palo Alto), 麻辣诱惑(San Jose), 山城私房菜(Milpitas ),麻辣帝国(San Mateo) 川菜的菜品基本都是那几样,就不单独推荐了。 排名第一的Z&Y我觉得就不用...

California life 新手的湾区 购房 全攻略 (转)

原帖在华人网,感觉写得太全面了,本人非房黑房托,只做技术性讨论,欢迎发表意见 第一阶段:全面了解 去年12月12号的时候,我正好怀孕37周,冒着风险跨东西海岸大搬家到了Bay。刚下飞 机的时候正好下着雨,但是一点也不冷,反而很舒服。来到LG租的apartment,还是吃 惊了一小下,因为从Atlanta rent $750 每月 1000sqft的1bed1bath搬到 $1700每月 1000sgft的2bed2bath,这个落差还是比较强烈滴。。。 不过呢,既来之则安之,我立马投入了100%的热情开始shopping,布置这个临时的新家 来迎接宝宝的出生。要知道在37周之前,我连最基本的crib都没准备,更不用说其他的 了。然后就是宝宝出生,出了月子我开始努力换工作,接下来去新公司上班,等到一切 稳定下来,大概是4月份的样子,我打算开始做买房的初步了解了。。。 首先就是找agent了,一般就是靠熟人推荐。我找的agent优点很明显,经验很丰富,很 热情,很耐心,不push,缺点也很明显,就是不太愿承担责任,她会很小心的提供涉及 到关键问题的建议,就怕给你产生误导。这样也不是不好,但是对于我们这样没有经验 的新手来说,从agent那里拿到的答案总是模棱两可的,我们就很难做出判断。但是 buyer和agent其实就是一个team,买房就是一个teamwork,在这个过程中,通过一次次 的沟通,最终我们还是磨合好了。整个过程下来,很难说我们对agent是不是满意,但 是只要帮助买到了满意的房子,那就应该是一个好的agent。 4月份和agent初步聊过后,我们当时给出的dream house的条件和大多数刚刚从东部, 中西部农村搬来bay的同学基本上是一样的: 1。 SFH,房子要大,1700sqft以上,越新越好,最好2层的。 (atlanta 基本配置都 是这样的阿。。。) 2。 院子小点没关系  (在atlanta见过的朋友家的院子都是草坪,就没有精心收拾过 的,所以那个时候对后院完全没有概念。。。) 3。 学区中等就行,小学800+。(小孩才刚出生,到上学还早呢,如果到时候来不及换 房子,那就上私立好了。。。) 4。 commute 30-40分钟都可以。 (在atlanta我们还经常开车1个小时去吃饭呢,高速 30分钟也...