手机版
您的当前位置: 今安美文网 > 美文 > 情感美文 > hownet情感词典下载

hownet情感词典下载

来源:情感美文 时间:2018-08-23 12:30:03 点击: 推荐访问:hownet情感分析词典 中文情感词典下载

【www.zqhxrl.com--情感美文】

hownet情感词典下载篇一

hownet简介

知网简介

知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。今天它终于上网面世了。我们期待会有越来越多的人关心它,使用它,甚至参与它的完善、扩充和发展。

1. 问题的提出

1988年前后,董振东曾在他的几篇文章中提出以下的观点:

(1) 自然语言处理系统最终需要更强大的知识库的支持。

(2) 关于什么是知识,尤其是关于什么是计算机可处理的知识,他提出:知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。一个人比另外一个人有更多的知识说到底是他不仅掌握了更多的概念,尤其重要的是他掌握了更多的概念之间的关系以及概念的属性与属性之间的关系。

(3) 关于如何建立知识库,他提出应首先建立一种可以被称为知识系统的常识性知识库。它以通用的概念为描述对象,建立并描述这些概念之间的关系。

(4) 关于由谁来建立知识库,他指出知识掌握在千百万人的手中,知识又是那样博大精深,靠三、五个人甚至三、五十个人是不可能建成真正意义上的全面的知识库的。他提出:首先应由知识工程师来设计知识库的框架,并建立常识性知识库的原型。在此基础上再向专业性知识库延伸和发展。专业性知识库或称百科性知识库主要靠专业人员来完成。这里很类似于通用的词典由语言工作者编纂,百科全书则是由各专业的专家编写。

知网的研究和建设是实践上述观点的努力。

2. 知网的哲学

要掌握和利用好知网系统,必须首先了解知网系统的哲学思想。知网系统的哲学也就是它对客观世界的认识与把握。知网哲学的根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态, 并通常由其属性值的改变来体现。试以人为例,人的生老病死是一生的主要状态。这个人的年龄(属性)一年比一年大{属性值},随着年龄的增长头发的颜色(属性)变为灰白{属性值}。另一方面,一个人随着年龄的增长他的性格(精神)变得日益成熟{属性值},他的知识(精神产品)愈益丰富{属性值}。基于上述,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的两类,部件,属性,时间,空间,属性值以及事件。

特别要强调的是,部件和属性,这两个基本单位在知网的哲学体系中占有着重要的地位。关于对部件的认识是:每一个事物都可能是另外一个事物的部件,同时每一个事物也可能是另外一个事物的整体。门和窗是建筑物的部件;手和脚是动物的部件。但与此同时,一个建筑物又可能是一个社区的部件;一个人又可能是他所属的家庭或社会的部件。一切事物都可以分解为部件。空间可以分解为上下左右;时间可以分解为过去、现在和未来。没有一种事物只能是部件,而不能是整体;也没有一种事物只能是整体,而不会是部件。我们认为一个事物被视为是整体还是部件,可以因系统的不同,而不同对待。关于部件在整体中的部位和它的功能,知网遵循这样一种认识:事物的部件在它整体中的部位和功能的描述大体上比照人体。例如:山头、山腰、山脚、桌腿、椅背、河口,建筑物的门和窗比照人体的口和眼等等。汉语用拟人的手法来描述部件,别的语言也类似,这反映了人类认识事物方法的共性。

关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异或同是由属性决定的,没有了属性就没有了事物。人有种族、肤色、性别、年龄、性格、会思维、会使用语言等自然属性以及国籍、出身、职业、贫富等社会属性。在某些特定的情况下可以说属性比事物更重要,这一点在人们的日常生活的替代活动中可以得到体现。如:当我们要把一个钉子钉到墙上,但我们没有锤子,于是我们要找锤子的替代物,那么什么是锤子的替代物呢?那应该是属性最接近锤子的属性的物品才可能是替代物,而这时重量和硬度是关键性的属性。属性和它的宿主之间的关系是固定的,这是说有什么样的宿主就有什么样的属性,反之亦然。属性与宿主之间的关系同部件与整体之间的关系是不同的。这也体现在知网在涉及属性的标注

规范上,知网规定在标注属性时必须标注它可能的宿主的类型。知网还规定在标注属性值时都必须标注它所指向的属性。

3. 知网的特色

计算机化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。{hownet情感词典下载}.

知网作为一个知识系统,实副其名是一个网而不是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。知网在主要特性文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病”的经验者。对于“富翁”和“穷人”,“美女”和“丑八怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属性值,则是它们的个性。

同时知网还着力要反映概念之间和概念的属性之间的各种关系。知网把下面的一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。

总的来说,知网描述了下列各种关系:

(a) 上下位关系 (由概念的主要特征体现,请参看《知网管理工具》)

(b) 同义关系(可通过《同义、反义以及对义组的形成》获得)

(c) 反义关系(可通过《同义、反义以及对义组的形成》获得)

(d) 对义关系(可通过《同义、反义以及对义组的形成》获得)

(e) 部件-整体关系(由在整体前标注 % 体现,如"心","CPU"等)

(f) 属性-宿主关系(由在宿主前标注 & 体现,如"颜色","速度"等)

(g) 材料-成品关系(由在成品前标注 ? 体现,如"布","面粉"等)

(h) 施事/经验者/关系主体-事件关系(由在事件前标注 * 体现,如"医生","雇主"等)

(i) 受事/内容/领属物等-事件关系(由在事件前标注 $ 体现,如"患者","雇员"等)

(j) 工具-事件关系(由在事件前标注 * 体现,如"手表","计算机"等)

(k) 场所-事件关系(由在事件前标注 @ 体现,如"银行","医院"等)

(l) 时间-事件关系(由在事件前标注 @ 体现,如"假日","孕期"等)

(m) 值-属性关系(直接标注无须借助标识符,如"蓝","慢"等)

(n) 实体-值关系(直接标注无须借助标识符,如"矮子","傻瓜"等)

(o) 事件-角色关系(由加角色名体现,如"购物","盗墓"等) (p) 相关关系(由在相关概念前标注 # 体现,如"谷物","煤田"等)

知网的一个重要特点是:类似于同义、反义、对义等种种关系是借助于《同义、反义以及对义组的形成》由用户自行形成而不是逐一地、显性地标注在各个概念之上的。

知网是一个知识系统,而不是一部语义词典。尽管被我们称为知识词典的常识性知识库是知网的最基本的数据库。知网的全部的主要文件包括知识词典构成了一个有机结合的知识系统。例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分,而不仅仅是标注的规格文件。我们预计用户将来把它们与知识词典一起加以利用。

4. 知网建设的方法

知网是一个以上述各类概念为描述对象的知识系统。知网不是一部义类词典。知网是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与其他的树状的词汇数据库的本质不同。知网的哲学和它的根本特性决定了它的特别的建设方法。{hownet情感词典下载}.

4.1 义原的提取

什么是义原,跟什么是词一样的难以定义。但是也跟词一样并不因为它难于定义人们就无法把握和利用它们。大体上说,义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但我们也可以把它看作为一个义原。我们设想所有的概念都可以分解成各种各样的义原。同时我们也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果我们能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,我们就有可能建立我们设想的知识系统。利用中文来寻求这个有限的集合,应该说是个捷径。中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。

我们的方法的一个重要特点是对大约六千个汉字进行考察和分析来提取这个有限的义原集合。以事件类为例,在中文中具有事件义原的汉字(单纯词)中我们曾提取出3200个义原。试以下面为例我们得到了9个义原但其中有两对是重复应予合并。

治:医治 管理 处罚 „„{hownet情感词典下载}.

处:处在 处罚 处理 „„

理:处理 整理 理睬 „„

3200个事件义原在初步合并后大约可以得到1700个,然后我们再进一步加以归类,我们便得到大约700多个义原。请注意,到现在为止完全不涉及多音节的词语。然后我们用这700多个义原作为标注集去标注多音节的词,当我们发现这700多个义原不符合或不满足要求时,我们便进行的合理调整或适当扩充。这样就形成了今天的800多个事件义原的标注集以及由它们标注的中文的事件概念。

综上所述,知网的建设方法的一个重要特点是自下而上的归纳的方法。它是通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。

4.2 义原的考核与确定

在初步确定了一批义原并形成了一个基本的标注集之后,如何加以考核和确定?

第一、在扩大标注中观察该义原的覆盖面。我们有一条原则:我们已有的义原一定要能够描述全部的概念。这里有一个比较硬性的规定,即当我们发现一个具有多个概念的词语,例如八个,而我们以有的义原不能够把这八个概念区别开来时,我们就必须对我们的标注集加以调整,这是绝大多数的情况。在很个别的情况下我们不排除怀疑其中某个概念是否存在,以决定取舍。

第二、观察某一个义原在概念之间关系中的地位。如果一个义原在同类别的许多概念中出现或者不同类别的概念中出现,那么这样的义原就是稳定的义原是一个必须确定的义原。以事件类“医治”这个义原为例,它不仅出现在“医”、“治”、“治疗”、“医疗”、“治病”、“求医”、“看病”等概念中,并且还出现在“医生”、“医院”、“医药”、“诊所”、“不治之症”、“有病乱投医”。因此,“医治”这个义原是稳定的、是必须确定的。{hownet情感词典下载}.

无论是义原的提取还是义原的考核与确定,在知网的建设中都是至关重要的和具有决定意义的。它们贯穿于知网建设的全过程。因此,知网建设的方法的主要特点是:(1)自下而上的;(2)标注集的形成和知网建设是互动的。

5. 知网系统的概貌

5.1 知网系统包括下列数据文件和程序:

(01) 知网管理系统

(02) 中英双语知识词典

知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此它的规模是动态的。它的规模通常以词语的条数以及由词语所表述的概念的条数计算。

5.2 知识词典的记录样式

知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述形成一个记录。每一种语言的每一个记录都主要包含4项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:

W_X= 词语

E_X= 词语例子

G_X= 词语词性

DEF= 概念定义

5.2.1 词语及其概念的选择

《知网》的知识词典是以词语及其概念为基础的。我们是怎样选择和确定词语及其概念的呢? 这里要回答以下几个问题{hownet情感词典下载}.

第一,我们不认为汉语有很严格的、如印欧语言那样的"词"。因此知识词典的描述的最基本单位,不必要去追求严格的关于词的定义。我们选择词语的依据是建立于4亿字汉语语料库按出现频率形成的词语表,而不是仅仅依据某一本现成的词典。知识词典很注意收集已经流行又有较固定可能的词语,如"因特网"、"欧元"、"二恶英"、"下载"、"点击"、"黑客"等,但又不盲目求新,如不收"打的"。

第二,词语的概念或称义项的选择也是经过精心考虑的。一般很注意某一义项的现代的流通性。例如"曹"在普通词典中至少有两个义项,一是"姓",另一是"辈"如用于"尔曹"。而知识词典只选择第一个义项。 第三,我们同时给出了与词语相对应的英文释义。我们的目的是体认知识词典对概念的描述方法是否也适用于另一种语言。按理是应该能够适合的。我们的目的当然不是为最终用户提供普通的汉英词典。

5.2.2 关于词语的例子

迄今为止,我们主要是为那些具有多个义项提供例子。这些例子的要求是:强调例子的区别能力而不是它们的释义能力。它们的用途在于为消除歧义提供可靠的帮助。这里试以"打"的两个义项为例,一个义项是"buy/买",另一个是"weave/辫编"。

NO.=000001

W_C=打

G_C=V

E_C=~酱油,~张票,~饭,去~瓶酒,醋~来了

W_E=buy

G_E=V

E_E=

DEF=buy/买

NO.=015492

W_C=打

G_C=V

E_C=~毛衣,~毛裤,~双毛袜子,~草鞋,~一条围巾,~麻绳,~条辫子

W_E=knit

G_E=V

E_E=

DEF=weave/辫编

设我们要判定的歧义语境是"我女儿给我打的那副手套哪去了"。我们通过对"手套"与"酱油"等的语义距离的计算以及跟"毛衣"等的语义距离的计算的比较, 我们将会得到一个正确的歧义判定结果。这种方法的好处有二:第一,多数的判定可以避免采用规则; 第二,多数的情况基本的算法可以是不依赖特定语言的。 填写例子是一项具有研究性质的工程。这项工作是由国家语委97@YY001课题支持的,由北京大学中文系部分师生承担的。迄今为止还没有全部完成。另外,我们需要资助者的同意才可以全部公布。 我们在第二版中只给出前三个字母的多义词语的例子,以飨读者。

6. 概念定义的标注方法和规定

知网对概念的描述是要着力体现概念与概念和概念的属性与属性之间的相互关系,因此,知网对于概念的描述必然是复杂的。这就必须有一套明确的规范,否则便无法保证描述的复杂度和描述的一致性。概念描述既有总的、一般性的描述,也有因不同类别的细节性描述。

但是,描述的方法和规定又必须保证能够最大限度地表现概念与概念和概念的属性与属性之间的相互关系。事实证明满足复杂性和一致性统一的要求的可行途径是设计一种知识词典的描述语言。知网建设的过程也是设计与建立这样的描述语言的过程。迄今为止,知网的知识词典的描述语言(Knowledge Dictionary Mark-up Language,KDML)包含下列几部分:

(1) 它的词汇近1500个特征及动态角色;

(2) 标识符号和标点;

(3) 词序;

6.1 总规定

(1) 任何一个概念的DEF项是必须填写的,不得为空。

(2) DEF项中用以定义的特性至少是一个,但也可以是多个,数量没有限制,只要内容是合理的且形式是合乎规范的。

(3) DEF项的第一位置所标注的必须是知网所规定的主要特征(详见《知网管理工具》),否则视为语法错误。但是有些关系意义,可以把次要特征置于{}中后,作为第一位置标注。例如一些介词、连词等虚词,严格地说它们本身没有概念意义

(4) 多个特征之间应以英文逗号“,”分隔,且逗号与特征之间没有空格。

(5) 除第一位置以外,其他位置也可以填有主要特征,但应该说明的是,当主要特征在非第一位置时它失去了原有的上下位关系。

(6) DEF项中任何一个位置上的信息都可以带有知网所规定的标示符号。

6.2 细节规定

本文来源:http://www.zqhxrl.com/mw/170588.html

扩展阅读文章

今安美文网 http://www.zqhxrl.com

Copyright © 2002-2018 . 今安美文网 版权所有 京ICP备11356960号

Top