Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp

Chia sẻ cho các bạn sinh ngành luật bài Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp. Theo mình biết hiện nay có rất nhiều bạn sinh viên đang có một vấn đề chung là gặp khó khăn trong khi viết bài: luận văn, khóa luận, báo cáo, tiểu luận. Biết được điều đó nên mình đã ở đây để trợ giúp các bạn những bài tiểu luận hay nhất. Hãy liên hệ với mình khi các bạn chưa lên được ý tưởng cho bài làm của mình nhé.

TÓM TẮT 

Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là các cụm danh từ phổ biến đượ c dùng để đặc trư ng văn bản. Thuật toán tách từ, gán nhãn từ loại đượ c sử dụng để rút trích các cụm danh từ. Thuật toán tập phổ biến và luật kết hợp được sử dụng để tạo đồ thị đồng hiện các từ trong ngữ cảnh nhất định nhằm xác lập nghĩa của từ trong văn bản và kết hợp với từ điển đồng ngh ĩa, gần nghĩa để điều chỉnh thành phần của vector văn b ản nhằm nâng cao khả năng phân lớp văn bản có xem xét ngữ nghĩa. Ngoài ra, luật kết hợp có vế phải là các thuộc tính phân lớp s ẽ được sử dụng để làm luật phân lớp. Chúng tôi đã thử nghiệm giải pháp đề xuất vào bài toán phân lớp các tóm tắt bài báo khoa học trong lĩnh vực CNTT tiếng Việt

CÓ THỂ BẠN QUAN TÂM ĐẾN DỊCH VỤ:

===>>> Bảng Giá Viết Thuê báo cáo Môn

1.GIỚI THIỆU Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Với sự xuất hiện của Internet, khối lượng thông tin chủ yếu và chiếm trên 80% vẫn là các thông tin văn bản. Các phương pháp phân loại văn bản tr ước đây đều dựa trên tiếp cận máy học, mô hình xác suất,cây quyết định, qui nạp thuộc tính, người láng giềng gần nhất, và mớ i đây là phương pháp support vector machine [11]. Các thuật toán này thường tập trung vào bài toán phân làm 2 lớp và gặp khó khăn v ới khối l ượng dữ liệu lớn. Trong bài báo này, chúng tôi nghiên cứu dùng tập phổ biến và lu ật kết hợp vào bài toán phân loại văn bản tiếng Việt gồm a)Đặc tr ưng văn bản: bao gồm tìm dãy từ phổ biến trong tập ngữ liệu văn bản và t ạo đồ thị đồng hiện nhằm xác lập nghĩa của t ừ đặc trưng b) Tạo luật phân lớp v ăn b ản. Bài báo được tổ chức như sau: 1) Giới thiệu 2) Bài toán tìm tập phổ biế n và luật kết hợp 3) Phân lớp văn bản bằng luật kết hợp 4) Tạo vector đặc trưng cho văn bản 5) Xây dựng bộ phân lớp văn bản

2. BÀI TOÁN TÌM TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 

2.1.Các khái niệm cơ bản

Định nghĩa 1: Ngữ cảnh khai thác dữ liệu

Cho tập O là tập hữu hạn khác rỗng các giao tác và I là tập hữu hạn khác rỗng các mặt hàng, R là một quan hệ hai ngôi giữa OI sao cho với o∈O và i∈I, (o,i)∈R⇔ giao tác có chứa mặt hàng i. Ngữ cảnh khai thác dữ liệu ( dưới đây sẽ gọi tắt là NCKTDL) là bộ ba (O,I,R). Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Định nghĩa 2: Các kết nối Galois

Cho NCKTDL (O, I, R), xét hai kết nối Galois ρ và λ được định nghĩa như sau:

ρ: P(I) →P(O) và λ : P(O) →P(I):

Cho S ⊂ I , ρ(S) = {o∈O |∀i ∈ S, (o,i) ∈ R}

Cho X ⊂ O, λ(X) ={i∈ I | ∀o∈X , (o,i) ∈ R} Trong đó P(X) là tập các tập con của X.

Cặp hàm (ρ , λ) được gọi là kết nối Galois. Giá trị ρ(S) biểu diễn tập các giao tác có chung tất cả các mặt hàng trong S. Giá trị λ(X) biểu diễn tập mặt hàng có trong tất cả các giao tác của X.

Định nghĩa 3: Tập mặt hàng phổ biến

Cho NCKTDL (O,I,R) và minsupp ∈ (0,1] là ngưỡng phổ biến tối thiểu. Cho S ⊂ I, độ phổ biến của S ký hiệu là SP(S) là tỉ số giữa số các giao tác có chứa S và số lượng giao tác trong O. Nói cách khác SP(S)= |ρ(S)|/|O|.

Cho S ⊂ I , S là một tập các mặt hàng phổ biến theo ngưỡng minsupp nếu và chỉ nếu

SP(S) ≥ minsupp. Trong các phần sau tập mặt hàng phổ biến sẽ được gọi tắt là tập phổ biến.

Ký hiệu  FS(O,I,R,minsupp) = { S ∈ P(I) | SP(S) ≥ minsupp } Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Định nghĩa 4: Luật kết hợp

Cho NCKTDL (O,I,R) và ngưỡng minsupp ∈(0,1]. Với một S∈ FS(O,I,R,minsupp), gọi X và Y là các tập con khác rỗng của S sao cho S = X∪Y và X ∩Y=∅. Luật kết hợp X với Y có dạng X→Y phản ánh khả năng khách hàng mua tập mặt hàng Y khi mua tập mặt hàng X. Độ phổ biến của luật kết hợp X→Y với S= X∪Y là SP(S). Độ tin cậy của luật kết hợp X→Y được ký hiệu là CF(X→Y) và được tính bằng công thức CF(X→Y)=SP(X∪Y)/SP(X)

Nguyên lý Apriori:

  • Cho S ∈ FS(O,I,R,minsupp), nếu T ⊆ S thì T ∈ FS(O,I,R,minsupp)
  • Cho T ∉ FS(O,I,R,minsupp), nếu T ⊆ S thì S ∉ FS(O,I,R,minsupp)

2.2. Tìm tập phổ biến

Cho NCKTDL (O,I,R) và minsupp∈(0,1], tìm FS(O,I,R,minsupp). Thuật toán được xây dựng dựa trên nguyên lý Apriori [3],[10]. Đầu tiên thu ật toán sẽ tìm các tập phổ biến có một phần tử. Sau đó các ứng viên của các tập phổ biến có hai phần tử sẽ được tạo lập bằng cách hợp các tập phổ biến có một phần tử. Một cách tổng quát, các tập ứng viên của tập phổ biến có k phần tử sẽ được tạo từ các tập phổ biến có k-1 phần tử. Gọi Fk ={S∈ P(I) | SP(S) ≥ minsupp và |S|= k }. Thuật toán sẽ duyệt từng ứng viên để tạo Fk bao gồm các ứng viên có độ phổ biến lớn hơn hoặc bằng ngưỡng minsupp.

2.3. Tìm luật kết hợp

Cho NCKTDL (O,I,R) và hai ngưỡng phổ biến minsupp∈[0,1] và ngưỡng tin cậy minconf∈(0,1], tìm tất cả các luật k ết hợp r có CF( r ) ≥ minconf và SP(r) ≥minsupp. Chi tiết thuật toán tìm tập phổ biến theo nguyên lý Apriori [3],[10]:

3. PHÂN LỚP VĂN BẢN BẰNG LUẬT KẾT HỢP

3.1. Bảng quyết định Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Đinh nghĩa 5. Bảng quyết định

Xét NCKTDL (O,D,R) với D =I ∪ C , I ∩ C=∅, trong đó I là tập các mặt hàng và C là tập các nhãn xác định nhóm. Bộ ba (O, D=I ∪ C, R) được gọi là một bảng quyết định Lưu ý trong trường hợp |C| > 2 sẽ là bài toán phân thành nhiều lớp.

3.2 Luật phân lớp trên bảng quyết định

Định nghĩa 6. Luật phân lớp

Cho bảng quyết định (O, D=I ∪ C,R) và các ngưỡng minsupp, minconf, tìm các luật kết hợp có dạng r: S→{c}. với S ⊆ I và c∈C . Có thể dựa vào luật kết hợp này làm các luật phân lớp dữ liệu. Theo định nghĩa về độ tin cậy của luật kết hợp r: S→{c} được định nghĩa là : CF(r)= | ρ(S) ρ({c}) | và ρ(S) là tập các giao tác có chứa các mặt hàng trong S là tập các giao tác thuộc lớp c do đó ρ(S)∩ρ({c}) sẽ xác định các giao tác thuộc lớp c và có chứa các mặt hàng trong S. Do vậy có thể sử dụng độ tin cậy của luật kết hợp để đánh giá độ chính xác của luật phân lớp. Nếu CF(r) càng dần về 1,0 thì độ chính xác của phân lớp càng tăng. Khi CF( r) =1 thì ρ(S)⊆ρ({c)), lúc này luật phân lớp có độ chính xác phân lớp là 100%. Khi áp dụng vào bài toán phân lớp văn bản, mỗi văn bản sẽ tương ứng với một giao tác, mỗi mặt hàng sẽ tương ứng với một từ đặc trưng (sẽ được giải thích trong mục đặc trưng văn bản).

3.3. Rút gọn luật phân lớp Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Trong quá trình tìm lu ật phân lớp từ lu ật kết hợ p, chúng ta có thể tìm được rất nhiều luật phân lớp. Để rút gọn luật phân lớp, chúng tôi chọn các luật có độ tổng quát cao hơn. Chi tiết như sau:

Định nghĩa 7.Cho hai luật phân lớp r1: p1→ c , r2: p2→ c. Luật r1 được gọi là tổng quát hơn r2 nếu và chỉ nếu ρ(p2) ⊆ ρ(p1).

Ví dụ 1: Cho hai luật

R1:{khoá, phụ_thuộc_hàm}→ { Lớp_CSDL}

R2:{khoá, phụ_thuộc_hàm, dạng-chuẩn}→ { Lớp_CSDL} Luật R1 thì tổng quát hơn luật R2 vì: {khoá, phụ_thuộc_hàm}⊆ {khoá, phụ_thuộc_hàm, dạng-chuẩn}

Trong quá trình tạo luật phân lớp, ta có th ể gặp rất nhiều lu ật phân lớp. Do vậy cần tiến hành rút gọn bộ luật phân lớp bằng cách loại bỏ các luật phân lớp thừa.

Định nghĩa 8. Cho hai luật R1 và R2, R1 được xếp hạng cao hơn R2 nếu:

  • CF(R1) > CF(R2)
  • CF(R1) = CF(R2) nhưng SP(R1) > SP(R2)
  • CF(R1) = CF(R2) và SP(R1) > SP(R2) , nhưng vế trái của R1 có chứa ít từ khóa hơn vế trái của R2

4. Tìm dãy từ phổ biến

Thuật toán tìm tập phổ biến được ứng dụng để tìm dãy từ phổ biến trong tập dữ liệu gồm nhi ều văn bản. Mỗi văn bản được xem là mộ t giao tác. Một tập mặt hàng {i1 , i2 , … , ik } với i1, i2 , … , ik là các mặt hàng sẽ tr ở thành dãy các từ i1i2 … i k với i1, i2 ,… , ik là các từ theo nghĩa có dấu cách hoặc dấu chấm câu đi tr ước và đi sau từ đó. Một văn bản sẽ h ỗ trợ ( mức độ phổ biến) cho dãy từ i1i2 … ik nếu tồn tại một câu trong văn bản đó có chứa dãy từ i1i2 … ik. Thuật toán tìm tập phổ biến được cải tiến như sau:

  • Tạo F1 tập các dãy từ chỉ chứa 1 từ và có độ phổ biến lớn hơn ngưỡng minsupp
  • Dùng thuật toán tìm tập phổ biến. Lưu ý phép hợp các tập phổ biến S = X∪Y với X, Y là các tập mặt hàng phổ biến có k-1 mặt hàng trở thành phép nối chuỗi, trong đó X lấy từ dãy phổ biến có k-1 từ và Y là dãy phổ biến có 1 từ (lấy từ F1)

4.1 Trích cụm danh từ

Để tìm cụ m danh từ trong văn bản, chúng ta tiến hành các bước sau: tách từ , gán nhãn từ loại, nhóm các từ đã được gán nhãn từ loại thành cụm danh từ.

4.2. Tách từ Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Đối với tiếng Anh, các từ được phân cách nhau bằng các khoảng tr ắng hoặc dấu chấm câu. Đối với tiếng Việt có thể có các từ ghép, ví dụ từ “tin họ c”. Sau khi thử nghiệm một số chương trình tách từ, chúng tôi sử dụng chương trình tách từ theo mô hình lai (mô hình WFST kết hợp mạng nơron) của nhóm nghiên cứu [5] vì kết quả tách từ đạt độ chính xác cao và được sự hỗ trợ kỹ thuật của các tác giả. Tiếp cận tách từ tiếng Việt trong [5] là mộ t bài toán thống kê chuyển đổi trạng thái. Đầu tiên câu được xử lý loại bỏ các lỗi về cách trình bày một câu, và chu ẩn hóa về cách bỏ dấu, cách viết các ký tự y, i…trong tiếng Việt. Sau đó, câu được đưa vào mô hình WFST (Weighted Finite State Transducer) để nhận diện từ láy, danh từ riêng, tên riêng người Việt, tên riêng người nước ngoài,.. Mô hình thực hiện tách câu thành các từ đi li ền nhau theo các trạng thái có thể, nhận diện từ và gán trọng số thích hợp số thích hợp d ựa vào tự điển (trọng số ước lượng thường rất nhỏ nên lấy log (=-log(tần suất từ/kích thước tập mẫu)).

Mô hình WFST căn cứ trên các trọng số này để chọn ra một cách tách từ thích hợp. Sau khi có được tất c ả trạng thái tách từ có thể có của câu, với mỗi trạng thái, mô hình tính tổng trọng số và chọn trạng thái tách từ đúng nhất là câu có tổng trọng số nhỏ nhất.

Ví dụ 2:

Câu = “Hai công ty vừa ký kết hợp đồng sản xuất.”

Sau khi qua công đoạn tách từ ta có các từ tiếng Việt trong cặp dấu ngoặc như sau:

(Ha) ( công ty) ( vừa) ( ký kết) ( hợp đồng)( sản xuất)

4.3  Gán nhãn từ loại bằng phần mềm VnQTag

Chúng tôi sử dụng chương trình VnQTag của nhóm tác giả [8] để gán nhãn từ loại tự động cho văn bản. Chương trình VnQTag được nhóm tác giả trên chỉnh sửa lại thành phiên bản dùng cho tiếng Việt từ phần mếm QTAG của nhóm tác giả O. Mason, Đại học Bermingham, Anh. QTAG là một bộ gán nhãn xác suất độc lập với ngôn ngữ. Phương pháp xử lý của QTAG có thể mô tả tổng quát như sau. Nó được xây dựng theo tiếp cận máy họ c từ khối ngữ liệu học đã được gán nhãn bằng tay. Dựa vào những dữ liệu đã học đượ c này, bộ gán nhãn tìm những nhãn có thể đượ c và tần số củ a nó cho từng từ trong kho dữ liệu mới đã được tách từ. Nếu việc tìm kiếm một từ trong danh sách từ vựng đã học thất bại thì tất c ả các nhãn sẽ được gán cho từ đó. Cuối cùng, bộ gán nhãn thực hiện bước loại bỏ nhập nhằng bằng cách sử dụng thông tin về xác suất phân bố từ vựng đã được học trước đó.

Dữ liệu đầu vào củ a chương trình VnQTAG là văn b ản đã được phân tách từ trong từng câu (kết quả của b ước tách từ ở phần trên), kết qu ả đầu ra của chương trình là một từ loại tương ứng sẽ được gán cho t ừng từ trong văn bả n. Hệ thống sử dụng đồng thời từ điển để liệt kê các từ loại có thể cho một từ, và một kho văn bản mẫu để loại bỏ nhập nhằng. Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Cùng với chương trình VnQTAG, tác giả [8] đ ã cung cấp một tự điển, một tập dữ liệu hu ấn luyện khoảng gần 100.000 từ bộ chú thích (bộ tag) từ loại gồm các chú thích cho: Danh từ (N), Động từ (V), Tính từ (A), Đại từ (P), Từ chỉ định (D), Trạng từ (R), Trạng từ vị trí (S), Liên từ (C), Số (M), Thán từ (I), Còn lại (X).

4.4  Trích cụm danh từ

Trong tiếng Anh để gộp các từ thành cụm danh từ, chúng tôi sử dụng giải pháp được nêu trong [2],[11] trong đó cụm danh từ được định nghĩa là chuỗi gồm có danh từ hay tính từ và t ận cùng bằng danh từ. Công thức tổng quát của cụm danh từ tiếng Anh là {danh từ, tính từ} * { danh từ}. Ví dụ cụm từ “computer science” là một cụm danh từ trong đó “computer” và “science” đều là danh từ, cụm từ “great man” là một cụ m danh từ trong đó “great” là tình từ và “man” là danh từ. Dựa trên cấu trúc của cụm danh từ tiếng Việt được trình bày trong [4], chúng tôi xây dựng các công thức sau để rút trích cụm danh từ trong văn bản tiếng Việt đã được gán nhãn từ loại.

  • Cụm danh từ gồm danh từ và danh từ đi liền sau nó: N+N (ví dụ ‘cơ sở dữ liệu’).
  • Cụm danh từ gồm danh từ, danh từ và danh từ đi liền sau nó: N+N+N (ví dụ ‘hệ thống thông tin địa lý’).
  • Cụm danh từ gồm danh từ và tính từ đi liền sau nó: N+A (ví dụ ‘dữ liệu lớn’).
  • Cụm danh từ gồm danh từ, danh từ và tính từ đi liền sau nó: N+N+A (ví dụ ‘cơ sở dữ liệu lớn’).
  • Cụm danh từ gồm danh từ và động từ đi liền sau nó: N+V (ví dụ ‘phép ánh xạ’).
  • Cụm danh từ gồm danh từ, động từ và danh từ đi liền sau nó: N+V+N (ví dụ ‘hệ thống chuyển thông điệp’) .

Chúng tôi cũng sử dụng một từ điển chuyên ngành theo lĩnh vực áp dụng để nhận dạng đúng các cụm danh từ được tách.

4.5 Tạo vector đặc trưng văn bản Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Khối ngữ liệu văn bản đượ c phân tích để tìm các cụm danh từ phổ bi ến. G ọi M là số số văn bản trong khối ngữ liệu cần xem xét, N là số từ /cụm t ừ đặ c tr ưng của khối dữ liệu, fik là tần số xuất hiện của t ừ/cụm từ đặc trưng thứ k trong văn bản i, nk là số văn bản có chứa từ/cụm từ đặc trưng.. Hệ số tf-idf (term frequency, inversed document frequency) để gán trọng cho từ/cụm từ thứ k trong văn bản i như sau:

Chúng tôi chọn một nguỡng để phân. Thành phần thứ k của vector đặc có trị 0 nếu ngược lại. Biến đổi vector đặc trư ng cho văn bản thành vector nhị trưng cho văn bản thứ i có trị 1 nếu aik ≥ Nguỡng và

4.6 Điều chỉnh thành phần của vector văn bản

Trong tiến trình phân lớp, cần có sự so sánh giữa vector đặc trưng cho v ăn bản cần xếp lớp vớ i từng vector đặ c trưng lớp được tạo trong quá trình học. Các thành phần vector là các từ đặc trư ng và có thể đồng nghĩa, hay gần nghĩa với nhau. Ví dụ vector thứ nhất có thành phần ứng với từ ”con_người”, vector thứ hai có thành phần ứng với từ ”nhân_loại”, rõ ràng hai từ con_nguời và nhân_loại gần nghĩa nhau.

Do đó cần tiến hành điều chỉnh các thành phần này trước khi đưa vào bộ phân loại. Đối với tiếng Anh, hiện có từ đi ển Wordnet [7] trong đó lưu trữ các tập từ đồng nghĩa và các quan hệ ngữ nghĩa ( nghĩa rộng, nghĩa hẹp). Đối với tiếng Việt, chúng tôi bước đầu xây dựng một hệ thống tự a Wordnet cho tiếng Việt. Hình 1 là mộ t đồ thị biểu diễn quan hệ “là một loại của” của các từ con người, phái nam, phái nữ, đàn ông, đàn bà, con trai,con gái.. Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Dựa vào khoảng cách giữa các từ trên cây có thể khẳng định hai từ đó có gần nghĩa hay không, ví dụ nếu khoảng cách là 4 thì ”con trai” và ”con gái” là gần nghĩa nhau do đó thành phần tương ứng trong vector đặc trưng văn bản sẽ được điều chỉnh.

Một trong những vấn đề cần xác định trước khi so sánh hai từ có đồng nghĩa hay gần nghĩa là vấn đề xác lập nghĩa của từ. Ví dụ từ ”khóa” có thể có nhiều nghĩa nh ư: khóa họ c, khóa trong quan hệ của cơ sở d ữ liệu, ổ khoá …. Hiện nay có nhiều cách tiếp cận để xác lập nghĩa của từ, chúng tôi chọn giải pháp được nêu trong [1],[12]. Tác giả đã xây dựng đồ thi các từ xuất hiện đồng thời với từ cần xét. Ví dụ : nếu “khóa” xuất hiện đồng thời với các từ như ”cơ sở dữ liệu”, ”quan hệ”, ”phụ thuộc hàm”….. thì nghĩa của khóa là khoá trong quan hệ của cơ sở dữ liệu ( xem hình 2).

Chúng tôi tạo đồ thị đồng hiện như sau: Cho O là tập văn bản và FT(O) là tập các từ phổ biến đặc trưng cho các văn bản trong O. Gọi G=(V,E) là đồ thị không có hướng trong đó là tập các cụm danh từ phổ biến V=FT(O). Đồ thị G(V,E) được tạo bằng cách sử dụng luật kết hợp các dãy từ phổ biến được khai thác từ khối ngữ liệu và sử dụng ngưỡng liên kết để tìm các miền liên thông trên đồ thị đồng hiện bằng cách loại bỏ các các cung có trọng liên kết nhỏ hơn ngưỡng. Trọng liên kết giữa cung nối hai từ hai từ a và b là Wa,b =(1/2)(CF(a → b) + CF(b → a)). Sau đó dùng thuật giải cây bao trùm tối thiểu để tạo các cụm có mức độ gắn kết chặt ( độ đồng hiện cao) và gán nhãn cho cụm. Các cụm được đặc trưng bởi các tập các từ có trong đồ thị đặc trư ng cho cụm, tập t ừ này được gọi là tập từ đặc trưng cho cụm. Mỗi cụm sẽ xác định nghĩa của từ. Mỗi cụm này sẽ được gán nhãn ngữ nghĩa bằng tay.

Ví dụ 2: Cụm cơ sở dữ liệu được đặc trưng bằng tập các từ trong bảng 1 :

Khi gặp văn bản cần phân lớp, ta tạo vetor đặc trưng cho văn bản. Qua vector này, chúng ta có thể xác định tập các từ xuất hi ện đồng thời. Sau đó, chúng ta tính khỏang cách giữa tập các từ trong vector đặc trưng văn b ản với tập từ đặc trưng cho cụm bằng công thức tìn khỏang cách giữa hai tập hợp bằng công thức

Với X là tập hợp các từ đặc trư ng cho văn bản và Y là tập hợp các từ có trong tập từ đặc tr ưng cho cụm. Cụm ngữ nghĩa có khỏang cách gần nhất sẽ được dùng làm nhãn ngữ nghĩa cho từ. Sau khi xác định được nghĩa, chúng tôi chọn nhánh đi lên trong đồ thị Wordnet để xác định mức độ gần nghĩa.

5. XÂY DỰNG BỘ PHÂN LỚP VĂN BẢN Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Sau khi đã có tập luật phân lớp, mỗi thông điệp sẽ được rút trích và tạo vector đặc trưng. Qui trình phân lớp được thực hiện thông qua thuật toán 2 [2],[8].

6.THỬ NGHIỆM

Chúng tôi tiến hành phân lớp các tóm tắt bài báo khoa học tiếng Việt trong lĩnh vực CNTT . Chiều dài trung bình cho mỗi tóm tắt bài báo khoa học khoảng 300 từ. Chúng tôi sử dụng khoảng 2/3 số lượng mẫu cho việc huấn luyện và phần còn lại để để kiể m tra độ chính xác của phân lớp. Ứng dụng thuật toán tìm dãy từ phổ biến, chúng tôi thu đượ c khỏang. 1,200 cụm danh từ phổ biến với ngu ỡng là 2. Một số cụm danh từ tiêu biểu được liệt kê như sau: “tổng hợp, phân rã, ràng buộc, bảo toàn, toàn vẹn, dạng chuẩn, suy diễn lùi, suy diễn tiến, lập luận xấp xỉ, cơ ch ế giải thích, logic mờ, mạng neuron, phân nhóm , gom cụm, thuật toán học, toàn vẹn, dạng chuẩn, dạng chu ẩn 1, phụ thuộc hàm, kết tự nhiên, phủ tối thiểu, hệ cơ số, cơ sở dữ li ệu,tiếp cận…”. Kết qu ả thử nghiệm tiến hành trên máy PC Pentium 4, 256MB RAM được trình bày trong bảng 2.

7. KẾT LUẬN

Bài báo trình bày các k ết quả nghiên cứu về việc ứ ng dụng tập phổ biến và luật kết hợp vào bài tóan phân lọai văn b ản tiếng Việt có xem xét ngữ nghĩa của từ. Thuật tóan tìm tập phổ biến được cải biên cho phép tìm dãy từ phổ biến trong văn bản, Sau có thuật tóan tách từ và gán nhãn từ lọai được sử dụng để tìm các cụm danh từ. T ừ điển Wordnet và từ đồng hiện được sử dụng để phát hiện nghĩa và điều chỉnh thành phần của vector đặc trưng. Thuật tóan tìm lu ật kết h ợp được cải biên nhằm cho phép tìm luật phân lớp văn bản. Hệ thống đề xuất được tiến hành thử nghiệm qua tập các tóm tắt bài báo khoa học. Báo cáo: Nghiên cứu ứng dụng tập phổ biến và luật kết hợp 

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Contact Me on Zalo
0906865464